Felügyelet nélküli gépi tanulás: Algorithms, Típusok példával

Mi az a felügyelet nélküli tanulás?

Felügyelet nélküli tanulás egy gépi tanulási technika, amelyben a felhasználóknak nem kell felügyelniük a modellt. Ehelyett lehetővé teszi a modell számára, hogy önállóan dolgozzon, hogy felfedezzen olyan mintákat és információkat, amelyeket korábban nem észleltek. Főleg a címkézetlen adatokkal foglalkozik.

Felügyelet nélküli tanulás Algorithms

Felügyelet nélküli tanulás Algorithms lehetővé teszi a felhasználók számára, hogy a felügyelt tanuláshoz képest összetettebb feldolgozási feladatokat hajtsanak végre. Bár a felügyelet nélküli tanulás kiszámíthatatlanabb lehet, mint más természetes tanulási módszerek. A nem felügyelt tanulási algoritmusok közé tartozik a klaszterezés, az anomália-észlelés, a neurális hálózatok stb.

Példa a felügyelt gépi tanulásra

Vegyünk egy példát a felügyelet nélküli tanulásra egy baba és a családi kutyája számára.

Példa a felügyelt gépi tanulásra

Ismeri és azonosítja ezt a kutyát. Néhány héttel később egy család barátja hoz egy kutyát, és megpróbál játszani a babával.

Példa a felügyelt gépi tanulásra

A baba még nem látta ezt a kutyát. De felismeri, hogy sok jellemzője (2 fül, szem, 4 lábon járás) olyan, mint a kutyája. Az új állatot kutyaként azonosítja. Ez egy felügyelet nélküli tanulás, ahol nem tanítanak, hanem az adatokból (jelen esetben egy kutyáról szóló adatokból) tanulsz. felügyelt tanulás, a család barátja azt mondta volna a babának, hogy ez egy kutya, ahogy az a fenti, felügyelet nélküli tanulási példában is látható.

Miért a felügyelet nélküli tanulás?

Íme, a fő okok a felügyelt tanulás használatára Gépi tanulás:

  • A felügyelet nélküli gépi tanulás mindenféle ismeretlen mintát talál az adatokban.
  • A nem felügyelt módszerek segítenek megtalálni azokat a funkciókat, amelyek hasznosak lehetnek a kategorizáláshoz.
  • Valós időben zajlik, így az összes bemeneti adatot a tanulók jelenlétében kell elemezni és címkézni.
  • Könnyebb a címkézetlen adatok beszerzése a számítógépről, mint a címkézett adatok, amelyek kézi beavatkozást igényelnek.

ClusterA felügyelet nélküli tanulás típusai Algorithms

Az alábbiakban felsoroljuk a felügyelt gépi tanulási algoritmusok klaszterezési típusait:

A nem felügyelt tanulási problémák csoportosítási és asszociációs problémákra csoportosulnak.

ClusterING

ClusterING
ClusterING

ClusterAz ing fontos fogalom, amikor a felügyelet nélküli tanulásról van szó. Főleg egy struktúra vagy minta megtalálásával foglalkozik kategorizálatlan adatok gyűjteményében. Felügyelet nélküli tanulás ClusterAz algoritmusok feldolgozzák az Ön adatait, és természetes klasztereket (csoportokat) találnak, ha vannak az adatokban. Azt is módosíthatja, hogy az algoritmusok hány fürtöt azonosítsanak. Lehetővé teszi a csoportok részletességének beállítását.

Különféle klaszterezési típusok használhatók:

Exkluzív (particionálás)

Ebben a klaszterezési módszerben az adatok úgy vannak csoportosítva, hogy egy adat csak egy fürthöz tartozhat.

Példa: K-közeli

Agglomeratív

Ebben a klaszterezési technikában minden adat egy fürt. A két legközelebbi klaszter közötti iteratív uniók csökkentik a klaszterek számát.

Példa: Hierarchikus klaszterezés

Átfedő

Ebben a technikában fuzzy halmazokat használnak az adatok klaszterezésére. Minden pont tartozhat két vagy több klaszterhez, amelyeknek külön tagsági foka van.

Itt az adatok megfelelő tagsági értékkel lesznek társítva. Példa: Fuzzy C-Means

Valószínűségi

Ez a technika valószínűségi eloszlást használ a klaszterek létrehozásához

Példa: Következő kulcsszavak

  • "férfi cipő."
  • "női cipő."
  • "női kesztyű".
  • „férfi kesztyű”.

két kategóriába sorolható: „cipő” és „kesztyű” vagy „férfi” és „női”.

Clustering Típusok

A gépi tanulás klaszterezési típusai a következők:

  • Hierarchikus csoportosítás
  • A K-csoportosítást jelent
  • K-NN (k legközelebbi szomszéd)
  • Főkomponens analízis
  • Szinguláris érték felbontás
  • Független komponenselemzés

hierarchikus ClusterING

A hierarchikus klaszterezés egy olyan algoritmus, amely klaszterek hierarchiáját építi fel. Az összes adattal kezdődik, amely egy saját fürthöz van hozzárendelve. Itt két közeli klaszter lesz ugyanabban a klaszterben. Ez az algoritmus akkor ér véget, ha már csak egy fürt maradt.

K- jelenti ClusterING

A K azt jelenti, hogy ez egy iteratív klaszterező algoritmus, amely segít megtalálni a legmagasabb értéket minden iterációhoz. Kezdetben a kívánt számú klaszter kerül kiválasztásra. Ebben a fürtözési módszerben az adatpontokat k csoportba kell csoportosítania. A nagyobb k kisebb, nagyobb részletességű csoportokat jelent, ugyanúgy. Az alacsonyabb k nagyobb, kisebb szemcsésségű csoportokat jelent.

Az algoritmus kimenete a „címkék” csoportja. Adatpontot rendel a k csoport egyikéhez. A k-mean klaszterezésben minden csoportot úgy határozunk meg, hogy minden csoporthoz hozunk létre egy centroidot. A centroidok olyanok, mint a klaszter szíve, amely rögzíti a hozzájuk legközelebb eső pontokat, és hozzáadja őket a klaszterhez.

A K-közép klaszterezés további két alcsoportot határoz meg:

  • Agglomeratív klaszterezés
  • Dendrogram

Agglomeratív klaszterezés

Az ilyen típusú K-közepű klaszterezés meghatározott számú klaszterrel kezdődik. Az összes adatot a klaszterek pontos számához rendeli. Ez a klaszterezési módszer nem igényli a K számú klasztert bemenetként. Az agglomerációs folyamat úgy kezdődik, hogy minden adatot egyetlen klaszterként képeznek.

Ez a módszer valamilyen távolságmértéket használ, csökkenti a klaszterek számát (egy iterációban egyet) az összevonási folyamattal. Végül van egy nagy klaszterünk, amely az összes objektumot tartalmazza.

Dendrogram

A Dendrogram klaszterezési módszerben minden szint egy lehetséges klasztert képvisel. A dendrogram magassága mutatja a hasonlóság szintjét két csatlakozási klaszter között. Minél közelebb vannak a folyamat aljához, jobban hasonlítanak a klaszterhez, ami a dendrogramból származó csoport megtalálása nem természetes és többnyire szubjektív.

K- Legközelebbi szomszédok

A K- legközelebbi szomszéd a legegyszerűbb gépi tanulási osztályozó. Abban különbözik a többi gépi tanulási technikától, hogy nem hoz létre modellt. Ez egy egyszerű algoritmus, amely tárolja az összes elérhető esetet, és hasonlósági mérték alapján osztályozza az új példányokat.

Nagyon jól működik, ha távolság van a példák között. A tanulási sebesség lassú, ha az edzéskészlet nagy, és a távolság számítása nem triviális.

Főkomponensek elemzése

Abban az esetben, ha magasabb dimenziós teret szeretne. Ki kell választani egy alapot ehhez a területhez, és csak a 200 legfontosabb pontszámot. Ezt az alapot főkomponensnek nevezik. A kiválasztott részhalmaz egy új terület, amely kicsi az eredeti térhez képest. A lehető legnagyobb mértékben megőrzi az adatok összetettségét.

Egyesület

Az asszociációs szabályok lehetővé teszik a nagy adatbázisokon belüli adatobjektumok közötti kapcsolatok létrehozását. Ez a felügyelet nélküli technika a nagy adatbázisok változói közötti érdekes kapcsolatok felfedezéséről szól. Például azok, akik új lakást vásárolnak, nagy valószínűséggel új bútorokat vásárolnak.

Egyéb példák:

  • A rákos betegek egy alcsoportja génexpressziós méréseik alapján csoportosítva
  • Vásárlói csoportok böngészési és vásárlási előzményeik alapján
  • Filmcsoport a filmnézők által adott értékelés alapján

Felügyelt és nem felügyelt gépi tanulás

Itt van a fő különbség között Felügyelt és nem felügyelt tanulás:

paraméterek Felügyelt gépi tanulási technika Felügyelet nélküli gépi tanulási technika
Beviteli adat Algorithms címkézett adatok felhasználásával képezik ki. Algorithms olyan adatok ellen használják, amelyek nincsenek címkézve
Számítási komplexitás A felügyelt tanulás egyszerűbb módszer. A felügyelet nélküli tanulás számítási szempontból bonyolult
Pontosság Rendkívül pontos és megbízható módszer. Less pontos és megbízható módszer.

A felügyelet nélküli gépi tanulás alkalmazásai

A felügyelet nélküli tanulási technikák néhány alkalmazása a következő:

  • ClusterAz adatkészletet hasonlóságuk alapján automatikusan csoportokra osztja
  • Az anomáliák észlelése szokatlan adatpontokat fedezhet fel az adatkészletben. Hasznos a csalárd tranzakciók megtalálásához
  • Az asszociációs bányászat olyan elemkészleteket azonosít, amelyek gyakran együtt fordulnak elő az adatkészletben
  • A látens változómodelleket széles körben használják adat-előfeldolgozásra. Például egy adatkészletben lévő funkciók számának csökkentése vagy az adatkészlet több összetevőre bontása

A felügyelet nélküli tanulás hátrányai

  • Nem kaphat pontos információt az adatrendezésről, és a kimenet a felügyelet nélküli tanulás során használt adatként címkézett és nem ismert
  • Less Az eredmények pontossága azért van, mert a bemeneti adatok nem ismertek és nem címkézték fel az emberek előre. Ez azt jelenti, hogy a gépnek magának kell ezt megtennie.
  • A spektrális osztályok nem mindig felelnek meg az információs osztályoknak.
  • A felhasználónak időt kell fordítania az osztályozást követő osztályok értelmezésére és címkézésére.
  • Az osztályok spektrális tulajdonságai is változhatnak az idő múlásával, így nem rendelkezhet ugyanazokkal az osztályinformációkkal, miközben egyik képről a másikra mozog.

Összegzésként

  • A felügyelet nélküli tanulás egy gépi tanulási technika, ahol nem kell felügyelnie a modellt.
  • A felügyelet nélküli gépi tanulás segít mindenféle ismeretlen minta megtalálásában az adatokban.
  • ClusterAz ing és az asszociáció a felügyelet nélküli tanulás két típusa.
  • A klaszterezési módszerek négy típusa: 1) Kizárólagos 2) Agglomeratív 3) Átfedő 4) Valószínűségi.
  • A fontosabb klaszterezési típusok a következők: 1) Hierarchikus klaszterezés 2) K-közép klaszterezés 3) K-NN 4) Főkomponens-elemzés 5) Szinguláris értékbontás 6) Független komponenselemzés.
  • Az asszociációs szabályok lehetővé teszik a nagy adatbázisokon belüli adatobjektumok közötti társításokat.
  • A felügyelt tanulásban, Algorithms Felügyelet nélküli tanulás közben címkézett adatok felhasználásával képezik ki Algorithms nem címkézett adatok ellen használják.
  • Az anomáliák észlelése fontos adatpontokat fedezhet fel az adatkészletben, ami hasznos lehet a csalárd tranzakciók megtalálásához.
  • A felügyelet nélküli tanulás legnagyobb hátránya, hogy nem lehet pontos információt kapni az adatrendezésről.