Strojové učení bez dozoru: Algorithms, Typy s příkladem

Co je učení bez dozoru?

Učení bez dozoru je technika strojového učení, ve které uživatelé nemusí dohlížet na model. Místo toho umožňuje modelu pracovat samostatně a objevovat vzorce a informace, které byly dříve nezjištěny. Zabývá se především neoznačenými daty.

Učení bez dozoru Algorithms

Učení bez dozoru Algorithms umožňují uživatelům provádět složitější úlohy zpracování ve srovnání s učením pod dohledem. Učení bez dozoru však může být ve srovnání s jinými přirozenými metodami učení nepředvídatelnější. Algoritmy učení bez dozoru zahrnují shlukování, detekci anomálií, neuronové sítě atd.

Příklad strojového učení bez dozoru

Vezměme si příklad učení bez dozoru pro miminko a jejího rodinného psa.

Příklad strojového učení bez dozoru

Zná a identifikuje tohoto psa. O několik týdnů později si rodinný přítel přivede psa a snaží se hrát si s dítětem.

Příklad strojového učení bez dozoru

Miminko tohoto psa dříve nevidělo. Ale pozná mnoho rysů (2 uši, oči, chůze po 4 nohách) jsou jako její mazlíček. Identifikuje nové zvíře jako psa. Toto je učení bez dozoru, kde se neučíte, ale učíte se z údajů (v tomto případě údajů o psu). učení pod dohledem, rodinný přítel by dítěti řekl, že je to pes, jak ukazuje výše uvedený příklad učení bez dozoru.

Proč učení bez dozoru?

Zde jsou hlavní důvody pro použití nekontrolovaného učení Strojové učení:

  • Strojové učení bez dohledu najde v datech všechny druhy neznámých vzorců.
  • Metody bez dozoru vám pomohou najít funkce, které mohou být užitečné pro kategorizaci.
  • Probíhá v reálném čase, takže všechna vstupní data musí být analyzována a označena za přítomnosti studentů.
  • Je snazší získat neoznačená data z počítače než označená data, která vyžadují ruční zásah.

ClusterTypy učení bez dozoru Algorithms

Níže jsou uvedeny typy shlukování algoritmů strojového učení bez dozoru:

Problémy s učením bez dozoru se dále seskupují do problémů se shlukováním a asociací.

Clustering.

Clustering.
Clustering.

Clustering je důležitý koncept, pokud jde o učení bez dozoru. Zabývá se především hledáním struktury nebo vzoru ve sbírce nekategorizovaných dat. Učení bez dozoru ClusterAlgoritmy zpracují vaše data a najdou přirozené shluky (skupiny), pokud v datech existují. Můžete také upravit, kolik klastrů by měly vaše algoritmy identifikovat. Umožňuje vám upravit granularitu těchto skupin.

Existují různé typy shlukování, které můžete použít:

Exkluzivní (rozdělení na oddíly)

V této metodě shlukování jsou data seskupena tak, že jedno data může patřit pouze do jednoho clusteru.

Příklad: K-means

Aglomerativní

V této technice shlukování jsou všechna data shlukem. Iterativní sjednocení mezi dvěma nejbližšími shluky snižuje počet shluků.

Příklad: Hierarchické shlukování

Překrývání

V této technice se ke shlukování dat používají fuzzy množiny. Každý bod může patřit do dvou nebo více shluků se samostatnými stupni členství.

Zde budou data spojena s příslušnou hodnotou členství. Příklad: Fuzzy C-Means

Pravděpodobně

Tato technika používá rozdělení pravděpodobnosti k vytvoření shluků

Příklad: Následující klíčová slova

  • "mužská bota."
  • "dámská bota."
  • "dámská rukavice."
  • "mužská rukavice."

lze seskupit do dvou kategorií „bota“ a „rukavice“ nebo „muž“ a „ženy“.

Clustering Typy

Níže jsou uvedeny typy shlukování strojového učení:

  • Hierarchické shlukování
  • K znamená shlukování
  • K-NN (k nejbližších sousedů)
  • Analýza hlavních komponent
  • Dekompozice singulární hodnoty
  • Nezávislá analýza komponent

Hierarchický Clustering.

Hierarchické shlukování je algoritmus, který vytváří hierarchii shluků. Začíná se všemi daty, která jsou přiřazena k jejich vlastnímu clusteru. Zde budou dva blízké shluky ve stejném shluku. Tento algoritmus končí, když zbývá pouze jeden cluster.

K-znamená Clustering.

K znamená, že se jedná o iterativní shlukovací algoritmus, který vám pomůže najít nejvyšší hodnotu pro každou iteraci. Nejprve je vybrán požadovaný počet clusterů. V této metodě shlukování musíte datové body seskupit do k skupin. Větší k znamená menší skupiny s větší zrnitostí stejným způsobem. Nižší k znamená větší skupiny s menší zrnitostí.

Výstupem algoritmu je skupina „štítek“. Přiřadí datový bod jedné z k skupin. Při shlukování k-means je každá skupina definována vytvořením těžiště pro každou skupinu. Centroidy jsou jako srdce shluku, které zachycuje body k nim nejblíže a přidává je do shluku.

K-mean clustering dále definuje dvě podskupiny:

  • Aglomerativní shlukování
  • Dendrogram

Aglomerativní shlukování

Tento typ shlukování K-means začíná s pevným počtem shluků. Přiděluje všechna data do přesného počtu shluků. Tato metoda shlukování nevyžaduje počet shluků K jako vstup. Proces aglomerace začíná vytvořením každého data jako jediného shluku.

Tato metoda používá určité měření vzdálenosti, snižuje počet shluků (jeden v každé iteraci) procesem slučování. Nakonec máme jeden velký shluk, který obsahuje všechny objekty.

Dendrogram

V metodě shlukování Dendrogramu bude každá úroveň představovat možný shluk. Výška dendrogramu ukazuje úroveň podobnosti mezi dvěma shluky spojení. Čím blíže ke konci procesu jsou si více podobné shluky, což je zjištění skupiny z dendrogramu, které není přirozené a většinou subjektivní.

K- Nejbližší sousedé

K- nejbližší soused je nejjednodušší ze všech klasifikátorů strojového učení. Od ostatních technik strojového učení se liší tím, že nevytváří model. Je to jednoduchý algoritmus, který ukládá všechny dostupné případy a klasifikuje nové instance na základě míry podobnosti.

Funguje to velmi dobře, když je mezi příklady vzdálenost. Rychlost učení je nízká, když je tréninková sada velká, a výpočet vzdálenosti není triviální.

Analýza hlavních komponent

V případě, že chcete prostor vyšší dimenze. Musíte vybrat základ pro tento prostor a pouze 200 nejdůležitějších skóre tohoto základu. Tato báze je známá jako hlavní složka. Vybraná podmnožina představuje nový prostor, jehož velikost je v porovnání s původním prostorem malá. Zachovává maximální možnou míru složitosti dat.

Sdružení

Pravidla přidružení umožňují vytvořit přidružení mezi datovými objekty ve velkých databázích. Tato technika bez dozoru je o objevování zajímavých vztahů mezi proměnnými ve velkých databázích. Například lidé, kteří si kupují nový domov, si s největší pravděpodobností koupí nový nábytek.

Další příklady:

  • Podskupina pacientů s rakovinou seskupená podle měření jejich genové exprese
  • Skupiny nakupujících na základě jejich procházení a historie nákupů
  • Skupina filmů podle hodnocení diváků filmů

Strojové učení pod dohledem vs. bez dozoru

Zde je hlavní rozdíl mezi Učení pod dohledem vs. učení bez dohledu:

parametry Technika strojového učení pod dohledem Technika strojového učení bez dozoru
Vstupní data Algorithms jsou trénováni pomocí označených dat. Algorithms se používají proti údajům, které nejsou označeny
Výpočetní složitost Učení pod dohledem je jednodušší metoda. Učení bez dozoru je výpočetně složité
Přesnost Vysoce přesná a důvěryhodná metoda. Less přesná a důvěryhodná metoda.

Aplikace nekontrolovaného strojového učení

Některé aplikace technik učení bez dozoru jsou:

  • Clusterautomatické rozdělení datové sady do skupin na základě jejich podobností
  • Detekce anomálií může objevit neobvyklé datové body ve vaší datové sadě. Je to užitečné pro vyhledávání podvodných transakcí
  • Asociace dolování identifikuje sady položek, které se často vyskytují společně ve vaší datové sadě
  • Modely latentních proměnných jsou široce používány pro předzpracování dat. Například snížení počtu funkcí v datové sadě nebo rozložení datové sady na více komponent

Nevýhody učení bez dozoru

  • Nemůžete získat přesné informace týkající se třídění dat a výstup, protože data použitá při učení bez dozoru jsou označena a nejsou známa
  • Less přesnost výsledků spočívá v tom, že vstupní data nejsou známa a nejsou lidmi předem označena. To znamená, že stroj to vyžaduje sám.
  • Spektrální třídy ne vždy odpovídají informačním třídám.
  • Uživatel potřebuje trávit čas interpretací a označováním tříd, které následují po této klasifikaci.
  • Spektrální vlastnosti tříd se také mohou v průběhu času měnit, takže při přechodu z jednoho obrázku na druhý nemůžete mít stejné informace o třídě.

Shrnutí

  • Unsupervised learning je technika strojového učení, kde nepotřebujete dohlížet na model.
  • Strojové učení bez dozoru vám pomůže najít všechny druhy neznámých vzorců v datech.
  • Clustering a Association jsou dva typy učení bez dozoru.
  • Čtyři typy metod shlukování jsou 1) Exkluzivní 2) Aglomerativní 3) Překrývající se 4) Pravděpodobnostní.
  • Důležité typy shlukování jsou: 1)Hierarchické shlukování 2) Shlukování K-středů 3) K-NN 4) Analýza hlavních složek 5) Dekompozice singulárních hodnot 6) Analýza nezávislých složek.
  • Pravidla přidružení umožňují vytvořit přidružení mezi datovými objekty ve velkých databázích.
  • V řízeném učení, Algorithms jsou trénováni pomocí označených dat během učení bez dozoru Algorithms se používají proti údajům, které nejsou označeny.
  • Detekce anomálií může objevit důležité datové body ve vaší datové sadě, což je užitečné pro vyhledávání podvodných transakcí.
  • Největší nevýhodou učení bez dozoru je, že nemůžete získat přesné informace o třídění dat.

Denní zpravodaj Guru99

Začněte svůj den s nejnovějšími a nejdůležitějšími zprávami o umělé inteligenci, které vám přinášíme právě teď.