Strojno učenje bez nadzora: Algorithms, Vrste s primjerom

Što je učenje bez nadzora?

Učenje bez nadzora je tehnika strojnog učenja u kojoj korisnici ne moraju nadzirati model. Umjesto toga, omogućuje modelu da samostalno radi na otkrivanju obrazaca i informacija koje prije nisu bile otkrivene. Uglavnom se bavi neoznačenim podacima.

Učenje bez nadzora Algorithms

Učenje bez nadzora Algorithms omogućuju korisnicima izvođenje složenijih zadataka obrade u usporedbi s učenjem pod nadzorom. Iako učenje bez nadzora može biti nepredvidljivije u usporedbi s drugim prirodnim metodama učenja. Algoritmi učenja bez nadzora uključuju grupiranje, otkrivanje anomalija, neuronske mreže itd.

Primjer nenadziranog strojnog učenja

Uzmimo primjer učenja bez nadzora za bebu i njezinog obiteljskog psa.

Primjer nenadziranog strojnog učenja

Ona poznaje i identificira ovog psa. Nekoliko tjedana kasnije obiteljski prijatelj dovodi psa i pokušava se igrati s bebom.

Primjer nenadziranog strojnog učenja

Beba nije ranije vidjela ovog psa. Ali prepoznaje mnoge značajke (2 uha, oči, hodanje na 4 noge) poput njezina psa kućnog ljubimca. Ona identificira novu životinju kao psa. Ovo je učenje bez nadzora, gdje vas ne podučavaju, već učite iz podataka (u ovom slučaju podataka o psu.) Da je to bilo nadzirano učenje, obiteljski prijatelj bi rekao bebi da je to pas kao što je prikazano u gornjem primjeru učenja bez nadzora.

Zašto učenje bez nadzora?

Ovdje su glavni razlozi za korištenje učenja bez nadzora Strojno učenje:

  • Nenadzirano strojno učenje pronalazi sve vrste nepoznatih obrazaca u podacima.
  • Nenadzirane metode pomažu vam pronaći značajke koje mogu biti korisne za kategorizaciju.
  • Odvija se u realnom vremenu, tako da se svi ulazni podaci analiziraju i označavaju u prisustvu polaznika.
  • Lakše je dobiti neoznačene podatke s računala nego označene podatke, koji zahtijevaju ručnu intervenciju.

Clustering Vrste nenadziranog učenja Algorithms

U nastavku su tipovi klasteriranja algoritama nenadziranog strojnog učenja:

Problemi učenja bez nadzora dalje grupirani u probleme grupiranja i povezivanja.

Clustering.

Clustering.
Clustering.

Clustering je važan koncept kada je u pitanju učenje bez nadzora. Uglavnom se bavi pronalaženjem strukture ili uzorka u zbirci nekategoriziranih podataka. Učenje bez nadzora Clusteralgoritmi će obraditi vaše podatke i pronaći prirodne klastere (skupine) ako postoje u podacima. Također možete promijeniti koliko klastera bi vaši algoritmi trebali identificirati. Omogućuje vam podešavanje granularnosti ovih grupa.

Postoje različite vrste klasteriranja koje možete koristiti:

Ekskluzivno (particioniranje)

U ovoj metodi klasteriranja, podaci su grupirani na takav način da jedan podatak može pripadati samo jednom klasteru.

Primjer: K-znači

Aglomerativni

U ovoj tehnici klasteriranja, svaki podatak je klaster. Iterativne unije između dva najbliža klastera smanjuju broj klastera.

Primjer: Hijerarhijsko grupiranje

Preklapanje

U ovoj tehnici, neizraziti skupovi se koriste za grupiranje podataka. Svaka točka može pripadati dvama ili više klastera s odvojenim stupnjevima članstva.

Ovdje će podaci biti povezani s odgovarajućom vrijednošću članstva. Primjer: neizrazita C-srednja vrijednost

Vjerojatnosni

Ova tehnika koristi distribuciju vjerojatnosti za stvaranje klastera

Primjer: sljedeće ključne riječi

  • “muška cipela.”
  • “ženska cipela.”
  • “ženska rukavica.”
  • “muška rukavica.”

mogu se grupirati u dvije kategorije "cipela" i "rukavica" ili "muškarac" i "žena".

Clustering Vrste

Slijede vrste klasteriranja strojnog učenja:

  • Hijerarhijsko grupiranje
  • K-znači grupiranje
  • K-NN (k najbližih susjeda)
  • Analiza glavne komponente
  • Dekompozicija singularne vrijednosti
  • Neovisna analiza komponenti

hijerarhijski Clustering.

Hijerarhijsko klasteriranje je algoritam koji gradi hijerarhiju klastera. Počinje sa svim podacima koji su dodijeljeni vlastitom klasteru. Ovdje će dva bliska klastera biti u istom klasteru. Ovaj algoritam završava kada preostane samo jedan klaster.

K-znači Clustering.

K znači da je to iterativni algoritam grupiranja koji vam pomaže pronaći najveću vrijednost za svaku iteraciju. U početku se odabire željeni broj klastera. U ovoj metodi klasteriranja morate grupirati podatkovne točke u k grupa. Veći k znači manje grupe s većom granularnošću na isti način. Niži k znači veće grupe s manjom granularnošću.

Izlaz algoritma je grupa "oznaka". Dodjeljuje podatkovnu točku jednoj od k grupa. U klasteriranju k-srednjih vrijednosti, svaka grupa se definira stvaranjem težišta za svaku grupu. Težišne točke su poput srca klastera, koje hvata točke koje su im najbliže i dodaje ih klasteru.

K-srednja klasterizacija dalje definira dvije podskupine:

  • Aglomerativno grupiranje
  • Dendrogram

Aglomerativno grupiranje

Ova vrsta klasteriranja K-znači počinje s fiksnim brojem klastera. Sve podatke raspoređuje u točan broj klastera. Ova metoda klasteriranja ne zahtijeva broj klastera K kao ulaz. Proces aglomeracije počinje formiranjem svakog podatka kao jednog klastera.

Ova metoda koristi neku mjeru udaljenosti, smanjuje broj klastera (jedan u svakoj iteraciji) postupkom spajanja. Na kraju, imamo jedan veliki klaster koji sadrži sve objekte.

Dendrogram

U metodi klasteriranja Dendrograma, svaka će razina predstavljati mogući klaster. Visina dendrograma pokazuje razinu sličnosti između dva spojena klastera. Što su bliže dnu procesa sličniji su klaster što je nalaz skupine iz dendrograma koji nije prirodan i uglavnom subjektivan.

K- Najbliži susjedi

K- najbliži susjed je najjednostavniji od svih klasifikatora strojnog učenja. Razlikuje se od drugih tehnika strojnog učenja po tome što ne proizvodi model. To je jednostavan algoritam koji pohranjuje sve dostupne slučajeve i klasificira nove slučajeve na temelju mjere sličnosti.

Djeluje vrlo dobro kada postoji udaljenost između primjera. Brzina učenja je mala kada je skup za obuku velik, a izračun udaljenosti nije trivijalan.

Analiza glavnih komponenti

U slučaju da želite višedimenzionalni prostor. Morate odabrati osnovu za taj prostor i samo 200 najvažnijih rezultata te baze. Ova baza je poznata kao glavna komponenta. Podskup koji odaberete predstavlja novi prostor koji je male veličine u usporedbi s izvornim prostorom. Održava što je više moguće složenosti podataka.

Udruženje

Pravila povezivanja omogućuju uspostavljanje povezivanja između podatkovnih objekata unutar velikih baza podataka. Ova nenadzirana tehnika govori o otkrivanju zanimljivih odnosa između varijabli u velikim bazama podataka. Na primjer, ljudi koji kupuju novi dom najvjerojatnije će kupiti novi namještaj.

Ostali primjeri:

  • Podskupina pacijenata oboljelih od raka grupiranih prema mjerenjima ekspresije gena
  • Grupe kupaca na temelju njihove povijesti pregledavanja i kupnje
  • Grupacija filmova prema ocjeni gledatelja filmova

Nadzirano naspram nenadziranog strojnog učenja

Ovdje je glavna razlika između Nadzirano u odnosu na nenadzirano učenje:

Parametri Tehnika strojnog učenja pod nadzorom Tehnika strojnog učenja bez nadzora
Ulazni podaci Algorithms obučeni su pomoću označenih podataka. Algorithms koriste se protiv podataka koji nisu označeni
Računalna složenost Učenje pod nadzorom je jednostavnija metoda. Učenje bez nadzora računalno je složeno
Točnost Vrlo točna i pouzdana metoda. Less točna i pouzdana metoda.

Primjene nenadziranog strojnog učenja

Neke primjene tehnika nenadziranog učenja su:

  • Clusterautomatski dijeli skup podataka u grupe na temelju njihovih sličnosti
  • Otkrivanje anomalija može otkriti neobične podatkovne točke u vašem skupu podataka. Korisno je za pronalaženje lažnih transakcija
  • Asocijacijsko rudarenje identificira skupove stavki koje se često pojavljuju zajedno u vašem skupu podataka
  • Modeli latentnih varijabli naširoko se koriste za pretprocesiranje podataka. Poput smanjenja broja značajki u skupu podataka ili rastavljanja skupa podataka na više komponenti

Nedostaci nenadziranog učenja

  • Ne možete dobiti precizne informacije o sortiranju podataka, a izlaz kao podaci koji se koriste u nenadziranom učenju označen je i nije poznat
  • Less Točnost rezultata je zato što ulazni podaci nisu poznati i nisu unaprijed označeni od strane ljudi. To znači da stroj to mora učiniti sam.
  • Spektralne klase ne odgovaraju uvijek informativnim klasama.
  • Korisnik treba potrošiti vrijeme na tumačenje i označavanje klasa koje slijede tu klasifikaciju.
  • Spektralna svojstva klasa također se mogu mijenjati tijekom vremena tako da ne možete imati iste informacije o klasi dok prelazite s jedne slike na drugu.

Rezime

  • Učenje bez nadzora je tehnika strojnog učenja, gdje ne morate nadzirati model.
  • Strojno učenje bez nadzora pomaže vam da pronađete sve vrste nepoznatih obrazaca u podacima.
  • Clustering i asocijacija dvije su vrste nenadziranog učenja.
  • Četiri vrste metoda klasteriranja su 1) isključive 2) aglomerativne 3) preklapajuće 4) vjerojatnosne.
  • Važni tipovi klasteriranja su: 1) Hijerarhijsko klasteriranje 2) K-srednje klasteriranje 3) K-NN 4) Analiza glavnih komponenti 5) Dekompozicija singularne vrijednosti 6) Analiza nezavisnih komponenti.
  • Pravila povezivanja omogućuju uspostavljanje povezivanja između podatkovnih objekata unutar velikih baza podataka.
  • U nadziranom učenju, Algorithms obučeni su pomoću označenih podataka dok su u nenadziranom učenju Algorithms koriste se protiv podataka koji nisu označeni.
  • Otkrivanje anomalija može otkriti važne podatke u vašem skupu podataka što je korisno za pronalaženje lažnih transakcija.
  • Najveći nedostatak učenja bez nadzora je to što ne možete dobiti precizne informacije o sortiranju podataka.