Järelevalveta masinõpe: Algorithms, Tüübid näitega
Mis on juhendamata õppimine?
Juhendamata õppimine on masinõppetehnika, mille puhul kasutajad ei pea mudelit jälgima. Selle asemel võimaldab see mudelil iseseisvalt töötada, et avastada mustreid ja teavet, mida varem ei tuvastatud. See käsitleb peamiselt märgistamata andmeid.
Juhendamata õppimine Algorithms
Juhendamata õppimine Algorithms võimaldavad kasutajatel täita juhendatud õppega võrreldes keerukamaid töötlemisülesandeid. Kuigi juhendamata õppimine võib olla teiste loomulike õppemeetoditega võrreldes ettearvamatum. Järelevalveta õppealgoritmid hõlmavad rühmitamist, anomaaliate tuvastamist, närvivõrke jne.
Näide järelevalveta masinõppest
Võtame näite beebi ja tema perekoera järelevalveta õppimisest.
Ta teab ja tuvastab selle koera. Mõni nädal hiljem võtab peretuttav kaasa koera ja proovib lapsega mängida.
Beebi pole seda koera varem näinud. Kuid ta tunneb ära, et paljud omadused (2 kõrva, silmad, 4 jalal kõndimine) on nagu tema lemmikkoer. Ta tuvastab uue looma koerana. See on järelevalveta õppimine, kus teid ei õpetata, vaid te õpite andmetest (antud juhul andmed koera kohta). Kas see oleks olnud juhendatud õppimine, oleks peresõber lapsele öelnud, et see on koer, nagu on näidatud ülaltoodud järelevalveta õppimise näites.
Miks juhendamata õppimine?
Siin on peamised põhjused järelevalveta õppe kasutamiseks Masinõpe:
- Järelevalveta masinõpe leiab andmetest igasuguseid tundmatuid mustreid.
- Järelevalveta meetodid aitavad teil leida funktsioone, mis võivad olla kasulikud kategoriseerimiseks.
- See toimub reaalajas, nii et kõik sisendandmed tuleb õppijate juuresolekul analüüsida ja märgistada.
- Märgistamata andmeid on arvutist lihtsam hankida kui märgistatud andmeid, mis vajavad käsitsi sekkumist.
Clusterjärelevalveta õppimise tüübid Algorithms
Allpool on toodud järelevalveta masinõppe algoritmide klastrite tüübid.
Järelevalveta õppimisprobleemid rühmitati veelgi rühmitus- ja assotsieerimisprobleemideks.
Clusterse
Clustering on oluline mõiste, kui tegemist on juhendamata õppimisega. See tegeleb peamiselt struktuuri või mustri leidmisega kategoriseerimata andmete kogumist. Järelevalveta õppimine ClusterAlgoritmid töötlevad teie andmeid ja leiavad loomulikud klastrid (rühmad), kui need on andmetes olemas. Samuti saate muuta, kui palju klastreid teie algoritmid peaksid tuvastama. See võimaldab teil reguleerida nende rühmade detailsust.
Võite kasutada erinevat tüüpi klastreid:
Eksklusiivne (eraldamine)
Selle klastrite meetodi puhul rühmitatakse andmed nii, et üks andmestik võib kuuluda ainult ühte klastrisse.
Näide: K-tähendab
Aglomeratiivne
Selles klastritehnikas on kõik andmed kobarad. Kahe lähima klastri vahelised iteratiivsed ühendused vähendavad klastrite arvu.
Näide: hierarhiline klasterdamine
Kattuv
Selle tehnika puhul kasutatakse andmete rühmitamiseks hägusaid komplekte. Iga punkt võib kuuluda kahte või enamasse erineva kuuluvusastmega klastrisse.
Siin seostatakse andmed sobiva liikmelisuse väärtusega. Näide: Fuzzy C-Means
Tõenäoline
See meetod kasutab klastrite loomiseks tõenäosusjaotust
Näide: järgmised märksõnad
- "meeste king."
- "naiste kingad."
- "naiste kinnas."
- "meeste kinnas."
saab rühmitada kahte kategooriasse "kingad" ja "kinnas" või "mees" ja "naised".
Clustertüübid
Järgmised on masinõppe klastrite tüübid.
- Hierarhiline klastrite moodustamine
- K-tähendab klastrite moodustamist
- K-NN (k lähimat naabrit)
- Põhikomponentide analüüs
- Ainsuse väärtuse lagunemine
- Sõltumatu komponentide analüüs
Hierarhiline Clusterse
Hierarhiline klasterdamine on algoritm, mis loob klastrite hierarhia. See algab kõigi andmetega, mis on määratud nende enda klastrile. Siin asuvad kaks tihedat klastrit samas klastris. See algoritm lõpeb, kui järele on jäänud ainult üks klaster.
K-tähendab Clusterse
K tähendab, et see on iteratiivne rühmitamisalgoritm, mis aitab teil leida iga iteratsiooni kõrgeima väärtuse. Esialgu valitakse soovitud arv klastreid. Selle rühmitusmeetodi puhul peate andmepunktid rühmitama k rühma. Suurem k tähendab samamoodi väiksemaid rühmi, millel on suurem granulaarsus. Madalam k tähendab suuremaid, väiksema granulaarsusega rühmi.
Algoritmi väljund on "siltide" rühm. See määrab andmepunkti ühele k rühmast. K-keskmiste klastrite puhul määratletakse iga rühm, luues iga rühma jaoks tsentroidi. Tsenroidid on nagu klastri süda, mis haarab kinni neile kõige lähemal olevad punktid ja lisab need klastrisse.
K-keskmine klasterdamine määratleb täiendavalt kaks alamrühma:
- Aglomeratiivne rühmitus
- Dendrogramm
Aglomeratiivne rühmitus
Seda tüüpi K-tähenduste klasterdamine algab kindla arvu klastritega. See jagab kõik andmed täpse arvu klastritesse. See klasterdamismeetod ei nõua sisendina klastrite arvu K. Aglomeratsiooniprotsess algab iga andmete moodustamisega ühtse klastrina.
See meetod kasutab mõnda kaugusmõõtu, vähendab klastrite arvu (üks igas iteratsioonis) liitmise teel. Lõpuks on meil üks suur klaster, mis sisaldab kõiki objekte.
Dendrogramm
Dendrogrammi klastrite meetodi puhul esindab iga tase võimalikku klastrit. Dendrogrammi kõrgus näitab kahe liitumisklastri sarnasuse taset. Mida lähemal protsessi põhjale on nad sarnasemad klastrid, mis on dendrogrammi põhjal leiduva rühma leidmine, mis ei ole loomulik ja enamasti subjektiivne.
K- Lähimad naabrid
K- lähim naaber on masinõppe klassifikaatoritest kõige lihtsam. See erineb teistest masinõppetehnikatest selle poolest, et see ei tooda mudelit. See on lihtne algoritm, mis salvestab kõik saadaolevad juhtumid ja klassifitseerib uued eksemplarid sarnasuse mõõtmise alusel.
See toimib väga hästi, kui näidete vahel on vahemaa. Õppimiskiirus on aeglane, kui treeningkomplekt on suur, ja vahemaa arvutamine on mittetriviaalne.
Põhikomponentide analüüs
Kui soovite suurema mõõtmega ruumi. Peate valima selle ruumi aluse ja ainult selle aluse 200 kõige olulisemat tulemust. See alus on tuntud kui põhikomponent. Teie valitud alamhulk on uus ruum, mis on algse ruumiga võrreldes väike. See säilitab võimalikult suure osa andmete keerukusest.
Ühing
Seostusreeglid võimaldavad luua seoseid suurtes andmebaasides olevate andmeobjektide vahel. Selle järelevalveta tehnika eesmärk on avastada suurtes andmebaasides muutujate vahelisi huvitavaid seoseid. Näiteks inimesed, kes ostavad uue kodu, ostavad kõige tõenäolisemalt uut mööblit.
Muud näited:
- Vähihaigete alarühm, mis on rühmitatud nende geeniekspressiooni mõõtmiste järgi
- Ostjate rühmad nende sirvimis- ja ostuajaloo põhjal
- Filmirühm filmide vaatajate antud hinnangu järgi
Järelevalvega vs. järelevalveta masinõpe
Siin on peamine erinevus Juhendatud vs. juhendamata õppimine:
parameetrid | Juhendatud masinõppe tehnika | Järelevalveta masinõppe tehnika |
---|---|---|
Sisendandmed | Algorithms on koolitatud märgistatud andmete abil. | Algorithms kasutatakse andmete vastu, mis pole märgistatud |
Arvutuslik keerukus | Juhendatud õpe on lihtsam meetod. | Juhendajata õppimine on arvutuslikult keeruline |
Täpsus | Väga täpne ja usaldusväärne meetod. | Less täpne ja usaldusväärne meetod. |
Järelevalveta masinõppe rakendused
Mõned järelevalveta õppemeetodite rakendused on järgmised:
- Clusterjagab andmestiku automaatselt rühmadeks nende sarnasuste alusel
- Anomaaliate tuvastamine võib teie andmekogumist avastada ebatavalisi andmepunkte. See on kasulik petturlike tehingute leidmisel
- Seoskaevandamine tuvastab üksuste komplektid, mis teie andmekogus sageli koos esinevad
- Varjatud muutujamudeleid kasutatakse laialdaselt andmete eeltöötluseks. Nagu näiteks andmestiku funktsioonide arvu vähendamine või andmestiku mitmeks komponendiks jaotamine
Juhendajata õppimise puudused
- Andmete sortimise kohta ei saa täpset teavet ja väljund järelevalveta õppes kasutatavate andmetena on märgistatud ja teadmata
- Less tulemuste täpsus on tingitud sellest, et sisendandmed ei ole teada ega ole eelnevalt inimeste poolt märgistatud. See tähendab, et masin peab seda ise tegema.
- Spektriklassid ei vasta alati informatiivsetele klassidele.
- Kasutaja peab kulutama aega sellele klassifikatsioonile järgnevate klasside tõlgendamisele ja märgistamisele.
- Klasside spektriomadused võivad samuti aja jooksul muutuda, nii et ühelt pildilt teisele liikudes ei saa teil olla sama klassiteavet.
kokkuvõte
- Järelevalveta õpe on masinõppe tehnika, kus te ei pea mudelit juhendama.
- Järelevalveta masinõpe aitab teil leida andmetest igasuguseid tundmatuid mustreid.
- Clustering ja assotsiatsioon on kahte tüüpi juhendamata õppimist.
- Nelja tüüpi rühmitusmeetodeid on 1) eksklusiivne 2) aglomeratiivne 3) kattuv 4) tõenäosuslik.
- Olulised klastrite tüübid on: 1) hierarhiline klasterdamine 2) K-keskmine klasterdamine 3) K-NN 4) põhikomponentide analüüs 5) ainsuse väärtuse lagunemine 6) sõltumatu komponendi analüüs.
- Seostusreeglid võimaldavad luua seoseid suurtes andmebaasides olevate andmeobjektide vahel.
- Juhendatud õppes Algorithms on juhendamata õppimise ajal koolitatud märgistatud andmetega Algorithms kasutatakse andmete vastu, mis ei ole märgistatud.
- Anomaaliate tuvastamine võib teie andmekogumist avastada olulisi andmepunkte, mis on kasulikud petturlike tehingute leidmiseks.
- Järelevalveta õppimise suurim puudus on see, et andmete sorteerimise kohta ei saa täpset teavet.