Uovervåket maskinlæring: Algorithms, Typer med Eksempel

Hva er uovervåket læring?

Uovervåket læring er en maskinlæringsteknikk der brukerne ikke trenger å overvåke modellen. I stedet lar den modellen jobbe på egen hånd for å oppdage mønstre og informasjon som tidligere var uoppdaget. Den omhandler hovedsakelig de umerkede dataene.

Uovervåket læring Algorithms

Uovervåket læring Algorithms tillate brukere å utføre mer komplekse prosesseringsoppgaver sammenlignet med overvåket læring. Selv om uovervåket læring kan være mer uforutsigbar sammenlignet med andre naturlige læringsmetoder. Uovervåket læringsalgoritmer inkluderer klynging, anomalideteksjon, nevrale nettverk, etc.

Eksempel på maskinlæring uten tilsyn

La oss ta et eksempel på uovervåket læring for en baby og hennes familiehund.

Eksempel på maskinlæring uten tilsyn

Hun kjenner og identifiserer denne hunden. Noen uker senere tar en familievenn med seg en hund og prøver å leke med babyen.

Eksempel på maskinlæring uten tilsyn

Baby har ikke sett denne hunden tidligere. Men den gjenkjenner mange funksjoner (2 ører, øyne, gå på 4 ben) er som kjæledyrhunden hennes. Hun identifiserer det nye dyret som en hund. Dette er uovervåket læring, hvor du ikke blir undervist, men du lærer av dataene (i dette tilfellet data om en hund.) Hadde dette vært veiledet læring, ville familievennen ha fortalt babyen at det er en hund, som vist i eksempelet ovenfor for uovervåket læring.

Hvorfor uovervåket læring?

Her er de viktigste grunnene til å bruke uovervåket læring i Maskinlæring:

  • Uovervåket maskinlæring finner alle slags ukjente mønstre i data.
  • Metoder uten tilsyn hjelper deg med å finne funksjoner som kan være nyttige for kategorisering.
  • Det foregår i sanntid, så alle inndataene skal analyseres og merkes i nærvær av elever.
  • Det er lettere å få umerket data fra en datamaskin enn merket data, som krever manuell inngripen.

Clustering Typer av uovervåket læring Algorithms

Nedenfor er klyngetypene for uovervåket maskinlæringsalgoritmer:

Uovervåket læringsproblemer videre gruppert i klynge- og assosiasjonsproblemer.

Clustering

Clustering
Clustering

Clustering er et viktig begrep når det gjelder uovervåket læring. Den omhandler hovedsakelig å finne en struktur eller et mønster i en samling av ukategoriserte data. Uovervåket læring Clustering-algoritmer vil behandle dataene dine og finne naturlige klynger(grupper) hvis de finnes i dataene. Du kan også endre hvor mange klynger algoritmene dine skal identifisere. Den lar deg justere granulariteten til disse gruppene.

Det er forskjellige typer klynging du kan bruke:

Eksklusivt (partisjonering)

I denne klyngemetoden er data gruppert på en slik måte at én data kun kan tilhøre én klynge.

Eksempel: K-betyr

agglomerative

I denne klyngeteknikken er alle data en klynge. De iterative foreningene mellom de to nærmeste klyngene reduserer antallet klynger.

Eksempel: Hierarkisk clustering

Overlapp

I denne teknikken brukes fuzzy sett til å gruppere data. Hvert punkt kan tilhøre to eller flere klynger med separate grader av medlemskap.

Her vil data knyttes til en passende medlemsverdi. Eksempel: Fuzzy C-Means

Probabilistisk

Denne teknikken bruker sannsynlighetsfordeling for å lage klyngene

Eksempel: Følge søkeord

  • "mannssko."
  • "damesko."
  • "kvinnehanske."
  • "mannshanske."

kan grupperes i to kategorier "sko" og "hanske" eller "mann" og "kvinner".

Clustering typer

Følgende er grupperingstypene for maskinlæring:

  • Hierarkisk klynging
  • K-betyr klynging
  • K-NN (k nærmeste naboer)
  • Hovedkomponentanalyse
  • Enkeltverdidekomponering
  • Uavhengig komponentanalyse

Hierarkisk Clustering

Hierarkisk clustering er en algoritme som bygger et hierarki av klynger. Det begynner med alle dataene som er tilordnet en egen klynge. Her vil to nære klynge være i samme klynge. Denne algoritmen avsluttes når det bare er én klynge igjen.

K-anordning Clustering

K betyr at det er en iterativ klyngealgoritme som hjelper deg med å finne den høyeste verdien for hver iterasjon. Til å begynne med velges ønsket antall klynger. I denne klyngemetoden må du gruppere datapunktene i k grupper. En større k betyr mindre grupper med mer granularitet på samme måte. En lavere k betyr større grupper med mindre granularitet.

Utdataene fra algoritmen er en gruppe "etiketter". Den tildeler datapunkt til en av de k gruppene. I k-betyr klynging defineres hver gruppe ved å lage et tyngdepunkt for hver gruppe. Centroidene er som hjertet av klyngen, som fanger opp punktene nærmest dem og legger dem til klyngen.

K-mean clustering definerer ytterligere to undergrupper:

  • Agglomerativ klynging
  • Dendrogram

Agglomerativ klynging

Denne typen K-betyr clustering starter med et fast antall klynger. Den allokerer alle data til det nøyaktige antallet klynger. Denne klyngemetoden krever ikke antall klynger K som input. Agglomerasjonsprosessen starter ved å danne hver data som en enkelt klynge.

Denne metoden bruker et avstandsmål, reduserer antall klynger (en i hver iterasjon) ved å slå sammen prosess. Til slutt har vi en stor klynge som inneholder alle objektene.

Dendrogram

I Dendrogram-klyngemetoden vil hvert nivå representere en mulig klynge. Høyden på dendrogrammet viser likhetsnivået mellom to sammenføyde klynger. Jo nærmere bunnen av prosessen de er mer like klynge som er funn av gruppen fra dendrogram som ikke er naturlig og for det meste subjektiv.

K- Nærmeste naboer

K-nærmeste nabo er den enkleste av alle maskinlæringsklassifiserere. Den skiller seg fra andre maskinlæringsteknikker ved at den ikke produserer en modell. Det er en enkel algoritme som lagrer alle tilgjengelige tilfeller og klassifiserer nye forekomster basert på et likhetsmål.

Det fungerer veldig bra når det er avstand mellom eksemplene. Læringshastigheten er lav når treningssettet er stort, og avstandsberegningen er ikke-triviell.

Hovedkomponentanalyse

I tilfelle du vil ha et høyere dimensjonalt rom. Du må velge et grunnlag for den plassen og bare de 200 viktigste poengsummene for dette grunnlaget. Denne basen er kjent som en hovedkomponent. Delsettet du velger utgjør en ny plass som er liten i størrelse sammenlignet med opprinnelig plass. Den opprettholder så mye av kompleksiteten til data som mulig.

Association

Tilknytningsregler lar deg etablere assosiasjoner mellom dataobjekter i store databaser. Denne uovervåkede teknikken handler om å oppdage interessante forhold mellom variabler i store databaser. For eksempel vil folk som kjøper et nytt hjem mest sannsynlig kjøpe nye møbler.

Andre eksempler:

  • En undergruppe av kreftpasienter gruppert etter deres genekspresjonsmålinger
  • Grupper av kunder basert på deres nettleser- og kjøpshistorikk
  • Filmgruppe etter rangeringen gitt av filmseere

Overvåket vs. uovervåket maskinlæring

Her er hovedforskjellen mellom Supervised vs Unsupervised Learning:

Parametre Veiledet maskinlæringsteknikk Uovervåket maskinlæringsteknikk
Inngangsdata Algorithms er opplært ved hjelp av merkede data. Algorithms brukes mot data som ikke er merket
Beregningsmessig kompleksitet Veiledet læring er en enklere metode. Uovervåket læring er beregningsmessig kompleks
Nøyaktighet Svært nøyaktig og pålitelig metode. Less nøyaktig og pålitelig metode.

Anvendelser av uovervåket maskinlæring

Noen anvendelser av uovervåket læringsteknikker er:

  • Clusterautomatisk deler opp datasettet i grupper basert på likhetene deres
  • Anomalideteksjon kan oppdage uvanlige datapunkter i datasettet ditt. Det er nyttig for å finne falske transaksjoner
  • Association mining identifiserer sett med elementer som ofte forekommer sammen i datasettet ditt
  • Latente variable modeller er mye brukt for dataforbehandling. Som å redusere antall funksjoner i et datasett eller dekomponere datasettet i flere komponenter

Ulemper ved uovervåket læring

  • Du kan ikke få presis informasjon om datasortering, og utdata som brukes i uovervåket læring er merket og ukjent
  • Less nøyaktigheten av resultatene er fordi inndataene ikke er kjent og ikke merket av folk på forhånd. Dette betyr at maskinen må gjøre dette selv.
  • Spektralklassene samsvarer ikke alltid med informasjonsklasser.
  • Brukeren må bruke tid på å tolke og merke klassene som følger den klassifiseringen.
  • Spektralegenskaper til klasser kan også endre seg over tid, slik at du ikke kan ha den samme klasseinformasjonen mens du flytter fra ett bilde til et annet.

Sammendrag

  • Uovervåket læring er en maskinlæringsteknikk, hvor du ikke trenger å overvåke modellen.
  • Uovervåket maskinlæring hjelper deg med å finne alle slags ukjente mønstre i data.
  • Clustering og Association er to typer uovervåket læring.
  • Fire typer klyngemetoder er 1) Eksklusive 2) Agglomerative 3) Overlappende 4) Probabilistiske.
  • Viktige klyngetyper er: 1)Hierarkisk klynging 2) K-betyr klynging 3) K-NN 4) Hovedkomponentanalyse 5) Enkeltverdidekomponering 6) Uavhengig komponentanalyse.
  • Tilknytningsregler lar deg etablere assosiasjoner mellom dataobjekter i store databaser.
  • I veiledet læring, Algorithms trenes ved å bruke merkede data mens de er i uovervåket læring Algorithms brukes mot data som ikke er merket.
  • Avviksdeteksjon kan oppdage viktige datapunkter i datasettet ditt, noe som er nyttig for å finne falske transaksjoner.
  • Den største ulempen med uovervåket læring er at du ikke kan få presis informasjon om datasortering.