Overvåket maskinlæring: Hva er, Algorithms med eksempler
Hva er overvåket maskinlæring?
Overvåket maskinlæring er en algoritme som lærer av merkede treningsdata for å hjelpe deg med å forutsi utfall for uforutsette data. I overvåket læring trener du maskinen ved å bruke data som er godt «merket». Det betyr at noen data allerede er merket med riktige svar. Det kan sammenlignes med læring i nærvær av en veileder eller en lærer.
Vellykket bygging, skalering og distribusjon nøyaktig overvåkede maskinlæringsmodeller tar tid og teknisk ekspertise fra et team av svært dyktige dataforskere. Dessuten, Data vitenskapsmann må bygge opp igjen modeller for å sikre at innsikten som er gitt forblir sann til dataene endres.
Hvordan veiledet læring fungerer
Overvåket maskinlæring bruker treningsdatasett for å oppnå ønskede resultater. Disse datasettene inneholder innganger og riktig utgang som hjelper modellen til å lære raskere. Du vil for eksempel trene en maskin for å hjelpe deg med å forutsi hvor lang tid det vil ta deg å kjøre hjem fra arbeidsplassen din.
Her starter du med å lage et sett med merkede data. Disse dataene inkluderer:
- Værforhold
- Tid på dagen
- Reise
Alle disse detaljene er dine innspill i dette eksempelet på veiledet læring. Utdata er hvor lang tid det tok å kjøre hjem på den aktuelle dagen.
Du vet instinktivt at hvis det regner ute, vil det ta lengre tid å kjøre hjem. Men maskinen trenger data og statistikk.
La oss se noen eksempler på veiledet læring på hvordan du kan utvikle en veiledet læringsmodell av dette eksemplet som hjelper brukeren med å bestemme reisetiden. Det første du trenger for å lage er et treningssett. Dette treningssettet vil inneholde den totale pendlertiden og tilsvarende faktorer som vær, tid osv. Basert på dette treningssettet kan maskinen din se at det er en direkte sammenheng mellom mengden regn og tiden du vil bruke på å komme deg hjem.
Så det fastslår at jo mer det regner, jo lenger vil du kjøre for å komme tilbake til hjemmet ditt. Den kan også se sammenhengen mellom tiden du forlater jobben og tiden du skal være på veien.
Jo nærmere du er klokken 6, jo lengre tid tar det før du kommer deg hjem. Maskinen din kan finne noen av relasjonene til dine merkede data.
Dette er starten på din datamodell. Det begynner å påvirke hvordan regn påvirker måten folk kjører på. Det begynner også å se at flere reiser på et bestemt tidspunkt på dagen.
Typer overvåket maskinlæring Algorithms
Følgende er typene overvåket maskinlæringsalgoritmer:
Regresjon
Regresjonsteknikk forutsier en enkelt utgangsverdi ved å bruke treningsdata.
Eksempel: Du kan bruke regresjon til å forutsi boligprisen fra treningsdata. Inndatavariablene vil være lokalitet, størrelse på et hus osv.
Sterke: Utganger har alltid en probabilistisk tolkning, og algoritmen kan reguleres for å unngå overtilpasning.
Svakheter: Logistisk regresjon kan gi dårligere resultater når det er flere eller ikke-lineære beslutningsgrenser. Denne metoden er ikke fleksibel, så den fanger ikke opp mer komplekse sammenhenger.
Logistisk regresjon:
Logistisk regresjonsmetode som brukes til å estimere diskrete verdier basert på gitt et sett med uavhengige variabler. Det hjelper deg å forutsi sannsynligheten for at en hendelse skal inntreffe ved å tilpasse data til en logit-funksjon. Derfor er det også kjent som logistisk regresjon. Ettersom den forutsier sannsynligheten, ligger utgangsverdien mellom 0 og 1.
Her er noen få typer regresjon Algorithms
Klassifisering
Klassifisering betyr å gruppere utdataene i en klasse. Hvis algoritmen prøver å merke inndata i to distinkte klasser, kalles det binær klassifisering. Å velge mellom mer enn to klasser blir referert til som flerklasseklassifisering.
Eksempel: Avgjøre hvorvidt noen vil være en misligholder av lånet.
Sterke: Klassifiseringstreet fungerer veldig bra i praksis
Svakheter: Ubegrensede, individuelle trær er utsatt for overfitting.
Her er noen typer klassifisering Algorithms
Naive Bayes-klassifiseringer
Naiv Bayesian modell (NBN) er enkel å bygge og veldig nyttig for store datasett. Denne metoden er satt sammen av direkte asykliske grafer med en forelder og flere barn. Det forutsetter uavhengighet mellom barnnoder atskilt fra foreldrene.
Beslutningstrær
Beslutningstrær klassifiserer forekomster ved å sortere dem basert på funksjonsverdien. I denne metoden er hver modus funksjonen til en forekomst. Den bør klassifiseres, og hver gren representerer en verdi som noden kan anta. Det er en mye brukt teknikk for klassifisering. I denne metoden er klassifisering et tre som er kjent som et beslutningstre.
Den hjelper deg med å estimere reelle verdier (kostnad for å kjøpe en bil, antall samtaler, totalt månedlig salg, etc.).
Støtt vektormaskin
Support vector machine (SVM) er en type læringsalgoritme utviklet i 1990. Denne metoden er basert på resultater fra statistisk læringsteori introdusert av Vap Nik.
SVM-maskiner er også nært knyttet til kjernefunksjoner som er et sentralt konsept for de fleste læringsoppgavene. Kjernerammeverket og SVM brukes på en rekke felt. Det inkluderer gjenfinning av multimedieinformasjon, bioinformatikk og mønstergjenkjenning.
Overvåket vs. Uovervåket Maskinlæringsteknikker
Basert på | Veiledet maskinlæringsteknikk | Uovervåket maskinlæringsteknikk |
---|---|---|
Inngangsdata | Algorithms er opplært ved hjelp av merkede data. | Algorithms brukes mot data som ikke er merket |
Beregningsmessig kompleksitet | Veiledet læring er en enklere metode. | Uovervåket læring er beregningsmessig kompleks |
Nøyaktighet | Svært nøyaktig og pålitelig metode. | Less nøyaktig og pålitelig metode. |
Utfordringer i overvåket maskinlæring
Her er utfordringene i veiledet maskinlæring:
- Irrelevant input-funksjon tilstede treningsdata kan gi unøyaktige resultater
- Dataforberedelse og forhåndsbehandling er alltid en utfordring.
- Nøyaktigheten lider når umulige, usannsynlige og ufullstendige verdier er lagt inn som treningsdata
- Hvis den aktuelle eksperten ikke er tilgjengelig, er den andre tilnærmingen "brute-force". Det betyr at du må tenke på de riktige funksjonene (inndatavariabler) å trene maskinen på. Det kan være unøyaktig.
Fordeler med veiledet læring
Her er fordelene med overvåket maskinlæring:
- Veiledet læring i Maskinlæring lar deg samle inn data eller produsere data fra tidligere erfaring
- Hjelper deg med å optimalisere ytelseskriteriene ved å bruke erfaring
- Overvåket maskinlæring hjelper deg med å løse ulike typer regneproblemer i den virkelige verden.
Ulemper ved veiledet læring
Nedenfor er ulempene med overvåket maskinlæring:
- Beslutningsgrense kan være overtrent hvis treningssettet ditt som ikke har eksempler som du vil ha i en time
- Du må velge ut mange gode eksempler fra hver klasse mens du trener klassifisereren.
- Klassifisering store data kan være en skikkelig utfordring.
- Opplæring for veiledet læring krever mye regnetid.
Beste praksis for veiledet læring
- Før du gjør noe annet, må du bestemme hva slags data som skal brukes som treningssett
- Du må bestemme strukturen til den lærte funksjonen og læringsalgoritmen.
- Samle tilsvarende utdata enten fra menneskelige eksperter eller fra målinger
Oppsummering
- I overvåket læringsalgoritmer trener du maskinen ved å bruke data som er godt «merket».
- Du ønsker å trene en maskin som hjelper deg å forutsi hvor lang tid det vil ta deg å kjøre hjem fra arbeidsplassen din, er et eksempel på veiledet læring.
- Regresjon og klassifisering er to dimensjoner av en overvåket maskinlæringsalgoritme.
- Veiledet læring er en enklere metode mens uovervåket læring er en kompleks metode.
- Den største utfordringen i veiledet læring er at irrelevant input-funksjon tilstede treningsdata kan gi unøyaktige resultater.
- Den største fordelen med veiledet læring er at den lar deg samle inn data eller produsere data fra tidligere erfaring.
- Ulempen med denne modellen er at beslutningsgrensen kan være overanstrengt hvis treningssettet ditt ikke har eksempler som du vil ha i en klasse.
- Som en beste praksis for å overvåke læring, må du først bestemme hva slags data som skal brukes som et opplæringssett.