Supervised Machine Learning: Hvad er, Algorithms med eksempler
Hvad er Supervised Machine Learning?
Supervised Machine Learning er en algoritme, der lærer af mærkede træningsdata for at hjælpe dig med at forudsige resultater for uforudsete data. I Supervised learning træner du maskinen ved hjælp af data, der er godt "mærket". Det betyder, at nogle data allerede er mærket med korrekte svar. Det kan sammenlignes med at lære i nærværelse af en vejleder eller en lærer.
Succesfuld opbygning, skalering og implementering præcis overvågede maskinlæringsmodeller tager tid og teknisk ekspertise fra et team af højtuddannede dataforskere. I øvrigt, Data videnskabsmand skal genopbygge modeller for at sikre, at den givne indsigt forbliver sand, indtil dens data ændres.
Hvordan Supervised Learning fungerer
Overvåget maskinlæring bruger træningsdatasæt til at opnå de ønskede resultater. Disse datasæt indeholder input og det korrekte output, der hjælper modellen med at lære hurtigere. For eksempel vil du træne en maskine til at hjælpe dig med at forudsige, hvor lang tid det vil tage dig at køre hjem fra din arbejdsplads.
Her starter du med at oprette et sæt mærkede data. Disse data inkluderer:
- Vejrforhold
- Tid på dagen
- Holidays
Alle disse detaljer er dine input i dette eksempel på overvåget læring. Outputtet er den tid, det tog at køre hjem på den specifikke dag.
Du ved instinktivt, at hvis det regner udenfor, så vil det tage dig længere tid at køre hjem. Men maskinen har brug for data og statistik.
Lad os se nogle eksempler på overvåget læring om, hvordan du kan udvikle en overvåget læringsmodel af dette eksempel, som hjælper brugeren med at bestemme pendlingstiden. Det første du skal bruge for at lave er et træningssæt. Dette træningssæt vil indeholde den samlede pendlingstid og tilsvarende faktorer som vejr, tid osv. Baseret på dette træningssæt kan din maskine se, at der er en direkte sammenhæng mellem mængden af regn og den tid, det tager at komme hjem.
Så den konstaterer, at jo mere det regner, jo længere vil du køre for at komme tilbage til dit hjem. Det kan også se sammenhængen mellem den tid, du forlader arbejdet, og den tid, du er på farten.
Jo tættere du er på klokken 6, jo længere tid tager det for dig at komme hjem. Din maskine kan muligvis finde nogle af relationerne til dine mærkede data.

Dette er starten på din datamodel. Det begynder at påvirke, hvordan regn påvirker den måde, folk kører på. Det begynder også at se, at flere mennesker rejser på et bestemt tidspunkt på dagen.
Typer af overvåget maskinlæring Algorithms
Følgende er typerne af Supervised Machine Learning-algoritmer:
Regression
Regressionsteknik forudsiger en enkelt outputværdi ved hjælp af træningsdata.
Eksempel: Du kan bruge regression til at forudsige husprisen ud fra træningsdata. Inputvariablerne vil være lokalitet, størrelse på et hus osv.
Styrker: Outputs har altid en probabilistisk fortolkning, og algoritmen kan reguleres for at undgå overfitting.
Svagheder: Logistisk regression kan underperforme, når der er flere eller ikke-lineære beslutningsgrænser. Denne metode er ikke fleksibel, så den fanger ikke mere komplekse relationer.
Logistisk regression:
Logistisk regressionsmetode brugt til at estimere diskrete værdier baseret på et givet sæt af uafhængige variable. Det hjælper dig med at forudsige sandsynligheden for forekomst af en hændelse ved at tilpasse data til en logit-funktion. Derfor er det også kendt som logistisk regression. Da den forudsiger sandsynligheden, ligger dens outputværdi mellem 0 og 1.
Her er et par typer af regression Algorithms
Klassifikation
Klassificering betyder at gruppere outputtet i en klasse. Hvis algoritmen forsøger at mærke input i to adskilte klasser, kaldes det binær klassifikation. At vælge mellem mere end to klasser kaldes multiklasseklassifikation.
Eksempel: Bestemmelse af, om nogen vil være en misligholder af lånet.
Styrker: Klassifikationstræet fungerer meget godt i praksis
Svagheder: Ubegrænsede, individuelle træer er tilbøjelige til at overmontere.
Her er et par typer klassifikation Algorithms
Naive Bayes Classifiers
Naiv Bayesian model (NBN) er nem at bygge og meget nyttig til store datasæt. Denne metode er sammensat af direkte acykliske grafer med en forælder og flere børn. Det forudsætter uafhængighed blandt børneknuder adskilt fra deres forælder.
Beslutningstræer
Beslutningstræer klassificerer instanser ved at sortere dem baseret på funktionsværdien. I denne metode er hver tilstand funktionen af en instans. Det bør klassificeres, og hver gren repræsenterer en værdi, som knudepunktet kan antage. Det er en meget brugt teknik til klassificering. I denne metode er klassifikation et træ, der er kendt som et beslutningstræ.
Det hjælper dig med at estimere reelle værdier (omkostninger ved at købe en bil, antal opkald, det samlede månedlige salg osv.).
Support Vector Machine
Support vector machine (SVM) er en type læringsalgoritme udviklet i 1990. Denne metode er baseret på resultater fra statistisk læringsteori introduceret af Vap Nik.
SVM-maskiner er også tæt forbundet med kernefunktioner, hvilket er et centralt koncept for de fleste læringsopgaver. Kernelrammerne og SVM bruges på en række forskellige områder. Det omfatter multimedieinformationssøgning, bioinformatik og mønstergenkendelse.
Overvågede vs. Ikke-overvågede Maskinlæringsteknikker
| Baseret på | Overvåget maskinlæringsteknik | Uovervåget maskinlæringsteknik |
|---|---|---|
| Inputdata | Algorithms trænes ved hjælp af mærkede data. | Algorithms bruges mod data, der ikke er mærket |
| Beregningsmæssig kompleksitet | Superviseret læring er en enklere metode. | Uovervåget læring er beregningsmæssigt komplekst |
| Nøjagtighed | Meget nøjagtig og pålidelig metode. | Less præcis og troværdig metode. |
Udfordringer i overvåget maskinlæring
Her er udfordringerne i overvåget maskinlæring:
- Irrelevant inputfunktion nuværende træningsdata kan give unøjagtige resultater
- Dataforberedelse og forbehandling er altid en udfordring.
- Nøjagtigheden lider, når umulige, usandsynlige og ufuldstændige værdier er blevet indtastet som træningsdata
- Hvis den pågældende ekspert ikke er tilgængelig, så er den anden tilgang "brute-force". Det betyder, at du skal tænke på, at de rigtige funktioner (inputvariabler) at træne maskinen på. Det kan være unøjagtigt.
Fordele ved Supervised Learning
Her er fordelene ved Supervised Machine learning:
- Superviseret læring i Maskinelæring giver dig mulighed for at indsamle data eller producere et dataoutput fra den tidligere erfaring
- Hjælper dig med at optimere præstationskriterier ved hjælp af erfaring
- Overvåget maskinlæring hjælper dig med at løse forskellige typer af regneproblemer i den virkelige verden.
Ulemper ved Supervised Learning
Nedenfor er ulemperne ved Supervised Machine learning:
- Beslutningsgrænsen kan være overtrænet, hvis dit træningssæt ikke har eksempler, som du vil have i en klasse
- Du skal vælge en masse gode eksempler fra hver klasse, mens du træner klassificereren.
- klassificering big data kan være en reel udfordring.
- Træning til superviseret læring kræver meget regnetid.
Bedste praksis for Supervised Learning
- Før du gør noget andet, skal du beslutte, hvilken slags data der skal bruges som træningssæt
- Du skal bestemme strukturen af den indlærte funktion og indlæringsalgoritmen.
- Indsaml tilsvarende output enten fra menneskelige eksperter eller fra målinger
Resumé
- I overvågede læringsalgoritmer træner du maskinen ved at bruge data, som er godt "mærket".
- Du vil træne en maskine, som hjælper dig med at forudsige, hvor lang tid det vil tage dig at køre hjem fra din arbejdsplads, er et eksempel på Supervised learning.
- Regression og klassificering er to dimensioner af en Supervised Machine Learning-algoritme.
- Overvåget læring er en enklere metode, mens uovervåget læring er en kompleks metode.
- Den største udfordring i superviseret læring er, at irrelevante inputfunktioner til stede træningsdata kan give unøjagtige resultater.
- Den største fordel ved superviseret læring er, at det giver dig mulighed for at indsamle data eller producere et dataoutput fra den tidligere erfaring.
- Ulempen ved denne model er, at beslutningsgrænsen kan være overanstrengt, hvis dit træningssæt ikke har eksempler, som du ønsker at have i en klasse.
- Som en bedste praksis for at overvåge læring skal du først beslutte, hvilken slags data der skal bruges som et træningssæt.

