Machine Learning Tutorial for begyndere: Hvad er, grundlæggende om ML
Hvad er maskinlæring?
Maskinelæring er et system af computeralgoritmer, der kan lære af f.eks. gennem selvforbedring uden eksplicit at blive kodet af en programmør. Maskinlæring er en del af kunstig intelligens, som kombinerer data med statistiske værktøjer til at forudsige et output, som kan bruges til at skabe handlingsvenlig indsigt.
Gennembruddet kommer med ideen om, at en maskine enkeltvis kan lære af dataene (dvs. f.eks.) for at producere nøjagtige resultater. Machine learning er tæt forbundet med data mining og Bayesiansk prædiktiv modellering. Maskinen modtager data som input og bruger en algoritme til at formulere svar.
En typisk maskinlæringsopgaver er at give en anbefaling. For dem der har en Netflix konto, er alle anbefalinger af film eller serier baseret på brugerens historiske data. Teknologivirksomheder bruger uovervåget læring at forbedre brugeroplevelsen med personlig anbefaling.
Maskinlæring bruges også til en række opgaver som svindeldetektion, forudsigelig vedligeholdelse, porteføljeoptimering, automatisering af opgaver og så videre.
Machine Learning vs. traditionel programmering
Traditionel programmering adskiller sig væsentligt fra maskinlæring. I traditionel programmering koder en programmør alle reglerne i samråd med en ekspert i den branche, som software udvikles til. Hver regel er baseret på et logisk grundlag; maskinen vil udføre et output efter den logiske sætning. Når systemet bliver komplekst, skal der skrives flere regler. Det kan hurtigt blive uholdbart at vedligeholde.
Maskinlæring formodes at overvinde dette problem. Maskinen lærer, hvordan input- og outputdata er korreleret, og den skriver en regel. Programmørerne behøver ikke at skrive nye regler, hver gang der er nye data. Algoritmerne tilpasser sig som svar på nye data og erfaringer for at forbedre effektiviteten over tid.
Hvordan fungerer Machine Learning?
Nu i dette maskinlæringsgrundlag for begyndere vil vi lære, hvordan maskinlæring (ML) fungerer:
Machine learning er hjernen, hvor al læring finder sted. Den måde, maskinen lærer på, ligner mennesket. Mennesker lærer af erfaring. Jo mere vi ved, jo lettere kan vi forudsige. Analogt, når vi står over for en ukendt situation, er sandsynligheden for succes lavere end den kendte situation. Maskinerne trænes på samme måde. For at lave en nøjagtig forudsigelse ser maskinen et eksempel. Når vi giver maskinen et lignende eksempel, kan den finde ud af resultatet. Men ligesom et menneske, hvis det fodrer et tidligere uset eksempel, har maskinen svært ved at forudsige.
Kerneformålet med maskinlæring er læring og følgeslutning. Først og fremmest lærer maskinen gennem opdagelsen af mønstre. Denne opdagelse er gjort takket være data. En afgørende del af dataforskeren er nøje at vælge, hvilke data der skal leveres til maskinen. Listen over attributter, der bruges til at løse et problem, kaldes en funktionsvektor. Du kan tænke på en funktionsvektor som en delmængde af data, der bruges til at løse et problem.
Maskinen bruger nogle smarte algoritmer til at forenkle virkeligheden og omdanne denne opdagelse til en model. Derfor bruges læringsstadiet til at beskrive dataene og sammenfatte dem til en model.
For eksempel forsøger maskinen at forstå forholdet mellem en persons løn og sandsynligheden for at gå på en fancy restaurant. Det viser sig, at maskinen finder et positivt forhold mellem løn og at gå på en high-end restaurant: Dette er modellen
Udlede
Når modellen er bygget, er det muligt at teste, hvor kraftfuld den er på aldrig set-før-data. De nye data omdannes til en egenskabsvektor, gennemgår modellen og giver en forudsigelse. Dette er alt sammen den smukke del af maskinlæring. Der er ingen grund til at opdatere reglerne eller træne modellen igen. Du kan bruge den tidligere trænede model til at drage slutninger om nye data.
Levetiden for Machine Learning-programmer er ligetil og kan opsummeres i følgende punkter:
- Definer et spørgsmål
- Indsamle data
- Visualiser data
- Tog algoritme
- Test algoritmen
- Indsaml feedback
- Forfin algoritmen
- Loop 4-7 indtil resultaterne er tilfredsstillende
- Brug modellen til at lave en forudsigelse
Når først algoritmen bliver god til at drage de rigtige konklusioner, anvender den den viden på nye datasæt.
Maskinelæring Algorithms og hvor bruges de?
Nu i denne maskinlæringsvejledning for begyndere lærer vi, hvor maskinlæringsalgoritmer (ML) bruges:
Machine learning kan grupperes i to brede læringsopgaver: Supervised og Unsupervised. Der er mange andre algoritmer
Overvåget læring
En algoritme bruger træningsdata og feedback fra mennesker til at lære forholdet mellem givne input og et givet output. For eksempel kan en praktiserende læge bruge marketingudgifter og vejrudsigt som inputdata til at forudsige salget af dåser.
Du kan bruge overvåget læring, når outputdata er kendt. Algoritmen vil forudsige nye data.
Der er to kategorier af overvåget læring:
- Klassifikationsopgave
- Regressionsopgave
Klassifikation
Forestil dig, at du vil forudsige en kundes køn til en reklamefilm. Du vil begynde at indsamle data om højde, vægt, job, løn, indkøbskurv osv. fra din kundedatabase. Du kender kønnet på hver af dine kunder, det kan kun være mand eller kvinde. Formålet med klassificeringen vil være at tildele en sandsynlighed for at være en mand eller en kvinde (dvs. etiketten) baseret på informationen (dvs. funktioner, du har indsamlet). Når modellen lærte at genkende mand eller kvinde, kan du bruge nye data til at lave en forudsigelse. For eksempel har du lige fået nye oplysninger fra en ukendt kunde, og du vil gerne vide, om det er en mand eller kvinde. Hvis klassifikatoren forudsiger mand = 70 %, betyder det, at algoritmen er sikker på 70 %, at denne kunde er en mand, og 30 % er en kvinde.
Etiketten kan være af to eller flere klasser. Ovenstående maskinlæringseksempel har kun to klasser, men hvis en klassifikator skal forudsige objekt, har den snesevis af klasser (f.eks. glas, bord, sko osv. hvert objekt repræsenterer en klasse)
Regression
Når outputtet er en kontinuerlig værdi, er opgaven en regression. For eksempel kan en finansanalytiker være nødt til at forudsige værdien af en aktie baseret på en række funktioner som egenkapital, tidligere aktiepræstationer, makroøkonomisk indeks. Systemet vil blive trænet til at estimere prisen på aktierne med den lavest mulige fejl.
Algoritme | Description | Type |
---|---|---|
Lineær regression | Finder en måde at korrelere hver funktion til outputtet for at hjælpe med at forudsige fremtidige værdier. | Regression |
Logistisk regression | Udvidelse af lineær regression, der bruges til klassifikationsopgaver. Outputvariablen 3 er binær (f.eks. kun sort eller hvid) snarere end kontinuerlig (f.eks. en uendelig liste over potentielle farver) | Klassifikation |
Beslutningstræ | Meget fortolkelig klassifikations- eller regressionsmodel, der opdeler data-funktionsværdier i grene ved beslutningsknuder (f.eks. hvis en funktion er en farve, bliver hver mulig farve en ny gren), indtil et endeligt beslutningsoutput er lavet | Regression Klassifikation |
Naiv Bayes | Bayesiansk metode er en klassifikationsmetode, der gør brug af Bayesiansk sætning. Sætningen opdaterer forhåndskendskabet til en begivenhed med den uafhængige sandsynlighed for hver funktion, der kan påvirke begivenheden. | Regression Klassifikation |
Support vektor maskine |
Support Vector Machine, eller SVM, bruges typisk til klassificeringsopgaven. SVM-algoritmen finder et hyperplan, der opdelte klasserne optimalt. Det er bedst at bruge med en ikke-lineær solver. |
Regression (ikke særlig almindelig) Klassifikation |
Tilfældig skov | Algoritmen er bygget på et beslutningstræ for at forbedre nøjagtigheden drastisk. Tilfældig skov genererer mange gange simple beslutningstræer og bruger 'flertalsstemme'-metoden til at beslutte, hvilken etiket der skal returneres. For klassificeringsopgaven vil den endelige forudsigelse være den med flest stemmer; mens for regressionsopgaven er den gennemsnitlige forudsigelse af alle træerne den endelige forudsigelse. | Regression Klassifikation |
AdaBoost | Klassificerings- eller regressionsteknik, der bruger en lang række modeller til at komme med en beslutning, men vejer dem baseret på deres nøjagtighed i at forudsige resultatet | Regression Klassifikation |
Gradientforstærkende træer | Gradient-forstærkende træer er en state-of-the-art klassificering/regression teknik. Den fokuserer på fejlen begået af de tidligere træer og forsøger at rette den. | Regression Klassifikation |
Uovervåget læring
I uovervåget læring udforsker en algoritme inputdata uden at blive givet en eksplicit outputvariabel (f.eks. udforsker kundedemografiske data for at identificere mønstre)
Du kan bruge det, når du ikke ved, hvordan du skal klassificere dataene, og du vil have algoritmen til at finde mønstre og klassificere dataene for dig
Algoritme navn | Description | Type |
---|---|---|
K-betyder gruppering | Sætter data i nogle grupper (k), som hver indeholder data med lignende karakteristika (som bestemt af modellen, ikke på forhånd af mennesker) | ClusterING |
Gaussisk blandingsmodel | En generalisering af k-betyder klyngedannelse, der giver mere fleksibilitet i størrelsen og formen af grupper (klynger) | ClusterING |
Hierarkisk klynge | Opdeler klynger langs et hierarkisk træ for at danne et klassifikationssystem.
Kan anvendes til Cluster loyalitetskortkunde |
ClusterING |
Anbefalingssystem | Hjælp til at definere de relevante data for at lave en anbefaling. | ClusterING |
PCA/T-SNE | Mest brugt til at reducere dimensionaliteten af dataene. Algoritmerne reducerer antallet af funktioner til 3 eller 4 vektorer med de højeste varianser. | Dimensionsreduktion |
Sådan vælger du Machine Learning-algoritme
Nu i denne maskinlærings-grundlæggende tutorial lærer vi, hvordan man vælger Machine Learning (ML) algoritme:
Der er masser af maskinlæringsalgoritmer. Valget af algoritmen er baseret på målet.
I maskinlæringseksemplet nedenfor er opgaven at forudsige typen af blomst blandt de tre sorter. Forudsigelserne er baseret på kronbladets længde og bredde. Billedet viser resultaterne af ti forskellige algoritmer. Billedet øverst til venstre er datasættet. Dataene er klassificeret i tre kategorier: rød, lyseblå og mørkeblå. Der er nogle grupperinger. For eksempel, fra det andet billede, hører alt øverst til venstre til den røde kategori, i den midterste del er der en blanding af usikkerhed og lyseblå, mens bunden svarer til den mørke kategori. De andre billeder viser forskellige algoritmer, og hvordan de forsøger at klassificere dataene.
Udfordringer og begrænsninger ved Machine Learning
Nu i denne maskinlæringsvejledning lærer vi om begrænsningerne ved maskinlæring:
Den primære udfordring ved maskinlæring er manglen på data eller mangfoldigheden i datasættet. En maskine kan ikke lære, hvis der ikke er nogen tilgængelige data. Desuden giver et datasæt med mangel på mangfoldighed maskinen en hård tid. En maskine skal have heterogenitet for at lære meningsfuld indsigt. Det er sjældent, at en algoritme kan udtrække information, når der er ingen eller få variationer. Det anbefales at have mindst 20 observationer pr. gruppe for at hjælpe maskinen med at lære. Denne begrænsning fører til dårlig evaluering og forudsigelse.
Anvendelse af Machine Learning
Lad os nu i denne maskinlæringsvejledning lære applikationerne til maskinlæring:
Augmentation:
- Machine learning, som hjælper mennesker med deres daglige opgaver, personligt eller kommercielt uden at have fuldstændig kontrol over outputtet. Sådan maskinlæring bruges på forskellige måder, såsom Virtual Assistant, Dataanalyse, softwareløsninger. Den primære bruger er at reducere fejl på grund af menneskelig bias.
Automation:
- Maskinlæring, som fungerer fuldstændigt selvstændigt inden for ethvert felt uden behov for nogen menneskelig indgriben. For eksempel robotter, der udfører de væsentlige procestrin i produktionsanlæg.
Finansindustri
- Machine learning vokser i popularitet i finansbranchen. Banker bruger hovedsageligt ML til at finde mønstre i dataene, men også for at forhindre svindel.
Regeringsorganisation
- Regeringen gør brug af ML til at styre den offentlige sikkerhed og forsyningsselskaber. Tag eksemplet med Kina med den massive ansigtsgenkendelse. Regeringen bruger Kunstig intelligens for at forhindre jaywalker.
Sundhedssektoren
- Healthcare var en af de første industrier, der brugte maskinlæring med billeddetektion.
Marketing
- Bred brug af kunstig intelligens sker i markedsføring takket være rigelig adgang til data. Før massedatas tidsalder udvikler forskere avancerede matematiske værktøjer som Bayesiansk analyse til at estimere værdien af en kunde. Med boomet af data er marketingafdelingen afhængig af AI for at optimere kundeforholdet og marketingkampagnen.
Eksempel på anvendelse af Machine Learning i Supply Chain
Maskinlæring giver fantastiske resultater for visuel mønstergenkendelse, hvilket åbner op for mange potentielle anvendelser inden for fysisk inspektion og vedligeholdelse på tværs af hele forsyningskædenetværket.
Uovervåget læring kan hurtigt søge efter sammenlignelige mønstre i det mangfoldige datasæt. Til gengæld kan maskinen udføre kvalitetsinspektion i hele logistikhubben, forsendelse med skader og slitage.
For eksempel, IBM's Watson-platform kan bestemme skader på forsendelsescontainere. Watson kombinerer visuelle og systembaserede data for at spore, rapportere og komme med anbefalinger i realtid.
I det seneste år har stock manager i vid udstrækning stolet på den primære metode til at evaluere og forudsige beholdningen. Når man kombinerer big data og maskinlæring, er der blevet implementeret bedre prognoseteknikker (en forbedring på 20 til 30 % i forhold til traditionelle prognoseværktøjer). Salgsmæssigt betyder det en stigning på 2 til 3 % på grund af den potentielle reduktion i lageromkostningerne.
Eksempel på Machine Learning Google Car
For eksempel kender alle Google-bilen. Bilen er fuld af lasere på taget, som fortæller den, hvor den er angående det omkringliggende område. Den har en radar foran, som informerer bilen om hastigheden og bevægelsen af alle bilerne omkring den. Den bruger alle disse data til ikke kun at finde ud af, hvordan man kører bilen, men også til at finde ud af og forudsige, hvad potentielle bilister omkring bilen vil gøre. Hvad der er imponerende er, at bilen behandler næsten en gigabyte i sekundet af data.
Hvorfor er maskinlæring vigtig?
Machine learning er det hidtil bedste værktøj til at analysere, forstå og identificere et mønster i dataene. En af hovedideerne bag machine learning er, at computeren kan trænes til at automatisere opgaver, der ville være udtømmende eller umulige for et menneske. Det klare brud fra den traditionelle analyse er, at maskinlæring kan tage beslutninger med minimal menneskelig indgriben.
Tag følgende eksempel for denne ML-tutorial; en detailhandler kan estimere prisen på et hus ud fra sin egen erfaring og sit kendskab til markedet.
En maskine kan trænes til at omsætte en eksperts viden til funktioner. Egenskaberne er alle de egenskaber ved et hus, et kvarter, et økonomisk miljø osv., der gør prisforskellen. For eksperten tog det nok nogle år at mestre kunsten at anslå prisen på et hus. Hans ekspertise bliver bedre og bedre efter hvert salg.
For maskinen kræver det millioner af data (f.eks.) at mestre denne kunst. Allerede i begyndelsen af sin indlæring laver maskinen en fejl, på en eller anden måde ligesom den yngre sælger. Når først maskinen ser alle eksemplet, fik den nok viden til at foretage sit skøn. Samtidig med en utrolig nøjagtighed. Maskinen er også i stand til at justere sin fejl i overensstemmelse hermed.
De fleste af de store virksomheder har forstået værdien af maskinlæring og opbevaring af data. McKinsey har vurderet, at værdien af analyser spænder fra $9.5 billioner til $15.4 billioner mens $5 til 7 billioner kan tilskrives de mest avancerede AI-teknikker.
Læs også Hvad er Fuzzy Logic? ArchiTecture, Application og Eksempel: Klik her