Maskinlæringsopplæring for nybegynnere: Hva er, grunnleggende om ML
Hva er maskinlæring?
Maskinlæring er et system med dataalgoritmer som kan lære av eksempel gjennom selvforbedring uten å bli eksplisitt kodet av en programmerer. Maskinlæring er en del av kunstig intelligens som kombinerer data med statistiske verktøy for å forutsi en utgang som kan brukes til å lage handlingskraftig innsikt.
Gjennombruddet kommer med ideen om at en maskin enkelt kan lære av dataene (dvs. eksempel) for å produsere nøyaktige resultater. Maskinlæring er nært knyttet til data mining og Bayesiansk prediktiv modellering. Maskinen mottar data som input og bruker en algoritme for å formulere svar.
En typisk maskinlæringsoppgave er å gi en anbefaling. For de som har en Netflix konto, er alle anbefalinger av filmer eller serier basert på brukerens historiske data. Teknologiselskaper bruker uovervåket læring for å forbedre brukeropplevelsen med en personlig anbefaling.
Maskinlæring brukes også til en rekke oppgaver som svindeloppdagelse, prediktivt vedlikehold, porteføljeoptimalisering, automatisering av oppgaver og så videre.
Maskinlæring vs. tradisjonell programmering
Tradisjonell programmering skiller seg betydelig fra maskinlæring. I tradisjonell programmering koder en programmerer alle reglene i samråd med en ekspert i bransjen det utvikles programvare for. Hver regel er basert på et logisk grunnlag; maskinen vil utføre en utgang etter den logiske setningen. Når systemet blir komplekst, må flere regler skrives. Det kan fort bli uholdbart å vedlikeholde.
Maskinlæring er ment å overvinne dette problemet. Maskinen lærer hvordan inngangs- og utdataene er korrelert, og den skriver en regel. Programmererne trenger ikke å skrive nye regler hver gang det kommer nye data. Algoritmene tilpasser seg som svar på nye data og erfaringer for å forbedre effektiviteten over tid.
Hvordan fungerer maskinlæring?
Nå i denne veiledningen for maskinlæring for nybegynnere vil vi lære hvordan maskinlæring (ML) fungerer:
Maskinlæring er hjernen der all læring finner sted. Måten maskinen lærer på ligner på mennesket. Mennesker lærer av erfaring. Jo mer vi vet, jo lettere kan vi forutsi. I analogi, når vi står overfor en ukjent situasjon, er sannsynligheten for suksess lavere enn den kjente situasjonen. Maskiner trenes på samme måte. For å gjøre en nøyaktig prediksjon, ser maskinen et eksempel. Når vi gir maskinen et lignende eksempel, kan den finne ut av resultatet. Men som et menneske, hvis maten er et tidligere usett eksempel, har maskinen vanskeligheter med å forutsi.
Kjernemålet med maskinlæring er læring og slutning. Først av alt lærer maskinen gjennom oppdagelsen av mønstre. Denne oppdagelsen er gjort takket være dato. En avgjørende del av dataforskeren er å velge nøye hvilke data som skal gis til maskinen. Listen over attributter som brukes til å løse et problem kalles a funksjonsvektor. Du kan tenke på en funksjonsvektor som en delmengde av data som brukes til å takle et problem.
Maskinen bruker noen fancy algoritmer for å forenkle virkeligheten og forvandle denne oppdagelsen til en modell. Derfor brukes læringsstadiet til å beskrive dataene og oppsummere dem til en modell.
For eksempel prøver maskinen å forstå forholdet mellom lønnen til en person og sannsynligheten for å gå til en fancy restaurant. Det viser seg at maskinen finner et positivt forhold mellom lønn og å gå på en eksklusiv restaurant: Dette er modellen
Utlede
Når modellen er bygget, er det mulig å teste hvor kraftig den er på data som ikke er sett før. De nye dataene transformeres til en funksjonsvektor, går gjennom modellen og gir en prediksjon. Dette er den vakre delen av maskinlæring. Det er ikke nødvendig å oppdatere reglene eller trene modellen på nytt. Du kan bruke modellen som tidligere er trent til å trekke slutninger om nye data.
Livet til maskinlæringsprogrammer er enkelt og kan oppsummeres i følgende punkter:
- Definer et spørsmål
- Samle data
- Visualiser data
- Togalgoritme
- Test algoritmen
- Samle tilbakemeldinger
- Avgrens algoritmen
- Sløyfe 4-7 til resultatene er tilfredsstillende
- Bruk modellen til å lage en prediksjon
Når algoritmen blir god til å trekke de riktige konklusjonene, bruker den kunnskapen til nye sett med data.
Maskinlæring Algorithms og hvor brukes de?
Nå i denne maskinlæringsopplæringen for nybegynnere vil vi lære hvor maskinlæringsalgoritmer (ML) brukes:
Maskinlæring kan grupperes i to brede læringsoppgaver: overvåket og uten tilsyn. Det finnes mange andre algoritmer
Veiledet læring
En algoritme bruker treningsdata og tilbakemeldinger fra mennesker for å lære forholdet mellom gitte innganger og en gitt utgang. For eksempel kan en utøver bruke markedsføringskostnader og værmeldinger som inputdata for å forutsi salget av bokser.
Du kan bruke overvåket læring når utdataene er kjent. Algoritmen vil forutsi nye data.
Det er to kategorier av veiledet læring:
- Klassifiseringsoppgave
- Regresjonsoppgave
Klassifisering
Tenk deg at du ønsker å forutsi kjønnet til en kunde for en reklamefilm. Du vil begynne å samle inn data om høyde, vekt, jobb, lønn, innkjøpskurv osv. fra kundedatabasen din. Du vet kjønnet til hver av kundene dine, det kan bare være mann eller kvinne. Målet med klassifikatoren vil være å tilordne en sannsynlighet for å være en mann eller en kvinne (dvs. etiketten) basert på informasjonen (dvs. funksjoner du har samlet inn). Når modellen lærte å gjenkjenne mann eller kvinne, kan du bruke nye data til å lage en prediksjon. For eksempel har du nettopp fått ny informasjon fra en ukjent kunde, og du vil vite om det er en mann eller en kvinne. Hvis klassifikatoren forutsier mann = 70 %, betyr det at algoritmen ved 70 % er sikker på at denne kunden er en mann, og 30 % er en kvinne.
Etiketten kan være av to eller flere klasser. Maskinlæringseksemplet ovenfor har bare to klasser, men hvis en klassifikator trenger å forutsi objekt, har den dusinvis av klasser (f.eks. glass, bord, sko osv. hvert objekt representerer en klasse)
Regresjon
Når utgangen er en kontinuerlig verdi, er oppgaven en regresjon. For eksempel kan en finansanalytiker trenge å forutsi verdien av en aksje basert på en rekke funksjoner som egenkapital, tidligere aksjeresultater, makroøkonomisk indeks. Systemet vil bli opplært til å estimere prisen på aksjene med lavest mulig feil.
Algoritme | Description | typen |
---|---|---|
Lineær regresjon | Finner en måte å korrelere hver funksjon til utdataene for å hjelpe til med å forutsi fremtidige verdier. | Regresjon |
Logistisk regresjon | Utvidelse av lineær regresjon som brukes til klassifiseringsoppgaver. Utgangsvariabelen 3 er binær (f.eks. bare svart eller hvit) i stedet for kontinuerlig (f.eks. en uendelig liste over potensielle farger) | Klassifisering |
Beslutningstre | Svært tolkbar klassifiserings- eller regresjonsmodell som deler datafunksjonsverdier i grener ved beslutningsnoder (f.eks. hvis en funksjon er en farge, blir hver mulig farge en ny gren) inntil en endelig beslutningsutgang er tatt | Regresjon Klassifisering |
Naiv Bayes | Bayesiansk metode er en klassifiseringsmetode som benytter seg av Bayesiansk teoremet. Teoremet oppdaterer forkunnskapen om en hendelse med den uavhengige sannsynligheten for hver funksjon som kan påvirke hendelsen. | Regresjon Klassifisering |
Støtte vektor maskin |
Support Vector Machine, eller SVM, brukes vanligvis til klassifiseringsoppgaven. SVM-algoritmen finner et hyperplan som optimalt delte klassene. Den brukes best med en ikke-lineær løser. |
Regresjon (ikke veldig vanlig) Klassifisering |
Tilfeldig skog | Algoritmen er bygget på et beslutningstre for å forbedre nøyaktigheten drastisk. Tilfeldig skog genererer mange ganger enkle beslutningstrær og bruker 'flertallsstemme'-metoden for å bestemme hvilken etikett som skal returneres. For klassifiseringsoppgaven vil den endelige prediksjonen være den med flest stemmer; mens for regresjonsoppgaven er gjennomsnittsprediksjonen for alle trærne den endelige prediksjonen. | Regresjon Klassifisering |
AdaBoost | Klassifiserings- eller regresjonsteknikk som bruker en mengde modeller for å komme med en beslutning, men veier dem basert på nøyaktigheten deres i å forutsi utfallet | Regresjon Klassifisering |
Gradientforsterkende trær | Gradientforsterkende trær er en toppmoderne klassifiserings-/regresjonsteknikk. Den fokuserer på feilen begått av de tidligere trærne og prøver å rette den. | Regresjon Klassifisering |
Uovervåket læring
Ved uovervåket læring utforsker en algoritme inputdata uten å bli gitt en eksplisitt utdatavariabel (f.eks. utforsker kundedemografiske data for å identifisere mønstre)
Du kan bruke den når du ikke vet hvordan du skal klassifisere dataene, og du vil at algoritmen skal finne mønstre og klassifisere dataene for deg
Algoritmenavn | Description | typen |
---|---|---|
K-betyr klynging | Setter data inn i noen grupper (k) som hver inneholder data med lignende egenskaper (som bestemt av modellen, ikke på forhånd av mennesker) | Clustering |
Gaussisk blandingsmodell | En generalisering av k-betyr gruppering som gir mer fleksibilitet i størrelsen og formen på grupper (klynger) | Clustering |
Hierarkisk klynging | Splitter klynger langs et hierarkisk tre for å danne et klassifiseringssystem.
Kan brukes til Cluster lojalitetskortkunde |
Clustering |
Recommender system | Hjelp til å definere relevante data for å gi en anbefaling. | Clustering |
PCA/T-SNE | Mest brukt for å redusere dimensjonaliteten til dataene. Algoritmene reduserer antall funksjoner til 3 eller 4 vektorer med de høyeste variansene. | Dimensjonsreduksjon |
Hvordan velge maskinlæringsalgoritme
Nå i denne grunnleggende veiledningen for maskinlæring vil vi lære hvordan du velger algoritme for maskinlæring (ML):
Det er nok av maskinlæringsalgoritmer. Valget av algoritmen er basert på målet.
I maskinlæringseksemplet nedenfor er oppgaven å forutsi typen blomst blant de tre variantene. Spådommene er basert på lengden og bredden på kronbladet. Bildet viser resultatene av ti forskjellige algoritmer. Bildet øverst til venstre er datasettet. Dataene er klassifisert i tre kategorier: rød, lyseblå og mørkeblå. Det er noen grupperinger. For eksempel, fra det andre bildet, tilhører alt øverst til venstre den røde kategorien, i den midterste delen er det en blanding av usikkerhet og lyseblått mens bunnen tilsvarer den mørke kategorien. De andre bildene viser forskjellige algoritmer og hvordan de prøver å klassifisere dataene.
Utfordringer og begrensninger ved maskinlæring
Nå i denne maskinlæringsveiledningen vil vi lære om begrensningene ved maskinlæring:
Den primære utfordringen med maskinlæring er mangelen på data eller mangfoldet i datasettet. En maskin kan ikke lære hvis det ikke er data tilgjengelig. Dessuten gir et datasett med mangel på mangfold maskinen vanskelig. En maskin må ha heterogenitet for å lære meningsfull innsikt. Det er sjelden at en algoritme kan trekke ut informasjon når det er ingen eller få variasjoner. Det anbefales å ha minst 20 observasjoner per gruppe for å hjelpe maskinen med å lære. Denne begrensningen fører til dårlig evaluering og prediksjon.
Anvendelse av maskinlæring
Nå i denne maskinlæringsopplæringen, la oss lære applikasjonene til maskinlæring:
Forstørrelse:
- Maskinlæring, som hjelper mennesker med deres daglige oppgaver, personlig eller kommersielt uten å ha full kontroll over produksjonen. Slik maskinlæring brukes på forskjellige måter som Virtual Assistant, Dataanalyse, programvareløsninger. Den primære brukeren er å redusere feil på grunn av menneskelig skjevhet.
Automatisering:
- Maskinlæring, som fungerer helt autonomt i alle felt uten behov for noen menneskelig inngripen. For eksempel roboter som utfører de essensielle prosesstrinnene i produksjonsanlegg.
Finansindustri
- Maskinlæring vokser i popularitet i finansbransjen. Banker bruker hovedsakelig ML for å finne mønstre inne i dataene, men også for å forhindre svindel.
Statlig organisasjon
- Regjeringen bruker ML for å håndtere offentlig sikkerhet og verktøy. Ta eksemplet med Kina med den massive ansiktsgjenkjenningen. Regjeringen bruker Kunstig intelligens for å forhindre jaywalker.
Helsevesenet
- Healthcare var en av de første bransjene som brukte maskinlæring med bildegjenkjenning.
Marketing
- Bred bruk av AI gjøres i markedsføring takket være rikelig tilgang til data. Før massedataenes tidsalder utvikler forskere avanserte matematiske verktøy som Bayesiansk analyse for å estimere verdien av en kunde. Med boomen av data er markedsavdelingen avhengig av AI for å optimalisere kundeforholdet og markedsføringskampanjen.
Eksempel på anvendelse av maskinlæring i forsyningskjeden
Maskinlæring gir fantastiske resultater for visuell mønstergjenkjenning, og åpner for mange potensielle bruksområder innen fysisk inspeksjon og vedlikehold på tvers av hele forsyningskjedenettverket.
Uovervåket læring kan raskt søke etter sammenlignbare mønstre i det mangfoldige datasettet. Maskinen kan på sin side utføre kvalitetskontroll i hele logistikkhuben, forsendelse med skader og slitasje.
Eksempelvis IBMWatson-plattformen kan fastslå skader på fraktbeholdere. Watson kombinerer visuelle og systembaserte data for å spore, rapportere og gi anbefalinger i sanntid.
I det siste året stoler aksjesjef i stor grad på den primære metoden for å evaluere og forutsi beholdningen. Når man kombinerer big data og maskinlæring, har bedre prognoseteknikker blitt implementert (en forbedring på 20 til 30 % i forhold til tradisjonelle prognoseverktøy). Salgsmessig betyr det en økning på 2 til 3 % på grunn av potensiell reduksjon i lagerkostnader.
Eksempel på maskinlæring Google Car
For eksempel kjenner alle Google-bilen. Bilen er full av lasere på taket som forteller den hvor den er angående området rundt. Den har radar foran, som informerer bilen om hastigheten og bevegelsen til alle bilene rundt den. Den bruker alle disse dataene til å finne ut ikke bare hvordan man kjører bilen, men også for å finne ut og forutsi hva potensielle sjåfører rundt bilen kommer til å gjøre. Det som er imponerende er at bilen behandler nesten en gigabyte i sekundet med data.
Hvorfor er maskinlæring viktig?
Maskinlæring er det beste verktøyet så langt for å analysere, forstå og identifisere et mønster i dataene. En av hovedideene bak maskinlæring er at datamaskinen kan trenes til å automatisere oppgaver som ville være uttømmende eller umulige for et menneske. Det klare bruddet fra den tradisjonelle analysen er at maskinlæring kan ta beslutninger med minimal menneskelig innblanding.
Ta følgende eksempel for denne ML-opplæringen; en forhandler kan estimere prisen på et hus basert på egen erfaring og kunnskap om markedet.
En maskin kan trenes til å omsette kunnskapen til en ekspert til funksjoner. Egenskapene er alle egenskapene til et hus, nabolag, økonomisk miljø osv. som utgjør prisforskjellen. For eksperten tok det nok noen år å mestre kunsten å anslå prisen på et hus. Hans ekspertise blir bedre og bedre etter hvert salg.
For maskinen krever det millioner av data, (f.eks.) for å mestre denne kunsten. Helt i begynnelsen av læringen gjør maskinen en feil, på en måte som juniorselgeren. Når maskinen ser alle eksemplene, fikk den nok kunnskap til å gjøre sitt estimat. Samtidig med en utrolig nøyaktighet. Maskinen er også i stand til å justere feilen deretter.
De fleste av det store selskapet har forstått verdien av maskinlæring og å holde data. McKinsey har anslått at verdien av analyser varierer fra $9.5 billioner til $15.4 billioner mens $5 til 7 billioner kan tilskrives de mest avanserte AI-teknikkene.
Les også Hva er Fuzzy Logic? ArchiTecture, Application og Eksempel: Klikk her