Machine Learning Tutorial för nybörjare: Vad är, grunderna i ML

Vad är maskininlärning?

Maskininlärning är ett system av datoralgoritmer som kan lära av exempel genom självförbättring utan att vara explicit kodad av en programmerare. Maskininlärning är en del av artificiell intelligens som kombinerar data med statistiska verktyg för att förutsäga en utdata som kan användas för att göra handlingsbara insikter.

Genombrottet kommer med idén att en maskin enskilt kan lära sig av data (dvs. exempel) för att producera korrekta resultat. Maskininlärning är nära relaterat till datautvinning och Bayesiansk prediktiv modellering. Maskinen tar emot data som indata och använder en algoritm för att formulera svar.

En typisk maskininlärningsuppgift är att ge en rekommendation. För dig som har en Netflix konto, är alla rekommendationer av filmer eller serier baserade på användarens historiska data. Teknikföretag använder oövervakat lärande för att förbättra användarupplevelsen med personlig rekommendation.

Maskininlärning används också för en mängd olika uppgifter som bedrägeriupptäckt, förutsägande underhåll, portföljoptimering, automatisera uppgifter och så vidare.

Maskininlärning vs. traditionell programmering

Traditionell programmering skiljer sig markant från maskininlärning. Inom traditionell programmering kodar en programmerare alla regler i samråd med en expert inom branschen för vilken mjukvara utvecklas. Varje regel är baserad på en logisk grund; maskinen kommer att köra en utdata efter den logiska satsen. När systemet blir komplext måste fler regler skrivas. Det kan snabbt bli ohållbart att underhålla.

Traditionell programmering
Traditionell programmering

Maskininlärning är tänkt att övervinna detta problem. Maskinen lär sig hur in- och utdata är korrelerade och den skriver en regel. Programmerarna behöver inte skriva nya regler varje gång det finns ny data. Algoritmerna anpassar sig som svar på nya data och erfarenheter för att förbättra effektiviteten över tid.

Maskininlärning

Maskininlärning

Hur fungerar maskininlärning?

Nu i den här självstudien för maskininlärning för nybörjare kommer vi att lära oss hur maskininlärning (ML) fungerar:

Maskininlärning är hjärnan där all inlärning sker. Maskinens sätt att lära sig liknar människan. Människor lär sig av erfarenhet. Ju mer vi vet, desto lättare kan vi förutse. I analogi, när vi står inför en okänd situation, är sannolikheten för framgång lägre än den kända situationen. Maskiner tränas på samma sätt. För att göra en korrekt förutsägelse ser maskinen ett exempel. När vi ger maskinen ett liknande exempel kan den räkna ut resultatet. Men precis som en människa, om dess matning ett tidigare osynligt exempel, har maskinen svårigheter att förutsäga.

Kärnmålet med maskininlärning är inlärning och slutledning. Först och främst lär sig maskinen genom upptäckten av mönster. Denna upptäckt görs tack vare datum. En avgörande del av dataforskaren är att noggrant välja vilken data som ska tillhandahållas till maskinen. Listan över attribut som används för att lösa ett problem kallas a funktion vektor. Du kan tänka på en funktionsvektor som en delmängd av data som används för att lösa ett problem.

Maskinen använder några snygga algoritmer för att förenkla verkligheten och omvandla denna upptäckt till en modell. Därför används inlärningsstadiet för att beskriva datan och sammanfatta det till en modell.

Maskininlärningsarbete

Till exempel försöker maskinen förstå förhållandet mellan en individs lön och sannolikheten att gå till en fancy restaurang. Det visar sig att maskinen hittar ett positivt samband mellan lön och att gå till en exklusiv restaurang: Det här är modellen

Slutsats

När modellen är byggd går det att testa hur kraftfull den är på aldrig skådad data. Den nya datan omvandlas till en funktionsvektor, går igenom modellen och ger en förutsägelse. Detta är den vackra delen av maskininlärning. Det finns ingen anledning att uppdatera reglerna eller träna modellen igen. Du kan använda den tidigare tränade modellen för att dra slutsatser om nya data.

Slutledning från modell

Livet för Machine Learning-program är enkelt och kan sammanfattas i följande punkter:

  1. Definiera en fråga
  2. Samla in data
  3. Visualisera data
  4. Tågalgoritm
  5. Testa algoritmen
  6. Samla in feedback
  7. Förfina algoritmen
  8. Slinga 4-7 tills resultatet är tillfredsställande
  9. Använd modellen för att göra en förutsägelse

När algoritmen väl blir bra på att dra de rätta slutsatserna tillämpar den den kunskapen på nya uppsättningar av data.

Maskininlärning Algorithms och var används de?

Nu i denna självstudie för maskininlärning för nybörjare kommer vi att lära oss var algoritmer för maskininlärning (ML) används:

Maskininlärning Algorithms

Maskininlärning Algorithms

Maskininlärning kan grupperas i två breda inlärningsuppgifter: Övervakad och Oövervakad. Det finns många andra algoritmer

Övervakad inlärning

En algoritm använder träningsdata och feedback från människor för att lära sig förhållandet mellan givna indata och en given utgång. Till exempel kan en utövare använda marknadsföringskostnader och väderprognoser som indata för att förutsäga försäljningen av burkar.

Du kan använda övervakad inlärning när utdata är kända. Algoritmen kommer att förutsäga nya data.

Det finns två kategorier av övervakad inlärning:

  • Klassificeringsuppgift
  • Regressionsuppgift

Klassificering

Föreställ dig att du vill förutsäga könet på en kund för en reklamfilm. Du kommer att börja samla in data om längd, vikt, jobb, lön, inköpskorg etc. från din kunddatabas. Du vet könet på var och en av dina kunder, det kan bara vara man eller kvinna. Syftet med klassificeraren kommer att vara att tilldela en sannolikhet att vara en man eller en kvinna (dvs. etiketten) baserat på informationen (dvs. egenskaper du har samlat in). När modellen lärt sig att känna igen man eller kvinna kan du använda nya data för att göra en förutsägelse. Till exempel har du precis fått ny information från en okänd kund och du vill veta om det är en man eller kvinna. Om klassificeraren förutsäger manlig = 70 % betyder det att algoritmen är säker på 70 % att denna kund är en man och 30 % är en kvinna.

Etiketten kan vara av två eller flera klasser. Ovanstående maskininlärningsexempel har bara två klasser, men om en klassificerare behöver förutsäga objekt har den dussintals klasser (t.ex. glas, bord, skor, etc. varje objekt representerar en klass)

Regression

När utdata är ett kontinuerligt värde är uppgiften en regression. Till exempel kan en finansanalytiker behöva prognostisera värdet på en aktie baserat på en rad funktioner som aktier, tidigare aktieprestationer, makroekonomiindex. Systemet kommer att tränas för att uppskatta priset på aktierna med lägsta möjliga fel.

Algoritm BESKRIVNING Typ
Linjär regression Hittar ett sätt att korrelera varje funktion till utdata för att hjälpa till att förutsäga framtida värden. Regression
Logistisk återgång Utvidgning av linjär regression som används för klassificeringsuppgifter. Utdatavariabeln 3 är binär (t.ex. endast svart eller vit) snarare än kontinuerlig (t.ex. en oändlig lista med potentiella färger) Klassificering
Beslutsträd Mycket tolkningsbar klassificerings- eller regressionsmodell som delar upp datafunktionsvärden i grenar vid beslutsnoder (t.ex. om en funktion är en färg, blir varje möjlig färg en ny gren) tills ett slutgiltigt beslutsutdata görs Regression
Klassificering
Naiva Bayes Den Bayesianska metoden är en klassificeringsmetod som använder sig av Bayesianska satsen. Teoremet uppdaterar förkunskapen om en händelse med den oberoende sannolikheten för varje funktion som kan påverka händelsen. Regression
Klassificering
Stöd vektor maskin
Support Vector Machine, eller SVM, används vanligtvis för klassificeringsuppgiften.
SVM-algoritmen hittar ett hyperplan som delade klasserna optimalt. Det är bäst att använda med en icke-linjär lösare.
Regression (inte särskilt vanligt)
Klassificering
Slumpmässig skog Algoritmen bygger på ett beslutsträd för att förbättra noggrannheten drastiskt. Random forest genererar många gånger enkla beslutsträd och använder metoden 'majoritetsröst' för att bestämma vilken etikett som ska returneras. För klassificeringsuppgiften kommer den slutliga förutsägelsen att vara den med flest röster; medan för regressionsuppgiften är den genomsnittliga förutsägelsen av alla träd den slutliga förutsägelsen. Regression
Klassificering
AdaBoost Klassificerings- eller regressionsteknik som använder en mängd modeller för att komma fram till ett beslut men väger dem baserat på deras noggrannhet i att förutsäga resultatet Regression
Klassificering
Gradienthöjande träd Gradientförstärkande träd är en toppmodern klassificerings-/regressionsteknik. Den fokuserar på felet som begåtts av de tidigare träden och försöker rätta till det. Regression
Klassificering

Oövervakat lärande

Vid oövervakat lärande utforskar en algoritm indata utan att ges en explicit utdatavariabel (t.ex. utforskar kunddemografiska data för att identifiera mönster)

Du kan använda den när du inte vet hur du ska klassificera data och du vill att algoritmen ska hitta mönster och klassificera data åt dig

Algoritmnamn BESKRIVNING Typ
K-betyder kluster Lägger in data i några grupper (k) som var och en innehåller data med liknande egenskaper (som bestäms av modellen, inte i förväg av människor) Clusteranvändning
Gaussisk blandningsmodell En generalisering av k-betyder klustring som ger mer flexibilitet i storleken och formen på grupper (kluster) Clusteranvändning
Hierarkisk gruppering Delar upp kluster längs ett hierarkiskt träd för att bilda ett klassificeringssystem.

Kan användas för Cluster lojalitetskortskund

Clusteranvändning
Rekommendationssystem Hjälp till att definiera relevant data för att göra en rekommendation. Clusteranvändning
PCA/T-SNE Används oftast för att minska dimensionaliteten hos datan. Algoritmerna minskar antalet funktioner till 3 eller 4 vektorer med de högsta varianserna. Dimensionsreduktion

Hur man väljer maskininlärningsalgoritm

Nu i den här självstudien för maskininlärning kommer vi att lära oss hur man väljer algoritm för maskininlärning (ML):

Det finns gott om maskininlärningsalgoritmer. Valet av algoritm baseras på målet.

I maskininlärningsexemplet nedan är uppgiften att förutsäga typen av blomma bland de tre sorterna. Förutsägelserna baseras på kronbladets längd och bredd. Bilden visar resultatet av tio olika algoritmer. Bilden uppe till vänster är datasetet. Uppgifterna delas in i tre kategorier: röd, ljusblå och mörkblå. Det finns några grupperingar. Till exempel från den andra bilden tillhör allt i den övre vänstra delen den röda kategorin, i mitten finns en blandning av osäkerhet och ljusblått medan den nedre motsvarar den mörka kategorin. De andra bilderna visar olika algoritmer och hur de försöker klassificera data.

Hur man väljer maskininlärningsalgoritm

Utmaningar och begränsningar för maskininlärning

Nu i denna självstudie för maskininlärning kommer vi att lära oss om begränsningarna för maskininlärning:

Den primära utmaningen med maskininlärning är bristen på data eller mångfalden i datamängden. En maskin kan inte lära sig om det inte finns någon tillgänglig data. Dessutom ger en datauppsättning med brist på mångfald maskinen svårt. En maskin behöver ha heterogenitet för att lära sig meningsfull insikt. Det är sällsynt att en algoritm kan extrahera information när det inte finns några eller få variationer. Det rekommenderas att ha minst 20 observationer per grupp för att hjälpa maskinen att lära sig. Denna begränsning leder till dålig utvärdering och förutsägelse.

Tillämpning av maskininlärning

Låt oss nu i denna självstudie för maskininlärning lära oss tillämpningarna för maskininlärning:

Ökning:

  • Maskininlärning, som hjälper människor med deras dagliga uppgifter, personligen eller kommersiellt utan att ha fullständig kontroll över resultatet. Sådan maskininlärning används på olika sätt som Virtual Assistant, Dataanalys, mjukvarulösningar. Den primära användaren är att minska fel på grund av mänsklig fördom.

Automation:

  • Maskininlärning, som fungerar helt autonomt inom alla områden utan behov av mänsklig inblandning. Till exempel robotar som utför de väsentliga processtegen i tillverkningsanläggningar.

Finansbranschen

  • Maskininlärning växer i popularitet inom finansbranschen. Banker använder främst ML för att hitta mönster i data men också för att förhindra bedrägerier.

Statlig organisation

  • Regeringen använder sig av ML för att hantera allmän säkerhet och allmännyttiga tjänster. Ta exemplet med Kina med den massiva ansiktsigenkänningen. Regeringen använder Artificiell intelligens för att förhindra jaywalker.

Hälsoindustrin

  • Healthcare var en av de första industrin som använde maskininlärning med bilddetektering.

Marketing

  • Bred användning av AI görs i marknadsföringen tack vare riklig tillgång till data. Innan massdatas ålder utvecklar forskare avancerade matematiska verktyg som Bayesiansk analys för att uppskatta värdet av en kund. Med databoomen förlitar sig marknadsavdelningen på AI för att optimera kundrelationen och marknadsföringskampanjen.

Exempel på tillämpning av Machine Learning i Supply Chain

Maskininlärning ger fantastiska resultat för visuell mönsterigenkänning, vilket öppnar upp för många potentiella tillämpningar inom fysisk inspektion och underhåll över hela distributionskedjans nätverk.

Oövervakat lärande kan snabbt söka efter jämförbara mönster i den mångsidiga datamängden. Maskinen kan i sin tur utföra kvalitetskontroll i hela logistiknavet, frakt med skador och slitage.

Till exempel, IBMs Watson-plattform kan fastställa skador på transportbehållare. Watson kombinerar visuell och systembaserad data för att spåra, rapportera och ge rekommendationer i realtid.

Under det senaste året förlitar sig lagerchefen mycket på den primära metoden för att utvärdera och prognostisera lagret. När man kombinerar big data och maskininlärning har bättre prognostekniker implementerats (en förbättring med 20 till 30 % jämfört med traditionella prognosverktyg). Försäljningsmässigt innebär det en ökning med 2 till 3 % på grund av den potentiella minskningen av lagerkostnaderna.

Exempel på maskininlärning från Google Car

Till exempel, alla känner till Google-bilen. Bilen är full av lasrar på taket som talar om var den befinner sig angående omgivningen. Den har radar i fronten, som informerar bilen om hastigheten och rörelsen för alla bilar runt den. Den använder all denna data för att inte bara ta reda på hur man kör bilen utan också för att ta reda på och förutsäga vad potentiella förare runt bilen kommer att göra. Det som är imponerande är att bilen bearbetar nästan en gigabyte per sekund med data.

Tillämpning av maskininlärning

Varför är maskininlärning viktigt?

Maskininlärning är det bästa verktyget hittills för att analysera, förstå och identifiera ett mönster i datan. En av huvudidéerna bakom maskininlärning är att datorn kan tränas för att automatisera uppgifter som skulle vara uttömmande eller omöjliga för en människa. Det tydliga brottet från den traditionella analysen är att maskininlärning kan fatta beslut med minimal mänsklig inblandning.

Ta följande exempel för denna ML-tutorial; en återförsäljare kan uppskatta priset på ett hus utifrån sin egen erfarenhet och sin kunskap om marknaden.

En maskin kan tränas i att omsätta en experts kunskap till funktioner. Funktionerna är alla egenskaper hos ett hus, stadsdel, ekonomisk miljö etc. som gör prisskillnaden. För experten tog det förmodligen några år att bemästra konsten att uppskatta priset på ett hus. Hans expertis blir bättre och bättre efter varje försäljning.

För maskinen krävs miljontals data (dvs. exempel) för att bemästra denna konst. Allra i början av sin inlärning gör maskinen ett misstag, på något sätt som juniorförsäljaren. När maskinen väl ser alla exemplen fick den tillräckligt med kunskap för att göra sin uppskattning. Samtidigt med otrolig noggrannhet. Maskinen kan också anpassa sitt misstag därefter.

De flesta av de stora företagen har förstått värdet av maskininlärning och att hålla data. McKinsey har uppskattat att värdet av analyser sträcker sig från $9.5 biljoner till $15.4 biljoner medan $5 till 7 biljoner kan tillskrivas de mest avancerade AI-teknikerna.

Läs också Vad är Fuzzy Logic? ArchiTecture, Application och Exempel: Klicka här