Gépi tanulási oktatóanyag kezdőknek: Mi az, az ML alapjai

Mi a gépi tanulás?

Gépi tanulás számítógépes algoritmusok rendszere, amely önfejlesztésen keresztül képes tanulni a példából anélkül, hogy egy programozó kifejezetten kódolná. A gépi tanulás a mesterséges intelligencia része, amely egyesíti az adatokat statisztikai eszközökkel, hogy előre jelezze azt a kimenetet, amely felhasználható gyakorlati betekintések készítésére.

Az áttörést az az elképzelés hozta meg, hogy a gép egyedileg képes tanulni az adatokból (pl. példából), hogy pontos eredményeket hozzon létre. A gépi tanulás szorosan kapcsolódik az adatbányászathoz és a Bayes-féle prediktív modellezéshez. A gép bemenetként adatokat fogad, és egy algoritmus segítségével fogalmazza meg a válaszokat.

Egy tipikus gépi tanulási feladat az ajánlás. Azok számára, akiknek a Netflix fiókjában minden filmre vagy sorozatra vonatkozó ajánlás a felhasználó előzményadatain alapul. Technikai cégek használják felügyelet nélküli tanulás hogy személyre szabott ajánlásokkal javítsa a felhasználói élményt.

A gépi tanulást számos feladathoz is használják, mint például a csalások felderítése, a prediktív karbantartás, a portfólió optimalizálása, a feladatok automatizálása és így tovább.

Gépi tanulás kontra hagyományos programozás

A hagyományos programozás jelentősen eltér a gépi tanulástól. A hagyományos programozás során egy programozó kódolja az összes szabályt azon iparág szakértőjével egyeztetve, amelyhez szoftvert fejlesztenek. Minden szabály logikai alapokon nyugszik; a gép a logikai utasítást követően egy kimenetet hajt végre. Amikor a rendszer bonyolulttá válik, több szabályt kell írni. Fenntartása gyorsan fenntarthatatlanná válhat.

Hagyományos programozás
Hagyományos programozás

A gépi tanulásnak ezt a problémát kellene megoldania. A gép megtanulja a bemeneti és kimeneti adatok korrelációját, és szabályt ír. A programozóknak nem kell új szabályokat írniuk minden alkalommal, amikor új adat érkezik. Az algoritmusok alkalmazkodnak az új adatokhoz és tapasztalatokhoz, hogy idővel javítsák a hatékonyságot.

Gépi tanulás

Gépi tanulás

Hogyan működik a gépi tanulás?

Most ebben a gépi tanulás alapjai kezdőknek oktatóanyagában megtudjuk, hogyan működik a gépi tanulás (ML):

A gépi tanulás az az agy, ahol minden tanulás zajlik. A gép tanulási módja hasonló az emberéhez. Az ember a tapasztalatból tanul. Minél többet tudunk, annál könnyebben megjósolhatjuk. Hasonlatosan, amikor egy ismeretlen helyzettel szembesülünk, a siker valószínűsége kisebb, mint az ismert helyzeté. A gépeket ugyanúgy képezik ki. A pontos előrejelzéshez a gép lát egy példát. Ha egy hasonló példát adunk a gépnek, kitalálhatja az eredményt. Azonban az emberhez hasonlóan, ha egy korábban nem látott példát táplál, a gépnek is nehézségei vannak megjósolni.

A gépi tanulás alapvető célja a tanulás és a következtetés. Először is, a gép a minták felfedezésén keresztül tanul. Ez a felfedezés annak köszönhető dátum. Az adattudós egyik kulcsfontosságú része, hogy körültekintően válassza ki, mely adatokat adja át a gépnek. A probléma megoldásához használt attribútumok listáját a jellemző vektor. A jellemzővektort az adatok egy részhalmazának tekintheti, amelyet egy probléma megoldására használnak.

A gép néhány divatos algoritmust használ, hogy leegyszerűsítse a valóságot, és ezt a felfedezést a modell. Ezért a tanulási szakaszt az adatok leírására és modellben való összefoglalására használják.

Gépi tanulási munka

Például a gép megpróbálja megérteni az egyén bére és annak a valószínűsége közötti összefüggést, hogy elmegy egy elegáns étterembe. Kiderült, hogy a gép pozitív kapcsolatot talál a bér és a csúcskategóriás étterembe járás között: ez a modell

Következtetés

A modell felépítésekor soha nem látott adatokon lehet tesztelni, hogy mennyire erős. Az új adatok jellemzővektorokká alakulnak, átmennek a modellen, és előrejelzést adnak. Ez mind a gépi tanulás gyönyörű része. Nincs szükség a szabályok frissítésére vagy a modell újbóli betanítására. A korábban betanított modell segítségével új adatokra vonhat le következtetéseket.

Következtetés a modellből

A Machine Learning programok élete egyszerű, és a következő pontokban foglalható össze:

  1. Határozzon meg egy kérdést
  2. Adatgyűjtés
  3. Vizualizálja az adatokat
  4. Vonat algoritmus
  5. Tesztelje az algoritmust
  6. Gyűjts visszajelzést
  7. Finomítsa az algoritmust
  8. Ismételje meg a 4-7. ciklust, amíg az eredmény kielégítő lesz
  9. Használja a modellt az előrejelzéshez

Amint az algoritmus képes lesz levonni a megfelelő következtetéseket, ezt a tudást új adathalmazokra alkalmazza.

Gépi tanulás Algorithms és hol használják?

Ebben a kezdőknek szóló gépi tanulási oktatóanyagban megtudjuk, hol használják a gépi tanulási (ML) algoritmusokat:

Gépi tanulás Algorithms

Gépi tanulás Algorithms

A gépi tanulás két nagy tanulási feladatra osztható: Felügyelt és Felügyelet nélküli. Sok más algoritmus is létezik

Felügyelt tanulás

Egy algoritmus a betanítási adatokat és az emberektől származó visszacsatolást használja fel, hogy megtanulja az adott bemenetek és az adott kimenet kapcsolatát. Például egy szakember felhasználhatja a marketingköltségeket és az időjárás-előrejelzést bemeneti adatként a konzervdobozok értékesítésének előrejelzéséhez.

Felügyelt tanulást használhat, ha a kimeneti adatok ismertek. Az algoritmus előrejelzi az új adatokat.

Két kategória létezik felügyelt tanulás:

  • Osztályozási feladat
  • Regressziós feladat

Osztályozás

Képzelje el, hogy meg akarja jósolni az ügyfél nemét egy reklámban. Elkezdi gyűjteni az adatokat a magasságról, súlyról, állásról, fizetésről, vásárlási kosárról stb. az ügyféladatbázisból. Minden ügyfele nemét ismeri, az csak férfi vagy nő lehet. Az osztályozó célja az lesz, hogy az információk (azaz az Ön által gyűjtött jellemzők) alapján hozzárendelje annak valószínűségét, hogy férfi vagy nő (azaz a címke). Amikor a modell megtanulta, hogyan kell felismerni a férfiakat vagy a nőket, az új adatok alapján jóslatokat készíthet. Például éppen most kapott új információt egy ismeretlen ügyféltől, és szeretné tudni, hogy férfi vagy nő. Ha az osztályozó férfi = 70%-ot jósol, az azt jelenti, hogy az algoritmus 70%-ban biztos abban, hogy ez az ügyfél férfi, 30%-ban pedig nő.

A címke két vagy több osztályú lehet. A fenti gépi tanulási példának csak két osztálya van, de ha egy osztályozónak objektumot kell előre jeleznie, akkor több tucat osztálya van (pl. üveg, asztal, cipő stb. minden objektum egy osztályt képvisel)

Regresszió

Ha a kimenet folytonos érték, akkor a feladat regresszió. Előfordulhat például, hogy egy pénzügyi elemzőnek előrejelzést kell készítenie egy részvény értékéről olyan tényezők alapján, mint a részvények, a részvények korábbi teljesítménye vagy a makroökonómiai index. A rendszert arra tanítják, hogy a lehető legkisebb hibával becsülje meg a részvények árfolyamát.

Algoritmus Leírás típus
Lineáris regresszió Megtalálja a módját, hogy az egyes jellemzőket a kimenettel korrelálja, hogy segítsen előre jelezni a jövőbeli értékeket. Regresszió
Logisztikus regresszió Az osztályozási feladatokhoz használt lineáris regresszió kiterjesztése. A 3-as kimeneti változó bináris (pl. csak fekete vagy fehér), nem pedig folyamatos (pl. a lehetséges színek végtelen listája) Osztályozás
Döntési fa Jól értelmezhető osztályozási vagy regressziós modell, amely az adatjellemzők értékeit ágakra osztja a döntési csomópontokon (pl. ha egy jellemző egy szín, minden lehetséges szín új ággá válik), amíg meg nem születik a végső döntés kimenet Regresszió
Osztályozás
Naiv Bayes A Bayes-módszer egy olyan osztályozási módszer, amely a Bayes-tételt használja. A tétel frissíti az esemény előzetes tudását minden olyan jellemző független valószínűségével, amely befolyásolhatja az eseményt. Regresszió
Osztályozás
Támogatja a vektor gépet
A Support Vector Machine-t vagy SVM-et általában az osztályozási feladathoz használják.
Az SVM algoritmus talál egy hipersíkot, amely optimálisan osztja fel az osztályokat. Legjobb nemlineáris megoldóval használni.
Regresszió (nem túl gyakori)
Osztályozás
Véletlen erdő Az algoritmus egy döntési fára épül, hogy drasztikusan javítsa a pontosságot. A véletlenszerű erdő sokszor egyszerű döntési fákat hoz létre, és a „többségi szavazás” módszerével dönti el, melyik címkét adja vissza. Az osztályozási feladatnál a végső jóslat az lesz, aki a legtöbb szavazatot kapja; míg a regressziós feladatnál az összes fa átlagos előrejelzése a végső előrejelzés. Regresszió
Osztályozás
AdaBoost Osztályozási vagy regressziós technika, amely modellek sokaságát használja a döntés meghozatalához, de mérlegeli azokat a pontosságuk alapján az eredmény előrejelzésében Regresszió
Osztályozás
Gradiensnövelő fák A gradiensnövelő fák a legmodernebb osztályozási/regressziós technika. Az előző fák által elkövetett hibára összpontosít, és megpróbálja kijavítani. Regresszió
Osztályozás

Nem felügyelt tanulás

Felügyelet nélküli tanulás során egy algoritmus feltárja a bemeneti adatokat anélkül, hogy kifejezett kimeneti változót adna (pl. megvizsgálja az ügyfelek demográfiai adatait a minták azonosítása érdekében)

Akkor használhatja, ha nem tudja, hogyan kell az adatokat osztályozni, és azt szeretné, hogy az algoritmus mintákat találjon és osztályozza az adatokat az Ön helyett.

Algoritmus neve Leírás típus
A K-csoportosítást jelent Az adatokat néhány csoportba sorolja (k), amelyek mindegyike hasonló jellemzőkkel rendelkező adatokat tartalmaz (a modell által meghatározott, nem az emberek által előre meghatározott) ClusterING
Gauss keverék modell A k-means klaszterezés általánosítása, amely nagyobb rugalmasságot biztosít a csoportok (klaszterek) méretében és alakjában. ClusterING
Hierarchikus csoportosítás Felosztja a klasztereket egy hierarchikus fa mentén, így osztályozási rendszert alkot.

Lehet használni Cluster törzsvásárlói

ClusterING
Ajánlói rendszer Segítség az ajánlás elkészítéséhez szükséges adatok meghatározásában. ClusterING
PCA/T-SNE Leginkább az adatok dimenziójának csökkentésére használják. Az algoritmusok a jellemzők számát 3 vagy 4 vektorra csökkentik a legnagyobb eltérésekkel. Méretcsökkentés

Hogyan válasszunk gépi tanulási algoritmust

Ebben a gépi tanulás alapjairól szóló oktatóanyagban megtanuljuk, hogyan válasszuk ki a gépi tanulási (ML) algoritmust:

Rengeteg gépi tanulási algoritmus létezik. Az algoritmus kiválasztása a célon alapul.

Az alábbi gépi tanulási példában a feladat az, hogy megjósoljuk a három fajta virágtípusát. Az előrejelzések a szirom hosszán és szélességén alapulnak. A kép tíz különböző algoritmus eredményeit ábrázolja. A bal felső sarokban lévő képen az adatkészlet látható. Az adatok három kategóriába sorolhatók: piros, világoskék és sötétkék. Van néhány csoportosítás. Például a második képről a bal felső sarokban minden a piros kategóriába tartozik, a középső részen a bizonytalanság és a világoskék keveréke, az alsó pedig a sötét kategória. A többi képen különböző algoritmusok láthatók, és hogyan próbálják osztályozni az adatokat.

Hogyan válasszunk gépi tanulási algoritmust

A gépi tanulás kihívásai és korlátai

Ebben a gépi tanulási oktatóanyagban megismerjük a gépi tanulás korlátait:

A gépi tanulás elsődleges kihívása az adatok hiánya vagy az adatkészlet sokszínűsége. Egy gép nem tud tanulni, ha nem állnak rendelkezésre adatok. Emellett a sokféleség hiányával rendelkező adatkészlet megnehezíti a gépet. Egy gépnek heterogenitásra van szüksége ahhoz, hogy értelmes betekintést tanuljon. Ritka, hogy egy algoritmus információt nyerjen ki, ha nincs vagy csak kevés változat van. Javasoljuk, hogy csoportonként legalább 20 megfigyelés legyen, hogy segítse a gép tanulását. Ez a megszorítás rossz értékeléshez és előrejelzéshez vezet.

A gépi tanulás alkalmazása

Most ebben a gépi tanulási oktatóanyagban tanuljuk meg a gépi tanulás alkalmazásait:

nagyobbodás:

  • Gépi tanulás, amely személyesen vagy kereskedelmileg segíti az embereket a napi feladataik elvégzésében anélkül, hogy teljes mértékben ellenőrizné a kimenetet. Az ilyen gépi tanulást különféle módokon használják, mint például a virtuális asszisztens, adatelemzés, szoftvermegoldások. Az elsődleges felhasználó az emberi elfogultságból eredő hibák csökkentése.

Automatizálás:

  • Gépi tanulás, amely teljesen autonóm módon működik bármely területen, emberi beavatkozás nélkül. Például a gyártóüzemekben a lényeges folyamatlépéseket végrehajtó robotok.

Pénzügyi ipar

  • A gépi tanulás egyre népszerűbb a pénzügyi szektorban. A bankok főként az ML-t használják az adatokon belüli minták megtalálására, de a csalások megelőzésére is.

Kormányzati szervezet

  • A kormány az ML-t használja a közbiztonság és a közművek kezelésére. Vegyük példának Kínát a hatalmas arcfelismeréssel. A kormány használja Mesterséges intelligencia hogy megakadályozza a jaywalkert.

Egészségügyi ipar

  • Az egészségügy az egyik első iparág volt, amely gépi tanulást használt képérzékeléssel.

Marketing

  • Az adatokhoz való bőséges hozzáférésnek köszönhetően az MI széles körben használatos a marketingben. A tömeges adatok korszaka előtt a kutatók fejlett matematikai eszközöket fejlesztenek ki, például a Bayes-analízist az ügyfél értékének becslésére. Az adatok növekedésével a marketing osztály az MI-re támaszkodik az ügyfélkapcsolat és a marketingkampány optimalizálása érdekében.

Példa a gépi tanulás alkalmazására az ellátási láncban

A gépi tanulás nagyszerű eredményeket ad a vizuális mintafelismerés terén, és számos lehetséges alkalmazást nyit meg a fizikai ellenőrzés és karbantartás terén a teljes ellátási lánc hálózatán.

A felügyelet nélküli tanulás gyorsan kereshet összehasonlítható mintákat a sokféle adatkészletben. A gép viszont képes minőségellenőrzést végezni az egész logisztikai csomóponton, a szállításon sérülésekkel és kopásokkal.

Például, IBMA Watson platform képes meghatározni a szállítótartály sérülését. A Watson vizuális és rendszeralapú adatokat kombinál a valós idejű nyomon követéshez, jelentésekhez és ajánlásokhoz.

Az elmúlt évben a készletkezelő nagymértékben támaszkodik az elsődleges módszerre a készlet értékeléséhez és előrejelzéséhez. A big data és a gépi tanulás kombinálásakor jobb előrejelzési technikákat alkalmaztak (20-30%-os javulás a hagyományos előrejelző eszközökhöz képest). Értékesítés szempontjából 2-3 %-os növekedést jelent a készletköltség esetleges csökkenése miatt.

Példa a Google Car gépi tanulására

Például mindenki ismeri a Google autót. Az autó tele van lézerekkel a tetőn, amelyek megmondják, hol van a környéken. Elöl radar van, amely tájékoztatja az autót a körülötte lévő autók sebességéről és mozgásáról. Mindezeket az adatokat arra használja fel, hogy ne csak az autó vezetésének módját derítse ki, hanem arra is, hogy kitalálja és előre jelezze, mit fognak tenni az autó körüli potenciális vezetők. Ami lenyűgöző, hogy az autó szinte egy gigabájt másodpercenként adatot dolgoz fel.

A gépi tanulás alkalmazása

Miért fontos a gépi tanulás?

A gépi tanulás az eddigi legjobb eszköz az adatok mintázatának elemzésére, megértésére és azonosítására. A gépi tanulás mögött meghúzódó egyik fő gondolat az, hogy a számítógép megtanítható olyan feladatok automatizálására, amelyek kimerítőek vagy lehetetlenek lennének az ember számára. A hagyományos elemzés egyértelmű eltérése az, hogy a gépi tanulás minimális emberi beavatkozással képes döntéseket hozni.

Vegyük a következő példát ehhez az ML oktatóanyaghoz; egy kiskereskedelmi ügynök saját tapasztalatai és piaci ismeretei alapján meg tudja becsülni egy ház árát.

Egy gép megtanítható arra, hogy a szakértő tudását funkciókká alakítsa át. A jellemzők egy ház, környék, gazdasági környezet stb. mindazon jellemzői, amelyek árkülönbséget okoznak. A szakértőnek valószínűleg néhány évbe telt, mire elsajátította a ház árának becslésének művészetét. Szakértelme minden eladás után egyre jobb és jobb.

A gépnek több millió adatra van szüksége (pl. példa), hogy elsajátítsa ezt a művészetet. A gép a tanulás legelején hibázik, valahogy úgy, mint a junior eladó. Miután a gép látja az összes példát, elegendő tudást kapott a becsléshez. Ugyanakkor hihetetlen pontossággal. A gép a hibáját is ennek megfelelően tudja korrigálni.

A nagyvállalatok többsége megértette a gépi tanulás és az adatok tárolásának értékét. A McKinsey becslései szerint az analitika értéke a $9.5 billió $15.4 billió, míg $5-7 billió tudható be a legfejlettebb AI-technikáknak.

Olvassa el még: Mi az a fuzzy logika? Architecture, alkalmazás és példa: Kattints ide