Tutorial de învățare automată pentru începători: ce este, elementele de bază ale ML

Ce este învățarea automată?

Invatare mecanica este un sistem de algoritmi de computer care poate învăța din exemplu prin auto-îmbunătățire fără a fi codificat în mod explicit de un programator. Învățarea automată este o parte a inteligenței artificiale care combină datele cu instrumente statistice pentru a prezice o ieșire care poate fi folosită pentru a obține informații utile.

Descoperirea vine cu ideea că o mașină poate învăța în mod singular din date (adică, exemplu) pentru a produce rezultate precise. Învățarea automată este strâns legată de data mining și modelarea predictivă bayesiană. Aparatul primește date ca intrare și utilizează un algoritm pentru a formula răspunsuri.

O sarcină tipică de învățare automată este de a oferi o recomandare. Pentru cei care au un Netflix cont, toate recomandările de filme sau seriale se bazează pe datele istorice ale utilizatorului. Companiile de tehnologie folosesc învățare nesupravegheată pentru a îmbunătăți experiența utilizatorului cu recomandări de personalizare.

Învățarea automată este, de asemenea, utilizată pentru o varietate de sarcini, cum ar fi detectarea fraudelor, întreținerea predictivă, optimizarea portofoliului, automatizarea sarcinilor și așa mai departe.

Învățare automată vs. programare tradițională

Programarea tradițională diferă semnificativ de învățarea automată. În programarea tradițională, un programator codifică toate regulile în consultare cu un expert din industria pentru care software-ul este dezvoltat. Fiecare regulă se bazează pe un fundament logic; mașina va executa o ieșire în urma instrucțiunii logice. Când sistemul devine complex, trebuie scrise mai multe reguli. Poate deveni rapid nesustenabil de întreținut.

Programare tradițională
Programare tradițională

Învățarea automată ar trebui să depășească această problemă. Aparatul învață cum sunt corelate datele de intrare și de ieșire și scrie o regulă. Programatorii nu trebuie să scrie reguli noi de fiecare dată când există date noi. Algoritmii se adaptează ca răspuns la date și experiențe noi pentru a îmbunătăți eficacitatea în timp.

Invatare mecanica

Invatare mecanica

Cum funcționează învățarea automată?

Acum, în acest tutorial de bază a învățării automate pentru începători, vom afla cum funcționează învățarea automată (ML):

Învățarea automată este creierul în care are loc toată învățarea. Modul în care mașina învață este similar cu cel al ființei umane. Oamenii învață din experiență. Cu cât știm mai multe, cu atât putem prezice mai ușor. Prin analogie, atunci când ne confruntăm cu o situație necunoscută, probabilitatea de succes este mai mică decât situația cunoscută. Mașinile sunt antrenate la fel. Pentru a face o predicție precisă, aparatul vede un exemplu. Când dăm mașinii un exemplu similar, poate înțelege rezultatul. Cu toate acestea, la fel ca un om, dacă alimentează un exemplu nevăzut anterior, mașina are dificultăți de prezis.

Obiectivul principal al învățării automate este învăţare si deducție. În primul rând, mașina învață prin descoperirea tiparelor. Această descoperire se face datorită de date. O parte crucială a cercetătorului de date este să aleagă cu atenție ce date să furnizeze mașinii. Lista de atribute folosite pentru a rezolva o problemă se numește a vector caracteristică. Vă puteți gândi la un vector caracteristic ca la un subset de date care este folosit pentru a rezolva o problemă.

Aparatul folosește niște algoritmi de lux pentru a simplifica realitatea și a transforma această descoperire într-un model. Prin urmare, etapa de învățare este utilizată pentru a descrie datele și a le rezuma într-un model.

Lucru de învățare automată

De exemplu, aparatul încearcă să înțeleagă relația dintre salariul unui individ și probabilitatea de a merge la un restaurant elegant. Se pare că aparatul găsește o relație pozitivă între salariu și mersul la un restaurant de lux: acesta este modelul

Deducerea

Când modelul este construit, este posibil să testați cât de puternic este acesta pe date nevăzute până acum. Noile date sunt transformate într-un vector de caracteristici, trec prin model și oferă o predicție. Aceasta este toată partea frumoasă a învățării automate. Nu este nevoie să actualizați regulile sau să antrenați din nou modelul. Puteți utiliza modelul antrenat anterior pentru a face inferențe asupra datelor noi.

Inferență din model

Viața programelor de învățare automată este simplă și poate fi rezumată în următoarele puncte:

  1. Definiți o întrebare
  2. Colectați date
  3. Vizualizați datele
  4. Algoritmul de tren
  5. Testați algoritmul
  6. Colectați feedback
  7. Rafinați algoritmul
  8. Bucla 4-7 până când rezultatele sunt satisfăcătoare
  9. Utilizați modelul pentru a face o predicție

Odată ce algoritmul devine bun în a trage concluziile corecte, aplică aceste cunoștințe unor noi seturi de date.

Invatare mecanica Algorithms și unde sunt folosite?

Acum, în acest tutorial de învățare automată pentru începători, vom afla unde sunt utilizați algoritmii de învățare automată (ML):

Invatare mecanica Algorithms

Invatare mecanica Algorithms

Învățarea automată poate fi grupată în două sarcini mari de învățare: Supervizat și Nesupravegheat. Există mulți alți algoritmi

Învățare supravegheată

Un algoritm folosește datele de antrenament și feedback-ul de la oameni pentru a afla relația dintre intrările date și o ieșire dată. De exemplu, un practician poate folosi cheltuielile de marketing și prognoza meteo ca date de intrare pentru a prezice vânzările de conserve.

Puteți utiliza învățarea supravegheată atunci când datele de ieșire sunt cunoscute. Algoritmul va prezice date noi.

Există două categorii de învățare supravegheată:

  • Sarcina de clasificare
  • Sarcina de regresie

Clasificare

Imaginați-vă că doriți să preziceți sexul unui client pentru o reclamă. Veți începe să culegeți date despre înălțime, greutate, loc de muncă, salariu, coș de cumpărare etc. din baza dvs. de clienți. Știți sexul fiecărui client, acesta poate fi doar bărbat sau femeie. Obiectivul clasificatorului va fi de a atribui o probabilitate de a fi bărbat sau femeie (adică, eticheta) pe baza informațiilor (adică, caracteristicile pe care le-ați colectat). Când modelul a învățat cum să recunoască bărbatul sau femeia, puteți utiliza date noi pentru a face o predicție. De exemplu, tocmai ați primit informații noi de la un client necunoscut și doriți să știți dacă este un bărbat sau o femeie. Dacă clasificatorul prezice bărbat = 70%, înseamnă că algoritmul este sigur la 70% că acest client este un bărbat și 30% este o femeie.

Eticheta poate fi de două sau mai multe clase. Exemplul de învățare automată de mai sus are doar două clase, dar dacă un clasificator trebuie să prezică un obiect, are zeci de clase (de exemplu, pahar, masă, pantofi etc. fiecare obiect reprezintă o clasă)

Regres

Când rezultatul este o valoare continuă, sarcina este o regresie. De exemplu, un analist financiar poate avea nevoie să prognozeze valoarea unei acțiuni pe baza unei game de caracteristici cum ar fi capitalul propriu, performanța acțiunilor anterioare, indicele macroeconomic. Sistemul va fi antrenat pentru a estima prețul stocurilor cu cea mai mică eroare posibilă.

Algoritm Descriere Tip
Regresie liniara Găsește o modalitate de a corela fiecare caracteristică cu rezultatul pentru a ajuta la prezicerea valorilor viitoare. Regres
Regresie logistică Extensie a regresiei liniare care este utilizată pentru sarcinile de clasificare. Variabila de ieșire 3 este binară (de exemplu, doar alb sau negru) și nu continuă (de exemplu, o listă infinită de culori potențiale) Clasificare
Arborele decizional Clasificare sau model de regresie foarte interpretabil care împarte valorile caracteristicilor de date în ramuri la nodurile de decizie (de exemplu, dacă o caracteristică este o culoare, fiecare culoare posibilă devine o nouă ramură) până când se face o decizie finală. Regres
Clasificare
Bayes naiv Metoda Bayesiană este o metodă de clasificare care utilizează teorema Bayesiană. Teorema actualizează cunoștințele anterioare ale unui eveniment cu probabilitatea independentă a fiecărei caracteristici care poate afecta evenimentul. Regres
Clasificare
Suportă mașină vectorială
Support Vector Machine, sau SVM, este de obicei folosit pentru sarcina de clasificare.
Algoritmul SVM găsește un hiperplan care a împărțit în mod optim clasele. Cel mai bine este folosit cu un rezolvator neliniar.
Regresie (nu foarte frecventă)
Clasificare
Padure aleatorie Algoritmul este construit pe un arbore de decizie pentru a îmbunătăți drastic acuratețea. Pădurea aleatorie generează de multe ori arbori de decizie simpli și folosește metoda „votului majoritar” pentru a decide ce etichetă să returneze. Pentru sarcina de clasificare, pronosticul final va fi cel cu cele mai multe voturi; în timp ce pentru sarcina de regresie, predicția medie a tuturor arborilor este predicția finală. Regres
Clasificare
AdaBoost Tehnica de clasificare sau regresie care folosește o multitudine de modele pentru a lua o decizie, dar le cântărește în funcție de acuratețea lor în prezicerea rezultatului Regres
Clasificare
Copaci care măresc gradientul Arborele de creștere a gradientului este o tehnică de ultimă generație de clasificare/regresie. Se concentrează pe eroarea comisă de arborii anteriori și încearcă să o corecteze. Regres
Clasificare

Învățare nesupravegheată

În învățarea nesupravegheată, un algoritm explorează datele de intrare fără a primi o variabilă de ieșire explicită (de exemplu, explorează datele demografice ale clienților pentru a identifica modele)

Îl puteți folosi atunci când nu știți cum să clasificați datele și doriți ca algoritmul să găsească modele și să clasifice datele pentru dvs.

Nume algoritm Descriere Tip
K-înseamnă grupare Pune datele în unele grupuri (k), fiecare conține date cu caracteristici similare (așa cum este determinat de model, nu în prealabil de oameni) ClusterING
Model de amestec gaussian O generalizare a grupării k-means care oferă mai multă flexibilitate în dimensiunea și forma grupurilor (clustere) ClusterING
Gruparea ierarhică Împarte grupurile de-a lungul unui arbore ierarhic pentru a forma un sistem de clasificare.

Poate fi utilizat pentru Cluster client cu card de fidelitate

ClusterING
Sistem de recomandare Ajută la definirea datelor relevante pentru a face o recomandare. ClusterING
PCA/T-SNE Utilizat în cea mai mare parte pentru a reduce dimensionalitatea datelor. Algoritmii reduc numărul de caracteristici la 3 sau 4 vectori cu cele mai mari variații. Reducerea dimensiunii

Cum să alegeți algoritmul de învățare automată

Acum, în acest tutorial de bază a învățării automate, vom învăța cum să alegem algoritmul de învățare automată (ML):

Există o mulțime de algoritmi de învățare automată. Alegerea algoritmului se bazează pe obiectiv.

În exemplul de învățare automată de mai jos, sarcina este de a prezice tipul de floare dintre cele trei soiuri. Predicțiile se bazează pe lungimea și lățimea petalei. Imaginea prezintă rezultatele a zece algoritmi diferiți. Imaginea din stânga sus este setul de date. Datele sunt clasificate în trei categorii: roșu, albastru deschis și albastru închis. Există câteva grupări. De exemplu, din a doua imagine, totul din stânga sus aparține categoriei roșii, în partea din mijloc, există un amestec de incertitudine și albastru deschis, în timp ce partea de jos corespunde categoriei întunecate. Celelalte imagini arată diferiți algoritmi și modul în care încearcă să clasifice datele.

Cum să alegeți algoritmul de învățare automată

Provocări și limitări ale învățării automate

Acum, în acest tutorial de învățare automată, vom afla despre limitările învățării automate:

Principala provocare a învățării automate este lipsa datelor sau diversitatea setului de date. O mașină nu poate învăța dacă nu există date disponibile. În plus, un set de date cu o lipsă de diversitate îi dă greutății mașinii. O mașină trebuie să aibă eterogenitate pentru a învăța o perspectivă semnificativă. Este rar ca un algoritm să poată extrage informații atunci când nu există sau există puține variații. Se recomandă să aveți cel puțin 20 de observații pe grup pentru a ajuta mașina să învețe. Această constrângere duce la o evaluare și predicție slabă.

Aplicarea Machine Learning

Acum, în acest tutorial de învățare automată, să învățăm aplicațiile învățării automate:

Augmentare:

  • Învățare automată, care ajută oamenii în sarcinile lor de zi cu zi, personal sau comercial, fără a avea control complet asupra rezultatelor. O astfel de învățare automată este utilizată în moduri diferite, cum ar fi Asistentul Virtual, Analiza datelor, soluții software. Utilizatorul principal este de a reduce erorile din cauza părtinirii umane.

Automatizare:

  • Învățare automată, care funcționează complet autonom în orice domeniu, fără a fi nevoie de nicio intervenție umană. De exemplu, roboții care efectuează etapele esențiale ale procesului în fabricile de producție.

Industria financiară

  • Învățarea automată este în creștere în popularitate în industria financiară. Băncile folosesc în principal ML pentru a găsi modele în interiorul datelor, dar și pentru a preveni frauda.

Organizație guvernamentală

  • Guvernul folosește ML pentru a gestiona siguranța publică și utilitățile. Luați exemplul Chinei cu recunoașterea masivă a feței. Guvernul folosește Inteligență artificială pentru a preveni jaywalker.

Industria sănătății

  • Asistența medicală a fost una dintre primele industrii care a folosit învățarea automată cu detectarea imaginilor.

Marketingul

  • Utilizarea pe scară largă a inteligenței artificiale se face în marketing datorită accesului abundent la date. Înainte de epoca datelor în masă, cercetătorii dezvoltă instrumente matematice avansate, cum ar fi analiza bayesiană, pentru a estima valoarea unui client. Odată cu boom-ul de date, departamentul de marketing se bazează pe AI pentru a optimiza relația cu clienții și campania de marketing.

Exemplu de aplicare a Machine Learning în Supply Chain

Învățarea automată oferă rezultate extraordinare pentru recunoașterea vizuală a modelelor, deschizând multe aplicații potențiale în inspecția fizică și întreținerea în întreaga rețea a lanțului de aprovizionare.

Învățarea nesupravegheată poate căuta rapid modele comparabile în setul de date divers. La rândul său, mașina poate efectua inspecție de calitate în întregul hub logistic, expediere cu deteriorare și uzură.

De exemplu, IBMPlatforma Watson a lui poate determina deteriorarea containerului de transport. Watson combină datele vizuale și bazate pe sisteme pentru a urmări, raporta și face recomandări în timp real.

În ultimul an, managerul de stoc se bazează în mare măsură pe metoda principală de evaluare și prognoză a stocurilor. Atunci când se combină big data și învățarea automată, au fost implementate tehnici de prognoză mai bune (o îmbunătățire cu 20 până la 30 % față de instrumentele tradiționale de prognoză). În ceea ce privește vânzările, înseamnă o creștere de 2 până la 3 % datorită reducerii potențiale a costurilor de stoc.

Exemplu de învățare automată Google Car

De exemplu, toată lumea cunoaște mașina Google. Mașina este plină de lasere pe acoperiș care îi spun unde se află în ceea ce privește zona înconjurătoare. Are radar în față, care informează mașina despre viteza și mișcarea tuturor mașinilor din jurul său. Folosește toate aceste date pentru a afla nu numai cum să conducă mașina, ci și pentru a afla și a prezice ce vor face șoferii potențiali din jurul mașinii. Ceea ce este impresionant este că mașina procesează aproape un gigaoctet pe secundă de date.

Aplicarea Machine Learning

De ce este importantă învățarea automată?

Învățarea automată este cel mai bun instrument de până acum pentru a analiza, înțelege și identifica un model în date. Una dintre ideile principale din spatele învățării automate este că computerul poate fi antrenat pentru a automatiza sarcini care ar fi exhaustive sau imposibile pentru o ființă umană. Încălcarea clară din analiza tradițională este că învățarea automată poate lua decizii cu o intervenție umană minimă.

Luați următorul exemplu pentru acest tutorial ML; un agent de vânzare cu amănuntul poate estima prețul unei case pe baza propriei experiențe și a cunoștințelor sale despre piață.

O mașină poate fi instruită pentru a traduce cunoștințele unui expert în funcții. Caracteristicile sunt toate caracteristicile unei case, cartier, mediu economic etc care fac diferenta de pret. Pentru expert, probabil că i-a luat câțiva ani să stăpânească arta de a estima prețul unei case. Expertiza lui devine din ce în ce mai bună după fiecare vânzare.

Pentru mașină, este nevoie de milioane de date, (adică, exemplu) pentru a stăpâni această artă. La începutul învățării sale, mașina greșește, cumva ca vânzătorul junior. Odată ce mașina vede toate exemplele, a dobândit suficiente cunoștințe pentru a-și face estimarea. În același timp, cu o acuratețe incredibilă. Mașina este, de asemenea, capabilă să-și ajusteze greșeala în consecință.

Majoritatea companiilor mari au înțeles valoarea învățării automate și a deține date. McKinsey a estimat că valoarea analizelor variază de la $9.5 trilioane la $15.4 trilioane în timp ce $5 până la 7 trilioane pot fi atribuite celor mai avansate tehnici AI.

Citiți și Ce este Fuzzy Logic? Architectură, aplicație și exemplu: Click aici