Vodič za strojno učenje za početnike: Što je, osnove ML-a

Što je strojno učenje?

Strojno učenje je sustav računalnih algoritama koji mogu učiti iz primjera kroz samopoboljšanje bez da ih programer eksplicitno kodira. Strojno učenje dio je umjetne inteligencije koji kombinira podatke sa statističkim alatima za predviđanje izlaza koji se može koristiti za stvaranje djelotvornih uvida.

Proboj dolazi s idejom da stroj može samostalno učiti iz podataka (tj. primjera) kako bi proizveo točne rezultate. Strojno učenje usko je povezano s rudarenjem podataka i Bayesovim prediktivnim modeliranjem. Stroj prima podatke kao ulaz i koristi algoritam za formuliranje odgovora.

Tipični zadaci strojnog učenja su davanje preporuke. Za one koji imaju a Netflix računa, sve preporuke filmova ili serija temelje se na povijesnim podacima korisnika. Tehnološke tvrtke koriste učenje bez nadzora za poboljšanje korisničkog iskustva s personaliziranim preporukama.

Strojno učenje također se koristi za razne zadatke kao što su otkrivanje prijevare, prediktivno održavanje, optimizacija portfelja, automatizacija zadataka i tako dalje.

Strojno učenje nasuprot tradicionalnom programiranju

Tradicionalno programiranje značajno se razlikuje od strojnog učenja. U tradicionalnom programiranju, programer kodira sva pravila u dogovoru sa stručnjakom u industriji za koju se softver razvija. Svako pravilo temelji se na logičkom temelju; stroj će izvršiti izlaz koji slijedi logičku izjavu. Kad sustav postane složeniji, potrebno je napisati više pravila. Brzo može postati neodrživo za održavanje.

Tradicionalno programiranje
Tradicionalno programiranje

Strojno učenje trebalo bi prevladati ovaj problem. Stroj uči kako su ulazni i izlazni podaci povezani i piše pravilo. Programeri ne moraju pisati nova pravila svaki put kada postoje novi podaci. Algoritmi se prilagođavaju kao odgovor na nove podatke i iskustva kako bi s vremenom poboljšali učinkovitost.

Strojno učenje

Strojno učenje

Kako funkcionira strojno učenje?

Sada ćemo u ovom vodiču o osnovama strojnog učenja za početnike naučiti kako strojno učenje (ML) funkcionira:

Strojno učenje je mozak u kojem se odvija svo učenje. Način na koji stroj uči sličan je ljudskom biću. Ljudi uče iz iskustva. Što više znamo, lakše možemo predvidjeti. Analogno tome, kada se suočimo s nepoznatom situacijom, vjerojatnost uspjeha manja je od poznate situacije. Strojevi su isto osposobljeni. Za točno predviđanje, stroj vidi primjer. Kada stroju damo sličan primjer, on može shvatiti ishod. Međutim, poput čovjeka, ako nahrani prethodno neviđeni primjer, stroj ima poteškoća s predviđanjem.

Glavni cilj strojnog učenja je učenje i zaključak. Prije svega, stroj uči kroz otkrivanje obrazaca. Do ovog otkrića došlo je zahvaljujući datum. Jedan ključni dio podatkovnog znanstvenika je pažljivo odabrati podatke koje će dati stroju. Popis atributa koji se koriste za rješavanje problema naziva se a vektor obilježja. Vektor značajki možete zamisliti kao podskup podataka koji se koristi za rješavanje problema.

Stroj koristi neke otmjene algoritme kako bi pojednostavio stvarnost i transformirao ovo otkriće u model. Stoga se faza učenja koristi za opisivanje podataka i njihovo sažimanje u model.

Rad strojnog učenja

Na primjer, stroj pokušava shvatiti odnos između plaće pojedinca i vjerojatnosti da će otići u otmjeni restoran. Ispostavilo se da stroj pronalazi pozitivan odnos između plaće i odlaska u vrhunski restoran: ovo je model

Zaključujući

Kada je model izgrađen, moguće je testirati koliko je moćan na nikad prije viđenim podacima. Novi podaci se transformiraju u vektor značajki, prolaze kroz model i daju predviđanje. Sve je to lijepi dio strojnog učenja. Nema potrebe ažurirati pravila ili ponovno trenirati model. Možete upotrijebiti prethodno uvježbani model za donošenje zaključaka na temelju novih podataka.

Zaključak iz modela

Život programa strojnog učenja je jednostavan i može se sažeti u sljedeće točke:

  1. Definirajte pitanje
  2. Prikupiti podatke
  3. Vizualizirajte podatke
  4. Algoritam vlaka
  5. Testirajte algoritam
  6. Prikupi povratne informacije
  7. Usavršite algoritam
  8. Petlja 4-7 dok rezultati ne budu zadovoljavajući
  9. Koristite model za predviđanje

Jednom kada algoritam postane dobar u izvlačenju pravih zaključaka, primjenjuje to znanje na nove skupove podataka.

Strojno učenje Algorithms i gdje se koriste?

Sada ćemo u ovom vodiču za strojno učenje za početnike naučiti gdje se koriste algoritmi strojnog učenja (ML):

Strojno učenje Algorithms

Strojno učenje Algorithms

Strojno učenje može se grupirati u dva široka zadatka učenja: nadzirano i nenadzirano. Postoje mnogi drugi algoritmi

Nadzirano učenje

Algoritam koristi podatke o obuci i povratne informacije od ljudi kako bi naučio odnos danih ulaza i danog izlaza. Na primjer, praktičar može koristiti marketinške troškove i vremensku prognozu kao ulazne podatke za predviđanje prodaje limenki.

Možete koristiti nadzirano učenje kada su izlazni podaci poznati. Algoritam će predvidjeti nove podatke.

Postoje dvije kategorije nadzirano učenje:

  • Klasifikacijski zadatak
  • Regresijski zadatak

Klasifikacija

Zamislite da želite predvidjeti spol kupca za reklamu. Počet ćete skupljati podatke o visini, težini, poslu, plaći, košarici itd. iz svoje baze kupaca. Znate spol svakog svog kupca, može biti samo muško ili žensko. Cilj klasifikatora bit će dodijeliti vjerojatnost da je muškarac ili žena (tj. oznaka) na temelju informacija (tj. značajki koje ste prikupili). Kada je model naučio kako prepoznati muško ili žensko, možete koristiti nove podatke za predviđanje. Na primjer, upravo ste dobili nove informacije od nepoznatog kupca i želite znati je li muško ili žensko. Ako klasifikator predviđa muškarac = 70%, to znači da je algoritam siguran 70% da je ovaj kupac muškarac, a 30% da je žena.

Oznaka može biti od dvije ili više klasa. Gornji primjer strojnog učenja ima samo dvije klase, ali ako klasifikator treba predvidjeti objekt, ima desetke klasa (npr. staklo, stol, cipele itd. svaki objekt predstavlja klasu)

Regresija

Kada je izlaz kontinuirana vrijednost, zadatak je regresija. Na primjer, financijski analitičar će možda trebati predvidjeti vrijednost dionice na temelju niza značajki kao što su kapital, prethodne izvedbe dionica, makroekonomski indeks. Sustav će biti osposobljen za procjenu cijene dionica sa najmanjom mogućom greškom.

Algoritam Description Tip
Linearna regresija Pronalazi način povezivanja svake značajke s izlazom kako bi se pomoglo u predviđanju budućih vrijednosti. Regresija
Logistička regresija Proširenje linearne regresije koje se koristi za zadatke klasifikacije. Izlazna varijabla 3 je binarna (npr. samo crna ili bijela), a ne kontinuirana (npr. beskonačan popis mogućih boja) Klasifikacija
Stablo odlučivanja Visoko interpretabilna klasifikacija ili regresijski model koji dijeli vrijednosti značajki podataka u grane na čvorovima odlučivanja (npr. ako je značajka boja, svaka moguća boja postaje nova grana) dok se ne donese konačna odluka Regresija
Klasifikacija
Naivni Bayes Bayesova metoda je metoda klasifikacije koja koristi Bayesov teorem. Teorem ažurira prethodno znanje o događaju s neovisnom vjerojatnošću svake značajke koja može utjecati na događaj. Regresija
Klasifikacija
Podrška vektorski stroj
Support Vector Machine ili SVM obično se koristi za zadatak klasifikacije.
SVM algoritam pronalazi hiperravninu koja optimalno dijeli klase. Najbolje ga je koristiti s nelinearnim rješavačem.
Regresija (nije baš česta)
Klasifikacija
Slučajna šuma Algoritam je izgrađen na stablu odlučivanja kako bi se drastično poboljšala točnost. Slučajna šuma generira mnogo puta jednostavna stabla odlučivanja i koristi metodu 'većinski glas' za odlučivanje koju će oznaku vratiti. Za zadatak klasifikacije, konačno predviđanje bit će ono s najviše glasova; dok je za regresijski zadatak, prosječno predviđanje svih stabala konačno predviđanje. Regresija
Klasifikacija
AdaBoost Tehnika klasifikacije ili regresije koja koristi mnoštvo modela za donošenje odluke, ali ih odvaguje na temelju njihove točnosti u predviđanju ishoda Regresija
Klasifikacija
Stabla koja povećavaju gradijent Stabla koja povećavaju gradijent je najsuvremenija tehnika klasifikacije/regresije. Fokusira se na pogrešku koju su počinila prethodna stabla i pokušava je ispraviti. Regresija
Klasifikacija

Učenje bez nadzora

U nenadziranom učenju, algoritam istražuje ulazne podatke bez davanja eksplicitne izlazne varijable (npr. istražuje demografske podatke o kupcima kako bi identificirao obrasce)

Možete ga koristiti kada ne znate kako klasificirati podatke, a želite da algoritam pronađe uzorke i klasificira podatke umjesto vas

Naziv algoritma Description Tip
K-znači grupiranje Stavlja podatke u neke grupe (k) od kojih svaka sadrži podatke sličnih karakteristika (kao što je određeno modelom, a ne unaprijed od strane ljudi) Clustering.
Gaussov model mješavine Generalizacija k-znači klasteriranja koja pruža veću fleksibilnost u veličini i obliku grupa (klastera) Clustering.
Hijerarhijsko grupiranje Rastavlja klastere duž hijerarhijskog stabla kako bi formirao sustav klasifikacije.

Može se koristiti za Cluster korisnik kartice vjernosti

Clustering.
Sustav preporuka Pomozite definirati relevantne podatke za izradu preporuke. Clustering.
PCA/T-SNE Uglavnom se koristi za smanjenje dimenzionalnosti podataka. Algoritmi smanjuju broj značajki na 3 ili 4 vektora s najvećim odstupanjima. Smanjenje dimenzija

Kako odabrati algoritam strojnog učenja

Sada ćemo u ovom vodiču o osnovama strojnog učenja naučiti kako odabrati algoritam strojnog učenja (ML):

Postoji mnogo algoritama strojnog učenja. Izbor algoritma temelji se na cilju.

U donjem primjeru strojnog učenja zadatak je predvidjeti vrstu cvijeta među tri vrste. Predviđanja se temelje na duljini i širini latice. Slika prikazuje rezultate deset različitih algoritama. Slika gore lijevo je skup podataka. Podaci su razvrstani u tri kategorije: crvena, svijetloplava i tamnoplava. Postoje neke grupacije. Na primjer, s druge slike, sve u gornjem lijevom dijelu pripada crvenoj kategoriji, u srednjem dijelu postoji mješavina nesigurnosti i svijetlo plave dok dno odgovara tamnoj kategoriji. Druge slike pokazuju različite algoritme i kako pokušavaju klasificirati podatke.

Kako odabrati algoritam strojnog učenja

Izazovi i ograničenja strojnog učenja

Sada ćemo u ovom vodiču za strojno učenje naučiti o ograničenjima strojnog učenja:

Primarni izazov strojnog učenja je nedostatak podataka ili raznolikost u skupu podataka. Stroj ne može učiti ako nema dostupnih podataka. Osim toga, skup podataka s nedostatkom raznolikosti otežava stroju. Stroj treba imati heterogenost da bi naučio smislen uvid. Rijetko je da algoritam može izvući informacije kada nema varijacija ili ih je malo. Preporuča se imati najmanje 20 promatranja po skupini kako bi se stroju pomoglo u učenju. Ovo ograničenje dovodi do loše procjene i predviđanja.

Primjena strojnog učenja

Sada u ovom vodiču za strojno učenje naučimo primjene strojnog učenja:

Povećanje:

  • Strojno učenje, koje pomaže ljudima u njihovim svakodnevnim zadacima, osobno ili komercijalno, bez potpune kontrole rezultata. Takvo strojno učenje koristi se na različite načine kao što su virtualni asistent, analiza podataka, softverska rješenja. Primarni korisnik je smanjiti pogreške uzrokovane ljudskom pristranošću.

Automatizacija:

  • Strojno učenje, koje radi potpuno autonomno u bilo kojem području bez potrebe za bilo kakvom ljudskom intervencijom. Na primjer, roboti koji izvode bitne korake procesa u proizvodnim pogonima.

Financijska industrija

  • Strojno učenje postaje sve popularnije u financijskoj industriji. Banke uglavnom koriste ML za pronalaženje uzoraka unutar podataka, ali i za sprječavanje prijevara.

Državna organizacija

  • Vlada koristi ML za upravljanje javnom sigurnošću i komunalnim uslugama. Uzmimo primjer Kine s masovnim prepoznavanjem lica. Vlada koristi umjetna inteligencija spriječiti jaywalker.

Zdravstvena industrija

  • Zdravstvo je bila jedna od prvih industrija koja je koristila strojno učenje s detekcijom slike.

Marketing

  • Široka upotreba umjetne inteligencije u marketingu je zahvaljujući obilju pristupa podacima. Prije doba masovnih podataka, istraživači su razvili napredne matematičke alate poput Bayesove analize za procjenu vrijednosti kupca. S porastom podataka, marketinški odjel se oslanja na AI kako bi optimizirao odnos s klijentima i marketinšku kampanju.

Primjer primjene strojnog učenja u lancu opskrbe

Strojno učenje daje sjajne rezultate za vizualno prepoznavanje uzoraka, otvarajući mnoge potencijalne primjene u fizičkom pregledu i održavanju u cijeloj mreži opskrbnog lanca.

Učenje bez nadzora može brzo tražiti usporedive obrasce u raznolikom skupu podataka. Zauzvrat, stroj može izvršiti inspekciju kvalitete u cijelom logističkom čvorištu, otpremu s oštećenjima i istrošenošću.

Na primjer, IBMWatsonova platforma može utvrditi oštećenje transportnih kontejnera. Watson kombinira vizualne i sistemske podatke za praćenje, izvješćivanje i davanje preporuka u stvarnom vremenu.

Prošle godine upravitelj zaliha se u velikoj mjeri oslanjao na primarnu metodu za procjenu i predviđanje zaliha. Kada se kombiniraju veliki podaci i strojno učenje, implementirane su bolje tehnike predviđanja (poboljšanje od 20 do 30 % u odnosu na tradicionalne alate za predviđanje). Što se tiče prodaje, to znači povećanje od 2 do 3 % zbog mogućeg smanjenja troškova zaliha.

Primjer strojnog učenja Google automobila

Na primjer, svi znaju Google automobil. Automobil je pun lasera na krovu koji mu govore gdje se nalazi u odnosu na okolinu. Ima radar sprijeda, koji obavještava automobil o brzini i kretanju svih automobila oko njega. Koristi sve te podatke kako bi otkrio ne samo kako voziti automobil, već i kako bi shvatio i predvidio što će potencijalni vozači oko automobila učiniti. Ono što je impresivno jest da automobil obrađuje gotovo gigabajt podataka u sekundi.

Primjena strojnog učenja

Zašto je strojno učenje važno?

Strojno učenje najbolji je alat dosad za analizu, razumijevanje i prepoznavanje uzorka u podacima. Jedna od glavnih ideja iza strojnog učenja je da se računalo može osposobiti za automatizaciju zadataka koji bi bili iscrpljujući ili nemogući za ljudsko biće. Jasno odstupanje od tradicionalne analize je da strojno učenje može donositi odluke uz minimalnu ljudsku intervenciju.

Uzmite sljedeći primjer za ovaj ML vodič; maloprodajni agent može procijeniti cijenu kuće na temelju vlastitog iskustva i poznavanja tržišta.

Stroj se može osposobiti da prevede znanje stručnjaka u značajke. Značajke su sve karakteristike kuće, susjedstva, gospodarskog okruženja itd. koje čine razliku u cijeni. Stručnjaku je vjerojatno trebalo nekoliko godina da svlada umijeće procjene cijene kuće. Njegova stručnost je nakon svake prodaje sve bolja i bolja.

Stroju su potrebni milijuni podataka (tj. primjera) da bi svladao ovu umjetnost. Na samom početku svog učenja stroj griješi, nekako kao mlađi prodavač. Nakon što stroj vidi sve primjere, dobio je dovoljno znanja da napravi svoju procjenu. Istovremeno, s nevjerojatnom preciznošću. Stroj također može prilagoditi svoju grešku u skladu s tim.

Većina velikih tvrtki shvatila je vrijednost strojnog učenja i čuvanja podataka. McKinsey je procijenio da se vrijednost analitike kreće od $9.5 trilijuna do $15.4 bilijuna dok $5 do 7 trilijuna može se pripisati najnaprednijim tehnikama umjetne inteligencije.

Također pročitajte Što je neizrazita logika? Archistruktura, primjena i primjer: Klikni ovdje