Nadzirano strojno učenje: Što je, Algorithms s Primjerima
Što je nadzirano strojno učenje?
Nadzirano strojno učenje je algoritam koji uči iz označenih podataka o obuci kako bi vam pomogao predvidjeti ishode za nepredviđene podatke. U nadziranom učenju trenirate stroj koristeći podatke koji su dobro "označeni". To znači da su neki podaci već označeni točnim odgovorima. Može se usporediti s učenjem u prisutnosti nadzornika ili učitelja.
Uspješna izgradnja, skaliranje i implementacija točan nadzirani modeli strojnog učenja zahtijevaju vrijeme i tehničku ekspertizu tima visokokvalificiranih podatkovnih znanstvenika. Štoviše, Datum znanstvenik mora obnoviti modeli kako bi bili sigurni da dani uvidi ostaju istiniti dok se podaci ne promijene.
Kako funkcionira nadzirano učenje
Nadzirano strojno učenje koristi skupove podataka za obuku za postizanje željenih rezultata. Ovi skupovi podataka sadrže ulaze i točne izlaze koji pomažu modelu da brže uči. Na primjer, želite osposobiti stroj da vam pomogne predvidjeti koliko će vam vremena trebati da se odvezete kući s radnog mjesta.
Ovdje počinjete stvaranjem skupa označenih podataka. Ovi podaci uključuju:
- Vremenski uvjeti
- Doba dana
- Praznici
Sve te pojedinosti vaši su unosi u ovom primjeru nadziranog učenja. Izlaz je količina vremena koja je bila potrebna za vožnju kući tog određenog dana.
Instinktivno znate da će vam trebati više vremena da se vozite kući ako vani pada kiša. Ali stroj treba podatke i statistiku.
Pogledajmo neke primjere nadziranog učenja o tome kako možete razviti model nadziranog učenja iz ovog primjera koji pomaže korisniku da odredi vrijeme putovanja na posao. Prva stvar koju trebate izraditi je set za vježbanje. Ovaj set za obuku sadržavat će ukupno vrijeme putovanja na posao i odgovarajuće faktore kao što su vrijeme, vrijeme itd. Na temelju ovog skupa za obuku, vaš bi stroj mogao vidjeti da postoji izravan odnos između količine kiše i vremena koje će vam trebati da stignete kući.
Dakle, utvrđuje se da što više pada kiša, to ćete se dulje voziti da biste se vratili kući. Također može vidjeti vezu između vremena kada odlazite s posla i vremena kada ćete biti na putu.
Što ste bliže 6 sati, duže vam treba da stignete kući. Vaš uređaj može pronaći neke od odnosa s vašim označenim podacima.

Ovo je početak vašeg podatkovnog modela. Počinje utjecati na to kako kiša utječe na način na koji ljudi voze. Također se počinje uočavati da više ljudi putuje tijekom određenog doba dana.
Vrste nadziranog strojnog učenja Algorithms
Slijede vrste algoritama nadziranog strojnog učenja:
Regresija
Tehnika regresije predviđa jednu izlaznu vrijednost pomoću podataka o uvježbavanju.
Primjer: Možete koristiti regresiju za predviđanje cijene kuće iz podataka o obuci. Ulazne varijable bit će mjesto, veličina kuće itd.
Snage: Izlazi uvijek imaju probabilističku interpretaciju, a algoritam se može regulirati kako bi se izbjeglo prekomjerno prilagođavanje.
nedostaci: Logistička regresija može biti lošija kada postoje višestruke ili nelinearne granice odlučivanja. Ova metoda nije fleksibilna, pa ne obuhvaća složenije odnose.
Logistička regresija:
Metoda logističke regresije koja se koristi za procjenu diskretnih vrijednosti na temelju zadanog skupa nezavisnih varijabli. Pomaže vam predvidjeti vjerojatnost pojavljivanja događaja prilagođavanjem podataka logit funkciji. Stoga je također poznata kao logistička regresija. Budući da predviđa vjerojatnost, njegova izlazna vrijednost leži između 0 i 1.
Evo nekoliko vrsta regresije Algorithms
Klasifikacija
Klasifikacija znači grupirati izlaz unutar klase. Ako algoritam pokušava označiti ulaz u dvije različite klase, to se naziva binarna klasifikacija. Odabir između više od dvije klase naziva se višeklasna klasifikacija.
Primjer: Određivanje hoće li netko biti neplatiša zajma ili ne.
Snage: Klasifikacijsko stablo ima vrlo dobre rezultate u praksi
nedostaci: Nesputana, pojedinačna stabla sklona su pretjeranom opremanju.
Evo nekoliko vrsta klasifikacije Algorithms
Naivni Bayesovi klasifikatori
Naivni Bayesov model (NBN) jednostavan je za izgradnju i vrlo je koristan za velike skupove podataka. Ova metoda se sastoji od izravnih acikličkih grafova s jednim roditeljem i nekoliko djece. Pretpostavlja neovisnost između podređenih čvorova odvojenih od roditelja.
Stabla odlučivanja
Stabla odluka klasificiraju instance sortirajući ih na temelju vrijednosti značajke. U ovoj metodi, svaki način je značajka instance. Treba ga klasificirati, a svaka grana predstavlja vrijednost koju čvor može preuzeti. To je široko korištena tehnika za klasifikaciju. U ovoj metodi, klasifikacija je stablo koje je poznato kao stablo odlučivanja.
Pomaže vam u procjeni stvarnih vrijednosti (trošak kupnje automobila, broj poziva, ukupna mjesečna prodaja itd.).
Potporni vektorski stroj
Stroj potpornih vektora (SVM) je vrsta algoritma učenja razvijena 1990. Ova metoda se temelji na rezultatima teorije statističkog učenja koju je uveo Vap Nik.
SVM strojevi također su usko povezani s funkcijama jezgre što je središnji koncept za većinu zadataka učenja. Okvir kernela i SVM koriste se u raznim područjima. Uključuje multimedijsko pronalaženje informacija, bioinformatiku i prepoznavanje uzoraka.
Nadzirane i nenadzirane tehnike strojnog učenja
| Na temelju | Tehnika strojnog učenja pod nadzorom | Tehnika strojnog učenja bez nadzora |
|---|---|---|
| Ulazni podaci | Algorithms obučeni su pomoću označenih podataka. | Algorithms koriste se protiv podataka koji nisu označeni |
| Računalna složenost | Učenje pod nadzorom je jednostavnija metoda. | Učenje bez nadzora računalno je složeno |
| Točnost | Vrlo točna i pouzdana metoda. | Less točna i pouzdana metoda. |
Izazovi u nadziranom strojnom učenju
Evo izazova s kojima se suočava nadzirano strojno učenje:
- Nevažna ulazna značajka predstavlja podatke o obuci mogla bi dati netočne rezultate
- Priprema i prethodna obrada podataka uvijek je izazov.
- Točnost je smanjena kada su nemoguće, malo vjerojatne i nepotpune vrijednosti unesene kao podaci za obuku
- Ako dotični stručnjak nije dostupan, onda je drugi pristup "gruba sila". To znači da trebate razmisliti o pravim značajkama (ulaznim varijablama) za treniranje stroja. Moglo bi biti netočno.
Prednosti nadziranog učenja
Evo prednosti nadziranog strojnog učenja:
- Učenje pod nadzorom u Strojno učenje omogućuje prikupljanje podataka ili proizvodnju izlaznih podataka iz prethodnog iskustva
- Pomaže vam optimizirati kriterije izvedbe koristeći iskustvo
- Nadzirano strojno učenje pomaže vam u rješavanju raznih vrsta računalnih problema u stvarnom svijetu.
Nedostaci nadziranog učenja
U nastavku su navedeni nedostaci nadziranog strojnog učenja:
- Granica odlučivanja može biti pretrenirana ako vaš set za obuku nema primjere koje želite imati u razredu
- Morate odabrati mnogo dobrih primjera iz svakog razreda dok obučavate klasifikatora.
- Razvrstavanje Veliki podataka može biti pravi izazov.
- Obuka za nadzirano učenje zahtijeva puno vremena računanja.
Najbolje prakse za nadzirano učenje
- Prije nego što učinite bilo što drugo, morate odlučiti koju vrstu podataka ćete koristiti kao skup za obuku
- Morate odlučiti o strukturi naučene funkcije i algoritmu učenja.
- Prikupite odgovarajuće rezultate bilo od ljudskih stručnjaka ili iz mjerenja
Rezime
- U algoritmima nadziranog učenja trenirate stroj pomoću podataka koji su dobro "označeni".
- Želite uvježbati stroj koji vam pomaže predvidjeti koliko će vam vremena trebati da se odvezete kući s radnog mjesta primjer je učenja pod nadzorom.
- Regresija i klasifikacija dvije su dimenzije algoritma nadziranog strojnog učenja.
- Nadzirano učenje je jednostavnija metoda dok je nenadzirano učenje složena metoda.
- Najveći izazov u nadziranom učenju je to što Irelevantna ulazna značajka predstavlja podatke o obuci mogla dati netočne rezultate.
- Glavna prednost nadziranog učenja je ta što vam omogućuje prikupljanje podataka ili proizvodnju podataka iz prethodnog iskustva.
- Nedostatak ovog modela je da bi granica odlučivanja mogla biti prenapregnuta ako vaš set za obuku nema primjere koje želite imati u razredu.
- Kao najbolja praksa učenja pod nadzorom, prvo morate odlučiti koju vrstu podataka treba koristiti kao set za obuku.

