Výukový program strojového učení pro začátečníky: Co je to, základy ML

Co je strojové učení?

Strojové učení je systém počítačových algoritmů, které se mohou učit z příkladu prostřednictvím sebezdokonalování, aniž by byly explicitně kódovány programátorem. Strojové učení je součástí umělé inteligence, která kombinuje data se statistickými nástroji k předpovídání výstupu, který lze použít k vytváření praktických poznatků.

Průlom přichází s myšlenkou, že stroj se může jednotlivě učit z dat (tj. příkladu) a vytvářet přesné výsledky. Strojové učení úzce souvisí s dolováním dat a bayesovským prediktivním modelováním. Stroj přijímá data jako vstup a používá algoritmus k formulování odpovědí.

Typickým úkolem strojového učení je poskytnout doporučení. Pro ty, kteří mají a Netflix účtu, jsou všechna doporučení filmů nebo seriálů založena na historických datech uživatele. Technologické společnosti používají učení bez dozoru zlepšit uživatelskou zkušenost s personalizovaným doporučením.

Strojové učení se také používá pro různé úkoly, jako je odhalování podvodů, prediktivní údržba, optimalizace portfolia, automatizace úkolů a tak dále.

Strojové učení vs. tradiční programování

Tradiční programování se výrazně liší od strojového učení. V tradičním programování programátor kóduje všechna pravidla po konzultaci s odborníkem v oboru, pro který je software vyvíjen. Každé pravidlo je založeno na logickém základu; stroj provede výstup za logickým příkazem. Když se systém stává složitým, je třeba napsat více pravidel. Jeho údržba se může rychle stát neudržitelnou.

Tradiční programování
Tradiční programování

Strojové učení má tento problém překonat. Stroj se naučí, jak jsou vstupní a výstupní data korelována, a zapíše pravidlo. Programátoři nemusí psát nová pravidla pokaždé, když jsou nová data. Algoritmy se přizpůsobují v reakci na nová data a zkušenosti, aby se v průběhu času zlepšila účinnost.

Strojové učení

Strojové učení

Jak funguje strojové učení?

Nyní v tomto tutoriálu Základy strojového učení pro začátečníky se naučíme, jak strojové učení (ML) funguje:

Strojové učení je mozek, kde probíhá veškeré učení. Způsob, jakým se stroj učí, je podobný lidské bytosti. Lidé se učí ze zkušenosti. Čím více toho víme, tím snadněji můžeme předvídat. Analogicky, když čelíme neznámé situaci, pravděpodobnost úspěchu je nižší než známá situace. Stroje jsou cvičeny stejně. Aby bylo možné provést přesnou předpověď, stroj vidí příklad. Když stroji dáme podobný příklad, může přijít na výsledek. Nicméně, stejně jako člověk, je-li jeho krmení dříve neviděným příkladem, stroj má potíže předvídat.

Hlavním cílem strojového učení je studium a odvození. Za prvé, stroj se učí objevováním vzorů. Tento objev je učiněn díky datum. Jednou z klíčových součástí datového vědce je pečlivě vybírat, která data stroji poskytnout. Seznam atributů použitých k vyřešení problému se nazývá a rysový vektor. Vektor prvku si můžete představit jako podmnožinu dat, která se používá k řešení problému.

Stroj používá některé efektní algoritmy, aby zjednodušil realitu a přeměnil tento objev na a model. Proto se fáze učení používá k popisu dat a jejich shrnutí do modelu.

Práce se strojovým učením

Automat se například snaží porozumět vztahu mezi mzdou jednotlivce a pravděpodobností návštěvy luxusní restaurace. Ukázalo se, že stroj najde pozitivní vztah mezi mzdou a návštěvou luxusní restaurace: Toto je model

Odvozování

Když je model postaven, je možné vyzkoušet jeho výkon na dosud neviděných datech. Nová data jsou transformována do vektoru prvků, procházejí modelem a poskytují předpověď. To vše je krásná část strojového učení. Není třeba aktualizovat pravidla nebo znovu trénovat model. K vyvozování závěrů o nových datech můžete použít dříve trénovaný model.

Závěr z Modelu

Život programů strojového učení je jednoduchý a lze jej shrnout do následujících bodů:

  1. Definujte otázku
  2. Sbírat data
  3. Vizualizujte data
  4. Tréninkový algoritmus
  5. Testujte algoritmus
  6. Sbírejte zpětnou vazbu
  7. Upřesněte algoritmus
  8. Opakujte 4-7, dokud nejsou výsledky uspokojivé
  9. Použijte model k předpovědi

Jakmile algoritmus dobře vyvodí správné závěry, aplikuje tyto znalosti na nové soubory dat.

Strojové učení Algorithms a kde se používají?

Nyní v tomto tutoriálu strojového učení pro začátečníky se naučíme, kde se používají algoritmy strojového učení (ML):

Strojové učení Algorithms

Strojové učení Algorithms

Strojové učení lze seskupit do dvou širokých výukových úkolů: pod dohledem a bez dozoru. Existuje mnoho dalších algoritmů

Dozorované učení

Algoritmus používá trénovací data a zpětnou vazbu od lidí, aby se naučil vztah daných vstupů k danému výstupu. Například odborník může použít marketingové náklady a předpověď počasí jako vstupní data k předpovědi prodeje plechovek.

Když jsou známa výstupní data, můžete použít řízené učení. Algoritmus předpovídá nová data.

Existují dvě kategorie učení pod dohledem:

  • Klasifikační úkol
  • Regresní úkol

Klasifikace

Představte si, že chcete předpovědět pohlaví zákazníka pro reklamu. Začnete shromažďovat údaje o výšce, váze, zaměstnání, platu, nákupním košíku atd. ze své zákaznické databáze. Znáte pohlaví každého svého zákazníka, může to být pouze muž nebo žena. Cílem klasifikátoru bude přiřadit pravděpodobnost, že jste muž nebo žena (tj. označení) na základě informací (tj. vlastností, které jste shromáždili). Když se model naučil, jak rozpoznat muže nebo ženu, můžete použít nová data k předpovědi. Například jste právě získali nové informace od neznámého zákazníka a chcete vědět, zda je to muž nebo žena. Pokud klasifikátor předpovídá muž = 70 %, znamená to, že algoritmus si je na 70 % jistý, že tento zákazník je muž a na 30 % je to žena.

Štítek může být dvou nebo více tříd. Výše uvedený příklad strojového učení má pouze dvě třídy, ale pokud klasifikátor potřebuje předpovědět objekt, má desítky tříd (např. sklo, stůl, boty atd. každý objekt představuje třídu)

Regrese

Když je výstupem spojitá hodnota, je úkolem regrese. Například finanční analytik může potřebovat předpovědět hodnotu akcie na základě řady vlastností, jako je akcie, předchozí výkonnost akcií, makroekonomický index. Systém bude naučený odhadnout cenu akcií s nejnižší možnou chybou.

Algoritmus Description Typ
Lineární regrese Najde způsob, jak korelovat každý prvek s výstupem, aby pomohl předvídat budoucí hodnoty. Regrese
Logistická regrese Rozšíření lineární regrese, která se používá pro klasifikační úlohy. Výstupní proměnná 3 je spíše binární (např. pouze černá nebo bílá) než spojitá (např. nekonečný seznam potenciálních barev) Klasifikace
Rozhodovací strom Vysoce interpretovatelný klasifikační nebo regresní model, který rozděluje hodnoty datových prvků do větví v rozhodovacích uzlech (např. pokud je prvkem barva, každá možná barva se stává novou větví), dokud není učiněn konečný výstup rozhodnutí Regrese
Klasifikace
Naivní Bayes Bayesovská metoda je klasifikační metoda, která využívá Bayesovu větu. Věta aktualizuje předchozí znalosti o události s nezávislou pravděpodobností každého prvku, který může událost ovlivnit. Regrese
Klasifikace
Podpora vektor stroj
Pro klasifikační úlohu se obvykle používá Support Vector Machine, neboli SVM.
Algoritmus SVM najde nadrovinu, která optimálně rozdělí třídy. Nejlépe se používá s nelineárním řešičem.
Regrese (ne příliš časté)
Klasifikace
Náhodný les Algoritmus je postaven na rozhodovacím stromě, aby se výrazně zlepšila přesnost. Náhodný les generuje mnohokrát jednoduché rozhodovací stromy a používá metodu „většinového hlasování“ k rozhodnutí, který štítek vrátit. U klasifikační úlohy bude konečná předpověď, která bude mít nejvíce hlasů; zatímco pro regresní úlohu je konečnou predikcí průměrná předpověď všech stromů. Regrese
Klasifikace
AdaBoost Klasifikační nebo regresní technika, která využívá množství modelů, aby dospěla k rozhodnutí, ale zvažuje je na základě jejich přesnosti při předpovídání výsledku Regrese
Klasifikace
Stromy podporující přechod Stromy zesilující gradient jsou nejmodernější klasifikační/regresní technika. Zaměřuje se na chybu způsobenou předchozími stromy a snaží se ji napravit. Regrese
Klasifikace

Nerušené učení

Při učení bez dozoru algoritmus zkoumá vstupní data, aniž by mu byla dána explicitní výstupní proměnná (např. zkoumá demografická data zákazníků, aby identifikovala vzorce)

Můžete jej použít, když nevíte, jak klasifikovat data, a chcete, aby algoritmus našel vzory a klasifikoval data za vás

Název algoritmu Description Typ
K znamená shlukování Vkládá data do některých skupin (k), z nichž každá obsahuje data s podobnými charakteristikami (jak je určeno modelem, nikoli předem lidmi) Clustering.
Gaussův model směsi Zobecnění shlukování k-means, které poskytuje větší flexibilitu ve velikosti a tvaru skupin (shluků) Clustering.
Hierarchické shlukování Rozdělí shluky podél hierarchického stromu a vytvoří klasifikační systém.

Může být použit pro Cluster zákazník věrnostní karty

Clustering.
Systém doporučení Pomozte definovat relevantní data pro vytvoření doporučení. Clustering.
PCA/T-SNE Většinou se používá ke snížení rozměrnosti dat. Algoritmy snižují počet prvků na 3 nebo 4 vektory s nejvyššími rozptyly. Zmenšení rozměrů

Jak vybrat algoritmus strojového učení

Nyní v tomto tutoriálu se základy strojového učení se naučíme, jak vybrat algoritmus strojového učení (ML):

Existuje spousta algoritmů strojového učení. Volba algoritmu je založena na cíli.

V příkladu strojového učení níže je úkolem předpovědět typ květiny mezi třemi odrůdami. Předpovědi jsou založeny na délce a šířce okvětního lístku. Obrázek ukazuje výsledky deseti různých algoritmů. Obrázek vlevo nahoře je datová sada. Data jsou rozdělena do tří kategorií: červená, světle modrá a tmavě modrá. Existuje několik seskupení. Například z druhého obrázku vše vlevo nahoře patří do červené kategorie, ve střední části je směs neurčitosti a světle modré, zatímco spodní odpovídá tmavé kategorii. Další obrázky ukazují různé algoritmy a způsob, jakým se snaží data klasifikovat.

Jak vybrat algoritmus strojového učení

Výzvy a omezení strojového učení

Nyní v tomto tutoriálu strojového učení se dozvíme o omezeních strojového učení:

Primární výzvou strojového učení je nedostatek dat nebo rozmanitost datové sady. Stroj se nemůže učit, pokud nejsou k dispozici žádná data. Kromě toho datová sada s nedostatkem rozmanitosti dává stroji potíže. Aby se stroj naučil smysluplný náhled, musí mít heterogenitu. Je vzácné, že algoritmus může extrahovat informace, když neexistují žádné nebo jen málo variací. Doporučuje se mít alespoň 20 pozorování na skupinu, aby se stroj naučil. Toto omezení vede ke špatnému hodnocení a predikci.

Aplikace strojového učení

Nyní v tomto tutoriálu strojového učení se pojďme naučit aplikace strojového učení:

Zvětšení:

  • Strojové učení, které pomáhá lidem s jejich každodenními úkoly, osobně nebo komerčně, aniž by měli úplnou kontrolu nad výstupem. Takové strojové učení se používá různými způsoby, jako je virtuální asistent, analýza dat, softwarová řešení. Primárním uživatelem je omezit chyby způsobené lidskou zaujatostí.

Automatizace:

  • Strojové učení, které funguje zcela autonomně v jakékoli oblasti bez nutnosti jakéhokoli lidského zásahu. Například roboty provádějící základní procesní kroky ve výrobních závodech.

Finanční průmysl

  • Strojové učení je ve finančním průmyslu stále oblíbenější. Banky používají ML hlavně k nalezení vzorců v datech, ale také k prevenci podvodů.

Vládní organizace

  • Vláda využívá ML k řízení veřejné bezpečnosti a veřejných služeb. Vezměte si příklad Číny s masivním rozpoznáváním obličeje. Vláda používá Umělá inteligence aby se zabránilo Jaywalker.

Zdravotnický průmysl

  • Zdravotnictví bylo jedním z prvních odvětví, které využívalo strojové učení s detekcí obrazu.

Marketing

  • Široké využití AI se v marketingu děje díky bohatému přístupu k datům. Před věkem masových dat vyvíjeli výzkumníci pokročilé matematické nástroje, jako je Bayesovská analýza, aby odhadli hodnotu zákazníka. S rozmachem dat spoléhá marketingové oddělení na AI při optimalizaci vztahů se zákazníky a marketingové kampaně.

Příklad aplikace strojového učení v dodavatelském řetězci

Strojové učení poskytuje skvělé výsledky pro vizuální rozpoznávání vzorů a otevírá mnoho potenciálních aplikací ve fyzické kontrole a údržbě v celé síti dodavatelského řetězce.

Učení bez dozoru může rychle vyhledávat srovnatelné vzorce v různých souborech dat. Na druhé straně může stroj provádět kontrolu kvality v celém logistickém centru, zásilku s poškozením a opotřebením.

Například, IBMPlatforma Watson dokáže určit poškození přepravního kontejneru. Watson kombinuje vizuální a systémová data pro sledování, hlášení a doporučení v reálném čase.

V minulém roce skladový manažer do značné míry spoléhá na primární metodu hodnocení a prognózování zásob. Při kombinaci velkých dat a strojového učení byly implementovány lepší prognostické techniky (zlepšení o 20 až 30 % oproti tradičním prognostickým nástrojům). Z hlediska tržeb to znamená nárůst o 2 až 3 % z důvodu možného snížení nákladů na zásoby.

Příklad strojového učení Google Car

Každý zná například auto Google. Vůz je plný laserů na střeše, které mu říkají, kde je s ohledem na okolí. Vpředu má radar, který informuje auto o rychlosti a pohybu všech aut kolem něj. Využívá všechna tato data nejen k tomu, aby zjistil, jak vůz řídit, ale také k tomu, aby zjistil a předpověděl, co udělají potenciální řidiči kolem vozu. Působivé je, že vůz zpracovává téměř gigabajt za sekundu dat.

Aplikace strojového učení

Proč je strojové učení důležité?

Strojové učení je zatím nejlepším nástrojem k analýze, pochopení a identifikaci vzoru v datech. Jednou z hlavních myšlenek strojového učení je, že počítač lze vycvičit k automatizaci úloh, které by byly pro člověka vyčerpávající nebo nemožné. Jasným porušením tradiční analýzy je, že strojové učení může přijímat rozhodnutí s minimálním zásahem člověka.

Vezměte si následující příklad pro tento kurz ML; maloobchodní agent dokáže odhadnout cenu domu na základě vlastních zkušeností a znalostí trhu.

Stroj lze vycvičit, aby převedl znalosti odborníka do funkcí. Vlastnosti jsou všechny vlastnosti domu, čtvrti, ekonomického prostředí atd., které tvoří cenový rozdíl. Znalci zřejmě trvalo několik let, než zvládl umění odhadnout cenu domu. Jeho odbornost je po každém prodeji lepší a lepší.

Pro stroj vyžaduje miliony dat (tj. příklad), aby zvládl toto umění. Na samém začátku svého učení udělá stroj chybu, tak nějak jako mladší prodejce. Jakmile stroj uvidí všechny příklady, získal dostatek znalostí, aby mohl provést svůj odhad. Přitom s neuvěřitelnou přesností. Stroj je také schopen odpovídajícím způsobem upravit svou chybu.

Většina velkých společností pochopila hodnotu strojového učení a uchovávání dat. Společnost McKinsey odhadla, že hodnota analýzy se pohybuje od $9.5 bilionu až $zatímco 15.4 bilionu $5 až 7 bilionů lze připsat nejpokročilejším technikám umělé inteligence.

Přečtěte si také Co je to Fuzzy Logic? Archistruktura, aplikace a příklad: Klikněte zde