Strojové učení pod dohledem: Co je Algorithms s příklady

Co je strojové učení pod dohledem?

Strojové učení pod dohledem je algoritmus, který se učí z označených tréninkových dat, aby vám pomohl předvídat výsledky pro nepředvídaná data. V řízeném učení trénujete stroj pomocí dat, která jsou dobře „označená“. To znamená, že některá data jsou již označena správnými odpověďmi. Dá se to přirovnat k učení v přítomnosti nadřízeného nebo učitele.

Úspěšné sestavení, škálování a nasazení přesný modely strojového učení pod dohledem vyžadují čas a technické znalosti týmu vysoce kvalifikovaných datových vědců. Navíc, Data vědec musí obnovit modely abyste se ujistili, že poskytnuté poznatky zůstanou pravdivé, dokud se nezmění jeho data.

Jak funguje supervizované učení

Strojové učení pod dohledem využívá trénovací datové sady k dosažení požadovaných výsledků. Tyto datové sady obsahují vstupy a správný výstup, který pomáhá modelu rychleji se učit. Chcete například vycvičit stroj, který vám pomůže předpovědět, jak dlouho vám bude trvat cesta domů z vašeho pracoviště.

Zde začnete vytvořením sady označených dat. Tato data zahrnují:

  • Povětrnostní podmínky
  • Denní čas
  • Dovolená

Všechny tyto podrobnosti jsou vašimi vstupy v tomto příkladu výuky pod dohledem. Výstupem je doba, kterou zabrala cesta domů v daný den.

Jak funguje strojové učení pod dohledem

Instinktivně víte, že když venku prší, bude vám cesta domů trvat déle. Ale stroj potřebuje data a statistiky.

Podívejme se na několik příkladů výuky s dohledem, jak můžete vytvořit model výuky s dohledem podle tohoto příkladu, který uživateli pomůže určit dobu dojíždění. První věc, kterou musíte vytvořit, je tréninková sada. Tato tréninková sada bude obsahovat celkovou dobu dojíždění a odpovídající faktory, jako je počasí, čas atd. Na základě této tréninkové sady může váš stroj vidět, že existuje přímý vztah mezi množstvím deště a časem, který budete potřebovat na cestu domů.

Zjistí tedy, že čím více prší, tím déle pojedete autem, abyste se vrátili domů. Může také vidět souvislost mezi časem, kdy odcházíte z práce, a časem, kdy budete na cestě.

Čím blíže jste k 6:XNUMX, tím déle vám trvá, než se dostanete domů. Váš počítač může najít některé vztahy s vašimi označenými daty.

Práce s kontrolovaným strojovým učením
Práce s kontrolovaným strojovým učením

Toto je začátek vašeho datového modelu. Začíná to mít vliv na to, jak déšť ovlivňuje způsob, jakým lidé jezdí. Začíná také vidět, že v určitou denní dobu cestuje více lidí.

Typy strojového učení pod dohledem Algorithms

Níže jsou uvedeny typy algoritmů řízeného strojového učení:

Regrese

Regresní technika předpovídá jedinou výstupní hodnotu pomocí tréninkových dat.

Příklad: Regresi můžete použít k předpovědi ceny domu z tréninkových dat. Vstupními proměnnými budou lokalita, velikost domu atd.

Silné: Výstupy mají vždy pravděpodobnostní interpretaci a algoritmus lze regulovat, aby se předešlo nadměrnému přizpůsobení.

Slabé stránky: Logistická regrese může mít nedostatečnou výkonnost, pokud existují vícenásobné nebo nelineární hranice rozhodování. Tato metoda není flexibilní, takže nezachycuje složitější vztahy.

Logistická regrese:

Logistická regresní metoda používaná k odhadu diskrétních hodnot na základě daného souboru nezávislých proměnných. Pomáhá vám předpovídat pravděpodobnost výskytu události přizpůsobením dat funkci logit. Proto se také nazývá logistická regrese. Protože předpovídá pravděpodobnost, jeho výstupní hodnota leží mezi 0 a 1.

Zde je několik typů regrese Algorithms

Klasifikace

Klasifikace znamená seskupit výstup uvnitř třídy. Pokud se algoritmus pokouší označit vstup do dvou odlišných tříd, nazývá se to binární klasifikace. Výběr mezi více než dvěma třídami se nazývá vícetřídní klasifikace.

Příklad: Určení, zda někdo bude či nebude neplatičem úvěru.

Silné: Klasifikační strom funguje v praxi velmi dobře

Slabé stránky: Bez omezení, jednotlivé stromy jsou náchylné k přesazování.

Zde je několik typů klasifikace Algorithms

Naivní Bayesovy klasifikátory

Naivní Bayesovský model (NBN) se snadno sestavuje a je velmi užitečný pro velké datové sady. Tato metoda se skládá z přímých acyklických grafů s jedním rodičem a několika dětmi. Předpokládá nezávislost mezi podřízenými uzly oddělenými od jejich rodiče.

Rozhodovací stromy

Rozhodovací stromy klasifikují instance jejich řazením na základě hodnoty prvku. V této metodě je každý režim funkcí instance. Měl by být klasifikován a každá větev představuje hodnotu, kterou může uzel nabývat. Je to široce používaná technika klasifikace. V této metodě je klasifikace stromem, který je známý jako rozhodovací strom.

Pomůže vám odhadnout reálné hodnoty (náklady na pořízení vozu, počet hovorů, celkové měsíční tržby atd.).

Podpora Vector Machine

Support vector machine (SVM) je typ algoritmu učení vyvinutý v roce 1990. Tato metoda je založena na výsledcích statistické teorie učení, kterou zavedl Vap Nik.

Stroje SVM jsou také úzce propojeny s funkcemi jádra, což je ústřední koncept pro většinu úloh učení. Rámec jádra a SVM se používají v různých oblastech. Zahrnuje získávání multimediálních informací, bioinformatiku a rozpoznávání vzorů.

Techniky strojového učení pod dohledem vs. bez dozoru

Na základě Technika strojového učení pod dohledem Technika strojového učení bez dozoru
Vstupní data Algorithms jsou trénováni pomocí označených dat. Algorithms se používají proti údajům, které nejsou označeny
Výpočetní složitost Učení pod dohledem je jednodušší metoda. Učení bez dozoru je výpočetně složité
Přesnost Vysoce přesná a důvěryhodná metoda. Less přesná a důvěryhodná metoda.

Výzvy v řízeném strojovém učení

Zde jsou výzvy, kterým čelí strojové učení pod dohledem:

  • Irelevantní vstupní funkce prezentující tréninková data mohou poskytovat nepřesné výsledky
  • Příprava a předzpracování dat je vždy výzvou.
  • Přesnost trpí, když je to nemožné, nepravděpodobné a jako tréninková data byly zadány neúplné hodnoty
  • Pokud dotyčný odborník není k dispozici, pak je dalším přístupem „hrubá síla“. To znamená, že musíte myslet na správné funkce (vstupní proměnné), na kterých budete stroj trénovat. Mohlo by to být nepřesné.

Výhody řízeného učení

Zde jsou výhody řízeného strojového učení:

  • Učení pod dohledem v Strojové učení umožňuje shromažďovat data nebo vytvářet datový výstup z předchozí zkušenosti
  • Pomáhá vám optimalizovat kritéria výkonu pomocí zkušeností
  • Strojové učení pod dohledem vám pomůže vyřešit různé typy reálných výpočetních problémů.

Nevýhody řízeného učení

Níže jsou uvedeny nevýhody řízeného strojového učení:

  • Hranice rozhodování může být přetrénovaná, pokud vaše tréninková sada neobsahuje příklady, které chcete mít ve třídě
  • Při trénování klasifikátoru musíte z každé třídy vybrat spoustu dobrých příkladů.
  • Klasifikace velké údajů může být skutečnou výzvou.
  • Školení pro učení pod dohledem vyžaduje mnoho výpočetního času.

Doporučené postupy pro řízené učení

  • Než uděláte cokoliv jiného, ​​musíte se rozhodnout, jaký druh dat se má použít jako trénovací sada
  • Musíte rozhodnout o struktuře naučené funkce a algoritmu učení.
  • Získejte odpovídající výstupy buď od lidských expertů nebo z měření

Shrnutí

  • V algoritmech řízeného učení trénujete stroj pomocí dat, která jsou dobře „označená“.
  • Chcete trénovat stroj, který vám pomůže předpovědět, jak dlouho vám bude trvat cesta domů z vašeho pracoviště, je příkladem řízeného učení.
  • Regrese a klasifikace jsou dvě dimenze algoritmu kontrolovaného strojového učení.
  • Dozorované učení je jednodušší metoda, zatímco učení bez dozoru je komplexní metoda.
  • Největší výzvou v řízeném učení je to, že irelevantní vstupní funkce prezentující tréninková data mohou poskytovat nepřesné výsledky.
  • Hlavní výhodou výuky pod dohledem je to, že vám umožňuje shromažďovat data nebo vytvářet datový výstup z předchozí zkušenosti.
  • Nevýhodou tohoto modelu je, že hranice rozhodování může být příliš napjatá, pokud vaše tréninková sada neobsahuje příklady, které chcete mít ve třídě.
  • Jako osvědčený postup supervizního učení se nejprve musíte rozhodnout, jaký druh dat by měl být použit jako trénovací sada.