Samouczek uczenia maszynowego dla początkujących: co to jest, podstawy uczenia maszynowego
Co to jest uczenie maszynowe?
Nauczanie maszynowe jest systemem algorytmów komputerowych, które mogą uczyć się na przykładach poprzez samodoskonalenie bez wyraźnego kodowania przez programistę. Uczenie maszynowe jest częścią sztucznej inteligencji, która łączy dane z narzędziami statystycznymi w celu przewidywania wyników, które mogą być wykorzystane do tworzenia praktycznych spostrzeżeń.
Przełom polega na pomyśle, że maszyna może uczyć się na podstawie danych (tj. przykładów) w celu uzyskania dokładnych wyników. Uczenie maszynowe jest ściśle powiązane z eksploracją danych i modelowaniem predykcyjnym Bayesa. Maszyna odbiera dane jako dane wejściowe i na podstawie algorytmu formułuje odpowiedzi.
Typowe zadania uczenia maszynowego obejmują dostarczenie rekomendacji. Dla tych, którzy mają Netflix wszystkie rekomendacje filmów lub seriali opierają się na danych historycznych użytkownika. Korzystają z nich firmy technologiczne uczenie się bez nadzoru w celu poprawy doświadczenia użytkownika dzięki personalizacji rekomendacji.
Uczenie maszynowe jest również wykorzystywane do różnych zadań, takich jak wykrywanie oszustw, konserwacja predykcyjna, optymalizacja portfela, automatyzacja zadań i tak dalej.
Uczenie maszynowe a programowanie tradycyjne
Tradycyjne programowanie znacznie różni się od uczenia maszynowego. W tradycyjnym programowaniu programista koduje wszystkie reguły w konsultacji z ekspertem w branży, dla której opracowywane jest oprogramowanie. Każda reguła opiera się na logicznym fundamencie; maszyna wykona wynik zgodnie z logicznym poleceniem. Gdy system staje się złożony, należy napisać więcej reguł. Może szybko stać się niezrównoważony w utrzymaniu.
Uczenie maszynowe ma przezwyciężyć ten problem. Maszyna uczy się, jak dane wejściowe i wyjściowe są skorelowane i pisze regułę. Programiści nie muszą pisać nowych reguł za każdym razem, gdy pojawiają się nowe dane. Algorytmy dostosowują się w odpowiedzi na nowe dane i doświadczenia, aby z czasem zwiększyć skuteczność.
Jak działa uczenie maszynowe?
W tym samouczku dotyczącym podstaw uczenia maszynowego dla początkujących dowiemy się, jak działa uczenie maszynowe (ML):
Uczenie maszynowe to mózg, w którym odbywa się cała nauka. Sposób, w jaki maszyna uczy się, jest podobny do sposobu, w jaki uczy się człowiek. Ludzie uczą się na podstawie doświadczeń. Im więcej wiemy, tym łatwiej możemy przewidzieć. Analogicznie, gdy mamy do czynienia z nieznaną sytuacją, prawdopodobieństwo sukcesu jest mniejsze niż w znanej sytuacji. Maszyny są szkolone w ten sam sposób. Aby dokonać dokładnej prognozy, maszyna widzi przykład. Kiedy damy maszynie podobny przykład, może ona obliczyć wynik. Jednakże, podobnie jak człowiek, jeśli karmi go niewidziany wcześniej przykład, maszyna ma trudności z przewidzeniem.
Podstawowym celem uczenia maszynowego jest nauka i wnioskowanie. Przede wszystkim maszyna uczy się poprzez odkrywanie wzorców. Odkrycia tego dokonano dzięki dane. Jedną z kluczowych części analityka danych jest ostrożny wybór danych, które mają zostać dostarczone maszynie. Lista atrybutów używanych do rozwiązania problemu nazywa się a wektor cech. Można myśleć o wektorze cech jako o podzbiorze danych używanych do rozwiązania problemu.
Maszyna wykorzystuje kilka wymyślnych algorytmów, aby uprościć rzeczywistość i przekształcić to odkrycie w modelDlatego etap uczenia się służy opisaniu danych i podsumowaniu ich w modelu.
Na przykład maszyna próbuje zrozumieć związek pomiędzy zarobkiem danej osoby a prawdopodobieństwem pójścia do eleganckiej restauracji. Okazuje się, że maszyna znajduje dodatnią zależność między zarobkami a pójściem do ekskluzywnej restauracji: To jest model
Wnioskowanie
Po zbudowaniu modelu możliwe jest przetestowanie jego mocy na nigdy wcześniej nie widzianych danych. Nowe dane są przekształcane w wektor cech, przechodzą przez model i dają prognozę. To właśnie jest piękna część uczenia maszynowego. Nie ma potrzeby aktualizowania zasad ani ponownego uczenia modelu. Możesz użyć wcześniej przeszkolonego modelu, aby wyciągnąć wnioski na temat nowych danych.
Życie programów uczenia maszynowego jest proste i można je podsumować w następujących punktach:
- Zdefiniuj pytanie
- Zbieraj dane
- Wizualizuj dane
- Algorytm pociągu
- Przetestuj algorytm
- Zbieraj opinie
- Udoskonal algorytm
- Pętla 4-7, aż wyniki będą zadowalające
- Użyj modelu, aby dokonać prognozy
Gdy algorytm nabierze wprawy w wyciąganiu właściwych wniosków, stosuje zdobytą wiedzę do nowych zestawów danych.
Nauczanie maszynowe Algorithms i gdzie są używane?
W tym samouczku poświęconym uczeniu maszynowemu dla początkujących dowiemy się, gdzie wykorzystywane są algorytmy uczenia maszynowego (ML):
Uczenie maszynowe można podzielić na dwa szerokie zadania uczenia się: nadzorowane i nienadzorowane. Istnieje wiele innych algorytmów
Nadzorowana nauka
Algorytm wykorzystuje dane szkoleniowe i informacje zwrotne od ludzi, aby poznać związek danych wejściowych z danym wyjściem. Na przykład specjalista może wykorzystać wydatki marketingowe i prognozę pogody jako dane wejściowe do przewidywania sprzedaży puszek.
Można zastosować uczenie nadzorowane, gdy znane są dane wyjściowe. Algorytm będzie przewidywał nowe dane.
Istnieją dwie kategorie Nadzorowana nauka:
- Zadanie klasyfikacyjne
- Zadanie regresyjne
Klasyfikacja
Wyobraź sobie, że chcesz przewidzieć płeć klienta w reklamie. Zaczniesz zbierać dane o wzroście, wadze, stanowisku, wynagrodzeniu, koszyku zakupowym itp. ze swojej bazy klientów. Znasz płeć każdego swojego klienta, może to być tylko mężczyzna lub kobieta. Celem klasyfikatora będzie przypisanie prawdopodobieństwa bycia mężczyzną lub kobietą (tj. etykiety) na podstawie informacji (tj. zebranych cech). Gdy model nauczy się rozpoznawać mężczyznę i kobietę, będzie można wykorzystać nowe dane do przewidywania. Na przykład właśnie otrzymałeś nowe informacje od nieznanego klienta i chcesz wiedzieć, czy jest to mężczyzna czy kobieta. Jeśli klasyfikator przewiduje, że mężczyzna = 70%, oznacza to, że algorytm jest pewien na poziomie 70%, że tym klientem jest mężczyzna, a w 30% to kobieta.
Etykieta może należeć do dwóch lub więcej klas. Powyższy przykład uczenia maszynowego ma tylko dwie klasy, ale jeśli klasyfikator musi przewidzieć obiekt, ma dziesiątki klas (np. szkło, stół, buty itp. każdy obiekt reprezentuje klasę)
Regresja
Gdy wynik jest wartością ciągłą, zadaniem jest regresja. Na przykład analityk finansowy może potrzebować prognozy wartości akcji w oparciu o szereg cech, takich jak kapitał własny, poprzednie wyniki akcji, indeks makroekonomiczny. System zostanie przeszkolony w zakresie szacowania ceny akcji z możliwie najmniejszym błędem.
Algorytm | Opis | Typ |
---|---|---|
Regresja liniowa | Znajduje sposób na powiązanie każdej cechy z wynikami, aby pomóc przewidzieć przyszłe wartości. | Regresja |
Regresja logistyczna | Rozszerzenie regresji liniowej używanej do zadań klasyfikacyjnych. Zmienna wyjściowa 3 jest binarna (np. tylko czerń lub biel), a nie ciągła (np. nieskończona lista potencjalnych kolorów) | Klasyfikacja |
Drzewo decyzyjne | Wysoce interpretowalny model klasyfikacji lub regresji, który dzieli wartości cech danych na gałęzie w węzłach decyzyjnych (np. jeśli cecha jest kolorem, każdy możliwy kolor staje się nową gałęzią) do czasu podjęcia ostatecznej decyzji | Regresja Klasyfikacja |
Naiwny Bayes | Metoda Bayesa jest metodą klasyfikacji wykorzystującą twierdzenie Bayesa. Twierdzenie aktualizuje wcześniejszą wiedzę o zdarzeniu o niezależne prawdopodobieństwo każdej cechy, która może mieć wpływ na zdarzenie. | Regresja Klasyfikacja |
Maszyna wektorów nośnych |
Do zadania klasyfikacji zwykle używana jest maszyna wektorów nośnych, w skrócie SVM. Algorytm SVM znajduje hiperpłaszczyznę, która optymalnie dzieli klasy. Najlepiej stosować go z solwerem nieliniowym. |
Regresja (niezbyt częsta) Klasyfikacja |
Losowy las | Algorytm opiera się na drzewie decyzyjnym, co znacznie poprawia dokładność. Losowy las generuje wiele razy proste drzewa decyzyjne i wykorzystuje metodę „głosowania większością”, aby zdecydować, która etykieta ma zostać zwrócona. W przypadku zadania klasyfikacyjnego ostateczną prognozą będzie ta, która zdobędzie najwięcej głosów; podczas gdy w przypadku zadania regresji ostateczną prognozą jest średnia prognoza wszystkich drzew. | Regresja Klasyfikacja |
AdaBoost | Technika klasyfikacji lub regresji, która wykorzystuje wiele modeli do podjęcia decyzji, ale waży je na podstawie ich dokładności w przewidywaniu wyniku | Regresja Klasyfikacja |
Drzewa wzmacniające gradient | Drzewa wzmacniające gradient to najnowocześniejsza technika klasyfikacji/regresji. Koncentruje się na błędach popełnionych przez poprzednie drzewa i próbuje je naprawić. | Regresja Klasyfikacja |
Uczenie się bez nadzoru
W przypadku uczenia się bez nadzoru algorytm bada dane wejściowe bez podawania wyraźnej zmiennej wyjściowej (np. bada dane demograficzne klientów w celu zidentyfikowania wzorców).
Możesz z niej skorzystać, gdy nie wiesz jak klasyfikować dane, a chcesz, żeby algorytm znalazł wzorce i sklasyfikował dane za Ciebie
Nazwa algorytmu | Opis | Typ |
---|---|---|
Grupowanie K-średnich | Umieszcza dane w grupach (k), z których każda zawiera dane o podobnych cechach (określonych przez model, a nie z góry przez ludzi) | ClusterING |
Model mieszaniny Gaussa | Uogólnienie klasteryzacji metodą k-średnich, zapewniające większą elastyczność w zakresie rozmiaru i kształtu grup (klastrów) | ClusterING |
Hierarchiczne grupowanie | Dzieli klastry wzdłuż drzewa hierarchicznego w celu utworzenia systemu klasyfikacji.
Może być stosowany do Cluster klient posiadający kartę stałego klienta |
ClusterING |
System rekomendacji | Pomóż zdefiniować odpowiednie dane do wydania rekomendacji. | ClusterING |
PCA/T-SNE | Najczęściej używane do zmniejszenia wymiarowości danych. Algorytmy redukują liczbę cech do 3 lub 4 wektorów o najwyższych wariancjach. | Zmniejszenie wymiaru |
Jak wybrać algorytm uczenia maszynowego
W tym samouczku dotyczącym podstaw uczenia maszynowego dowiemy się, jak wybrać algorytm uczenia maszynowego (ML):
Istnieje wiele algorytmów uczenia maszynowego. Wybór algorytmu zależy od celu.
W poniższym przykładzie uczenia maszynowego zadaniem jest przewidzenie rodzaju kwiatu spośród trzech odmian. Przewidywania opierają się na długości i szerokości płatka. Obraz przedstawia wyniki dziesięciu różnych algorytmów. Obraz w lewym górnym rogu to zbiór danych. Dane są klasyfikowane do trzech kategorii: czerwony, jasnoniebieski i ciemnoniebieski. Istnieje kilka grupowań. Na przykład na drugim obrazie wszystko w lewym górnym rogu należy do kategorii czerwonej, w środkowej części jest mieszanka niepewności i jasnoniebieskiego, podczas gdy dół odpowiada kategorii ciemnej. Pozostałe obrazy pokazują różne algorytmy i sposób, w jaki próbują klasyfikować dane.
Wyzwania i ograniczenia uczenia maszynowego
W tym samouczku dotyczącym uczenia maszynowego dowiemy się o ograniczeniach uczenia maszynowego:
Głównym wyzwaniem uczenia maszynowego jest brak danych lub różnorodność zbioru danych. Maszyna nie może się uczyć, jeśli nie ma dostępnych danych. Poza tym zbiór danych pozbawiony różnorodności sprawia, że maszyna ma trudności. Aby uzyskać znaczący wgląd, maszyna musi cechować się heterogenicznością. Rzadko zdarza się, aby algorytm mógł wyodrębnić informacje, gdy nie ma żadnych odmian lub jest ich niewiele. Zaleca się, aby na grupę przypadało co najmniej 20 obserwacji, aby pomóc maszynie w uczeniu się. To ograniczenie prowadzi do słabej oceny i przewidywania.
Zastosowanie uczenia maszynowego
Teraz w tym samouczku dotyczącym uczenia maszynowego poznajmy zastosowania uczenia maszynowego:
zwiększenie:
- Uczenie maszynowe, które pomaga ludziom w codziennych zadaniach, osobistych lub komercyjnych, bez pełnej kontroli nad wynikami. Takie uczenie maszynowe jest wykorzystywane na różne sposoby, np. Wirtualny Asystent, analiza danych, rozwiązania programowe. Głównym użytkownikiem jest redukcja błędów wynikających z ludzkich uprzedzeń.
Automatyzacja:
- Uczenie maszynowe, które działa całkowicie autonomicznie w dowolnej dziedzinie, bez konieczności jakiejkolwiek interwencji człowieka. Na przykład roboty wykonujące podstawowe etapy procesu w zakładach produkcyjnych.
Przemysł finansowy
- Uczenie maszynowe zyskuje na popularności w branży finansowej. Banki wykorzystują ML głównie do znajdowania wzorców w danych, ale także do zapobiegania oszustwom.
Organizacja rządowa
- Rząd wykorzystuje ML do zarządzania bezpieczeństwem publicznym i usługami użyteczności publicznej. Weźmy przykład Chin z masowym rozpoznawaniem twarzy. Rząd korzysta AI aby zapobiec przechodniowi.
Przemysł opieki zdrowotnej
- Opieka zdrowotna była jedną z pierwszych branż, która wykorzystała uczenie maszynowe do wykrywania obrazu.
Marketing
- Szerokie zastosowanie AI w marketingu odbywa się dzięki obfitemu dostępowi do danych. Zanim nastała era danych masowych, badacze opracowali zaawansowane narzędzia matematyczne, takie jak analiza Bayesa, służące do szacowania wartości klienta. W obliczu napływu danych dział marketingu polega na sztucznej inteligencji w celu optymalizacji relacji z klientami i kampanii marketingowej.
Przykład zastosowania uczenia maszynowego w łańcuchu dostaw
Uczenie maszynowe daje wspaniałe wyniki w zakresie wizualnego rozpoznawania wzorców, otwierając wiele potencjalnych zastosowań w kontroli fizycznej i konserwacji w całej sieci łańcucha dostaw.
Uczenie się bez nadzoru może szybko wyszukiwać porównywalne wzorce w zróżnicowanym zbiorze danych. Z kolei maszyna może przeprowadzić kontrolę jakości na terenie całego węzła logistycznego, wysyłkę z uszkodzeniami i zużyciem.
Na przykład, IBMPlatforma Watson może określić uszkodzenie kontenera transportowego. Watson łączy dane wizualne i systemowe, aby śledzić, raportować i wydawać rekomendacje w czasie rzeczywistym.
W ubiegłym roku zarządzający zapasami w dużym stopniu opierał się na podstawowej metodzie oceny i prognozowania zapasów. Łącząc duże zbiory danych i uczenie maszynowe, wdrożono lepsze techniki prognozowania (poprawa o 20–30% w porównaniu z tradycyjnymi narzędziami prognozowania). W ujęciu sprzedażowym oznacza to wzrost o 2-3% ze względu na potencjalną redukcję kosztów zapasów.
Przykład uczenia maszynowego Google Car
Na przykład wszyscy znają samochód Google. Samochód jest pełen laserów na dachu, które informują go, gdzie się znajduje w odniesieniu do okolicy. Posiada radar z przodu, który informuje samochód o prędkości i ruchu wszystkich samochodów wokół niego. Wykorzystuje wszystkie te dane nie tylko do ustalenia, jak prowadzić samochód, ale także do ustalenia i przewidzenia, co zrobią potencjalni kierowcy znajdujący się w pobliżu samochodu. Imponujące jest to, że samochód przetwarza niemal gigabajt danych na sekundę.
Dlaczego uczenie maszynowe jest ważne?
Uczenie maszynowe to najlepsze jak dotąd narzędzie do analizowania, rozumienia i identyfikowania wzorców w danych. Jedną z głównych idei uczenia maszynowego jest to, że komputer można wyszkolić do automatyzacji zadań, które byłyby wyczerpujące lub niemożliwe dla człowieka. Wyraźnym naruszeniem tradycyjnej analizy jest to, że uczenie maszynowe może podejmować decyzje przy minimalnej interwencji człowieka.
Weźmy pod uwagę poniższy przykład w tym samouczku dotyczącym uczenia maszynowego: agent detaliczny może oszacować cenę domu, opierając się na własnym doświadczeniu i znajomości rynku.
Maszynę można wytrenować, aby przełożyła wiedzę eksperta na funkcje. Cechy to wszystkie cechy domu, okolicy, środowiska gospodarczego itp., które wpływają na różnicę w cenie. Ekspertowi opanowanie sztuki szacowania ceny domu zajęło mu prawdopodobnie kilka lat. Po każdej sprzedaży jego wiedza jest coraz lepsza.
W przypadku maszyny potrzeba milionów danych (tj. przykładów), aby opanować tę sztukę. Maszyna na samym początku swojej nauki popełnia błąd, niczym młodszy sprzedawca. Gdy maszyna zobaczy cały przykład, uzyska wystarczającą wiedzę, aby dokonać oceny. Jednocześnie z niesamowitą dokładnością. Maszyna jest również w stanie odpowiednio skorygować swój błąd.
Większość dużych firm zrozumiała wartość uczenia maszynowego i przechowywania danych. Firma McKinsey oszacowała, że wartość analiz waha się od $9.5 biliona do $15.4 biliona podczas $Najbardziej zaawansowanym technikom sztucznej inteligencji można przypisać od 5 do 7 bilionów.
Przeczytaj także Co to jest logika rozmyta? Architechnologia, zastosowanie i przykład: Kliknij tutaj