Uczenie maszynowe bez nadzoru: Algorithms, Typy z przykładem
Co to jest uczenie się bez nadzoru?
Uczenie się bez nadzoru to technika uczenia maszynowego, w której użytkownicy nie muszą nadzorować modelu. Zamiast tego umożliwia modelowi samodzielną pracę w celu odkrycia wzorców i informacji, które wcześniej były niewykryte. Dotyczy głównie danych nieoznakowanych.
Uczenie się bez nadzoru Algorithms
Uczenie się bez nadzoru Algorithms umożliwiają użytkownikom wykonywanie bardziej złożonych zadań przetwarzania w porównaniu z uczeniem nadzorowanym. Chociaż uczenie bez nadzoru może być bardziej nieprzewidywalne w porównaniu z innymi naturalnymi metodami uczenia się. Algorytmy uczenia bez nadzoru obejmują klasteryzację, wykrywanie anomalii, sieci neuronowe itp.
Przykład nienadzorowanego uczenia maszynowego
Weźmy przykład uczenia się bez nadzoru w przypadku dziecka i jego psa rodzinnego.
Ona zna i identyfikuje tego psa. Kilka tygodni później przyjaciel rodziny przyprowadza psa i próbuje bawić się z dzieckiem.
Dziecko nie widziało wcześniej tego psa. Ale rozpoznaje wiele cech (dwoje uszu, oczy, chodzenie na 2 nogach) przypomina jej psa. Identyfikuje nowe zwierzę jako psa. Jest to uczenie się bez nadzoru, podczas którego nie jesteś uczony, ale uczysz się na podstawie danych (w tym przypadku danych dotyczących psa). Gdyby tak było Nadzorowana nauka, przyjaciel rodziny powiedziałby dziecku, że to pies, jak pokazano w powyższym przykładzie uczenia się bez nadzoru.
Dlaczego uczenie się bez nadzoru?
Oto główne powody, dla których warto korzystać z uczenia się bez nadzoru Nauczanie maszynowe:
- Uczenie maszynowe bez nadzoru znajduje w danych wszelkiego rodzaju nieznane wzorce.
- Metody nienadzorowane pomagają znaleźć funkcje, które mogą być przydatne do kategoryzacji.
- Odbywa się w czasie rzeczywistym, więc wszystkie dane wejściowe muszą być analizowane i oznaczane w obecności uczniów.
- Łatwiej jest uzyskać z komputera dane nieoznakowane niż dane opatrzone etykietą, które wymagają ręcznej interwencji.
ClusterRodzaje uczenia się bez nadzoru Algorithms
Poniżej przedstawiono typy klastrowania algorytmów uczenia maszynowego bez nadzoru:
Problemy uczenia się bez nadzoru można dalej podzielić na problemy klasteryzacji i problemy asocjacji.
ClusterING
ClusterUczenie się jest ważną koncepcją, jeśli chodzi o uczenie się bez nadzoru. Zajmuje się głównie znajdowaniem struktury lub wzorca w zbiorze nieskategoryzowanych danych. Uczenie się bez nadzoru ClusterAlgorytmy ing przetworzą Twoje dane i znajdą naturalne klastry (grupy), jeśli istnieją w danych. Możesz również zmodyfikować liczbę klastrów, które Twoje algorytmy powinny zidentyfikować. Pozwala to dostosować granularność tych grup.
Można wykorzystać różne typy klastrowania:
Ekskluzywne (podział)
W tej metodzie klastrowania dane są grupowane w taki sposób, że jedne dane mogą należeć tylko do jednego klastra.
Przykład: K-średnie
Aglomeracyjny
W tej technice klastrowania każde dane są klastrem. Iteracyjne unie między dwoma najbliższymi klastrami zmniejszają liczbę klastrów.
Przykład: Klastrowanie hierarchiczne
Nakładające
W tej technice do grupowania danych używa się zbiorów rozmytych. Każdy punkt może należeć do dwóch lub więcej klastrów o odrębnych stopniach przynależności.
Tutaj dane zostaną powiązane z odpowiednią wartością członkostwa. Przykład: rozmyte średnie C
Probabilistyczny
Ta technika wykorzystuje rozkład prawdopodobieństwa do tworzenia klastrów
Przykład: Poniższe słowa kluczowe
- „but męski”.
- „buty damskie”.
- „rękawiczka damska”.
- „męska rękawiczka”.
można podzielić na dwie kategorie: „buty” i „rękawiczki” lub „męskie” i „damskie”.
ClusterTypy
Poniżej przedstawiono typy klastrowania uczenia maszynowego:
- Hierarchiczne grupowanie
- Grupowanie K-średnich
- K-NN (k najbliższych sąsiadów)
- Analiza głównych składowych
- Rozkład według wartości osobliwych
- Analiza składowych niezależnych
Hierarchiczny ClusterING
Klastrowanie hierarchiczne to algorytm, który buduje hierarchię klastrów. Zaczyna się od wszystkich danych przypisanych do własnego klastra. Tutaj dwa bliskie klastry będą w tym samym klastrze. Ten algorytm kończy się, gdy pozostanie tylko jeden klaster.
K-oznacza ClusterING
K oznacza, że jest to iteracyjny algorytm klastrowania, który pomaga znaleźć najwyższą wartość dla każdej iteracji. Początkowo wybierana jest pożądana liczba klastrów. W tej metodzie klastrowania należy pogrupować punkty danych w k grup. Większe k oznacza mniejsze grupy o większej szczegółowości w ten sam sposób. Niższe k oznacza większe grupy o mniejszej szczegółowości.
Wynikiem algorytmu jest grupa „etykiet”. Przypisuje on punkty danych do jednej z k grup. W klasteryzacji k-średnich każda grupa jest definiowana poprzez utworzenie centroidu dla każdej grupy. Centroidy są niczym serce klastra, które przechwytuje punkty najbliższe im i dodaje je do klastra.
Klastrowanie metodą k-średnich dodatkowo definiuje dwie podgrupy:
- Klastrowanie aglomeracyjne
- Dendrogram
Klastrowanie aglomeracyjne
Ten typ klastrowania K-means zaczyna się od ustalonej liczby klastrów. Przydziela wszystkie dane do dokładnej liczby klastrów. Ta metoda klastrowania nie wymaga liczby klastrów K jako danych wejściowych. Proces aglomeracji zaczyna się od utworzenia każdego klastra danych jako pojedynczego klastra.
Ta metoda używa pewnej miary odległości, redukuje liczbę klastrów (jeden w każdej iteracji) poprzez scalanie procesów. Na koniec mamy jeden duży klaster, który zawiera wszystkie obiekty.
Dendrogram
W metodzie klasteryzacji dendrogramu każdy poziom będzie reprezentował możliwy klaster. Wysokość dendrogramu pokazuje poziom podobieństwa między dwoma klastrami połączeń. Im bliżej dna procesu, tym bardziej podobny klaster, co jest znajdowaniem grupy z dendrogramu, co nie jest naturalne i w większości subiektywne.
K- Najbliżsi sąsiedzi
K- najbliższy sąsiad jest najprostszym ze wszystkich klasyfikatorów uczenia maszynowego. Różni się od innych technik uczenia maszynowego tym, że nie tworzy modelu. Jest to prosty algorytm, który przechowuje wszystkie dostępne przypadki i klasyfikuje nowe wystąpienia na podstawie miary podobieństwa.
Działa bardzo dobrze, gdy istnieje odległość między przykładami. Szybkość uczenia się jest niska, gdy zbiór uczący jest duży, a obliczenie odległości nie jest trywialne.
Analiza głównych składowych
Jeśli chcesz przestrzeń o wyższym wymiarze. Musisz wybrać bazę dla tej przestrzeni i tylko 200 najważniejszych wyników tej bazy. Ta baza jest znana jako główny składnik. Wybrany podzbiór stanowi nową przestrzeń, która jest mała w porównaniu do oryginalnej przestrzeni. Utrzymuje ona jak najwięcej złożoności danych.
Stowarzyszenie
Reguły asocjacyjne umożliwiają ustanawianie powiązań pomiędzy obiektami danych w dużych bazach danych. Ta technika bez nadzoru polega na odkrywaniu interesujących relacji pomiędzy zmiennymi w dużych bazach danych. Na przykład osoby, które kupują nowy dom, najprawdopodobniej kupią nowe meble.
Inne przykłady:
- Podgrupa pacjentów chorych na raka pogrupowana według pomiarów ekspresji genów
- Grupy kupujących na podstawie ich historii przeglądania i zakupów
- Grupa filmów według ocen wystawionych przez widzów
Uczenie maszynowe nadzorowane i nienadzorowane
Oto główna różnica między Uczenie się nadzorowane a nienadzorowane:
Parametry | Technika uczenia maszynowego pod nadzorem | Technika uczenia maszynowego bez nadzoru |
---|---|---|
Dane wejściowe | Algorithms są szkolone przy użyciu oznakowanych danych. | Algorithms są używane w odniesieniu do danych, które nie są oznaczone |
Złożoność obliczeniowa | Uczenie się pod nadzorem jest prostszą metodą. | Uczenie się bez nadzoru jest obliczeniowo złożone |
Dokładność | Metoda bardzo dokładna i godna zaufania. | Less metoda dokładna i wiarygodna. |
Zastosowania nienadzorowanego uczenia maszynowego
Oto niektóre zastosowania technik uczenia się bez nadzoru:
- Clusterautomatycznie dzieli zbiór danych na grupy na podstawie ich podobieństw
- Wykrywanie anomalii może wykryć nietypowe punkty danych w zestawie danych. Jest to przydatne do wyszukiwania fałszywych transakcji
- Eksploracja asocjacji identyfikuje zestawy elementów, które często występują razem w zbiorze danych
- Modele zmiennych ukrytych są szeroko stosowane do wstępnego przetwarzania danych. Podobnie jak zmniejszenie liczby funkcji w zbiorze danych lub rozbicie zbioru danych na wiele komponentów
Wady uczenia się bez nadzoru
- Nie można uzyskać dokładnych informacji dotyczących sortowania danych, a dane wyjściowe, ponieważ dane wykorzystywane w uczeniu się bez nadzoru są oznaczone i nieznane
- Less dokładność wyników wynika z tego, że dane wejściowe nie są znane i nie są wcześniej przez ludzi oznaczone. Oznacza to, że maszyna musi to zrobić sama.
- Klasy widmowe nie zawsze odpowiadają klasom informacyjnym.
- Użytkownik musi poświęcić czas na interpretację i oznaczenie klas zgodnych z tą klasyfikacją.
- Właściwości widmowe klas mogą również zmieniać się w czasie, dlatego nie można mieć tych samych informacji o klasach podczas przechodzenia z jednego obrazu do drugiego.
Podsumowanie
- Uczenie się bez nadzoru to technika uczenia maszynowego, w której nie trzeba nadzorować modelu.
- Uczenie maszynowe bez nadzoru pomaga znaleźć wszelkiego rodzaju nieznane wzorce w danych.
- ClusterUczenie się i skojarzenie to dwa rodzaje uczenia się bez nadzoru.
- Istnieją cztery typy metod klasteryzacji: 1) ekskluzywna, 2) aglomeracyjna, 3) nakładająca się i 4) probabilistyczna.
- Ważnymi typami klasteryzacji są: 1) Klasterowanie hierarchiczne, 2) Klasterowanie metodą k-średnich, 3) K-NN, 4) Analiza głównych składowych, 5) Rozkład na wartości osobliwe, 6) Analiza niezależnych składowych.
- Reguły asocjacyjne umożliwiają ustanawianie powiązań pomiędzy obiektami danych w dużych bazach danych.
- W nauczaniu nadzorowanym, Algorithms są szkoleni przy użyciu oznakowanych danych podczas uczenia się bez nadzoru Algorithms są używane w odniesieniu do danych, które nie są oznaczone.
- Wykrywanie anomalii pozwala odkryć ważne punkty danych w zbiorze danych, co jest przydatne przy wyszukiwaniu fałszywych transakcji.
- Największą wadą uczenia się bez nadzoru jest to, że nie można uzyskać dokładnych informacji dotyczących sortowania danych.