Samouczek dotyczący eksploracji danych: Co to jest eksploracja danych? Techniki, proces
Co to jest eksploracja danych?
Data Mining to proces znajdowania potencjalnie przydatnych wzorców na podstawie ogromnych zbiorów danych. Jest to umiejętność wielodyscyplinarna, z której się korzysta uczenie maszynowe, statystyki i AI do wydobywania informacji w celu oceny prawdopodobieństwa przyszłych zdarzeń. Spostrzeżenia uzyskane z Data Mining są wykorzystywane do celów marketingowych, wykrywania oszustw, odkryć naukowych itp.
Data Mining polega na odkrywaniu ukrytych, niespodziewanych i wcześniej nieznanych, ale ważnych relacji między danymi. Data Mining jest również nazywany Knowledge Discovery in Data (KDD), ekstrakcją wiedzy, analizą danych/wzorców, zbieraniem informacji itp.
Rodzaje danych
Eksplorację danych można przeprowadzić na następujących typach danych
- Relacyjne bazy danych
- Magazyn danych
- Zaawansowane bazy danych i repozytoria informacji
- Obiektowe i obiektowo-relacyjne bazy danych
- Bazy transakcyjne i przestrzenne
- Heterogeniczne i starsze bazy danych
- Baza multimediów i transmisji strumieniowych
- Bazy tekstowe
- Eksploracja tekstu i eksploracja sieci
Proces wdrażania eksploracji danych
Przyjrzyjmy się szczegółowo procesowi wdrożenia Data Mining
Zrozumienie biznesu
Na tym etapie ustalane są cele biznesowe i związane z eksploracją danych.
- Po pierwsze, musisz zrozumieć cele biznesowe i klienta. Musisz określić, czego chce Twój klient (o czym często nawet on sam nie wie)
- Oceń bieżący scenariusz eksploracji danych. W swojej ocenie uwzględnij zasoby, założenia, ograniczenia i inne istotne czynniki.
- Korzystając z celów biznesowych i bieżącego scenariusza, zdefiniuj cele eksploracji danych.
- Dobry plan eksploracji danych jest bardzo szczegółowy i powinien zostać opracowany tak, aby osiągnąć cele biznesowe i eksploracji danych.
Rozumienie danych
Na tym etapie przeprowadzana jest kontrola poprawności danych, aby sprawdzić, czy są one odpowiednie do celów eksploracji danych.
- Po pierwsze, dane zbierane są z wielu źródeł danych dostępnych w organizacji.
- Te źródła danych mogą obejmować wiele baz danych, płaskie pliki lub kostki danych. Istnieją problemy, takie jak dopasowywanie obiektów i integracja schematów, które mogą pojawić się podczas procesu integracji danych. Jest to dość złożony i trudny proces, ponieważ mało prawdopodobne jest, aby dane z różnych źródeł łatwo się ze sobą zgadzały. Na przykład tabela A zawiera encję o nazwie cust_no, podczas gdy inna tabela B zawiera encję o nazwie cust-id.
- Dlatego dość trudno jest zapewnić, że oba te dane obiekty odnoszą się do tej samej wartości, czy nie. W tym przypadku należy zastosować metadane, aby ograniczyć błędy w procesie integracji danych.
- Kolejnym krokiem jest wyszukiwanie właściwości pozyskanych danych. Dobrym sposobem na eksplorację danych jest odpowiadanie na pytania związane z eksploracją danych (decydowane w fazie biznesowej) przy użyciu narzędzi do tworzenia zapytań, raportowania i wizualizacji.
- Na podstawie wyników zapytania należy sprawdzić jakość danych. Należy pozyskać brakujące dane, jeśli takie istnieją.
Przygotowywanie danych
Na tym etapie dane są przygotowywane do produkcji.
Proces przygotowania danych zajmuje około 90% czasu projektu.
Dane z różnych źródeł powinny zostać wybrane, oczyszczone, przekształcone, sformatowane, zanonimizowane i skonstruowane (jeśli jest to wymagane).
Czyszczenie danych to proces mający na celu „czyszczenie” danych poprzez wygładzenie zaszumionych danych i uzupełnienie brakujących wartości.
Na przykład w przypadku profilu demograficznego klienta brakuje danych o wieku. Dane są niekompletne i należy je uzupełnić. W niektórych przypadkach mogą wystąpić wartości odstające w danych. Na przykład wiek ma wartość 300. Dane mogą być niespójne. Na przykład nazwa klienta jest inna w różnych tabelach.
Operacje transformacji danych zmieniają dane, aby były użyteczne w eksploracji danych. Można zastosować następującą transformację
Transformacja danych
Operacje transformacji danych przyczyniłyby się do sukcesu procesu wydobywania danych.
Wygładzanie: Pomaga usunąć szum z danych.
Zbiór: Operacje podsumowujące lub agregujące są stosowane do danych. Tj. tygodniowe dane sprzedaży są agregowane w celu obliczenia miesięcznej i rocznej sumy.
Uogólnienie: W tym kroku dane niskiego poziomu są zastępowane koncepcjami wyższego poziomu za pomocą hierarchii pojęć. Na przykład miasto jest zastępowane przez powiat.
Normalizacja: Normalizacja wykonywana, gdy dane atrybutów są skalowane w górę lub w dół. Przykład: Dane powinny mieścić się w zakresie od -2.0 do 2.0 po normalizacji.
Budowa atrybutów: te atrybuty są skonstruowane i obejmują dany zestaw atrybutów przydatnych w eksploracji danych.
Wynikiem tego procesu jest ostateczny zbiór danych, który można wykorzystać w modelowaniu.
Modelowanie
Na tym etapie do określenia wzorców danych wykorzystywane są modele matematyczne.
- W oparciu o cele biznesowe należy dobrać odpowiednie techniki modelowania dla przygotowanego zbioru danych.
- Utwórz scenariusz, aby przetestować jakość i ważność modelu.
- Uruchom model na przygotowanym zestawie danych.
- Wyniki powinny zostać ocenione przez wszystkie zainteresowane strony, aby upewnić się, że model spełnia cele eksploracji danych.
Ocena
Na tym etapie zidentyfikowane wzorce są oceniane pod kątem celów biznesowych.
- Wyniki wygenerowane przez model eksploracji danych należy oceniać w odniesieniu do celów biznesowych.
- Zdobywanie zrozumienia biznesu jest procesem iteracyjnym. W rzeczywistości, przy zrozumieniu, eksploracja danych może spowodować zwiększenie nowych wymagań biznesowych.
- Na etapie wdrażania podejmowana jest decyzja o przeniesieniu modelu.
Rozlokowanie
W fazie wdrożenia wdrażasz odkrycia uzyskane w wyniku eksploracji danych do codziennych operacji biznesowych.
- Wiedza lub informacje odkryte podczas procesu eksploracji danych powinny być łatwe do zrozumienia dla interesariuszy nietechnicznych.
- Tworzony jest szczegółowy plan wdrożenia obejmujący wysyłkę, konserwację i monitorowanie odkryć eksploracji danych.
- Końcowy raport z projektu tworzony jest na podstawie wniosków i kluczowych doświadczeń zdobytych podczas realizacji projektu. Pomaga to ulepszyć politykę biznesową organizacji.
Techniki wyszukiwania danych
1. Klasyfikacja
Analiza ta służy do pobierania ważnych i istotnych informacji o danych i metadanych. Ta metoda eksploracji danych pomaga klasyfikować dane w różnych klasach.
2. ClusterING
ClusterAnaliza jest techniką eksploracji danych mającą na celu identyfikację danych, które są do siebie podobne. Proces ten pomaga zrozumieć różnice i podobieństwa pomiędzy danymi.
3. Regresja
Analiza regresji to metoda eksploracji danych służąca do identyfikowania i analizowania relacji między zmiennymi. Służy do określenia prawdopodobieństwa wystąpienia określonej zmiennej, biorąc pod uwagę obecność innych zmiennych.
4. Zasady Stowarzyszenia
Ta technika eksploracji danych pomaga znaleźć powiązanie między dwoma lub większą liczbą elementów. Odkrywa ukryty wzór w zbiorze danych.
5. Detekcja zewnętrzna
Ten typ techniki eksploracji danych odnosi się do obserwacji elementów danych w zbiorze danych, które nie pasują do oczekiwanego wzorca lub oczekiwanego zachowania. Technikę tę można stosować w różnych dziedzinach, takich jak włamania, wykrywanie, oszustwa lub wykrywanie błędów itp. Wykrywanie zewnętrzne nazywane jest również analizą wartości odstających lub eksploracją wartości odstających.
6. Wzory sekwencyjne
Ta technika eksploracji danych pomaga odkryć lub zidentyfikować podobne wzorce lub trendy w danych transakcyjnych w określonym okresie.
7. Przepowiednia
Predykcja wykorzystuje kombinację innych technik eksploracji danych, takich jak trendy, wzorce sekwencyjne, klasteryzacja, klasyfikacja itp. Analizuje przeszłe zdarzenia lub wystąpienia w odpowiedniej kolejności w celu przewidzenia przyszłych zdarzeń.
Wyzwania wdrożenia kopalni danych
- Do formułowania zapytań do eksploracji danych potrzebni są wykwalifikowani eksperci.
- Nadmierne dopasowanie: Ze względu na małą bazę danych szkoleniowych model może nie pasować do przyszłych stanów.
- Eksploracja danych wymaga dużych baz danych, którymi czasami trudno zarządzać
- Może zaistnieć potrzeba modyfikacji praktyk biznesowych, aby zdecydować o wykorzystaniu ujawnionych informacji.
- Jeśli zbiór danych nie jest zróżnicowany, wyniki eksploracji danych mogą nie być dokładne.
- Informacje integracyjne potrzebne z heterogenicznych baz danych i globalnych systemów informacyjnych mogą być złożone
Przykłady eksploracji danych
Teraz w tym kursie Data Mining, poznajmy eksplorację danych na przykładach:
1 przykład:
Weźmy pod uwagę szefa marketingu dostawców usług telekomunikacyjnych, który chce zwiększyć przychody z usług międzymiastowych. Aby zapewnić wysoki zwrot z inwestycji w działania sprzedażowe i marketingowe, ważne jest profilowanie klientów. Dysponuje ogromną bazą danych zawierającą informacje o klientach, takie jak wiek, płeć, dochody, historia kredytowa itp. Nie da się jednak określić cech osób preferujących rozmowy międzymiastowe za pomocą ręcznej analizy. Korzystając z technik eksploracji danych, może odkryć wzorce między użytkownikami rozmów międzymiastowych a ich charakterystyką.
Może na przykład dowiedzieć się, że jego najlepszymi klientami są zamężne kobiety w wieku od 45 do 54 lat, które zarabiają ponad 80,000 XNUMX dolarów rocznie. Działania marketingowe można ukierunkować na taką grupę demograficzną.
2 przykład:
Bank chce znaleźć nowe sposoby na zwiększenie przychodów z operacji kart kredytowych. Chce sprawdzić, czy wykorzystanie podwoiłoby się, gdyby opłaty zostały zmniejszone o połowę.
Bank ma wieloletnie doświadczenie w zakresie średnich sald kart kredytowych, kwot płatności, wykorzystania limitu kredytowego i innych kluczowych parametrów. Tworzą model pozwalający sprawdzić wpływ proponowanej nowej polityki biznesowej. Wyniki danych pokazują, że obniżenie opłat o połowę dla docelowej bazy klientów mogłoby zwiększyć przychody o 10 milionów dolarów.
Narzędzia do eksploracji danych
Oto 2 popularne Narzędzia do eksploracji danych szeroko stosowane w przemyśle
Język R:
Język R. to narzędzie typu open source do obliczeń statystycznych i grafiki. R posiada szeroką gamę statystycznych, klasycznych testów statystycznych, analizy szeregów czasowych, klasyfikacji i technik graficznych. Oferuje efektywne przekazywanie i przechowywanie danych.
Oracle Eksploracja danych:
Oracle Data Mining popularnie znany jako ODM jest modułem Oracle Zaawansowana baza danych analitycznych. To narzędzie do eksploracji danych umożliwia analitykom danych generowanie szczegółowych spostrzeżeń i prognozowanie. Pomaga przewidywać zachowania klientów, opracowuje profile klientów, identyfikuje możliwości sprzedaży krzyżowej.
Korzyści z eksploracji danych
- Technika eksploracji danych pomaga firmom uzyskać informacje oparte na wiedzy.
- Eksploracja danych pomaga organizacjom wprowadzać opłacalne zmiany w działaniu i produkcji.
- Eksploracja danych jest opłacalnym i wydajnym rozwiązaniem w porównaniu z innymi zastosowaniami danych statystycznych.
- Eksploracja danych pomaga w procesie decyzyjnym.
- Ułatwia automatyczne przewidywanie trendów i zachowań, a także automatyczne odkrywanie ukrytych wzorców.
- Można go wdrożyć w nowych systemach, jak i istniejących platformach
- Jest to szybki proces, który ułatwia użytkownikom analizę ogromnej ilości danych w krótszym czasie.
Wady eksploracji danych
- Istnieje ryzyko, że firmy będą sprzedawać przydatne informacje o swoich klientach innym firmom za pieniądze. Na przykład American Express sprzedawał innym firmom zakupy dokonane za pomocą kart kredytowych swoich klientów.
- Oprogramowanie do analizy danych jest często trudne w obsłudze i wymaga wcześniejszego przeszkolenia, aby móc z niego korzystać.
- Różne narzędzia do eksploracji danych działają w różny sposób ze względu na różne algorytmy stosowane w ich projektowaniu. Dlatego wybór właściwego narzędzia do eksploracji danych jest bardzo trudnym zadaniem.
- Techniki eksploracji danych nie są dokładne, dlatego w pewnych warunkach mogą powodować poważne konsekwencje.
Aplikacje do eksploracji danych
Zastosowania | Stosowanie |
---|---|
Komunikacja | Techniki eksploracji danych są stosowane w sektorze komunikacji do przewidywania zachowań klientów w celu oferowania wysoce ukierunkowanych i trafnych kampanii. |
Ubezpieczenia | Eksploracja danych pomaga firmom ubezpieczeniowym ustalać rentowne ceny swoich produktów i promować nowe oferty wśród nowych i obecnych klientów. |
Wykształcenie | Eksploracja danych przynosi nauczycielom korzyści w zakresie dostępu do danych uczniów, przewidywania poziomów osiągnięć i znajdowania uczniów lub grup uczniów, którzy wymagają dodatkowej uwagi. Na przykład uczniowie, którzy są słabi z przedmiotów matematycznych. |
Produkcja | Za pomocą Data Mining producenci mogą przewidzieć zużycie zasobów produkcyjnych. Potrafią przewidzieć prace konserwacyjne, co pomaga im je ograniczyć i zminimalizować przestoje. |
Bankowość | Eksploracja danych pomaga sektorowi finansowemu uzyskać wgląd w ryzyko rynkowe i zarządzać zgodnością z przepisami. Pomaga bankom zidentyfikować prawdopodobne osoby nie wywiązujące się ze zobowiązań i podjąć decyzję o wydaniu kart kredytowych, pożyczek itp. |
Sprzedaż detaliczna | Techniki eksploracji danych pomagają centrom handlowym i sklepom spożywczym identyfikować i układać najlepiej sprzedające się produkty na najbardziej uważnych pozycjach. Pomaga właścicielom sklepów przygotować ofertę zachęcającą klientów do zwiększenia wydatków. |
Dostawcy usług | Dostawcy usług, tacy jak telefonia komórkowa i branża użyteczności publicznej, wykorzystują Data Mining do przewidywania przyczyn, dla których klient opuszcza ich firmę. Analizują szczegóły rozliczeń, interakcje z obsługą klienta, skargi składane do firmy, aby przypisać każdemu klientowi wynik prawdopodobieństwa i zaoferować zachęty. |
E-Commerce | Witryny handlu elektronicznego wykorzystują Data Mining do oferowania sprzedaży krzyżowej i dodatkowej za pośrednictwem swoich witryn internetowych. Jednym z najbardziej znanych nazwisk jest Amazon, którzy korzystają z technik eksploracji danych, aby przyciągnąć więcej klientów do swojego sklepu eCommerce. |
Super Rynki | Eksploracja danych pozwala supermarketom opracować zasady przewidywania, czy klienci będą się tego spodziewać. Oceniając swoje wzorce zakupów, mogliby znaleźć klientki, które najprawdopodobniej są w ciąży. Mogą zacząć kierować reklamy na takie produkty, jak puder dla niemowląt, sklep dla dzieci, pieluchy i tak dalej. |
Dochodzenie w sprawie przestępstw | Data Mining pomaga agencjom dochodzeniowym w rozmieszczeniu pracowników policji (gdzie i kiedy najprawdopodobniej dochodzi do przestępstwa?), kogo należy przeszukiwać na przejściach granicznych itp. |
Bioinformatyka | Data Mining pomaga wydobywać dane biologiczne z ogromnych zbiorów danych zgromadzonych w biologii i medycynie. |
Podsumowanie
- Definicja eksploracji danych: Eksploracja danych polega na wyjaśnianiu przeszłości i przewidywaniu przyszłości Analiza danych.
- Eksploracja danych pomaga wydobywać informacje z ogromnych zbiorów danych. Jest to procedura wydobywania wiedzy z danych.
- Proces eksploracji danych obejmuje zrozumienie biznesu, zrozumienie danych, przygotowanie danych, modelowanie, ewolucję, wdrożenie.
- Ważnymi technikami eksploracji danych są klasyfikacja, klasteryzacja, regresja, reguły asocjacyjne, wykrywanie zewnętrzne, wzorce sekwencyjne i predykcja
- Język R oraz Oracle Eksploracja danych to najważniejsze narzędzia i techniki eksploracji danych.
- Technika eksploracji danych pomaga firmom uzyskać informacje oparte na wiedzy.
- Główną wadą eksploracji danych jest to, że obsługa wielu oprogramowań analitycznych jest trudna i wymaga wcześniejszego przeszkolenia, aby móc z nich korzystać.
- Eksploracja danych jest wykorzystywana w różnych branżach, takich jak komunikacja, ubezpieczenia, edukacja, produkcja, bankowość, handel detaliczny, usługodawcy, handel elektroniczny, supermarkety, bioinformatyka.