データ マイニング チュートリアル: データ マイニングとは何ですか? テクニック、プロセス
データマイニングとは
データマイニング 膨大なデータセットから潜在的に有用なパターンを見つけるプロセスです。 それは多分野にわたるスキルです。 機械学習、統計、AI を利用して情報を抽出し、将来の出来事の確率を評価します。 データマイニングから得られた洞察は、マーケティング、不正行為の検出、科学的発見などに使用されます。
データ マイニングとは、データ間の隠れた、予想外の、これまで知られていなかったが有効な関係を発見することです。データ マイニングは、データ内の知識発見 (KDD)、知識抽出、データ/パターン分析、情報収集などとも呼ばれます。
データの種類
データマイニングは、以下の種類のデータに対して実行できます。
- リレーショナルデータベース
- データウェアハウス
- 高度な DB と情報リポジトリ
- オブジェクト指向データベースとオブジェクト リレーショナル データベース
- トランザクションおよび空間データベース
- 異機種データベースとレガシーデータベース
- マルチメディアおよびストリーミング データベース
- テキストデータベース
- テキストマイニングとWebマイニング
データマイニングの実装プロセス
データマイニングの実装プロセスを詳しく見てみましょう
ビジネスの理解
このフェーズでは、ビジネス目標とデータマイニング目標が確立されます。
- まず、ビジネスとクライアントの目的を理解する必要があります。 クライアントが何を望んでいるのかを定義する必要があります(クライアント自身も分かっていないことが多いです)
- 現在のデータ マイニング シナリオを評価します。 リソース、仮定、制約、その他の重要な要素を評価に考慮します。
- ビジネス目標と現在のシナリオを使用して、データ マイニングの目標を定義します。
- 優れたデータ マイニング計画は非常に詳細であり、ビジネス目標とデータ マイニング目標の両方を達成できるように作成する必要があります。
データの理解
このフェーズでは、データの健全性チェックが実行され、データ マイニングの目標に適しているかどうかが確認されます。
- まず、組織内で利用可能な複数のデータ ソースからデータが収集されます。
- これらのデータ ソースには、複数のデータベース、フラット ファイラー、またはデータ キューブが含まれる場合があります。データ統合プロセス中に、オブジェクトの一致やスキーマの統合などの問題が発生する可能性があります。さまざまなソースからのデータが簡単に一致する可能性は低いため、これは非常に複雑で扱いにくいプロセスです。たとえば、テーブル A には cust_no という名前のエンティティが含まれていますが、別のテーブル B には cust-id という名前のエンティティが含まれています。
- したがって、これらの指定されたオブジェクトの両方が同じ値を参照しているかどうかを確認することは非常に困難です。 ここで、データ統合プロセスにおけるエラーを減らすためにメタデータを使用する必要があります。
- 次に、取得したデータのプロパティを検索します。 データを探索する良い方法は、クエリ、レポート、視覚化ツールを使用して、データ マイニングの質問 (ビジネス フェーズで決定) に答えることです。
- クエリの結果に基づいて、データの品質を確認する必要があります。 取得する必要があるデータが欠落している場合。
データの準備
このフェーズでは、データが本番環境に対応できるようになります。
データ準備プロセスには、プロジェクト時間の約 90% が費やされます。
さまざまなソースからのデータは、(必要に応じて) 選択、クリーニング、変換、フォーマット、匿名化、構築される必要があります。
データ クリーニングは、ノイズの多いデータを平滑化し、欠損値を埋めることによってデータを「クリーン」にするプロセスです。
たとえば、顧客の人口統計プロファイルの場合、年齢データが欠落しています。 データが不完全であるため、入力する必要があります。 場合によっては、データに外れ値が存在する可能性があります。 たとえば、年齢の値は 300 です。データに一貫性がない可能性があります。 たとえば、顧客の名前がテーブルごとに異なります。
データ変換操作は、データをデータマイニングに役立てるためにデータを変更します。次の変換を適用できます。
データ変換
データ変換操作は、マイニング プロセスの成功に貢献します。
スムージング: データからノイズを除去するのに役立ちます。
集計: データには要約または集計操作が適用されます。つまり、週ごとの売上データが集計され、月ごとおよび年ごとの合計が計算されます。
汎化: このステップでは、概念階層を利用して、低レベルのデータが高レベルの概念に置き換えられます。たとえば、都市は郡に置き換えられます。
正規化: 正規化は、属性データが拡大または縮小されるときに実行されます。 例: 正規化後のデータは、-2.0 ~ 2.0 の範囲に収まる必要があります。
属性の構築: これらの属性は構築され、データ マイニングに役立つ特定の属性セットが含まれています。
このプロセスの結果、モデリングに使用できる最終的なデータ セットが得られます。
モデリング
このフェーズでは、数学的モデルを使用してデータ パターンを決定します。
- ビジネス目標に基づいて、準備されたデータセットに対して適切なモデリング手法を選択する必要があります。
- モデルの品質と妥当性をテストチェックするためのシナリオを作成します。
- 準備されたデータセットでモデルを実行します。
- 結果はすべての関係者によって評価され、モデルがデータ マイニングの目標を達成できるかどうかを確認する必要があります。
評価
このフェーズでは、特定されたパターンがビジネス目標に照らして評価されます。
- データ マイニング モデルによって生成された結果は、ビジネス目標に照らして評価する必要があります。
- ビジネスの理解を得るには反復的なプロセスが必要です。 実際、データ マイニングを理解している間に、新しいビジネス要件が発生する可能性があります。
- 導入フェーズでモデルを移行するかどうかの決定が下されます。
展開
展開フェーズでは、データ マイニングの検出結果を日常の業務に展開します。
- データマイニングのプロセス中に発見された知識や情報は、技術者以外の関係者にとっても理解しやすいものでなければなりません。
- データ マイニング検出の出荷、メンテナンス、監視のための詳細な導入計画が作成されます。
- 最終的なプロジェクト レポートは、プロジェクト中に学んだ教訓と重要な経験をもとに作成されます。 これは、組織のビジネス ポリシーの改善に役立ちます。
データマイニング手法
1。 分類
この分析は、データおよびメタデータに関する重要な関連情報を取得するために使用されます。 このデータ マイニング方法は、データをさまざまなクラスに分類するのに役立ちます。
2. Clusterる
Clustering 分析は、互いに似ているデータを識別するデータ マイニング手法です。このプロセスは、データ間の相違点と類似点を理解するのに役立ちます。
3。 回帰
回帰分析は、変数間の関係を特定して分析するデータマイニング手法です。 他の変数が存在する場合に、特定の変数の可能性を特定するために使用されます。
4. 協会規約
このデータ マイニング手法は、XNUMX つ以上のアイテム間の関連性を見つけるのに役立ちます。 データセット内の隠れたパターンを発見します。
5. 外部検出
このタイプのデータ マイニング手法は、予想されるパターンや予想される動作に一致しないデータセット内のデータ項目を観察することを指します。 この技術は、侵入、検出、不正または障害の検出など、さまざまなドメインで使用できます。外部検出は、外れ値分析または外れ値マイニングとも呼ばれます。
6. 連続パターン
このデータ マイニング技術は、一定期間のトランザクション データの類似のパターンや傾向を発見または特定するのに役立ちます。
7.予測
予測では、傾向、連続パターン、クラスタリング、分類などのデータ マイニングの他の手法を組み合わせて使用します。過去のイベントまたはインスタンスを正しい順序で分析して、将来のイベントを予測します。
データマイニング導入の課題
- データ マイニング クエリを作成するには、熟練した専門家が必要です。
- 過学習: トレーニング データベースのサイズが小さいため、モデルは将来の状態に適合しない可能性があります。
- データマイニングには大規模なデータベースが必要ですが、場合によっては管理が困難です
- 明らかになった情報を使用するかどうかを決定するには、商慣行を変更する必要がある場合があります。
- データセットが多様でない場合、データマイニングの結果は正確ではない可能性があります。
- 異種データベースやグローバル情報システムから必要な統合情報は複雑になる可能性がある
データマイニングの例
このデータ マイニング コースでは、例を使用してデータ マイニングについて学びましょう。
例1:
長距離サービスの収益を増やしたいと考えている通信サービスのマーケティング責任者を考えてみましょう。 彼の販売およびマーケティング活動で高い ROI を実現するには、顧客プロファイリングが重要です。 彼は、年齢、性別、収入、信用履歴などの顧客情報の膨大なデータプールを持っています。しかし、手動分析で長距離電話を好む人々の特徴を判断することは不可能です。 データ マイニング技術を使用して、長距離通話の頻度が高いユーザーとその特徴の間のパターンを明らかにする可能性があります。
たとえば、彼の最良の顧客は、年収 45 ドル以上を稼ぐ 54 歳から 80,000 歳の既婚女性であることがわかるかもしれません。 マーケティング活動はそのような層をターゲットにすることができます。
例2:
ある銀行は、クレジットカード事業からの収益を増やすための新しい方法を模索しています。手数料を半分にしたら利用が倍増するかどうかを調べたいと考えています。
銀行には、クレジット カードの平均残高、支払額、クレジット限度額の使用状況、その他の重要なパラメーターに関する複数年の記録があります。 提案された新しいビジネス方針の影響を確認するためのモデルを作成します。 データ結果は、対象の顧客ベースに対して手数料を半分に削減すると、収益が 10 万ドル増加する可能性があることを示しています。
データマイニングツール
以下は人気の2つです データマイニングツール 業界で広く使用されている
R言語:
R言語 は、統計コンピューティングおよびグラフィックス用のオープンソース ツールです。 R には、さまざまな統計、古典的な統計検定、時系列分析、分類、およびグラフィック手法が備わっています。 効果的なデータ処理およびストレージ機能を提供します。
Oracle データマイニング:
Oracle データマイニング ODM として一般的に知られているモジュールは、 Oracle 高度な分析データベース。このデータ マイニング ツールを使用すると、データ アナリストは詳細な洞察を生成し、予測を行うことができます。顧客の行動を予測し、顧客プロファイルを作成し、クロスセルの機会を特定するのに役立ちます。
データマイニングの利点
- データマイニング技術は、企業が知識ベースの情報を取得するのに役立ちます。
- データ マイニングは、組織が運用と生産において収益性の高い調整を行うのに役立ちます。
- データ マイニングは、他の統計データ アプリケーションと比較して、コスト効率が高く効率的なソリューションです。
- データマイニングは意思決定プロセスに役立ちます。
- 傾向と行動の自動予測と隠れたパターンの自動検出を促進します。
- 既存のプラットフォームだけでなく、新しいシステムにも実装可能
- スピーディなプロセスにより、ユーザーは短時間で大量のデータを簡単に分析できます。
データマイニングの欠点
- 企業が顧客の有益な情報を他の企業に販売して金銭を得る可能性があります。 たとえば、American Express は顧客のクレジット カードでの購入を他社に販売しました。
- 多くのデータマイニング分析ソフトウェアは操作が難しく、使用するには事前のトレーニングが必要です。
- データマイニングツールは、設計に採用されているアルゴリズムが異なるため、それぞれ異なる方法で動作します。そのため、適切なデータマイニングツールを選択するのは非常に難しい作業です。
- データ マイニング技術は正確ではないため、特定の状況では重大な結果を引き起こす可能性があります。
データマイニングアプリケーション
アプリケーション | 使用法 |
---|---|
通信 | データマイニング技術は通信分野で使用され、顧客の行動を予測し、ターゲットを絞った関連性の高いキャンペーンを提供します。 |
保険 | データ マイニングは、保険会社が商品の価格を採算の取れるものにしたり、新規顧客や既存顧客に新しいオファーを宣伝したりするのに役立ちます。 |
学位 | データマイニングは、教育者が生徒のデータにアクセスし、達成レベルを予測し、特別な注意が必要な生徒または生徒のグループを見つけるのに役立ちます。 例えば、数学が苦手な生徒。 |
製造業 | データ マイニングの助けを借りて、メーカーは生産資産の損耗を予測できます。 メンテナンスを予測できるため、ダウンタイムを最小限に抑えることができます。 |
バンキング | データマイニングは、金融部門が市場リスクを把握し、規制遵守を管理するのに役立ちます。 銀行がクレジットカードやローンなどを発行するかどうかを決定する際に、債務不履行の可能性を特定するのに役立ちます。 |
小売商 | データ マイニング技術は、小売モールや食料品店が最も販売可能な商品を特定し、最も注意深い位置に配置するのに役立ちます。 店舗オーナーが顧客の支出増加を促すオファーを考案するのに役立ちます。 |
サービスプロバイダ | 携帯電話や公共事業などのサービス プロバイダーは、データ マイニングを使用して、顧客が会社を離れる理由を予測します。請求の詳細、顧客サービスでのやり取り、会社への苦情を分析して、各顧客に確率スコアを割り当て、インセンティブを提供します。 |
デジタルコマース | 電子商取引のウェブサイトでは、データマイニングを利用して、ウェブサイトを通じてクロスセルやアップセルを提供しています。最も有名なものの1つは、 Amazon、データ マイニング技術を使用して、より多くの顧客を e コマース ストアに誘導します。 |
スーパーマーケット | データマイニングを使用すると、スーパーマーケットは買い物客が期待している可能性が高いかどうかを予測するルールを作成できます。 顧客の購買パターンを評価することで、妊娠している可能性が最も高い女性顧客を見つけることができます。 ベビーパウダー、ベビーショップ、おむつなどの製品をターゲットにし始める可能性があります。 |
犯罪捜査 | データ マイニングは、犯罪捜査機関が警察の人員を配置したり (犯罪が最も発生する可能性が高い場所と時期)、国境検問所で誰を捜索するかなどに役立ちます。 |
バイオインフォマティクス | データ マイニングは、生物学と医学で収集された膨大なデータセットから生物学的データをマイニングするのに役立ちます。 |
製品概要
- データ マイニングの定義: データ マイニングとは、過去を説明し、次の方法で未来を予測することです。 データ分析.
- データマイニングは、膨大なデータセットから情報を抽出するのに役立ちます。 これはデータから知識をマイニングする手順です。
- データ マイニング プロセスには、ビジネスの理解、データの理解、データの準備、モデリング、進化、展開が含まれます。
- 重要なデータマイニング技術は、分類、クラスタリング、回帰、相関ルール、外部検出、シーケンシャルパターン、予測などです。
- R言語 や Oracle データ マイニングは、著名なデータ マイニング ツールおよび手法です。
- データマイニング技術は、企業が知識ベースの情報を取得するのに役立ちます。
- データマイニングの主な欠点は、多くの分析ソフトウェアは操作が難しく、使用するには事前のトレーニングが必要になることです。
- データマイニングは、通信、保険、教育、製造、銀行、小売、サービスプロバイダー、電子商取引、スーパーマーケット、バイオインフォマティクスなどのさまざまな業界で使用されています。