教師なし機械学習: Algorithms、タイプと例
教師なし学習とは
教師なし学習 ユーザーがモデルを監視する必要のない機械学習手法です。 代わりに、モデルが独自に動作して、これまで検出されなかったパターンや情報を検出できるようになります。 主にラベルのないデータを扱います。
教師なし学習 Algorithms
教師なし学習 Algorithms 教師あり学習に比べて、より複雑な処理タスクを実行できます。ただし、教師なし学習は他の自然学習方法に比べて予測が困難になる可能性があります。教師なし学習アルゴリズムには、クラスタリング、異常検出、ニューラル ネットワークなどがあります。
教師なし機械学習の例
赤ちゃんとその飼い犬の教師なし学習の例を見てみましょう。
彼女はその犬を知っていて、その犬を特定しました。数週間後、家族の友人が犬を連れてきて、赤ちゃんと遊ぼうとしました。
赤ちゃんはこの犬をこれまで見たことがありません。 しかし、多くの特徴 (2 つの耳、目、4 足で歩く) が彼女のペットの犬に似ていることを認識します。 彼女はその新しい動物が犬だと分かりました。 これは教師なし学習であり、教えられるのではなくデータ (この場合は犬に関するデータ) から学習します。 教師あり学習、上記の教師なし学習の例に示されているように、家族の友人は赤ちゃんに「それは犬だ」と告げたでしょう。
なぜ教師なし学習なのか?
教師なし学習を使用する主な理由は次のとおりです。 機械学習:
- 教師なし機械学習は、データ内のあらゆる種類の未知のパターンを見つけます。
- 教師なしメソッドは、分類に役立つ特徴を見つけるのに役立ちます。
- これはリアルタイムで行われるため、学習者の立ち会いの下ですべての入力データが分析され、ラベルが付けられます。
- 手動介入が必要なラベル付きデータよりも、ラベルなしデータをコンピューターから取得する方が簡単です。
Cluster教師なし学習の種類 Algorithms
以下は、教師なし機械学習アルゴリズムのクラスタリング タイプです。
教師なし学習の問題は、さらにクラスタリング問題と関連付け問題に分類されます。
Clusterる
Cluster教師なし学習に関しては、「ing」は重要な概念です。これは主に、分類されていないデータの集合から構造やパターンを見つけることを扱います。教師なし学習 Clustering アルゴリズムはデータを処理し、データ内に存在する場合は自然なクラスター (グループ) を検出します。また、アルゴリズムが識別するクラスターの数を変更することもできます。これにより、これらのグループの粒度を調整できます。
利用できるクラスタリングにはさまざまな種類があります。
排他的(パーティショニング)
このクラスタリング方法では、1 つのデータが 1 つのクラスターにのみ属するようにデータがグループ化されます。
例: K 平均法
凝集
このクラスタリング手法では、すべてのデータがクラスターです。最も近い 2 つのクラスター間の反復的な結合により、クラスターの数が削減されます。
例: 階層的クラスタリング
重複
この手法では、ファジー セットを使用してデータをクラスタ化します。各ポイントは、異なるメンバーシップ度を持つ 2 つ以上のクラスタに属する場合があります。
ここで、データは適切なメンバーシップ値に関連付けられます。 例: ファジー C 平均法
確率論的
この技術は確率分布を使用してクラスターを作成する。
例: 次のキーワード
- 「男の靴」。
- 「婦人靴」。
- 「女性用手袋」。
- 「男の手袋」。
「靴」と「手袋」、または「男性」と「女性」の 2 つのカテゴリに分類できます。
Clusterタイプの種類
機械学習のクラスタリングの種類は次のとおりです。
- 階層的クラスタリング
- K-はクラスタリングを意味します
- K-NN (k 近傍)
- 主成分分析
- 特異値分解
- 独立成分分析
階層的 Clusterる
階層的クラスタリングは、クラスターの階層を構築するアルゴリズムです。これは、独自のクラスターに割り当てられているすべてのデータから始まります。ここでは、2 つの近いクラスターが同じクラスターになります。このアルゴリズムは、クラスターが 1 つだけ残った時点で終了します。
K平均 Clusterる
K は、反復クラスタリング アルゴリズムであり、反復ごとに最高値を見つけるのに役立ちます。最初に、必要な数のクラスターが選択されます。このクラスタリング方法では、データ ポイントを k グループにクラスタリングする必要があります。k が大きいほど、同じように粒度が細かく、グループが小さくなります。k が小さいほど、粒度が小さく、グループが大きくなります。
アルゴリズムの出力は「ラベル」のグループです。データ ポイントを k 個のグループの 1 つに割り当てます。k 平均法クラスタリングでは、各グループは各グループの重心を作成することで定義されます。重心はクラスターの中心のようなもので、最も近いポイントをキャプチャしてクラスターに追加します。
K 平均法クラスタリングではさらに 2 つのサブグループが定義されます。
- 凝集型クラスタリング
- 樹状図
凝集型クラスタリング
このタイプの K 平均法クラスタリングは、固定数のクラスターから開始されます。すべてのデータを正確な数のクラスターに割り当てます。このクラスタリング方法では、入力としてクラスター数 K は必要ありません。凝集プロセスは、各データを単一のクラスターとして形成することから始まります。
この方法では、何らかの距離測定を使用し、マージプロセスによってクラスターの数 (反復ごとに 1 つ) を減らします。最終的に、すべてのオブジェクトを含む 1 つの大きなクラスターが作成されます。
樹状図
デンドログラム クラスタリング法では、各レベルは可能性のあるクラスターを表します。デンドログラムの高さは、2 つの結合クラスター間の類似性のレベルを示します。プロセスの下部に近いほど、クラスターの類似性は高くなります。これは、デンドログラムからグループを抽出したもので、自然ではなく、ほとんど主観的です。
K- 最も近い隣人
K-近傍法は、すべての機械学習分類器の中で最も単純なものです。モデルを生成しないという点で、他の機械学習技術とは異なります。これは、利用可能なすべてのケースを保存し、類似性の尺度に基づいて新しいインスタンスを分類する単純なアルゴリズムです。
サンプル間に距離がある場合に非常にうまく機能します。 トレーニング セットが大きい場合、学習速度は遅くなり、距離の計算は自明ではありません。
主成分分析
より高次元の空間が必要な場合、その空間の基底と、その基底の最も重要な 200 のスコアのみを選択する必要があります。この基底は主成分と呼ばれます。選択したサブセットは、元の空間と比較してサイズが小さい新しい空間を構成します。これにより、データの複雑さが可能な限り維持されます。
協会
関連付けルールを使用すると、大規模なデータベース内のデータ オブジェクト間の関連付けを確立できます。 この教師なし手法は、大規模なデータベース内の変数間の興味深い関係を発見することを目的としています。 たとえば、新しい家を購入する人は、新しい家具を購入する可能性が最も高くなります。
その他の例:
- 遺伝子発現測定値によってグループ化されたがん患者のサブグループ
- 閲覧履歴と購入履歴に基づいた買い物客のグループ
- 映画視聴者による評価による映画グループ
教師あり機械学習と教師なし機械学習
主な違いは次のとおりです 教師あり学習と教師なし学習:
Parameters | 教師あり機械学習手法 | 教師なし機械学習手法 |
---|---|---|
入力データ | Algorithms ラベル付きデータを使用してトレーニングされます。 | Algorithms ラベルの付いていないデータに対して使用される |
計算の複雑さ | 教師あり学習はより簡単な方法です。 | 教師なし学習は計算が複雑である |
正確さ | 精度が高く信頼できる手法です。 | Less 正確かつ信頼できる方法。 |
教師なし機械学習の応用
教師なし学習テクニックの応用例は次のとおりです。
- Cluster類似性に基づいてデータセットをグループに自動的に分割します
- 異常検出により、データセット内の異常なデータ ポイントを検出できます。 不正取引の発見に役立ちます
- アソシエーションマイニングは、データセット内で頻繁に同時に発生するアイテムのセットを特定します
- 潜在変数モデルはデータの前処理に広く使用されています。 データセット内のフィーチャの数を減らす、またはデータセットを複数のコンポーネントに分解するなど
教師なし学習の欠点
- データの並べ替えに関する正確な情報を取得できず、教師なし学習で使用されるデータとしての出力はラベル付けされており不明です。
- Less 結果の正確さは、入力データが事前に人間によって知られておらず、ラベル付けされていないために発生します。つまり、機械が自分でこれを行う必要があります。
- スペクトル クラスは常に情報クラスに対応するとは限りません。
- ユーザーは時間をかけて、その分類に従うクラスを解釈してラベルを付ける必要があります。
- クラスのスペクトル プロパティも時間の経過とともに変化する可能性があるため、ある画像から別の画像に移動するときに同じクラス情報を得ることができなくなります。
まとめ
- 教師なし学習は、モデルを監視する必要のない機械学習手法です。
- 教師なし機械学習は、データ内のあらゆる種類の未知のパターンを見つけるのに役立ちます。
- Clustering と Association は 2 つのタイプの教師なし学習です。
- クラスタリング方法には、1) 排他的、2) 凝集的、3) 重複的、4) 確率的の XNUMX 種類があります。
- 重要なクラスタリングの種類は次のとおりです: 1) 階層的クラスタリング 2) K-means クラスタリング 3) K-NN 4) 主成分分析 5) 特異値分解 6) 独立成分分析。
- 関連付けルールを使用すると、大規模なデータベース内のデータ オブジェクト間の関連付けを確立できます。
- 教師あり学習では、 Algorithms 教師なし学習中にラベル付きデータを使用してトレーニングされる Algorithms ラベルのないデータに対して使用されます。
- 異常検出により、データセット内の重要なデータ ポイントを検出でき、不正な取引を見つけるのに役立ちます。
- 教師なし学習の最大の欠点は、データの並べ替えに関する正確な情報を取得できないことです。