教師あり機械学習: とは何か Algorithms 例を挙げて

教師あり機械学習とは?

教師あり機械学習 は、ラベル付きトレーニング データから学習して、予期せぬデータの結果を予測するのに役立つアルゴリズムです。 教師あり学習では、適切に「ラベル付け」されたデータを使用してマシンをトレーニングします。 これは、一部のデータにはすでに正解のタグが付いていることを意味します。 それは、監督や教師の存在下で学習することにたとえられます。

正常に構築、スケーリング、デプロイする 正確な 教師あり機械学習モデルには時間と、高度なスキルを持つデータ サイエンティストのチームによる技術的専門知識が必要です。 さらに、 Rescale データ 科学者は再建しなければならない モデル データが変更されるまで、与えられた洞察が真実であり続けることを確認します。

教師あり学習の仕組み

教師あり機械学習では、トレーニング データ セットを使用して、望ましい結果を達成します。 これらのデータ セットには、モデルの学習を高速化するのに役立つ入力と正しい出力が含まれています。 たとえば、職場から車で帰宅するまでにかかる時間を予測できるようにマシンをトレーニングしたいとします。

ここでは、ラベル付きデータのセットを作成することから始めます。 このデータには次のものが含まれます。

  • 気象条件
  • 時刻
  • クリスマス・その他

これらすべての詳細が、この教師あり学習の例の入力となります。出力は、その特定の日に帰宅するのにかかった時間です。

教師あり機械学習の仕組み

外で雨が降っていると、車で家に帰るまでに時間がかかることが本能的にわかります。 しかし、マシンにはデータと統計が必要です。

ユーザーが通勤時間を決定するのに役立つこの例の教師あり学習モデルを開発する方法について、教師あり学習の例をいくつか見てみましょう。 最初に作成する必要があるのはトレーニング セットです。 このトレーニング セットには、総通勤時間と、天候、時間などの対応する要素が含まれています。このトレーニング セットに基づいて、マシンは、雨の量と帰宅までにかかる時間との間に直接的な関係があることを認識する可能性があります。

したがって、雨が降れば降るほど、自宅に戻るまでの運転時間が長くなることがわかります。 また、退社時間と外出時間との関係も分かるかもしれません。

午後6時に近づくほど、家に帰るまでに時間がかかります。 マシンは、ラベル付きデータとの関係の一部を検出する可能性があります。

教師あり機械学習の仕組み
教師あり機械学習の仕組み

これがデータ モデルの始まりです。 雨が人々の運転にどのような影響を与えるかが影響を及ぼし始めています。 また、特定の時間帯に旅行する人が増えることもわかり始めています。

教師あり機械学習の種類 Algorithms

教師あり機械学習アルゴリズムの種類は次のとおりです。

不具合

回帰手法では、トレーニング データを使用して単一の出力値を予測します。

: 回帰を使用して、トレーニング データから住宅価格を予測できます。 入力変数は、地域、家のサイズなどになります。

強み: 出力には常に確率的な解釈があり、過学習を避けるためにアルゴリズムを正規化できます。

弱み: 決定境界が複数または非線形である場合、ロジスティック回帰はパフォーマンスが低下する可能性があります。この方法は柔軟性がないため、より複雑な関係を捉えることはできません。

ロジスティック回帰:

与えられた一連の独立変数に基づいて離散値を推定するために使用されるロジスティック回帰手法。 データをロジット関数に当てはめることにより、イベントの発生確率を予測するのに役立ちます。 したがって、ロジスティック回帰とも呼ばれます。 確率を予測するため、出力値は 0 と 1 の間にあります。

ここではいくつかのタイプの回帰を示します Algorithms

Classification

分類とは、出力をクラス内にグループ化することを意味します。 アルゴリズムが入力を XNUMX つの異なるクラスにラベル付けしようとする場合、それは二項分類と呼ばれます。 XNUMX つ以上のクラスから選択することを、マルチクラス分類と呼びます。

: 誰かがローンの不履行者になるかどうかを判断します。

強み: 分類ツリーは実際には非常にうまく機能します

弱み: 制約のない個々のツリーは過剰適合する傾向があります。

ここではいくつかの種類の分類を示します Algorithms

単純ベイズ分類器

単純ベイジアン モデル (NBN) は構築が簡単で、大規模なデータセットに非常に役立ちます。 このメソッドは、XNUMX つの親と複数の子を持つ直接非巡回グラフで構成されます。 親から分離された子ノード間の独立性を前提としています。

決定木

デシジョン ツリーは、特徴値に基づいてインスタンスを並べ替えることでインスタンスを分類します。 このメソッドでは、各モードがインスタンスの機能です。 それは分類される必要があり、すべての分岐はノードが想定できる値を表します。 これは分類に広く使用されている手法です。 この方法では、分類は決定木として知られる木です。

これは、実際の価値 (車の購入費、通話回数、月次総売上高など) を見積もるのに役立ちます。

サポートベクターマシン

サポート ベクター マシン (SVM) は、1990 年に開発された学習アルゴリズムの一種です。この方法は、Vap Nik によって導入された統計学習理論の結果に基づいています。

SVM マシンは、ほとんどの学習タスクの中心概念であるカーネル機能とも密接に関係しています。 カーネルフレームワークとSVMはさまざまな分野で使用されています。 これには、マルチメディア情報検索、バイオインフォマティクス、パターン認識が含まれます。

教師あり機械学習手法と教師なし機械学習手法

に基づく 教師あり機械学習手法 教師なし機械学習手法
入力データ Algorithms ラベル付きデータを使用してトレーニングされます。 Algorithms ラベルの付いていないデータに対して使用される
計算の複雑さ 教師あり学習はより簡単な方法です。 教師なし学習は計算が複雑である
正確さ 精度が高く信頼できる手法です。 Less 正確かつ信頼できる方法。

教師あり機械学習の課題

教師あり機械学習で直面する課題は次のとおりです。

  • 無関係な入力特徴にトレーニング データが存在すると、不正確な結果が得られる可能性があります
  • データの準備と前処理は常に課題です。
  • 不可能、ありそうもない、不完全な値がトレーニング データとして入力されると精度が低下します
  • 関係する専門家がいない場合、もう XNUMX つのアプローチは「総当たり」です。 これは、マシンをトレーニングするための適切な機能 (入力変数) を考える必要があることを意味します。 不正確である可能性があります。

教師あり学習の利点

教師あり機械学習の利点は次のとおりです。

  • 教師あり学習 機械学習 データを収集したり、以前のエクスペリエンスからデータ出力を生成したりできます
  • 経験を活用してパフォーマンス基準を最適化するのに役立ちます
  • 教師あり機械学習は、現実世界のさまざまな種類の計算問題を解決するのに役立ちます。

教師あり学習の欠点

教師あり機械学習の欠点は次のとおりです。

  • クラスに含めたいサンプルがトレーニング セットに含まれていない場合、決定境界はオーバートレーニングされる可能性があります
  • 分類器をトレーニングする際には、各クラスから多くの良い例を選択する必要があります。
  • 分類 ビッグデータ 本当の挑戦になることができます。
  • 教師あり学習のトレーニングには多くの計算時間が必要です。

教師あり学習のベスト プラクティス

  • 他の作業を行う前に、どのような種類のデータをトレーニング セットとして使用するかを決定する必要があります。
  • 学習する関数の構造と学習アルゴリズムを決定する必要があります。
  • 人間の専門家または測定結果から、対応する出力を収集します

まとめ

  • 教師あり学習アルゴリズムでは、適切に「ラベル付け」されたデータを使用してマシンをトレーニングします。
  • 職場から車で帰宅するまでにどれくらいの時間がかかるかを予測するのに役立つマシンをトレーニングしたい場合は、教師あり学習の例です。
  • 回帰と分類は、教師あり機械学習アルゴリズムの XNUMX つの側面です。
  • 教師あり学習 はより単純な方法であり、教師なし学習は複雑な方法です。
  • 教師あり学習における最大の課題は、無関係な入力特徴が存在するトレーニング データによって不正確な結果が得られる可能性があることです。
  • 教師あり学習の主な利点は、データを収集したり、以前の経験からデータ出力を生成したりできることです。
  • このモデルの欠点は、トレーニング セットにクラスに含めたいサンプルが含まれていない場合、決定境界が過度に緊張する可能性があることです。
  • 教師監視学習のベスト プラクティスとして、まずどの種類のデータをトレーニング セットとして使用するかを決定する必要があります。