初心者のための機械学習チュートリアル: ML の基礎とは
機械学習とは何ですか?
機械学習 プログラマーによって明示的にコーディングされなくても、自己改善を通じて例から学習できるコンピューター アルゴリズムのシステムです。機械学習は人工知能の一部であり、データと統計ツールを組み合わせて、実用的な洞察を得るために使用できる出力を予測します。
この画期的な進歩は、機械がデータ (例) から独自に学習して正確な結果を生成できるというアイデアによってもたらされます。 機械学習は、データ マイニングとベイジアン予測モデリングと密接に関連しています。 マシンはデータを入力として受け取り、アルゴリズムを使用して答えを定式化します。
機械学習の典型的なタスクは、推奨事項を提供することです。をお持ちの方にとっては、 Netflix アカウントでは、映画やシリーズのすべての推奨はユーザーの履歴データに基づいています。テクノロジー企業が利用している 教師なし学習 パーソナライズされたレコメンデーションによりユーザー エクスペリエンスを向上させます。
機械学習は、不正行為の検出、予知保全、ポートフォリオの最適化、タスクの自動化など、さまざまなタスクにも使用されます。
機械学習と従来のプログラミングの比較
従来のプログラミングは、機械学習とは大きく異なります。従来のプログラミングでは、プログラマーはソフトウェアを開発する業界の専門家と相談しながら、すべてのルールをコーディングします。各ルールは論理的な基盤に基づいており、マシンは論理ステートメントに従って出力を実行します。システムが複雑になると、より多くのルールを記述する必要があります。すぐに維持できなくなる可能性があります。
機械学習は、この問題を克服すると考えられています。機械は、入力データと出力データがどのように相関しているかを学習し、ルールを作成します。プログラマーは、新しいデータがあるたびに新しいルールを作成する必要はありません。アルゴリズムは、新しいデータと経験に応じて適応し、時間の経過とともに有効性を向上させます。
機械学習はどのように機能するのでしょうか?
この初心者向けの機械学習の基礎チュートリアルでは、機械学習 (ML) がどのように機能するかを学びます。
機械学習は、すべての学習が行われる脳です。 機械の学習方法は人間と似ています。 人間は経験から学びます。 知れば知るほど、予測が容易になります。 同様に、未知の状況に直面した場合、成功の可能性は既知の状況よりも低くなります。 マシンも同じようにトレーニングされます。 正確な予測を行うために、マシンは例を参照します。 マシンに同様の例を与えると、結果がわかります。 ただし、人間と同様に、その餌がこれまでに見たことのない例である場合、機械でも予測するのは困難です。
機械学習の中核となる目的は、 学習 推論。 まず、機械はパターンの発見を通じて学習します。 この発見は、 データ。 データ サイエンティストの重要な部分の XNUMX つは、マシンに提供するデータを慎重に選択することです。 問題を解決するために使用される属性のリストは、 特徴ベクトル。 特徴ベクトルは、問題に取り組むために使用されるデータのサブセットと考えることができます。
機械はいくつかの高度なアルゴリズムを使用して現実を単純化し、この発見を したがって、学習段階はデータを記述し、それをモデルにまとめるために使用されます。
たとえば、機械は個人の賃金と高級レストランに行く可能性との関係を理解しようとしています。 機械は賃金と高級レストランに行くことの間に正の関係があることを発見しました: これがモデルです
推測する
モデルを構築すると、これまでに見たことのないデータに対してそのモデルがどれほど強力であるかをテストできます。 新しいデータは特徴ベクトルに変換され、モデルを通過して予測が行われます。 これこそが機械学習の素晴らしい部分です。 ルールを更新したり、モデルを再度トレーニングしたりする必要はありません。 以前にトレーニングしたモデルを使用して、新しいデータに対して推論を行うことができます。
機械学習プログラムのライフサイクルは単純で、次の点に要約できます。
- 質問を定義する
- データを収集します
- データを視覚化する
- トレーニングアルゴリズム
- アルゴリズムをテストする
- フィードバックを集める
- アルゴリズムを改良する
- 満足のいく結果が得られるまで 4 ~ 7 をループします
- モデルを使用して予測を行う
アルゴリズムが適切な結論を導き出すのが上手になると、その知識を新しいデータセットに適用します。
機械学習 Algorithms どこで使用されますか?
この初心者向けの機械学習チュートリアルでは、機械学習 (ML) アルゴリズムが使用される場所について学習します。
機械学習は、教師あり学習と教師なし学習の2つの学習タスクに大別できます。他にも多くのアルゴリズムがあります。
教師あり学習
アルゴリズムは、トレーニング データと人間からのフィードバックを使用して、特定の入力と特定の出力の関係を学習します。 たとえば、実務者はマーケティング費用と天気予報を入力データとして使用して、缶の売上を予測できます。
出力データがわかっている場合は、教師あり学習を使用できます。 アルゴリズムは新しいデータを予測します。
のXNUMXつのカテゴリがあります 教師あり学習:
- 分類タスク
- 回帰タスク
欠陥種類の識別
コマーシャルの顧客の性別を予測したいと想像してください。 顧客データベースから、身長、体重、職業、給与、買い物かごなどに関するデータの収集を開始します。 各顧客の性別は男性か女性のみです。 分類子の目的は、情報 (つまり、収集した特徴) に基づいて男性または女性である確率 (つまり、ラベル) を割り当てることです。 モデルが男性または女性を認識する方法を学習したら、新しいデータを使用して予測を行うことができます。 たとえば、未知の顧客から新しい情報を入手したところ、それが男性か女性かを知りたいとします。 分類子が男性 = 70% と予測した場合、この顧客は 70% で男性、30% で女性であるとアルゴリズムが確信していることを意味します。
ラベルは XNUMX つ以上のクラスにすることができます。 上記の機械学習の例には XNUMX つのクラスしかありませんが、分類子がオブジェクトを予測する必要がある場合、数十のクラスがあります (例: ガラス、テーブル、靴など。各オブジェクトはクラスを表します)。
不具合
出力が連続値の場合、タスクは回帰です。 たとえば、金融アナリストは、株式、過去の株価パフォーマンス、マクロ経済指数などのさまざまな特徴に基づいて株式の価値を予測する必要がある場合があります。 システムは、誤差を最小限に抑えて株式の価格を推定するようにトレーニングされます。
アルゴリズム | 詳細説明 | タイプ |
---|---|---|
線形回帰 | 各特徴を出力に関連付けて、将来の値の予測に役立てる方法を見つけます。 | 不具合 |
ロジスティック回帰 | 分類タスクに使用される線形回帰の拡張。 出力変数 3 は、連続的 (たとえば、潜在的な色の無限のリスト) ではなく、バイナリ (たとえば、黒または白のみ) です。 | 欠陥種類の識別 |
決定木 | 最終的な決定出力が行われるまで、データ特徴値を決定ノードで分岐に分割する、解釈性の高い分類または回帰モデル (たとえば、特徴が色の場合、考えられる各色が新しい分岐になります) | 不具合 欠陥種類の識別 |
ナイーブベイズ | ベイジアン法とは、ベイズの定理を利用した分類方法です。 定理は、イベントに影響を与える可能性のある各特徴の独立した確率を使用して、イベントの事前知識を更新します。 | 不具合 欠陥種類の識別 |
サポートベクターマシン |
通常、分類タスクにはサポート ベクター マシン (SVM) が使用されます。 SVM アルゴリズムは、クラスを最適に分割した超平面を見つけます。 非線形ソルバーと併用するのが最適です。 |
回帰(あまり一般的ではありません) 欠陥種類の識別 |
ランダムフォレスト | このアルゴリズムは決定木に基づいて構築されており、精度が大幅に向上します。 ランダム フォレストは単純な決定木を何度も生成し、「多数決」方法を使用してどのラベルを返すかを決定します。 分類タスクの場合、最終的な予測は最も多くの票を集めた予測になります。 一方、回帰タスクの場合、すべてのツリーの平均予測が最終的な予測になります。 | 不具合 欠陥種類の識別 |
アダブースト | 決定を下すために多数のモデルを使用し、結果を予測する精度に基づいてモデルを重み付けする分類または回帰手法 | 不具合 欠陥種類の識別 |
勾配ブーストツリー | 勾配ブースティング ツリーは、最先端の分類/回帰手法です。 これは、前のツリーによってコミットされたエラーに焦点を当て、それを修正しようとします。 | 不具合 欠陥種類の識別 |
教師なし学習
教師なし学習では、アルゴリズムは明示的な出力変数を与えられずに入力データを探索します (たとえば、パターンを識別するために顧客の人口統計データを探索します)。
データを分類する方法が分からず、アルゴリズムにパターンを見つけてデータを分類してもらいたい場合に使用できます。
アルゴリズム名 | 詳細説明 | タイプ |
---|---|---|
K-はクラスタリングを意味します | データをいくつかのグループ (k) に分類し、各グループに類似の特性 (人間による事前ではなくモデルによって決定される) を持つデータが含まれるようにします。 | Clusterる |
混合ガウスモデル | グループ(クラスター)のサイズと形状に柔軟性を持たせた、k-means クラスタリングの一般化 | Clusterる |
階層的クラスタリング | 階層ツリーに沿ってクラスターを分割し、分類システムを形成します。
に使用することができます Cluster ポイントカードの顧客 |
Clusterる |
レコメンダーシステム | 推奨事項を作成するための関連データの定義に役立ちます。 | Clusterる |
PCA/T-SNE | 主にデータの次元を減らすために使用されます。アルゴリズムは、特徴の数を、最も分散の高い 3 つまたは 4 つのベクトルに減らします。 | 次元削減 |
機械学習アルゴリズムの選択方法
この機械学習の基本チュートリアルでは、機械学習 (ML) アルゴリズムの選択方法を学びます。
機械学習アルゴリズムは数多く存在します。アルゴリズムの選択は目的に基づいて行われます。
以下の機械学習の例では、3 種類の花の中からどの種類を予測するかというタスクです。予測は、花びらの長さと幅に基づいています。この図は、10 種類の異なるアルゴリズムの結果を示しています。左上の図はデータセットです。データは、赤、水色、濃い青の 3 つのカテゴリに分類されています。いくつかのグループがあります。たとえば、2 番目の画像では、左上にあるものはすべて赤のカテゴリに属し、中央部分には不確実性と水色が混在し、下部は濃いカテゴリに対応しています。他の画像は、さまざまなアルゴリズムと、それらがどのようにデータを分類しようとしているかを示しています。
機械学習の課題と限界
この機械学習チュートリアルでは、機械学習の制限について学びます。
機械学習の主な課題は、データの欠如またはデータセットの多様性です。 利用可能なデータがなければ、機械は学習できません。 さらに、多様性の欠如したデータセットはマシンに困難を与えます。 マシンが有意義な洞察を得るには、異質性が必要です。 バリエーションがまったくない、またはほとんどない場合、アルゴリズムが情報を抽出できることはほとんどありません。 機械の学習を助けるために、グループごとに少なくとも 20 個の観測値を用意することをお勧めします。 この制約により、評価と予測が不十分になります。
機械学習の応用
この機械学習チュートリアルでは、機械学習のアプリケーションを学びましょう。
増加:
- 機械学習は、出力を完全に制御することなく、個人的または商業的に人間の日常業務を支援します。 このような機械学習は、仮想アシスタント、データ分析、ソフトウェア ソリューションなど、さまざまな方法で使用されます。 主なユーザーは、人間のバイアスによるエラーを減らすことです。
オートメーション:
- 機械学習は、人間の介入を必要とせず、あらゆる分野で完全に自律的に機能します。 たとえば、製造工場で重要なプロセスステップを実行するロボットなどです。
金融業界
- 金融業界では機械学習の人気が高まっています。銀行は主にデータ内のパターンを見つけるために機械学習を使用していますが、詐欺を防止するためにも使用しています。
政府機関
- 政府は ML を利用して公共の安全と公共事業を管理しています。 大規模な顔認証を備えた中国の例を見てみましょう。 政府が使用しているのは、 人工知能 ジェイウォーカーを防ぐために。
ヘルスケア産業
- ヘルスケアは、画像検出による機械学習を使用した最初の業界の XNUMX つです。
マーケティング
- データへの豊富なアクセスのおかげで、AI はマーケティングで広く使用されています。 大量データの時代が始まる前に、研究者は顧客の価値を推定するためにベイジアン分析などの高度な数学ツールを開発しました。 データのブームに伴い、マーケティング部門は顧客関係とマーケティング キャンペーンを最適化するために AI に依存しています。
サプライチェーンにおける機械学習の適用例
機械学習は視覚的なパターン認識に素晴らしい結果をもたらし、サプライ チェーン ネットワーク全体にわたる物理的な検査とメンテナンスにおける多くの潜在的なアプリケーションを開きます。
教師なし学習では、多様なデータセット内で比較可能なパターンを迅速に検索できます。 次に、この機械は、物流ハブ全体での品質検査、損傷や摩耗のある出荷の品質検査を実行できます。
例えば、 IBMの Watson プラットフォームは、輸送用コンテナの損傷を判断できます。 Watson は、視覚的なデータとシステムベースのデータを組み合わせて、リアルタイムで追跡、レポート、推奨事項を作成します。
過去 20 年間、在庫管理者は在庫を評価および予測するための主要な方法に大きく依存していました。 ビッグデータと機械学習を組み合わせることで、より優れた予測技術が実装されています (従来の予測ツールと比較して 30 ~ 2 % の改善)。 売上高に関しては、在庫コストの削減の可能性により 3 ~ XNUMX% の増加を意味します。
機械学習 Google Car の例
たとえば、Google 車は誰もが知っています。 車の屋根には、周囲の位置を知らせるレーザーがたくさん搭載されています。 フロントにはレーダーが装備されており、周囲のすべての車の速度と動きを車に知らせます。 そのすべてのデータを使用して、車の運転方法を理解するだけでなく、車の周囲の潜在的なドライバーが何をしようとしているかを把握し、予測します。 印象的なのは、車が毎秒ほぼ XNUMX ギガバイトのデータを処理していることです。
機械学習が重要なのはなぜですか?
機械学習は、データのパターンを分析、理解、特定するためのこれまでのところ最良のツールです。 機械学習の背後にある主なアイデアの XNUMX つは、人間には多大な労力を要するタスクや不可能なタスクを自動化するようにコンピューターを訓練できるというものです。 従来の分析からの明らかな違反は、機械学習が人間の介入を最小限に抑えながら意思決定を行えることです。
この ML チュートリアルの次の例を見てみましょう。小売業者は、自身の経験と市場に関する知識に基づいて住宅の価格を見積もることができます。
専門家の知識を機能に変換するようにマシンをトレーニングできます。 住宅、近隣、経済環境などの特徴がすべて価格差を生み出します。 専門家にとって、家の価格を見積もる技術を習得するにはおそらく数年かかったでしょう。 彼の専門知識は、販売を重ねるごとにますます良くなっていきます。
マシンの場合、この技術を習得するには何百万ものデータ (つまり) が必要です。 学習の最初の段階で、機械は若いセールスマンのように間違いを犯します。 マシンがすべての例を確認すると、推定を行うのに十分な知識が得られます。 同時に、信じられないほどの精度で。 マシンは、それに応じてミスを調整することもできます。
大企業のほとんどは、機械学習とデータ保持の価値を理解しています。 マッキンゼーは、分析の価値は次の範囲であると推定しています。 $9.5兆~ $15.4兆 $5 兆から 7 兆は最先端の AI 技術によるものと考えられます。
「ファジーロジックとは何ですか?」もお読みください。 Archi構造、アプリケーション、および例: 詳細