メインコンテンツに移動

Machine Learning

機械学習とは何ですか?

機械学習は、明示的な指示なしで、データ分析タスクを実行する人工知能の一種です。機械学習テクノロジーは、大量の履歴データを処理し、パターンを特定して、これまで知られていなかったデータ間の新しい関係を予測できます。ドキュメント、画像、数値、その他のデータタイプに対して分類および予測タスクを実行できます。 

例えば、金融機関は機械学習システムをトレーニングして、不正な取引と正当な取引を分類できます。システムは既知のデータ内のパターンを識別し、新しい取引が真正なものかどうかを正確に推測または予測します。

簡単な言葉で言うと、機械学習とは何ですか?

ML は機械学習 (Machine Learning) の略で、AI とコンピュータサイエンスの一分野であり、データとアルゴリズムを活用して AI システムが人間と同様の方法で学習および改善し、時間の経過とともに精度を徐々に高めることを可能にします。

機械学習と人工知能はどのように異なりますか?

機械学習AI という用語は同じ意味で使用されますが、同じではありません。機械学習は AI の数ある分野の 1 つです。機械学習は AI ですが、すべての AI アクティビティを機械学習と呼び出すことはできません。

人工知能は、機械をより人間らしいものにするために使用されるさまざまな戦略と手法の総称です。AI には、Alexa、チャットボット、画像ジェネレーターなどのスマートアシスタントから、ロボット掃除機や自動運転車まで、あらゆるものが含まれます。 

一方、機械学習モデルは、取引を真正または不正に分類したり、画像にラベルを付けたり、工場設備のメンテナンススケジュールを予測したりするなど、より具体的なデータ分析タスクを実行します。機械学習テクノロジーは主に数学と統計に基づいていますが、他のタイプの AI はより複雑です。

機械学習と人工知能の詳細

機械学習と深層学習はどのように異なりますか?

深層学習は、人工ニューラルネットワークを使用して人間の脳を模倣する特殊な形式の機械学習です。これは、画像認識や音声認識などの複雑なタスクを処理するための高度な手法です。深層学習は、生成人工知能の進歩の基盤を築きました。

機械学習の仕組みはどのようになっていますか?

機械学習の中心的な考え方の背後には、入力データと出力データの組み合わせの間の既存の数学的関係があります。機械学習モデルはこの関係を事前に把握していませんが、入出力データセットのサンプルが十分にあるかどうかを推測できます。これは、すべての機械学習アルゴリズムが変更可能な数学関数を中心に構築されていることを意味します。基本的な原則は次のように理解できます。

  1. アルゴリズムに入力/出力 (i、o) の組み合わせ ((2,10)、 (5,19)、および (9,31)) を与えることにより、アルゴリズムを「トレーニング」します。
  2. アルゴリズムは、入力と出力の関係を o=3*i+4 のように計算します。
  3. 次に、入力 7 を与え、出力を予測するように依頼します。アルゴリズムは出力を 25 と自動的に決定できます。

これは基本的な理解ですが、機械学習は、コンピュータシステムが、処理するのに十分なデータと計算能力を備えている限り、すべての複雑なデータポイントを数学的にリンクできるという原則に焦点を当てています。したがって、出力の精度は、指定された入力の大きさに直接関係してきます。機械学習の段階は以下のとおりです。

データの前処理

生データはクリーニングされ、機械学習モデルをトレーニングするために変換されます。これには、欠損値の処理、共通のスケールへのデータの正規化、テキストデータの数値形式へのエンコードなどのタスクが含まれます。特定のユースケースを処理するモデルの能力を改善するために、データを拡張または操作することもできます。前処理により、モデルに入力されたデータに関連性があり、適切に構造化されていることが保証されます。

モデルのトレーニング

前処理されたデータは、機械学習アルゴリズムのトレーニングに使用されます。このアルゴリズムは、入力とトレーニングデータからの期待出力との数学的相関関係を繰り返し確認しようとします。モデルはデータ内のパターンと関係を学習し、この知識をパラメータにカプセル化します。予測とトレーニングデータの実際の結果との差を最小限に抑えるようにパラメータを調整します。

モデルの評価

目標は、モデルがトレーニングデータセットを超えて一般化できるようにすることです。このために、検証セットと呼ばれる別のデータセットが使用されます。モデルの出力は、さまざまなメトリクスとベンチマークを使用して測定されます。例えば、バスケットに入っているリンゴやバナナなどの果物の写真を識別するようにトレーニングされたモデルを考えてみましょう。評価では、テーブルに置かれた果物や人の手中にある果物の画像から、同じ果物を正しく識別できるかどうかを確認します。

最適化

最適化には、モデルを改良してパフォーマンスを向上させることが含まれます。モデルタイプに応じて、データサイエンティストは学習プロセスを再設定したり、既存のデータから新しい入力特徴量を作成する特徴量エンジニアリングを実行したりできます。目標は、モデルの精度と効率を高め、新しいデータにうまく一般化する力を高めることです。

機械学習の利点にはどのようなものがありますか?

データは、ビジネス上の意思決定を裏付ける重要な原動力です。現代の組織は、スマートセンサー、カスタマーポータル、ソーシャルメディア、アプリケーションログなど、何千ものソースからデータを生成しています。機械学習は、データ収集、分類、分析のプロセスを自動化および最適化します。企業は成長を促進し、新しい収益源を開拓し、困難な問題をより迅速に解決することができます。

機械学習の利点 (動画) には、次のものがあります:

意思決定の強化

機械学習システムは、大量のデータを迅速かつ正確に処理および分析できます。動的で複雑なデータ中の予期しないパターンをリアルタイムで特定できます。組織は実行時にデータドリブンの意思決定を行い、変化する状況により効果的に対応できます。自信をもって業務を最適化し、リスクを軽減することができます。

ルーチンタスクのオートメーション

機械学習アルゴリズムは、人間の介入なしにデータをフィルタリング、ソート、分類できます。レポートの要約、文書のスキャン、音声の文字起こし、コンテンツのタグ付けなど、人間が行うには面倒で時間のかかる作業を行ってくれます。日常的で反復的な作業を自動化することで、生産性が大幅に向上し、コスト削減につながります。また、精度と効率も高まります。

カスタマーエクスペリエンスの向上

機械学習は、パーソナライゼーションを通じてカスタマーエクスペリエンスを変革します。例えば、小売業者は過去の購入、閲覧履歴、検索パターンに基づいて顧客に製品を推奨できます。ストリーミングサービスは、エンターテインメント業界における視聴に関するレコメンデーションをカスタマイズします。パーソナライズされたアプローチを取ることで、顧客を維持しブランドロイヤルティを高められます。

プロアクティブなリソース管理

組織は機械学習を使用して、傾向と行動を高精度で予測します。例えば、予測分析によって在庫ニーズを予測し、在庫レベルを最適化して間接費を削減できます。計画とリソース配分には予測的インサイトが不可欠です。これにより、組織は事後対応型ではなく事前対応型になります。

継続的な改善

機械学習特有の利点は、より多くのデータを処理するにつれて改善できることです。機械学習システムは、新しいデータに適応して学習します。時間が経っても実用的で関連性が維持されるように、パフォーマンスを調整および強化します。

機械学習のユースケースにはどのようなものがありますか?

いくつかの主要産業における機械学習の適用例を見てみましょう:

製造業

機械学習は、製造業における予知保全、品質管理、革新的な研究をサポートできます。また、企業がアセット、サプライチェーン、在庫管理などのロジスティクスソリューションを改善するのにも役立ちます。例えば、 製造大手の 3M は、機械学習を使用してサンドペーパーを革新しています。機械学習アルゴリズムにより、3M は、形状、サイズ、向きのわずかな変化が研磨性と耐久性をどのように改善するかを分析できます。そこから得られた提案は製造工程に反映されます。

ヘルスケアとライフサイエンス

ウェアラブルセンサーとデバイスの急増により、大量の健康データが生成されています。機械学習プログラムは、この情報を分析し、リアルタイムの診断と治療で医師をサポートします。機械学習の研究者は、癌性腫瘍を検出し、眼疾患を診断するソリューションを開発しており、人間の健康状態に大きな影響を与えています。例えば、Cambia Health Solutions は、機械学習を使用して妊婦の治療を自動化およびカスタマイズしています。

金融サービス

金融の機械学習プロジェクトは、リスク分析と規制遵守の体制を改善します。機械学習テクノロジーにより、投資家は株式市場の動きを分析したり、ヘッジファンドを評価したり、金融ポートフォリオを調整したりすることで、新しい機会を特定できます。さらに、リスクの高いローンの顧客を特定し、不正の兆候を軽減するのに役立ちます。例えば、個人向け金融企業である NerdWallet は、機械学習を使用して、クレジットカード、銀行、ローンなどの金融商品を比較しています。

小売業

小売業は機械学習を使用して、顧客サービス、在庫管理、アップセル、クロスチャネルマーケティングを改善できます。例えば、Amazon Fulfillment (AFT) は、機械学習モデルを使用して、不適切に配置されているインベントリを特定し、インフラストラクチャコストを 40% 削減しました。これにより、毎年何百万もの世界中の貨物を処理しているにもかかわらず、顧客は商品をすぐに利用でき、時間どおりに到着するという Amazon の約束を果たすことができます。

メディアとエンターテインメント

エンターテインメント企業は、ターゲットオーディエンスをよりよく理解し、没入型のパーソナライズされたオンデマンドコンテンツを配信するために、機械学習に目を向けています。機械学習アルゴリズムは、トレーラーやその他の広告のデザインを支援し、消費者にパーソナライズされたコンテンツのレコメンデーションを提供し、さらには制作を合理化するためにデプロイされます。 

例えば、Disney は、機械学習を使用してメディアライブラリをアーカイブしています。機械学習ツールは、メディアコンテンツに自動的にタグを付け、説明し、並べ替えることで、ディズニーのライターやアニメーターがディズニーのキャラクターをすばやく検索して確認できるようにします。

コンピュータビジョン

コンピュータビジョンは、画像を自動的に認識して正確かつ効率的に記述するテクノロジーです。今日、コンピュータシステムは、スマートフォン、交通カメラ、セキュリティシステム、および他のデバイスから多くの画像や動画にアクセスできます。コンピュータビジョンアプリケーションでは、機械学習を使用してこのデータを正確に処理し、オブジェクトの識別や顔認識、分類、推奨、モニタリング、検出を行います。

例えば、CampSite は、サマーキャンプのための先駆的なソフトウェアプラットフォームです。同社のキャンプでは毎日何千枚もの画像がアップロードされて、親に子供のキャンプ体験が伝わるようになっています。キャンプの際の写真を見つけることは、両親にとって時間と労力のかかる作業になりました。CampSite は機械学習を利用して画像を自動的に識別し、お子様の新しい写真がアップロードされたときに保護者に通知します。

機械学習アルゴリズムの種類にはどのようなものがありますか?

機械学習アルゴリズムは、期待される出力と入力タイプに応じて、4 つの異なる学習スタイルに分類できます。

教師あり機械学習

データサイエンティストは、相関を評価するために、ラベル付けされたトレーニングデータと定義されたトレーニングデータをアルゴリズムに提供します。サンプルデータは、アルゴリズムの入力と出力の両方を指定します。データラベリングは、入力データを、対応する定義済みの出力値を使用して分類します。例えば、何百万ものリンゴとバナナの画像に「リンゴ」または「バナナ」という単語でタグ付けする必要があります。 その後、機械学習アプリケーションでは、このトレーニングデータを使用して、果物の画像が提示されたときに果物の名前を推測できます。

教師あり学習の強みは、設計の単純さと容易さです。これは、限られた結果のセットを予測したり、データをカテゴリに分割したり、他の 2 つの機械学習アルゴリズムの結果を組み合わせたりする場合に役立ちます。ただし、何百万ものラベルなしデータセットにラベルを付けることは困難です。

教師なし機械学習

教師なし学習アルゴリズムは、ラベルのないデータをトレーニングします。このアルゴリズムは新しいデータをスキャンし、入力と所定の出力の間に意味のあるつながりを確立します。パターンを見つけてデータを分類できます。例えば、教師なしアルゴリズムは、さまざまなニュースサイトのニュース記事を、スポーツ、犯罪などの一般的なカテゴリにグループ化できます。アルゴリズムは自然言語処理を用いて、記事の意味と感情を理解することができます。小売業では、教師なし学習によって顧客の購入パターンを見つけ、データ分析結果が得られる可能性があります。例えば、顧客はバターを購入した場合、極めて高い確率でパンも購入します。

教師なし学習は、パターン認識、異常検出、およびデータをカテゴリに自動的にグループ化するのに役立ちます。トレーニングデータはラベル付けを必要としないため、設定は簡単です。このようなアルゴリズムを使用して、データをクリーンアップおよび処理して、自動モデリングを行うこともできます。この方法の限界は、正確な予測ができず、特定のデータ結果を個別に特定できないことです。

半教師あり学習

名前が示すように、この方法は教師あり学習と教師なし学習を組み合わせたものです。この手法では、システムをトレーニングするために、少量のラベル付きデータと大量のラベルなしデータを使用することになります。まず、ラベル付けされたデータを使用して、機械学習アルゴリズムを部分的にトレーニングします。その後、部分的にトレーニングされたアルゴリズムが、ラベルなしデータにラベルを付けます。このプロセスは、疑似ラベル付けと呼ばれています。その後、モデルは、明示的にプログラムされることなく、結果のデータミックスで再トレーニングされます。

この方法の利点は、大量のラベル付きデータを必要としないことです。これは、人間が読んだり、ラベルを付けたりするには時間がかかりすぎる長文ドキュメントなどのデータを処理する場合に便利です。

強化学習

強化学習は、アルゴリズムが実行する必要のあるさまざまなステップに報酬値を付加する方法です。したがって、モデルの目標は、できるだけ多くの報酬ポイントを蓄積し、最終的に最終目標に到達することです。過去 10 年間における強化学習の実用的な応用のほとんどは、ビデオゲームにおいて行われてきました。最先端の強化学習アルゴリズムは、古典的および現代的なゲームで印象的な結果を達成しており、多くの場合、人間が行えることを大幅に上回っています。 

強化学習の課題は、現実の環境が頻繁に、大きく、そして予告なしに変化することにあります。これにより、アルゴリズムが実際に効果を発揮するのが難しくなる可能性があります。デベロッパーの偏見も結果に影響を与える可能性があります。データサイエンティストが報酬を設計するとき、報酬が結果に影響を与える可能性があります。

深層学習

深層学習は、人間の脳に基づいてモデル化された機械学習の手法の一種です。深層学習アルゴリズムは、人間が使用するものと同様の論理構造でデータを分析します。人工ニューラルネットワークを使用して情報を層状に処理します。人工ニューラルネットワーク (ANN) は、データをまとめて処理する人工ニューロンと呼ばれるソフトウェアノードで構成されています。データは、ニューロンの入力層から複数の「深く」隠れたニューラルネットワーク層を通って流れてから、出力層に到達します。追加の隠れた層は、標準の機械学習モデルよりもはるかに優れた学習をサポートします。

ニューラルネットワークの詳細

機械学習と深層学習の詳細

機械学習モデルは決定論的ですか?

システムの出力が予測可能である場合、それは決定論的であると言われます。ほとんどのソフトウェアアプリケーションは、ユーザーのアクションに予測どおりに応答するため、「ユーザーがこれを行うと、それを取得する」と言うことができます。 ただし、機械学習アルゴリズムは、経験を積みながら観察を通じて学習します。したがって、それは本質的に確率論的です。ステートメントは、「ユーザーがこれを行うと、X% の確率でそれが発生する」というように変更されます。

機械学習では、決定論は上記の学習方法を適用する際に使用される戦略です。教師あり、教師なし、およびその他のトレーニング方法は、ビジネスの望ましい結果に応じて決定論的にすることができます。調査の質問、データの取得、構造、およびストレージの決定により、決定論的戦略と非決定論的戦略のどちらを採用するかが決まります。

決定論的アプローチと確率論的アプローチ

決定論的アプローチは、収集されるデータの精度と量に重点を置いているため、不確実性よりも効率が優先されます。一方、非決定論的 (または確率論的) プロセスは、チャンスファクターを管理するように設計されています。組み込みツールは機械学習アルゴリズムに統合されており、学習および観察中の不確実性を定量化、識別、および測定するのに役立ちます。

組織に機械学習を導入するにはどうすればよいですか?

機械学習を始めるには、機械学習ライフサイクルを実装する必要があります。それには次の段階が含まれます。

ビジネス目標

機械学習を検討している組織は、まず解決したい問題を特定する必要があります。問題解決で機械学習を使用することで得られるビジネス価値を特定します。ビジネス目標の特定の達成基準を使用してビジネス価値を測定できますか? 目標指向のアプローチは、支出を正当化し、主要なステークホルダーを説得するのに役立ちます。

問題の把握

次に、ビジネス上の問題を機械学習の問題として捉えます。何を観察し、何を予測すべきかを特定します。この段階の重要なステップは、予測対象を特定し、関連するパフォーマンスとエラーメトリクスをどのように最適化するかを決定することです。

データ処理

データ処理は、機械学習アルゴリズムを使用してデータを使用可能な形式に変換します。これには、特徴量エンジニアリングに加えて、データの識別、収集、および前処理が含まれます。データから機械学習変数を作成、変換、抽出、選択します。

モデルの開発とデプロイ

これは、前のセクションで説明したように、モデルのトレーニング、調整、評価の中核となるプロセスです。これには、MLOps の確立が含まれます。機械学習オペレーション (MLOps) は、機械学習 (ML) のワークフローとデプロイを自動化および簡素化する一連のプラクティスです。ML 開発とデプロイおよび運用を統合します。例えば、ステージング環境や本番環境へのビルド、トレーニング、リリースを自動化する CI/CD パイプラインを作成します。

モニタリング

モデルモニタリングシステムは、早期の検出と緩和を通じて、モデルが望ましいパフォーマンスレベルを維持できるようにします。これには、長期にわたって関連性が維持されるように、モデルを維持および改善するためのユーザーフィードバックの収集も含まれます。

機械学習の実装における課題にはどのようなものがありますか?

機械学習の実装における課題は以下のとおりです。

データ品質

機械学習モデルのパフォーマンスは、トレーニングに使用されるデータ品質によって異なります。欠損値、一貫性のないデータ入力、ノイズなどの問題は、モデルの精度を大幅に低下させる可能性があります。さらに、十分な大きさのデータセットがないと、モデルが効果的に学習できなくなる可能性があります。データインテグリティを確保し、品質を損なうことなくデータ収集をスケールアップすることは、継続的な課題です。

オーバーフィッティングとアンダーフィッティング

オーバーフィッティングは、機械学習モデルがトレーニングデータの詳細やノイズを学習し、新しいデータに対するモデルのパフォーマンスに悪影響を及ぼすようになることをいいます。モデルは、他のデータセットには一般的に当てはまらないパターンをキャプチャします。一方、アンダーフィッティングは、モデルがデータの基礎となるパターンを学習できない場合に発生します。その結果、トレーニングデータとテストデータの両方でパフォーマンスが低下します。モデルの複雑さと一般化能力のバランスを取ることは重要な課題です。

バイアス

実際のアプリケーションの多くでは、データのバランスが取れていない可能性があります。つまり、一部のクラスは他のクラスよりも頻度が大幅に高いということです。この不均衡はトレーニングプロセスにバイアスをかける可能性があり、モデルは多数派クラスではうまく機能しますが、少数派クラスは正確に予測できません。例えば、履歴データが特定の人口統計を優先する場合、人事アプリケーションで使用した機械学習アルゴリズムが引き続きそのような人口統計を優先する可能性があります。データのリサンプリング、さまざまな評価メトリクスの使用、異常検出アルゴリズムの適用などの手法により、問題はある程度軽減されます。

モデルの説明可能性

機械学習モデル、特に深層学習モデルがより複雑になるにつれて、その決定は解釈しにくくなります。パフォーマンスを犠牲にすることなくモデルをより解釈しやすくする方法を開発することは重要な課題です。それにより、機械学習システムをデプロイする際の使いやすさ、信頼性、倫理的考慮事項が影響を受けます。

スケーラビリティ

機械学習モデル、特に大規模なデータセットや深層学習のような複雑なアルゴリズムを含むモデルには、大量のコンピューティングリソースが必要です。これらのモデルのトレーニングには時間と費用がかかる場合があります。アルゴリズムを最適化して計算負荷を減らすには、アルゴリズムの設計上の課題に対処する必要があります。AWS クラウドベースのサービスは、費用対効果の高い大規模な実装をサポートできます。

初心者向けの機械学習トレーニングはどのようなものですか?

機械学習には、数学、統計、コーディング、データテクノロジーの強固な基礎が必要です。機械学習の学習をさらに進めたい場合は、人工知能またはデータサイエンス分野の修士号を取得することを検討することをお勧めします。これらのプログラムでは通常、ニューラルネットワーク、自然言語処理、コンピュータビジョンなどのトピックを詳細に扱います。

ただし、正規教育だけが唯一の道ではありません。オンラインコースを使用して自分のペースで学習し、特定のスキルを習得できます。AWS での機械学習トレーニングには、次のようなトピックに関する AWS エキスパートによる認定が含まれます:

AWS の機械学習はどのように役立ちますか?

AWS は、機械学習をすべてのデベロッパー、データサイエンティスト、ビジネスユーザーの手に届けます。AWS 機械学習サービスは、ビジネスニーズを満たすために、高性能で費用効果が高くスケーラブルなインフラストラクチャを提供します。

  • 開始したばかりですか? AWS DeepRacerAWS DeepComposer などの実践的な教育用デバイスを使用して、機械学習を学びましょう。
  • 既存のデータアーカイブをお持ちですか? 動画、画像、およびテキストをサポートする組み込みデータラベリングワークフローには、Amazon SageMaker Ground Truth を使用します。
  • 既存の機械学習システムがありますか? Amazon SageMaker Clarify を使用してバイアスを検出し、Amazon SageMaker モデルトレーニングを使用してパフォーマンスをモニタリングおよび最適化します。
  • 深層学習を実装したいとお考えですか? 大規模な深層学習モデルを自動的にトレーニングするには、Amazon SageMaker モデルトレーニングを使用します。 

今すぐ無料のアカウントを作成して、AWS で機械学習の使用を開始しましょう!