Amazon Web Services ブログ

機械学習プロジェクトのファーストステップ「データから価値を創出できるか診断する」方法について解説動画を公開しました!【ML Enablement Series Light#4】

機械学習モデル開発プロジェクトの進め方を解説する「ML Enablement Series ※」の Lightパート第4回となる「データから価値を創出できるか診断する」動画が公開されました。

※ ML Enablement Series とは、機械学習プロダクトにかかわる全ての人向けの機械学習の知識をお届けする Light パートと、機械学習のマネージドサービスを活用した MLOps を推進したいエンジニア向けの Dark パート から構成されており、週1回を目安に Lightパート と Darkパート を交互に配信しています。(2022/06/08より AWS Black Beltオンラインセミナーにて配信開始)

今回は、機械学習プロジェクトの事前データ診断である、「Analyze(分析)」を対象にしています。
Analyzeのゴールは、「今あるデータの量・質がBusiness Understandingで決めた価値を実現するのに十分か診断されている」ことです。そのために大切なこととして、以下の2点を挙げて説明しています。

  • Pythonでデータの質・量について基本的な診断を行えるようになる
  • チームメンバーから診断のフィードバックを得られるようになる

Analyzeの成果物は「データの診断結果」であり、診断結果に基づき次のPrepareフェーズでデータの量・質を整備することになります。

Light4_analyze

プログラミング演習では、SageMaker Studio Labを用いてAnalyzeのデモンストレーションを行なっています。ヒストグラムや箱ひげ図を用いたデータ量の分析や、相関分析を用いたデータの質の分析などを行なっています。
コミュニケーション演習では、診断(Analyze)結果を確定したいときに「誰に」「何を」確認すべきかについて解説しています。

Light4_StudioLab

Analyzeは機械学習プロジェクトの成功に向けて手を動かすファーストステップとなりますので、ぜひご覧ください。

今回の 動画 は AWS BlackBelt オンライン ML Enablement シリーズのYouTubeの再生リスト(Lightパート / Darkパート)に追加しています。こちらもご利用ください。

AWS Black Belt Online Seminar 全体の資料はこちらにあります

プレゼンテーション作成およびスピーカーは機械学習Developer Relationsの久保、本記事は機械学習ソリューションアーキテクトの伊藤が担当しています。

これまでの「ML Enablement Series