Amazon Web Services ブログ

Category: Artificial Intelligence

クラウドにヘルスデータを格納し、変換と分析を行う Amazon HealthLake

医療機関が日々必要とする患者情報には、臨床的な所見や家族の病歴から、診断内容と処方箋にいたるまで、膨大な量が含まれます。これらすべてのデータは、患者に関する医療情報の全体像を把握し、より優れた医療サービスを提供できるようにするために使用されます。現在のところ、こういったデータは、さまざまなシステム (電子カルテ、検査システム、医療画像リポジトリなど) の間で、数十種類の互換性のないフォーマットで保存されています。 FHIR (高速医療情報相互運用リソース) などの新しい規格は、このような課題に対処しようとしたものです。この規格では、それらの医療システム間で構造化データを記述および変換に適応した形式が提供されます。しかし、このデータの多くは非構造化情報であり、医療記録 (臨床記録) 、文書 (PDF 形式の検査結果) 、書式用紙 (保険請求) 、画像 (X線、MRI) 、音声 (会話記録) 、時系列データ (心電図) などの形で保存されているため、それらの形式から情報を抽出することは 1 つの課題となります。 医療機関が、これらのデータをすべて収集し、変換 (タグ付けやインデックス作成) 、構造化、分析などのための準備を完了するには、数週間、場合によっては数か月を要することがあります。さらに、そのすべての作業を行うためのコストと運用上の複雑さは、ほとんどの医療機関で許容しきれないものとなります。 この度、当社では、Amazon HealthLake を発表できる運びとなりました。これは、HIPAA 適合の完全マネージド型サービス (現在はプレビュー版) であり、医療関係およびライフサイエンスのお客様は、さまざまな形式でサイロ化された医療情報を、一元化された AWS データレイクに集約するためにご利用いただけます。HealthLake では、機械学習 (ML) モデルにより医療データの正規化が行われます。医療データ内の意味のある情報が自動的に理解され抽出されるので、すべての情報が簡単に検索できるようになります。その後、お客様はデータに対しクエリと分析を行い、関連性の把握や傾向を割り出したりしながら、それらを予測に利用することができます。 仕組み Amazon HealthLake を使用することで、オンプレミスのデータを AWS クラウドにコピーします。クラウドに保存された構造化データ (検査結果など) と非構造化データ (カルテなど) には、HealthLake により、FHIR に対応したタグ付けや構造化が行われます。すべてのデータは、標準的な医療用語を使用して完全にインデックス化されるため、患者の医療情報の照会や検索、分析、および更新が、すばやく簡単に実行できます。 HealthLake を使用する医療機関は、患者の医療情報の収集と変換を数分の内に完了し、その治療履歴を包括的に表示できるようになります。この情報は、業界標準の FHIR 形式で構造化されるので、検索とクエリのための強力な機能を利用できます。 AWS マネジメントコンソールから HealthLake API […]

Read More

新機能 — Amazon SageMaker Feature Store で機械学習の機能を格納、発見、共有する

今回、 Amazon SageMaker Feature Store を発表できることを、非常に喜ばしく思います。この Amazon SageMaker の新機能により、トレーニングや予測ワークフローで使用するために精選されたデータの安全な保存、検出、共有などを、データサイエンティストや機械学習エンジニアが容易に実施できるようになります。 作業経験が豊富な方であれば、機械学習 (ML) モデルをトレーニングし適切なアルゴリズムを選択するためには、高品質のデータを供給することがいかに重要かをご存知だと思います。ML のワークフローとして、最初にデータをクリーニングするのは良い考えです。さらに通常は、欠損値の補完、外れ値の削除、その他の処理が行われることになります。さらに多くの場合では、「特徴エンジニアリング」 と呼ばれる (一般的なものと難解なもの両方の手法がミックスされた) 手法により、データの変換が行われます。 特徴エンジニアリングの目的とは、簡単に言えば、表現性が高まるようにデータを変換して、アルゴリズムの学習を助けるということです。例えば、多くの列型データセットには、住所などの文字列が含まれています。ほとんどの ML アルゴリズムにとって、文字列は無意味なので、これらを数値表現でエンコードしなおす必要が生じます。この住所の文字列の場合であれば、GPS 座標に置き換えることができます。この形式なら、位置の概念を学ぶアリゴリズムにとって、より表現性が高いものになります。言い方を変えると、データが新しい石油だとすれば、モデルが成層圏の精度を得るのに必要とする高オクタン価のジェット燃料に、その石油を変える精製プロセスが、特徴エンジニアリングだと言えます。 実際、ML の実務担当者達は、特徴エンジニアリング用にコードを作成し、そのコードを初期データセットに適用し、処理されたデータセットでモデルをトレーニングた上でその精度の評価を行うことに、多くの時間を費やしています。この作業は実験的な性質を持つため、たとえ最小規模のプロジェクトであっても、複数回の反復が必要になることがあります。同じ特徴エンジニアリングコードが何度も実行されることも多く、同じ操作の繰り返により時間と計算リソースが浪費されます。こういった事情は、大規模な組織では、さらなる生産性の低下を引き起こすこともあり得ます。多くの場合で異なるチームが同じジョブを実行していたり、以前の作業に関する情報がないために特徴エンジニアリング用のコードを重複して記述したりするのが、その理由です。 また、MLチームには、解決しなければならない別の難しい問題もあります。モデルは処理が施されたデータセットでトレーニングされるているため、予測のために送信されるデータにも、同じ変換を適用することが不可欠となるのです。これは多くの場合、異なる言語で書きなおした特徴エンジニアリングコードを予測ワークフローに統合して、予測の処理時に実行する、ということを意味します。また、こういったプロセスの全体により、時間が消費されるだけでなく、一貫性を損なう可能性もあります。なぜなら、データ変換の最も小さな差異でさえ、予測には大きな影響を与え得るからです。 これらの問題を解決するために、しばしば ML チームは、フィーチャストアを構築します。フィーチャストアとは、トレーニングや予測ジョブで使用される処理済みデータを保持および取得できる、中央リポジトリのことです。フィーチャストアは便利ですが、独自のストアを構築および管理することは、技術、インフラストラクチャ、そして運用の面で多大な労力を要し、実際の ML 作業のための貴重な時間を奪ってしまいます。こういった状況に対する、よりよいソリューションをお客様から求められ、当社では、新サービスを作ることになりました。 Amazon SageMaker Feature Store のご紹介 Amazon SageMaker Feature Store は、ML 機能のための完全マネージド型で一元化されたリポジトリです。インフラストラクチャを管理することなく、特徴データを安全に保管および取得できます。Feature Store は、Amazon SageMaker に組み込まれています。SageMaker は、あらゆるアルゴリズムをサポートしている、ML 用の完全マネージド型サービスです。さらに Feature Store は、ウェブベースの ML 用開発環境である Amazon SageMaker Studio とも統合されています。 SageMaker […]

Read More

新機能 — Amazon SageMaker Pipelines が機械学習プロジェクトに DevOps 機能を提供

本日、 Amazon SageMaker Pipelines を発表することができまして、大変うれしく思います。これは Amazon SageMaker の新機能で、データサイエンティストやエンジニアが、エンドツーエンドの機械学習パイプラインを簡単に構築、自動化、スケールできるようになります。 機械学習 (ML) はもともと試験段階にあり、本質的に予測することはできません。数日から数週間かけてさまざまな方法でデータを分析および処理します。これは、ジオード (晶洞石) を壊して、貴重な宝石を見つけようとする作業のようです。次に、さまざまなアルゴリズムとパラメータを試しながら、最高の精度を求めて多くのモデルをトレーニングおよび最適化します。この作業は通常、アルゴリズムとパラメータの間に依存関係がある多くの異なる手順を伴い、手作業で管理するため、とても複雑になる可能性があります。特に、モデル系列の追跡は簡単ではなく、監査性やガバナンスを妨げます。最後に、上位モデルをデプロイし、参照テストセットに対するモデルの評価を行います。最後に、 と言いましたが、実際には何度も反復して、新しいアイデアを試し、新しいデータでモデルを定期的に再トレーニングします。 ML がどんなにエキサイティングであっても、残念ながら多くの繰り返し作業を伴います。小規模なプロジェクトでも、本番環境に移る前には何百もの手順が必要になります。こうした作業のせいで、時間の経過とともにプロジェクトの楽しさや興奮が失われていくだけでなく、監視する必要性やヒューマンエラーの可能性が大きくなります。 手作業を軽減し、トレーサビリティを向上させるために、多くの ML チームでは DevOps の理念を採用し、継続的インテグレーションと継続的配信 (CI/CD) 用のツールとプロセスを実装しています。確かにこれは正しい手順といえますが、独自のツールを作成することで、当初の予想よりも多くのソフトウェアエンジニアリングとインフラストラクチャ作業が必要な複雑なプロジェクトとなる場合が多いです。貴重な時間とリソースが実際の ML プロジェクトから奪われ、革新のペースがスローダウンします。残念ながら一部のチームでは、手作業でのモデルの管理、承認、デプロイに戻ることにしました。 Amazon SageMaker Pipelines のご紹介 簡単に言うと、Amazon SageMaker Pipelines で、ML プロジェクトの DevOps がトップレベルになります。この新機能により、データサイエンティストや ML デベロッパーは、自動化された、信頼性の高いエンドツーエンドの ML パイプラインを簡単に作成できるようになります。SageMaker は通常どおり、すべてのインフラストラクチャを完全に管理するため、お客様が作業を行う必要はありません。 Care.com は、高品質の介護サービスを見つけて管理するための世界をリードするプラットフォームです。Care.com のデータサイエンスマネージャーの Clemens Tummeltshammer 氏は次のように言います「 需要と供給が均衡な、力のある介護業界は、個々の家庭から国の GDP にいたる経済成長にとって不可欠です。私たちは Amazon SageMaker Feature Store と […]

Read More

プレビュー: ビジネスの健全性を監視するための異常検出サービス、Amazon Lookout for Metrics

Amazon Lookout for Metrics を発表いたします。これは、機械学習 (ML) を使用してメトリックスの異常を検出する新しいサービスです。ML の経験がなくても、ビジネスの健全性を積極的に監視、問題を診断して、迅速に機会を発見できます。 Lookout for Metrics では Amazon と同じ技術を使用しています。ともすれば見つけるのが難しい、データの例外的な変化を検出しつつ、誤検出の回数を減らします。また、類似するものをまとめてグループ化し、厳密にランク付けします。さらに異常の根本原因特定に役立つ情報を提供します。 収益額やウェブページビュー、毎日のアクティブユーザー数、解約率、トランザクション量、モバイルアプリのインストール数など、さまざまなメトリックスで使用できます。本日、Lookout for Metrics のプレビューをご覧いただけます。 Amazon Lookout を異常検知のために使用する理由 どの業界の組織も、テクノロジーと自動化を通じてビジネスの効率を向上させようとしています。さまざまな試みがされていますが、よくあるのは欠陥や機会を早期に特定でき、材料コストの節約、利益率の向上、カスタマーエクスペリエンスの向上につながるものです。これまでは、組織による大量のデータ監査は、手作業に依存していました。これでは規模を拡大することが難しく、また人為的ミスの原因になりがちです。任意に範囲を決めて、ルールベースの方法を使用している組織もあります。多くの場合これらの方法は静的であり、季節性の変化に容易には対応できず、誤検出が多すぎます。 ひとたび異常が検出されると、デベロッパーやアナリスト、ビジネスオーナーは、変化の根本原因をつきとめようと数週間も費やすことになります。これが ML が効果的かつ変革的なツールになり得る状況です。しかし ML のアルゴリズムは、データの種類ごとに慎重に選択し、トレーニングを行い、テストとデプロイをする必要があります。そのため ML に熟練したエキスパートチームが必要です。 Amazonには、データ主導型の企業としての長い歴史があります。ビジネスの健全性や運営、カスタマーエクスペリエンスにおいてトップでありつづけなければならないビジネスを抱えており、その数は増え続けています。この長年に渡る取り組みの重要な部分は、さまざまなトラフィックチャネルからのウェブサイト訪問、ショッピングカートに追加された商品の数、注文数、商品ごとの収益をはじめとした、主要業績評価指標 (KPI) の異常を検出するために ML テクノロジーを構築し、改善させることでした。 Amazon Lookout for Metrics によって、すべてのデベロッパーが Amazon で使われていたものと同じ ML テクノロジーを手にすることができます。データの異常を検出してインテリジェントにグループ化することで、集計結果を視覚化し、自動的に警告を行えます。 フルマネージド型のサービスなために ML プロセス全体を扱うことができ、すぐに開始してコアビジネスに集中できます。そして最も重要なのは、異常と根本原因の分析における正確さと関連性についてのフィードバックを、このサービスがリアルタイムに組み込むことで、モデルのパフォーマンスを継続的に向上させられることです。 Amazon Lookout for Metrics の仕組み AWS マネジメントコンソールから数回クリックするだけで、Lookout for Metrics […]

Read More

機械学習用のデータを準備するためのビジュアルインターフェイス、Amazon SageMaker Data Wrangler のご紹介

本日、Amazon SageMaker の新たな機能であるAmazon SageMaker Data Wranglerを発表できることを非常に嬉しく思います。これを利用することで、データサイエンティストやエンジニアは、ビジュアルインターフェイスを使用した機械学習 (ML) アプリケーションのデータ準備をより速く行うことができます。 データサイエンティストと機械学習エンジニアのグループに、機械学習における問題の調査に実際、どのくらい時間を費やすのかを尋ねるたびに、私はよく多くのため息と、それに続く「運が良ければ 20% です」というせりふに沿った答えを聞きます。その理由を尋ねると、答えはいつでも同じです、「データ準備に、常に時間の 80% を費やしています。」 実際、トレーニングのためのデータ準備は、機械学習のプロセスにおける重要なステップであり、そこで下手な仕事をしようとは誰も考えないでしょう。一般的なタスクは次のとおりです。 データの特定: 未加工データの格納場所の検索、データへのアクセス データの可視化: データセット内の各列の統計的性質の検証、ヒストグラムの構築、外れ値の調査 データのクリーニング: 重複の削除、欠損値のエントリの入力または削除、外れ値の削除 データの強化および特徴エンジニアリング: 列の処理によるより表現力のある特徴データの構築、トレーニングのための特徴データのサブセットの選択 新しい機械学習プロジェクトの初期段階において、これは直感と経験が大きな役割を果たす高度な手動プロセスです。データサイエンティストは、多くの場合、pandas や PySpark などのオープンソースツールやオープンソースツールの組み合わせを使用して、さまざまなデータ変換の組み合わせを試し、モデルをトレーニングする前にデータセットを処理します。その後、予測結果を分析し、反復処理を行います。同じくらい重要ですが、このプロセスを何度も繰り返しループするのは、時間がかかり面倒であると同時に、エラーが発生しやすくなります。 ある時点で、適切なレベルの精度 (または選択した他のすべてのメトリクス) に達すると、本番環境の完全なデータセットでトレーニングしたいと考えるでしょう。しかし、まずはサンドボックス内で実験した正確なデータ準備のステップを再現および自動化する必要があります。残念ながら、この作業のインタラクティブな性質を考慮すると、慎重に文書化していても、常にエラーの余地があります。 最後に大事なことですが、最終段階に進む前に、データ処理インフラストラクチャを管理および拡張する必要があります。今考えれば、このすべてを行うには、80% の時間では十分ではないかもしれません。 Amazon SageMaker Data Wrangler のご紹介 Amazon SageMaker Data Wrangler は、機械学習用に完全に管理された統合開発環境 (IDE) である Amazon SageMaker Studio に統合されています。数回クリックするだけで、データソースへの接続、データの探索と視覚化、組み込み変換および独自の変換の適用、自動生成されたスクリプトへの結果コードのエクスポート、マネージドインフラストラクチャでの実行が可能です。各ステップをより詳しく見ていきましょう。 もちろん、データ準備は、データを特定してアクセスすることから始まります。SageMaker Data Wrangler を使用すると、導入してすぐに Amazon Simple Storage Service […]

Read More

Amazon SageMaker JumpStart で事前構築済みモデルと機械学習ソリューションへのアクセスを簡素化する

本日、Amazon SageMaker の新機能である Amazon SageMaker JumpStart の提供を開始したことを発表します。人気の高いモデルのコレクション (別名「モデルズー」) および一般的なユースケースを解決するエンドツーエンドのソリューションに、ワンクリックでアクセスして機械学習ワークフローを高速化することができます。 近年、機械学習はビジネスプロセスの改善と自動化に役立つ技術であることが証明されています。実際、過去データでトレーニングされたモデルは、金融サービス、小売、製造、通信、ライフサイエンスといった幅広い業界において結果を高精度に予測できます。しかし、これらのモデルの使用には、データセットの準備、アルゴリズムの選択、モデルのトレーニング、精度の最適化、本番稼働環境へのデプロイ、パフォーマンスの経時的モニタリングといった、一部の科学者やデベロッパーだけが有しているスキルと経験が必要になります。 モデルの構築プロセスを簡素化するために、機械学習コミュニティは、モデルズーと呼ばれる、人気の高いオープンソースライブラリによるモデルのコレクションを作成しました。モデルズーは多くの場合、リファレンスデータセットで事前トレーニングされています。例えば、TensorFlow Hub や PyTorch Hub では、デベロッパーは多数のモデルをダウンロードして、コンピュータビジョンや自然言語処理などのアプリケーションに統合することができます。 モデルのダウンロードは第一歩にすぎません。デベロッパーはその後、TensorFlow Serving および TorchServe モデルサーバーといったさまざまなツール、または独自のカスタムコードを使用してモデルをデプロイし、評価とテストを行う必要があります。モデルを実行したら、デベロッパーは受信データの適切な形式を把握する必要があります。これは以前からの悩みの種です。毎回ここで頭を抱えているのは私だけではないでしょう。 もちろん、完全な機械学習アプリケーションには通常、多くの不確定要素があります。データを事前処理して、バックエンドから取得した追加データでエンリッチメントを行い、モデルに投入する必要があります。予測は多くの場合、後処理され、さらなる分析や視覚化を行うために保存されます。モデルズーは有用ですが、役に立つのはモデリング段階でのみです。完全な機械学習ソリューションが提供できるようになるまでにデベロッパーが行うべき作業は、まだたくさんあります。 そのため、機械学習エキスパートには、プロジェクトのバックログが殺到します。一方で経験の少ないプラクティショナーは、開始するまでに苦労します。これらの障壁は大変苛立たしいものです。お客様からもこの問題への対処を求められました。 Amazon SageMaker JumpStart のご紹介 Amazon SageMaker JumpStart は、機械学習用の完全な統合開発環境 (IDE) である Amazon SageMaker Studio に統合されているため、モデルやソリューションなどを直感的に見つけることができます。ローンチ時の SageMaker JumpStart には、以下が含まていれます。 不正検出や予知保全といった、一般的な機械学習ユースケースに対応する 15 以上のエンドツーエンドソリューション コンピュータビジョン (画像分類、物体検出) および自然言語処理 (文章分類、質問応答) に対応する、TensorFlow Hub および PyTorch Hub で公開されている 150 以上のモデル […]

Read More

Amazon CodeGuru の新機能 – Python サポート、Security Detector、および Memory Profiling

Amazon CodeGuru は、コードの品質を向上させるデベロッパーツールであり、次の 2 つの主要コンポーネントで構成されています。 CodeGuru Reviewer は、プログラム分析と機械学習を使用して、コード内で見つけにくい潜在的な欠陥を検出し、改善のための提案を提供します。 CodeGuru Profiler は、ライブアプリケーションからランタイムパフォーマンスデータを収集し、アプリケーションのパフォーマンスを微調整するのに役立つ視覚化と推奨事項を提供します。 本日は、3 つの新機能を発表いたします。 CodeGuru Reviewer および CodeGuru Profiler 用の Python のサポート (プレビュー) – CodeGuru を使用して Python で記述されたアプリケーションを改善できるようになりました。このリリース以前には、CodeGuru Reviewer は Java コードを分析でき、CodeGuru Profiler は Java 仮想マシン (JVM) で実行されるアプリケーションをサポートしていました。 CodeGuru Reviewer 用の Security Detector – CodeGuru Reviewer 用の新しい検出機能セットで、セキュリティの脆弱性を特定し、Java コード内のセキュリティのベストプラクティスをチェックします。 CodeGuru Profiler 用の Memory Profiling – 時間の経過に伴うオブジェクトタイプごとのメモリ保持の新しいビジュアライゼーションです。これにより、メモリリークを検出し、アプリケーションによるメモリの使用を最適化することが容易になります。 これらの機能をもっと詳しく見てみましょう。 […]

Read More
AWSデジタルトランスフォーメーション

【開催報告 & 資料公開】 AI/ML@Tokyo #8 エンタープライズにおけるDXとAI/ML 開催報告

アマゾン ウェブ サービス ジャパン株式会社 機械学習ソリューションアーキテクトの伊藤です。AWS Japan では、AI/ML 関連情報を発信するイベント「AWS AI/ML@Tokyo」を定期的に開催しています。2020年11月26日にオンラインで開催された AWS AI/ML@Tokyo #8では、AWSのAI/ML事業開発シニアスペシャリストより、エンタープライズ企業におけるAI/機械学習プロジェクトの進め方をご紹介し、ソリューションアーキテクトより、手軽に導入できるAIサービスを活用した実際のユースケースのご紹介をいたしました。また、お客様活用事例として、株式会社 JAL インフォテック様、三菱UFJインフォメーションテクノロジー株式会社様 におけるAIサービスや Amazon SageMaker を活用したDX事例をお話しいただきました。

Read More

Amazon Lookout for Vision — 新しい ML サービスにより、製造の欠陥検出を簡素化

本日は、産業環境のお客様が、簡単かつコスト効率性に優れた方法で製造装置と機器の外観欠陥を検出するために役立つ新しい機械学習 (ML) サービス、Amazon Lookout for Vision をご紹介します。 これらの画像から欠陥がある回路基板を見つけられますか? 回路基板に詳しい人なら見つけられるかもしれませんが、私が欠陥を見つけるのには少し時間がかかってしまいました。適切な訓練を受け、十分に休息を取った人ならば、一連のオブジェクトから異常を上手く見つけることができますが、疲れていたり、この例での私のように適切な訓練を受けていなかったりすると、異常を見つけるのが遅くなり、ミスや食い違いが生じやすくなります。 多くの企業が異常の検出にマシンビジョンテクノロジーを使用しているのはこのためです。ただし、これらのテクノロジーは、制御された照明とカメラ視点で較正する必要があります。さらに、欠陥とされるものとされないものを定義するハードコードされたルールを指定しなければならないため、このテクノロジーは高度に特化されたものとなり、構築も複雑になります。 Lookout for Vision は、生産工程全体における製品欠陥の目視検査を自動化することによって、工業製品の品質向上と運用コストの削減を助ける新しい機械学習サービスです。Lookout for Vision では、ハードコードされたルールの代わりに深層学習モデルが使用され、カメラアングルの違い、照明、および運用環境に起因するその他の課題に対応します。Lookout for Vision により、慎重に制御された環境の必要性を減らすことができます。 Lookout for Vision を使用することで、製造された部品の損傷を検出し、欠落しているコンポーネントや部品を特定して、生産ラインにおける潜在的な工程関連の問題を発見することができます。 Lookout for Vision の使用開始方法 最初にお伝えしておきたいのは、Lookout for Vision は機械学習の専門家でなくても使用できるということです。Lookout for Vision は完全マネージド型サービスで、ユースケースとデータに合わせて最適化できる異常検出モデルが搭載されています。 Lookout for Vision を使用するには、いくつかのステップがあります。最初のステップは、データセットの準備です。これには、画像のデータセットの作成と画像のラベル付けが含まれます。次に、Lookout for Vision がこのデータセットを使用して、製品における異常の検出を学習する ML モデルを自動的にトレーニングします。最後のステップは、本番環境でのモデルの使用です。トレーニングしたモデルのパフォーマンスは、いつでも Lookout for Vision が提供するツールを使用して、継続的に評価し、改善することができます。 データの準備 モデルの作成を始めるには、まず一連の製品画像が必要になります。より良い結果を得るため、正常な製品 (欠陥なし) と異常な製品 (欠陥あり) の画像を含めます。トレーニングを始めるには、少なくとも 20 […]

Read More

Amazon SageMaker Model Monitor を活用したデータドリフト検知の解説

はじめに AWS では、機械学習モデルの開発、学習、推論に最適な AWS サービスを提供しています。これらを活用することで、お客様は、データに基づく適切なビジネス判断、高品質な顧客サービスの提供、コンプライアンスの遵守等の実現が可能となります。ただし、機械学習モデルが扱うデータには細心の注意が必要です。機械学習モデルの学習データと推論時に入力されるデータに、許容範囲を超えた乖離が発生すると、モデルは期待した精度で推論結果を返すことができなくなります。昨今、 COVID-19 や企業のデジタルトランスフォーメーション (DX) の影響等で、一般消費者の生活スタイルやソーシャルネットワークでの言動、企業における従業員のワークスタイルや財務状況に至るまで、様々な指標に、予測を超えた変化が起きている可能性があります。これらは、それまでに学習された機械学習モデルの精度に影響を与える可能性があります。このように、推論時の入力データや出力結果が、学習時の許容範囲を超えて変化することをデータドリフトと呼びます。( 注釈 : データドリフトまたはデータシフトの文脈では、共変量シフト (covariate shift) やコンセプトドリフト (concept drift) などの概念、用語が使われることもありますが、本記事では、データドリフトという用語を、上記の定義に基づいて使用します。) このデータドリフトを継続的に監視する仕組みが、精度の高い推論を提供し続けるために重要です。 AWS は、このようなデータドリフト検知を含め、機械学習を組み込んだアーキテクチャにおけるベストプラクティスを、Machine Learning Lens というホワイトペーパーで公開しています (日本語版) 。また、 Amazon SageMaker を活用しているお客様は、 Amazon SageMaker Model Monitor ( 以下、 Model Monitor ) を活用して、すぐにデータドリフトの検知を開始することが可能です。本記事では、 AWS を利用した機械学習システムの検討や実装に関わる皆様を対象に、 Model Monitor のアウトプットをどのように解釈しデータドリフトの検知に利用できるのか、関連する論文や技術を、できるだけ具体的、かつ簡潔に解説したいと思います。 機械学習のビジネス活用においては、モデルのベースとなるアルゴリズムの正しい理解が重要です。それと同じように、データドリフトの検知に活用されている様々なアルゴリズムや技術についても理解することは、誤ったビジネス活用を未然に防ぐために必要不可欠です。AWS では、クラウドならではのスピード感で、すぐに Model Monitor を活用したデータドリフト検知を開始することが可能です。私たちプロフェッショナルサービスのコンサルタントは日頃、AWSを活用した機械学習モデルの開発、学習、推論のためのアーキテクチャの最適化についてガイドしています。コンサルタントにはデータサイエンティストや Machine Learning ( 以下、ML ) エンジニアなどがおり、関連論文に関する知識や現場で得たノウハウを蓄えています。本記事により、みなさまのご理解の一助となれば幸いです。 […]

Read More