Amazon Web Services ブログ

Category: Amazon SageMaker

【開催報告】2020年 AWS re:Invent Recap 製薬業界 AI/MLセミナー

アマゾン ウェブ サービス ジャパン株式会社 インダストリー事業開発部 片岡です。 製薬業界でAI/機械学習 (ML)にご興味をお持ちのエンドユーザーの皆様を主な対象として2020年12月23日に「2020年 AWS re:Invent Recap 製薬業界 AI/MLセミナー」をウェビナーで開催しました。 本記事では最新事例や最新サービス紹介を含む当日の資料・動画を皆様にご紹介します。 本ウェビナー開催の背景 世界最大級のグローバルITカンファレンスである「re:Invent 2020」が、昨年12月から今年1月にかけて行われました。今回はコロナの影響で初のオンライン開催となり、AWSのクラウドサービスに関わるセミナー、ハンズオンセッション等、2,500を超えるセッションがお客様に無料で提供されました。 本ウェビナーでは、re:Inventの中で発表された最新事例・サービスの中から、特にアップデートの多かったAI/MLにフォーカスして、日本の製薬業界のお客様に向けて、分かりやすくコンテンツをまとめて発表させて頂きました。

Read More

【開催報告 & 資料公開】AWS re:Invent Recap AI/ML

アマゾン ウェブ サービス ジャパン株式会社 機械学習ソリューションアーキテクトの藤川です。『AWS re:Invent』は、世界中の AWS ユーザーが集まり、ベストプラクティスや最新情報を学ぶための年次カンファレンスです。この会期中に発表された AI/ML 関連のアップデートをご紹介する AWS re:Invent Recap AI/ML シリーズが 2021年1月19日に開催されました。2020年の re:Invent では初めて Machine Learning 専用の Keynote が行われました。 AWS re:Invent Recap AI/ML シリーズでは主にこの Keynote で話された内容を以下の 4 つのセッションに分けてご紹介しました。 AWS AI サービス概要と製造業向け AI サービスの紹介 AWS ML サービス Amazon SageMaker がより簡易に AWS が実現する MLOps のためのツール群のご紹介 ML の学習とデプロイを効率化する新機能のご紹介   「AWS AIサービス概要と製造業向けAIサービスの紹介」 [Slides] アマゾン ウェブ […]

Read More

Amazon SageMaker Studio notebooks で独自のカスタムコンテナイメージを使用する

本記事は Bringing your own custom container image to Amazon SageMaker Studio notebooks を翻訳したものです。 Amazon SageMaker Studio は、機械学習 (ML) のための統合開発環境 (IDE) です。SageMaker Studio を使用すると、データサイエンティストは Studio ノートブックを起動して、データの探索、モデルの構築、Amazon SageMaker トレーニングジョブの起動、ホストされたエンドポイントにモデルのデプロイを行うことができます。Studio ノートブックには、Amazon SageMaker Python SDK と IPython ランタイムまたはカーネルの最新バージョンで構成された、あらかじめ構築されたイメージのセットが付属しています。この新機能により、Amazon SageMaker ノートブックに独自のカスタム画像を取り込むことができます。これらのイメージは、ドメインで認証されたすべてのユーザーが使用できます。この記事では、カスタムコンテナイメージを SageMaker Studio ノートブックに取り込む方法を共有します。

Read More

【開催報告 & 資料公開】 AI/ML@Tokyo #9 機械学習モデルの可視化、説明可能性とMLセキュリティ

アマゾン ウェブ サービス ジャパン株式会社 機械学習ソリューションアーキテクトの大渕です。AWS Japan では、AI/ML 関連情報を発信するイベント「AWS AI/ML@Tokyo」を定期的に開催しています。2020年12月17日にオンラインで開催された AWS AI/ML@Tokyo #9 では、AWS の 機械学習ソリューションアーキテクトより Amazon SageMaker を使って機械学習モデルの可視化と説明可能性を実現する方法をご紹介し、ソリューションアーキテクトより AWS の AI/ML サービスにおけるセキュリティについてご紹介しました。また、お客様活用事例として、東日本旅客鉄道株式会社様より、画像認識を活用した PoC 環境構築事例をお話しいただきました。

Read More

新機能 – Amazon SageMaker Debugger を使用した機械学習トレーニングジョブのプロファイリング

今日は、皆さんに Amazon SageMaker Debugger が機械学習モデルのプロファイリングを実行できるようになったことをお知らせしたいと思います。これにより、ハードウェアリソースの使用率が原因で生じるトレーニング問題の特定と修正が極めて容易になります。 幅広いビジネス問題に対応する目覚ましいパフォーマンスにもかかわらず、機械学習 (ML) は今も謎めいたところがあるトピックです。物事の的確な実行は、サイエンス、職人技 (魔法と言う人もいます)、そして時には運を組み合わせた錬金術です。特に、モデルトレーニングは、結果がデータセット、アルゴリズムとそのパラメータ、そしてトレーニングを実行するインフラストラクチャの品質に応じて変化する複雑なプロセスです。 ML モデルがかつてない規模に増大し、ますます複雑になるにつれて (深層学習さん、あなたのことです) 拡大している問題のひとつに、モデルをトレーニングするために必要なインフラストラクチャの量があります。たとえば、一般公開されている COCO データセットでの BERT のトレーニングは、単一の p3dn.24xlarge インスタンスで実行すると、それに 8 個の NVIDIA V100 GPU が搭載されているにもかかわらず、6 時間を優に超える時間がかかります。自律走行車企業などのお客様には、はるかに大きなデータセットを扱い、オブジェクト検出モデルのトレーニングに数日間かけるお客様もおられます。 複雑なトレーニングジョブにこれだけの時間がかかると、何らかの不具合が生じてトレーニングが失敗に終わる可能性が非常に高くなり、時間を無駄にするだけでなく、大きないら立ちを感じる原因にもなります。調査を行い、根本的な原因をつきとめて修正を試み、それからトレーニングジョブを再度実行する間、重要な作業は後回しにしなくてはなりません。たいていの場合は、問題を突き止めるために、この手順をかなりの回数繰り返すことになります。 使用している ML フレームワーク、そして時にはそのバージョンによっては、既存のフレームワーク固有のツールを使用できるかどうかもわからず、多くの場合は、独自の特注ツールを構築して維持しなくてはならなくなります。これは、経験豊かなプラクティショナーでさえも大いに苦労する作業で、私のような普通のデベロッパーにとっては、気が遠くなるようなタスクでしかありません。 Amazon SageMaker Debugger のモデルプロファイリングのご紹介 去年の AWS re:Invent でローンチされた Amazon SageMaker Debugger は、ML トレーニングジョブで生じている複雑な問題を自動的に識別する Amazon SageMaker の機能です。これらの問題には、減少しない損失、および勾配爆発などが含まれます。 SageMaker Debugger がハードウェアリソースの使用率も監視できるようになった今、これからはトレーニングジョブをプロファイリングして、リソースの使用率とトレーニングスクリプトの ML オペレーションとの関連付けに役立てることができます。そうすることで、はるかに迅速にパフォーマンス問題を解決し、はるかに高速にトレーニングジョブを反復することができるようになります。 自動運転および運転者支援システムを構築する Intel 企業、Mobileye の […]

Read More

エッジデバイスでの機械学習モデルの運用をシンプル化する Amazon SageMaker Edge Manager

今日は、エッジデバイスフリートでの機械学習モデルの最適化、セキュア化、監視、および維持を容易にする Amazon SageMaker の新機能、Amazon SageMaker Edge Manager についてお知らせしたいと思います。 エッジコンピューティングが情報テクノロジーにおける最もエキサイティングな展開のひとつであることは明らかです。実際に、コンピューティング、ストレージ、ネットワーキング、およびバッテリテクノロジーの絶え間ない進歩のおかげで、組織は、製造、エネルギー、農業、およびヘルスケアなどのさまざまな産業用途のために、多数の埋め込みデバイスを世界のあらゆる場所で日常的にデプロイしています。シンプルなセンサーから大型の産業用マシンにおよぶデバイスには、望ましくない状態が検出された場合にアラートを送信するなど、データをキャプチャして分析し、措置を講じるという共通の目的があります。 機械学習 (ML) の幅広いビジネス問題を解決する能力はすでに実証されているため、お客様は、ローカルデータからより深い洞察を得るための取り組みの一環として、モデルをクラウドでトレーニングし、それらをエッジにデプロイすることでエッジへの ML の適用を試みておられますが、エッジデバイスの遠隔性と制約された性質により、エッジでのモデルのデプロイメントと管理は困難を極めることがよくあります。 たとえば、複雑なモデルは大きすぎて収まりきらないことがあり、お客様は小規模で精度に欠けるモデルを使用することで妥協せざるを得なくなります。また、同じデバイスでの複数のモデルを使用した予測 (たとえば、異なるタイプの異常の検出など) には、ハードウェアリソースを節約するために、オンデマンドでモデルをロードおよびアンロードする追加のコードが必要になる場合があります。そして、現実世界は常に、どのトレーニングセットの予想よりも複雑で不規則なものであるため、予測品質の監視は大きな懸念となります。 お客様から助けを求められた AWS は、これらの課題の解決に乗り出しました。 Amazon SageMaker Edge Manager のご紹介 Amazon SageMaker Edge Manager は、ML エッジデベロッパーが、クラウドまたはエッジで使い慣れたツールを簡単に使用できるようにします。このため、モデルを本番稼働させるために必要な時間と労力を削減しながら、デバイスフリート全体のモデル品質を継続的に監視し、向上させることが可能になります。 ユーザーが Amazon SageMaker でトレーニング、またはインポートしたモデルを元に、SageMaker Edge Manager はまず Amazon SageMaker Neo を使用してハードウェアプラットフォーム向けにモデルを最適化します。2 年前にローンチされた Neo は、低フットプリントのランタイムによってデバイス上で実行される効率的な共通のフォーマットにモデルを変換します。Neo は現在、Ambarella、ARM、Intel、NVIDIA、NXP、Qualcomm、TI、および Xilinx によって製造されたチップを基盤とするデバイスをサポートしています。 次に、SageMaker Edge Manager はモデルをパッケージ化し、それを Amazon Simple Storage […]

Read More

数十億ものパラメータを持つ深層学習モデルのトレーニングをシンプル化する Amazon SageMaker

今日は、ハードウェアの制限が原因で、これまでトレーニングすることが難しかった超大型深層学習モデルのトレーニングを Amazon SageMaker がシンプル化することをご紹介したいと思います。 過去 10 年の間、深層学習 (DL) と呼ばれる機械学習のサブセットが一世を風靡してきました。ニューラルネットワークを基盤とする DL アルゴリズムは、膨大な量の非構造化データ (画像、動画、スピーチ、またはテキストなど) に隠された情報パターンを抽出する、類いまれな能力を備えています。DL は、さまざまな複雑かつ人間的なタスク、特にコンピュータビジョンと自然言語処理において、瞬く間に目覚ましい成果を達成しました。現に、DL は ImageNet Large Scale Visual Recognition Challenge (ILSVRC)、the General Language Understanding Evaluation (GLUE)、または Stanford Question Answering Dataset (SQUAD) といったリファレンスタスクにおける結果を向上させ続けているため、イノベーションがかつてない速さで進んでいます。 これまで以上に複雑なタスクに挑戦するために、DL 研究者はますます高度なモデルを設計し、さらなるニューロン層と結合を追加してパターン抽出と予測精度を向上させており、モデルサイズに直接的な影響を及ぼしています。たとえば、画像分類では 100 メガバイトの ResNet-50 モデルで極めて良好な結果を得ることができますが、オブジェクト検出やインスタンスセグメンテーションなどのより困難なタスクには、約 250 メガバイトの Mask R-CNN または YOLO v4 などのより大きなモデルを使用しなければならなくなります。 想像がつくと思いますが、モデルの増大もモデルのトレーニングに必要な時間とハードウェアリソースに影響します。Graphical Processing Units (GPU) が以前から大型 DL モデルのトレーニングと微調整に好まれるオプションであるのはこのためです。GPU の超並列的なアーキテクチャと大型のオンボードメモリのおかげで、ミニバッチトレーニングと呼ばれる手法の使用が可能になります。複数のデータサンプルを、ひとつずつではなく、一度に […]

Read More

新機能 – バイアスを検出し、機械学習モデルの透明性を向上させる Amazon SageMaker Clarify

今日は、お客様が機械学習 (ML) モデルのバイアスを検出し、ステークホルダーと顧客にモデルの動作を説明できるようにすることで透明性を高めるために役立つ Amazon SageMaker の新機能、Amazon SageMaker Clarify をご紹介します。 ML モデルは、データセットに存在する統計的パターンを学習するトレーニングアルゴリズムによって構築されるため、いつくかの疑問がすぐさま思い浮かびます。第一に、ML モデルが特定の予測にたどり着いた理由を説明できるようになるのか? 第二に、モデル化しようとしている現実問題をデータセットが忠実に表現しない場合はどうなるのか? そもそも、このような問題を検出することはできるのか? これらの問題は、認識できない形で何らかのバイアスを生じないのか? これから説明するとおり、これらは決して推論的な疑問ではなく、極めて現実的なもので、その影響は広範囲に及ぶ可能性があります。 バイアス問題から始めましょう。不正なクレジットカード決済を検出するモデルに取り組んでいることを想像してください。幸いにも、決済の大部分は正当なものであり、データセットの 99.9% を占めています。これは、不正決済が 0.1% のみであることを意味し、100,000 件のうち 100 件といったところです。二値分類モデル (正当な決済 vs. 不正な決済) のトレーニングでは、モデルが多数派グループに強い影響を受ける、つまりバイアスがかかる可能性が非常に高くなります。実際に、トリビアルモデルでは決済が常に正当であると判断されてしまうかもしれません。このモデルはまったく役に立たないものの、99.9% は正しいことになります! このシンプルな例から、データの統計的特性、そしてモデルの精度を測定するために使用するメトリクスをどれほど慎重に扱わなければならないかがわかります。 この過少出現問題には多数の派生タイプがあります。クラス、特徴、およびユニークな特徴量が増加しても、データセットには特定のグループについて少量のトレーニングインスタンスしか含まれていない可能性があります。実際、これらのグループの一部は、性別、年齢範囲、または国籍など、さまざまな社会的にセンシティブな特徴に該当することがあります。このようなグループの過少出現は、予測結果に不均衡な影響をもたらす恐れがあります。 残念ながら、悪意がまったくなかったとしても、データベースにバイアス問題が存在し、ビジネス、倫理、および規制面での影響を伴うモデルに取り込まれてしまう可能性があります。このため、モデル管理者が本番環境システムにおけるバイアスの潜在的な原因に注意することが重要になるのです。 では、説明可能性の問題についてお話しましょう。線形回帰や決定木ベースのアルゴリズムといったシンプルで十分に解明されているアルゴリズムでは、モデルを検証し、モデルがトレーニング中に学習したパラメータを調べ、モデルが主に使用する特徴を特定することは比較的簡単です。その後、このプロセスがビジネス慣行に沿っているかどうかを判断できます (つまり、「人間のエキスパートでもこうしただろう」と言うようなものです)。 しかし、モデルがますます複雑になるにつれて (深層学習さん、あなたのことです)、このような分析は不可能になります。スタンリー・キューブリックの「2001 年宇宙の旅」に出てくる先史時代の部族と同じように、私たちはしばしば、不可解なモノリスをまじまじと見詰めながら、それが何を意味するのか頭をかしげるしかありません。多くの企業と組織は、ML モデルを本番環境で使用する前に、それらを説明可能なものにする必要があるかもしれません。さらに、一部の規制では、ML モデルが重大な意思決定の一環として使用される場合に説明可能性が義務付けられている場合があり、この説明可能性は、最初にお話したバイアスの検出にも役立ちます。 こうして、データセットとモデルに存在するバイアスを検出し、モデルが予測を行う方法を理解するための援助をお客様から求められた AWS は、作業を開始し、SageMaker Clarify を考案しました。 Amazon SageMaker Clarify のご紹介 SageMaker Clarify は、AWS の完全マネージド型 ML サービスである Amazon […]

Read More

新機能 — Amazon SageMaker Pipelines が機械学習プロジェクトに DevOps 機能を提供

本日、 Amazon SageMaker Pipelines を発表することができまして、大変うれしく思います。これは Amazon SageMaker の新機能で、データサイエンティストやエンジニアが、エンドツーエンドの機械学習パイプラインを簡単に構築、自動化、スケールできるようになります。 機械学習 (ML) はもともと試験段階にあり、本質的に予測することはできません。数日から数週間かけてさまざまな方法でデータを分析および処理します。これは、ジオード (晶洞石) を壊して、貴重な宝石を見つけようとする作業のようです。次に、さまざまなアルゴリズムとパラメータを試しながら、最高の精度を求めて多くのモデルをトレーニングおよび最適化します。この作業は通常、アルゴリズムとパラメータの間に依存関係がある多くの異なる手順を伴い、手作業で管理するため、とても複雑になる可能性があります。特に、モデル系列の追跡は簡単ではなく、監査性やガバナンスを妨げます。最後に、上位モデルをデプロイし、参照テストセットに対するモデルの評価を行います。最後に、 と言いましたが、実際には何度も反復して、新しいアイデアを試し、新しいデータでモデルを定期的に再トレーニングします。 ML がどんなにエキサイティングであっても、残念ながら多くの繰り返し作業を伴います。小規模なプロジェクトでも、本番環境に移る前には何百もの手順が必要になります。こうした作業のせいで、時間の経過とともにプロジェクトの楽しさや興奮が失われていくだけでなく、監視する必要性やヒューマンエラーの可能性が大きくなります。 手作業を軽減し、トレーサビリティを向上させるために、多くの ML チームでは DevOps の理念を採用し、継続的インテグレーションと継続的配信 (CI/CD) 用のツールとプロセスを実装しています。確かにこれは正しい手順といえますが、独自のツールを作成することで、当初の予想よりも多くのソフトウェアエンジニアリングとインフラストラクチャ作業が必要な複雑なプロジェクトとなる場合が多いです。貴重な時間とリソースが実際の ML プロジェクトから奪われ、革新のペースがスローダウンします。残念ながら一部のチームでは、手作業でのモデルの管理、承認、デプロイに戻ることにしました。 Amazon SageMaker Pipelines のご紹介 簡単に言うと、Amazon SageMaker Pipelines で、ML プロジェクトの DevOps がトップレベルになります。この新機能により、データサイエンティストや ML デベロッパーは、自動化された、信頼性の高いエンドツーエンドの ML パイプラインを簡単に作成できるようになります。SageMaker は通常どおり、すべてのインフラストラクチャを完全に管理するため、お客様が作業を行う必要はありません。 Care.com は、高品質の介護サービスを見つけて管理するための世界をリードするプラットフォームです。Care.com のデータサイエンスマネージャーの Clemens Tummeltshammer 氏は次のように言います「 需要と供給が均衡な、力のある介護業界は、個々の家庭から国の GDP にいたる経済成長にとって不可欠です。私たちは Amazon SageMaker Feature Store と […]

Read More

機械学習用のデータを準備するためのビジュアルインターフェイス、Amazon SageMaker Data Wrangler のご紹介

本日、Amazon SageMaker の新たな機能であるAmazon SageMaker Data Wranglerを発表できることを非常に嬉しく思います。これを利用することで、データサイエンティストやエンジニアは、ビジュアルインターフェイスを使用した機械学習 (ML) アプリケーションのデータ準備をより速く行うことができます。 データサイエンティストと機械学習エンジニアのグループに、機械学習における問題の調査に実際、どのくらい時間を費やすのかを尋ねるたびに、私はよく多くのため息と、それに続く「運が良ければ 20% です」というせりふに沿った答えを聞きます。その理由を尋ねると、答えはいつでも同じです、「データ準備に、常に時間の 80% を費やしています。」 実際、トレーニングのためのデータ準備は、機械学習のプロセスにおける重要なステップであり、そこで下手な仕事をしようとは誰も考えないでしょう。一般的なタスクは次のとおりです。 データの特定: 未加工データの格納場所の検索、データへのアクセス データの可視化: データセット内の各列の統計的性質の検証、ヒストグラムの構築、外れ値の調査 データのクリーニング: 重複の削除、欠損値のエントリの入力または削除、外れ値の削除 データの強化および特徴エンジニアリング: 列の処理によるより表現力のある特徴データの構築、トレーニングのための特徴データのサブセットの選択 新しい機械学習プロジェクトの初期段階において、これは直感と経験が大きな役割を果たす高度な手動プロセスです。データサイエンティストは、多くの場合、pandas や PySpark などのオープンソースツールやオープンソースツールの組み合わせを使用して、さまざまなデータ変換の組み合わせを試し、モデルをトレーニングする前にデータセットを処理します。その後、予測結果を分析し、反復処理を行います。同じくらい重要ですが、このプロセスを何度も繰り返しループするのは、時間がかかり面倒であると同時に、エラーが発生しやすくなります。 ある時点で、適切なレベルの精度 (または選択した他のすべてのメトリクス) に達すると、本番環境の完全なデータセットでトレーニングしたいと考えるでしょう。しかし、まずはサンドボックス内で実験した正確なデータ準備のステップを再現および自動化する必要があります。残念ながら、この作業のインタラクティブな性質を考慮すると、慎重に文書化していても、常にエラーの余地があります。 最後に大事なことですが、最終段階に進む前に、データ処理インフラストラクチャを管理および拡張する必要があります。今考えれば、このすべてを行うには、80% の時間では十分ではないかもしれません。 Amazon SageMaker Data Wrangler のご紹介 Amazon SageMaker Data Wrangler は、機械学習用に完全に管理された統合開発環境 (IDE) である Amazon SageMaker Studio に統合されています。数回クリックするだけで、データソースへの接続、データの探索と視覚化、組み込み変換および独自の変換の適用、自動生成されたスクリプトへの結果コードのエクスポート、マネージドインフラストラクチャでの実行が可能です。各ステップをより詳しく見ていきましょう。 もちろん、データ準備は、データを特定してアクセスすることから始まります。SageMaker Data Wrangler を使用すると、導入してすぐに Amazon Simple Storage Service […]

Read More