Amazon Web Services ブログ

Category: Artificial Intelligence

Amazon SageMaker ノートブックインスタンスのネットワーク設定と高度なルーティングオプションについて理解する

Amazon SageMaker ノートブックインスタンスは、完全マネージド型の機械学習 (ML) Amazon EC2 インスタンスを通じて、Jupyter ノートブックアプリケーションを提供します。Amazon SageMaker Jupyter ノートブックは、高度なデータ探索、トレーニングジョブの作成、Amazon SageMaker ホスティングへのモデルのデプロイ、モデルのテストや検証に使用されます。 ノートブックインスタンスには、さまざまなネットワーク設定が用意されています。このブログ記事では、さまざまなオプションの概要を説明するとともに、お客様の一般的な事例を紹介していきます。 ベーシック Amazon SageMaker ノートブックインスタンスは、Virtual Private Cloud (VPC) がアタッチされているかどうかにかかわらず起動できます。VPC をアタッチして起動すると、ノートブックは、直接インターネット接続ありまたはなしで設定することができます。 重要な注意事項: 直接インターネット接続があるとは、Amazon SageMaker サービスが、サービスによって管理される VPC を通じて、ノートブックをインターネットに接続できるネットワークインターフェイスを提供していることを意味します。 Amazon SageMaker コンソールを使用する際、次の 3 つのオプションがあります。 お客様の VPC のアタッチなし。 お客様の VPC のアタッチあり (直接インターネット接続あり)。 お客様の VPC のアタッチあり (直接インターネット接続なし)。 それはどういう意味ですか? 3 つのオプションはそれぞれ、マネージド EC2 インスタンスのネットワークインターフェイスを一連のルーティング設定で自動的に設定します。特定の状況では、これらの設定を変更して、特定の IP アドレスの範囲を別のネットワークインターフェイスにルーティングすることができます。次に、これらのデフォルト設定をそれぞれ順を追って説明します。 アタッチしたお客様の VPC なし […]

Read More

Amazon SageMaker のバッチ変換が Amazon VPC および AWS KMS に基づく暗号化をサポート開始

Amazon SageMaker が、Amazon Virtual Private Cloud (Amazon VPC) での AWS Key Management Service (AWS KMS) を使用するバッチ変換ジョブのサポートを開始します。Amazon VPC を使用すると、機械学習 (ML) モデルのコンテナやデータへのアクセスをコントロールし、それらをプライベートに保ってインターネット経由でアクセスできないようにすることができます。AWS KMS を使用すると、バッチ変換ジョブを実行する ML コンピューティングインスタンスにアタッチされたストレージボリュームのデータを暗号化できます。これにより、バッチ変換ジョブで使用されるモデルのアーティファクト、ログ、および一時ファイルは常に安全です。このブログでは、こうした機能をバッチ変換ジョブに適用する方法を説明します。 Amazon SageMaker のバッチ変換は、データのバッチが大量にあり、トレーニングデータを前処理して変換する必要があるか、レイテンシーが 1 秒未満であることを必要としないシナリオに最適です。バッチ変換は、ペタバイトのデータから非常に小さなデータセットまで、さまざまなデータセットで使用できます。既存の機械学習モデルは、一切の変更なしで、この新しい機能でシームレスに動作します。Amazon SageMaker は、バッチ変換ジョブの開始時にリソースのプロビジョニングを管理します。ジョブが完了するとリソースが解放されるので、ジョブの実行中に使用されたリソースに対してのみを支払うことになります。 VPC を使用すると、プライベートでインターネットに接続されないように VPC を設定できるため、データやモデルアーティファクトを保存する Amazon S3 バケットなど、アクセスするモデルコンテナや AWS リソースを保護することができます。VPC を使用する場合、VPC フローログを使用して、モデルコンテナ内外のすべてのネットワークトラフィックを監視することもできます。VPC を指定しない場合、Amazon SageMaker はデフォルトでは VPC でバッチ変換ジョブを実行します。 Amazon SageMaker のバッチ変換は、すでに Amazon S3 SSE による入出力データの暗号化をサポートしています。現在は、AWS KMS を使用すると、バッチ変換ジョブで使用するストレージボリュームを、管理する暗号化キーで保護できます。推論を実行したり、データのバッチを変換したりするときに、集中キー管理、キー使用状況監査ログ、マスターキーローテーションなどの […]

Read More

買い物客のセンチメント: 店内での顧客経験の分析

小売業者は何年もの間、顧客の行動とデモグラフィックを分析するために店内ビデオを使用してきました。 一般に、異なるタスクには別個のシステムが使われます。 例えば、あるシステムは店内を歩く顧客の人数を数え、これらの顧客が店のどの部分で、およびどの製品の近くで立ち止まるかを調べます。 店のレイアウトを保持するシステムもあれば、取引を記録するシステムもあるかもしれません。 歴史的に見て、戦略に従って売り上げをさらに伸ばすことができる洞察を得るために、小売業者がこれらのデータソースを結合させるには、複雑なアルゴリズムとデータ構造が必要となります。また、それらの実現にも多額の投資が必要で、継続的なメンテナンスコストが発生します。 このブログ記事では、店内ビデオ分析のためのエンドツーエンドソリューションを構築するために、AWS のサービス (Amazon Rekognition、AWS Lambda、Amazon S3、AWS Glue、AWS Athena および AWS QuickSight) を使ってこのプロセスを簡素化する方法を説明します。ここでは、既存の損失防止用店内カメラを活用した静止画像の分析に焦点を当てて、小売店内経験のデータを生成します。 以下の図は、全体的なアーキテクチャと、関与する AWS のサービスを示すものです。 Amazon Rekognition などの AWS 上の Machine Learning サービスを使用して、それらを店舗からの動画ビデオまたは静止画像に適用することで、顧客の行動 (つまり、店舗のどの箇所を頻繁に訪れているか)、来店者のデモグラフィックセグメンテーション (つまり、性別またはおおよその年齢など) から洞察を引き出すと同時に、顧客センチメントのパターンも分析することが可能になります。この方法はすでにこの業界で一般化していますが、AWS が提案するソリューションは、これをより簡単、迅速、かつ正確にします。センチメント分析は、例えば、ブランドコンテンツとサイネージ、エンド陳列のディスプレイ、または宣伝キャンペーンに顧客がどのように反応するかに対する洞察を、以下の例に似たダッシュボードを使って提示しながら得るために使用できます。 全体的なソリューションは、収集、保存、処理、および分析という 4 つの主なステップに分解できます。  これらのコンポーネントを一つずつ説明していきましょう。 収集 この段階での目的は、カメラから顧客の店内経験の画像または動画ビデオを収集することです。   これは、既存の CCTV または IP カメラシステムなどの各種カメラ、カメラモジュールが接続された (設定済みの) Raspberry Pi、AWS DeepLens、またはその他同様のカメラを活用することで実行できます。   これらの静止画像または動画ビデオのファイルは、さらなる処理のために Amazon S3 バケットに保存されます。 この例では、モーションパッケージがインストールされた Raspberry Pi を使用しました。このパッケージは、処理する必要があるデータの量を制限する、興味深いイベントがあった時に画像を収集するために役立ちます。このパッケージはまた、動作を検知してローカルフォルダに静止画像を作成します。このフォルダは、入力 S3 バケットに簡単に同期化 (リアルタイムで、またはバッチ的に) できます。AWS […]

Read More

テキストの向こう側にある世界: Spokata が Amazon Polly を使用して、リアルタイム音声でニュースと情報のユニバーサルアクセスを実現する方法

今回ご紹介するのは、Spokata 創業者 Zack Sherman からの寄稿記事です。同社の説明によれば、「Spokata はリアルタイムのニュースをストリーミング配信するモバイルオーディオプラットフォームです。BBC、ブルームバーグ、ガーディアンなど 100 社を超える検証済みデジタルニュースソースから選び出して、ユーザーに最新トップ記事の要旨を使いやすいオーディオ形式で提供します」 白黒からカラーへ転換したテレビのように、ウェブはテキストベースのメディアから音声と映像中心のメディアへと変貌を遂げています。その状況に対応して、コンテンツ制作の変化は破壊的と言っていいでしょう。出版業界は自分たちのビジネスモデルを損なうことなくユーザーの要求に応えようと、この変革の時代を切り抜けるために日々奮闘しています。 モバイルリスニングが普及し、車載技術が従来型のラジオ放送を破壊し始めるにつれて、出版業界はオンデマンドオーディオに大きな関心を寄せるようになっています。この傾向は、一般に普及しているポッドキャストに顕著に見られます。しかし、急激に台頭する多様性に満ちた新しいデジタルオーディオフォーマットのエコシステムにおいては、ポッドキャストはほんの始まりにすぎません。Amazon Echo や Amazon Polly のような先進的なテキスト読み上げサービスは、これら新たなオーディオ製品の創出を可能にしています。 本ブログ記事では、Spokata が Amazon のテクノロジーを活用してテキストベースのニュースや情報を、リアルタイム音声で誰でもアクセス可能にしていく過程をご紹介します。 インターネット上のすべてのテキストが新たなオーディオ体験の原材料であるとしたら何か起きるのか Spokata はオンデマンドオーディオが得意とする分野に投資していますが、考えられる最小単位の時間、ユーザーに 1 分か 2 分しか時間がないようなケースへさらに踏み込んでいきます。ニュース記事を 1 本聴くには 5 分以上かかることがあります。そこで、新しい種類の短いオーディオフォーマットを作りました。私たちは数百万のニュース記事を調査研究して、多様なコンテンツタイプにわたってほぼ完全な正確さで自動的に要約する技法を開発しました。 Spokata の SaaS プラットフォームは、あらゆる出版社のウェブサイトのテキストを要約し、リアルタイムで短いストリーミングオーディオに変換します。Spokata API は新しいコンテンツがテキストで作成されると、出版社のウェブサイトとモバイルアプリで聴取可能な音声を生成し、同時に Amazon Echo や他のスマートデバイスに配信します。Spokata のテクノロジーのアプリケーションがカバーするコンテンツタイプはニュース、交通情報、天気予報、映画批評、料理レシピ、教育、研修コンテンツと広範囲におよび、実質的にはテキストで存在するあらゆる情報が対象となります。 Spokata はユーザーに対しては信頼できる情報源へのリアルタイムのアクセスを、出版社に対しては自動化され高い利益率をもたらすコンテンツの制作メソッドを提供します。Spokata を利用するのに必要なことは、ウェブサイトがあること、そしてコードを数行挿入することだけで、あとは Spokata プラットフォームが処理します。 Spokata のコアミッションはソフトウェアを使用したメディアの創出、そしてそこから生まれた効率性をコンテンツクリエイターに還元することにあります。そのためにも、メディア制作における根本的な収益構造に対するまったく新しいアプローチを必要としていたのです。デジタルビデオ制作費用は、1 分あたりおよそ 1000 米ドルかかります。ポッドキャストの制作予算は番組の制作価値にもよりますが、1 話あたりでその額を超えることは間違いありません。競争力を高めるには、Spokata のオーディオ制作費は「ドル」のレベルではなく、少額の「ペニー」のレベルでなければならないと強く感じていました。 テキスト読み上げサービスを活用すると、これらのアセットをいとも簡単にリアルタイム音声に変えることができ、なおかつほんのわずかな費用でビデオ、ポッドキャストはもちろん、テキスト情報を制作できます。 技術的なハードル 着手にあたっては、乗り越えなければならない技術的なハードルが多数ありました。 規模 […]

Read More

Apache MXNet を Amazon SageMaker および AWS Greengrass ML Inference と共に使用する脳組織のセグメント化 – パート 2

 このブログ記事のパート 1 では、Amazon SageMaker を使用した簡単で合理的な方法によって、MRI スキャンから脳組織を自動的にセグメント化するためにニューラルネットワークをトレーニングおよびデプロイする方法を説明しました。パート 1 では、「Bring Your Own Script」というパラダイムを使用して、Amazon SageMaker で畳み込みニューラルネットワーク (CNN) をトレーニングするために Apache MXNet を使い、U-Net と効率的で低レイテンシーの ENet の 2 つのネットワークをトレーニングしました。パート 2 では、AWS Greengrass ML Inference を使用して、接続性が低い、または接続のない環境で、オフライン推論用のポータブルエッジデバイスに ENet をデプロイする方法を説明していきます。 このユースケースでは、医療画像を保護医療情報 (PHI) ではなく未処理画像として取り扱っていますが、以下の点に注意してください。 AWS Greengrass は、この記事の執筆時点では AWS HIPAA 準拠サービスではありません。AWS Business Associate Addendum (BAA) に従って、AWS Greengrass は、米国の医療保険の携行と責任に関する法律 (HIPAA) における保護医療情報 (PHI) の作成、受信、維持、送信に使用してはなりません。HIPAA の対象であるかどうかを判断する責任はお客様にあります。対象である場合は、HIPAA とその実施規則をどのように遵守するのが最適であるかを判断する必要があります。HIPAA 準拠サービスを使用して […]

Read More

Amazon SageMaker Neural Topic Model で、補助語彙チャンネル、新しいトピック評価メトリクス、およびトレーニングサブサンプリングのサポートを開始

このブログ記事では、Amazon SageMaker Neural Topic Model (NTM) の 3 つの新機能をご紹介します。これらの新機能では、ユーザーの生産性を向上し、トピック評価機能を強化し、さらにはモデルトレーニングのスピードアップに貢献しています。これらの新機能に加えて、スパース (疎) 処理とパラメータサーバーを最適化することで、アルゴリズムの速度をトレーニングに 2 倍、単一 GPU 上での評価に 4 倍向上させました。マルチ GPU トレーニングでは、さらなるスピードアップが可能です。 Amazon SageMaker NTM は、大量の文書集合 (コーパス) のトピック分布を学習する、教師なし学習アルゴリズムです。SageMaker NTM を使用して、文書分類、情報検索、コンテンツの推奨といったユースケースのための機械学習ソリューションを構築できます。Amazon SageMaker NTM についてもっと知りたい方は、Introduction to the Amazon SageMaker Neural Topic Model をご参照ください。 機械学習をよく知らない、あるいは他のタスクに専念したいという方には、完全自動化した Amazon Comprehend トピックモデリング API が最適です。データサイエンスの専門家の方で、ご自身のトピックモデルの構築やチューニングのさまざまなレイヤーをもっと細かく制御したい場合には、Amazon SageMaker NTM がぴったりです。例えば、カスタマイズした語彙を必要とするドキュメントトピックタグ付けアプリケーションを構築していて、ニューラルネットワークのレイヤー数などのアルゴリズムハイパーパラメータを調整する必要があるとしましょう。Amazon SageMaker NTM なら、一貫性および一意性スコアの目標精度を満たすトピックモデルをトレーニングすることができます。このような場合には、Amazon SageMaker NTM は適切なツールでしょう。 補助語彙チャネル トピックモデルをトレーニングする際に、顧客がトピックの内容を理解できるよう、各トピックのトップワードを知ることが重要です。Amazon […]

Read More

Amazon SageMaker でより速いパイプモードを使用してモデルのトレーニングを高速化する

Amazon SageMaker には現在、より高速のパイプモードが実装されているため、機械学習モデルをトレーニングしながら、Amazon Simple Storage Service (S3) から Amazon SageMaker へのデータのストリーミング速度を大幅に高速化することができます。 パイプモードは、モデルトのレーニングを開始する前に、ローカルの Amazon Elastic Block Store (EBS) ボリュームにデータをダウンロードするファイルモードよりも大幅に優れた読み取りスループットを提供します。つまり、トレーニングジョブがより早く始まり、迅速に完了し、必要なディスク容量が少なくて済み、Amazon SageMaker で機械学習モデルをトレーニングするための全体的なコストが削減されることを意味します。たとえば、Amazon SageMaker の組み込みアルゴリズム用パイプ入力モードを開始した今年の早い時期に、内部ベンチマークを実施しました。その結果、78 GB のトレーニングデータセットで開始時間が最大 87% 短縮されたことが分かりました。さらに、一部のベンチマークではスループットが 2 倍に向上し、合計トレーニング時間が最大 35% 短縮されることが分かりました。 概要 Amazon SageMaker は、トレーニングデータを転送するために、ファイルモードとパイプモードの 2 つのメカニズムをサポートしています。ファイルモードでは、トレーニングデータは、トレーニングを開始する前に、まずトレーニングインスタンスに添付された暗号化された EBS ボリュームにダウンロードされます。しかし、パイプモードでは、入力データは実行中にトレーニングアルゴリズムに直接ストリームされます。この連続的なデータのストリーミングによって、いくつかの大きな利点がもたらされます。まず、トレーニングジョブの起動時間が入力データのサイズとは無関係になり、特にギガバイトおよびペタバイトの規模のデータセットでのトレーニングでは、起動がはるかに迅速になります。さらに、大きなデータセットをダウンロードするために大容量のディスクボリュームの使用料を支払う必要がありません。最後に、トレーニングのアルゴリズムで I/O の負荷が大きい場合、パイプモードで採用されている並行性の高い高スループットの読み取りメカニズムにより、モデルのトレーニングが大幅にスピードアップされます。 より速いパイプモードでより高い I/O スループット パイプモードの最新の実装は、以前よりも高いデータストリーミングのスループットを実現しています。次の図は、今年初めにパイプモードのサポートを開始したときと比較した、パイプモードでのスループットの向上を示しています。同一条件での比較では、ストリーミングスループットの数値は、Amazon SageMaker のトレーニングでサポートされているインスタンスタイプで測定したファイルモードのスループットの数値に対するベースラインに基づいています。 ご覧のように、パイプモードを使用してトレーニングデータをストリーミングすると、以前の場合よりも最大で 3 倍高速になることがあります。パイプモードのサポートは、Amazon SageMaker の組み込みアルゴリズムですぐに使用できるように用意されています。ここでは、独自のカスタムトレーニングアルゴリズムを Amazon SageMaker に導入する場合に、パイプモードを活用する方法の例を紹介します。 パイプモードのトレーニングコードを書く […]

Read More

Amazon SageMaker ノートブックインスタンスで一般的なワークフローを使用する方法

 Amazon SageMaker ノートブックインスタンスは、データサイエンスや機械学習を行うためのスケーラブルなクラウドベースの開発環境を提供します。このブログ記事では、より生産性が高く、効果的な一般的ワークフローを紹介します。 このブログ記事で紹介するテクニックは、使い捨てと交換が可能であることを念頭におく、よりクラウドネイティブな方法でノートブックインスタンスを扱うツールとなります。以下を説明します。 まず、協調型の開発のために GitHub および AWS CodeCommit を使用する方法を示します。 次に、AWS CloudFormation を使用して、ノートブックインスタンスを自動的にプロビジョニングし、jupyter ノートブックをアップロードする方法を示します。 3 番目に、Amazon S3 バケットを使用してノートブックインスタンスからアセットをバックアップおよび復元する方法を示します。 チュートリアル Git によるコラボレーション ノートブックインスタンスは、1 人の開発者が 1 つのインスタンスに割り当てられている場合が最適な使用です。ただし、データサイエンティストはしばしば協調型の環境で作業をします。Git は、複数のコントリビュータがバージョン管理されたコードリポジトリに書き込むことを可能にするツールです。複数の開発者/データサイエンティストがそれぞれのノートブックインスタンスで作業し、リモートリポジトリからコードをプルし、変更をそのリポジトリにプッシュ (またはコミット) することができます。AWS CodeCommit と GitHub は、リモート Git リポジトリを配置することができる 2 つの場所です。 CodeCommit CodeCommit リポジトリで作業するには、Amazon SageMaker コンソールを開き、次の手順に従います。 SageMaker インスタンスのロール設定 AWS コンソールにログインします。 検索バーに「sagemaker」と入力し、sagemaker コンソールを開きます。 左側のメニューでノートブックを選択し、ノートブックを選択します (または最初に作成します)。 [IAM role ARN] の下のリンクをクリックします。 [Permissions] タブで、[attach […]

Read More

Amazon SageMaker と AWS Deep Learning AMI で PyTorch 1.0 プレビューが利用できるようになりました

Amazon SageMaker と AWS Deep Learning AMI (DLAMI) が、PyTorch 1.0 プレビューリリースを簡単に評価する手段を提供できるようになりました。PyTorch 1.0 は、PyTorch の人気が急騰する理由となった使いやすさを維持したまま、研究から本番にシームレスに移行する機能を追加します。AWS Deep Learning AMI には、高速コンピューティングインスタンスを活用するための CUDA と MKL のライブラリと共に、PyTorch 1.0、Anaconda、および Python のパッケージが事前構築されています。Amazon SageMaker は、あらゆる規模の機械学習 (ML) モデルを迅速かつ容易に構築、訓練、調整、およびデプロイするためのエンドツーエンドプラットフォームです。そして今、Amazon SageMaker は、お客様が PyTorch 1.0 を使って、自動モデルチューニングを含むすべての SageMaker 機能を活用できるように、PyTorch 1.0 プレビューを備えた事前構築済みの環境を提供するようになりました。 PyTorch は、研究と実験に最適なオープンソースの深層学習フレームワークです。しかし、開発者の最大の課題のひとつは、PyTorch で作成したモデルを使って、それらを大規模な本番環境で実行することでした。PyTorch は、その使いやすさ、命令型スタイル、シンプルな API、そして柔軟性で開発者の人気を急速に得ましたが、モデル探索から本番への移行には、フリージンググラフなど、反復的であるがゆえに時間がかかる追加の作業が必要です。PyTorch 1.0 は、深層学習フレームワークに研究から本番にシームレスに移行する機能を実現します。 Amazon SageMaker 内に事前構築された PyTorch 環境によって、開発者とデータ科学者は、単一の API コールを使ってそれぞれのスクリプトを指定して、ローカルで訓練、または分散型トレーニングジョブを送信することができます。開発者はまた、二番目の API コールを使って、需要の必要性に応じて自動的にスケールアップまたはスケールダウンできる管理された高可用性のオンラインエンドポイントに PyTorch で訓練されたモデルをデプロイできるようにもなりました。開発者は、異なるバージョン向けに単一のパラメータを変更することによって、PyTorch […]

Read More

Apache MXNet を Amazon SageMaker および AWS Greengrass ML Inference と共に使用する脳組織のセグメント化 – パート 1

医療画像のアノテーションとセグメンテーションは、困難な作業ですが深層学習 (DL) 技術によって部分的に自動化することができます。こうした手法は、画素レベルで画像を分類することを目的とする一般的なセグメンテーションタスクにおいて最先端の結果を達成しています。 このブログ記事のパート 1 では、Amazon SageMaker を使用する簡単で合理的な方法で、MRI スキャンから脳組織を自動的にセグメント化するためにニューラルネットワークをトレーニングおよびデプロイする方法を紹介します。Apache MXNet を使って、「Bring Your Own Script」のパラダイムを採用する Amazon SageMaker で畳み込みニューラルネットワーク (CNN) をトレーニングします。U-Net と効率的で低レイテンシーの ENet の 2 つのネットワークをトレーニングします。パート 2 では、AWS Greengrass ML Inference を使用して、低接続または非接続の環境でのオフライン推論用のポータブルエッジデバイスに ENet をデプロイする方法を見ていきます。 この記事ではこのアプローチを脳の MRI に適用しますが、一般的なセグメンテーションの手法として、X 線の分析などの類似のユースケースに適用できます。 このブログ記事では、高レベルの概要を紹介します。完全なチュートリアルのノートブックについては、GitHub にある Amazon SageMaker の脳セグメンテーションを参照してください。 このブログ記事の最後で、ここに示すように MRI からの脳組織のセグメンテーションを予測します。 このユースケースでは、医療画像を保護医療情報 (PHI) ではなく未処理画像として取り扱っていますが、以下の点に注意してください。 AWS Greengrass は、この記事の執筆時点では AWS HIPAA 準拠サービスではありません。AWS Business Associate […]

Read More