Amazon Web Services ブログ

Localization Team

Author: Localization Team

Amazon SageMaker で量子系をシミュレートする

Amazon SageMaker は、開発者やデータサイエンティストがあらゆる規模の機械学習モデルを迅速かつ簡単に構築、訓練、およびデプロイすることを可能にする完全マネージド型サービスです。しかし、機械学習 (ML) のワークフローを能率化するだけでなく、Amazon SageMaker は科学技術向けコンピューティングタスクの大規模なスペクトルを実行したり、並列化したりするためのサーバーレスでパワフルな使いやすいコンピューティング環境も提供します。このノートブックでは、TensorFlow と Amazon SageMaker の「bring your own algorithm (BYOA)」 (独自のアルゴリズムを活用する) 機能を併用して、シンプルな量子系をシミュレートする方法についてご紹介します。 この演習を実行するにあたり、Amazon SageMaker にアクセスできる AWS アカウントと Python および TensorFlow に関する基礎知識が必要になります。 量子系の超放射: 簡単な説明 これから私たちがシミュレートする量子効果は超放射として知られています。 これは、ある一定の環境下で、独立した発光体 (個別の原子など) が自然に量子コヒーレンスを増加させ、1 つの実体として協調的に動作するという現象を示します。コヒーレンスが増大したことで、このグループが高輝度のバーストを単発で発します。このバーストは独立した粒子のグループから生じると予想される輝度の N 倍 (!) も強いものである、この場合の N とはグループの粒子の数を示します。興味深いことに、この影響は粒子との相互作用に基づくものではなく、むしろ、粒子の明視野との相互作用と対称的な性質によってのみ生じます。 以下の図では、発光プロファイルが独立型 (上のパネル) と超放射型 (下のパネル) の粒子集団で明確に異なっていることがわかります。超放射は空間的に方向を持った、短時間の高輝度パルスを生じさせます。これは従来の急激に崩壊する放出プロファイルとは異なります。 超放射は多くの様々な量子系で見られ、 提示されてきました。ここでは TensorFlow と Amazon SageMaker を使って、ダイヤモンド窒素-空孔中心の核スピン集団からの超放射をシミュレートする方法を見ていきましょう。 Amazon SageMaker における科学的コンピューティングの構造 Amazon […]

Read More

Apache MXNet で事前にトレーニングを受けたモデルを使用する

このブログ記事では、Apache MXNet で事前トレーニングを受けたモデルの使用方法について解説します。複数モデルを試してみようと思われた理由は? 最高の精度をもったモデルを選ばないのはなぜでしょう? この記事の後半で説明するように、同じデータセット上でこれらのモデルがトレーニングを受け最高の精度を得るために最適化されたとしても、個々のイメージではその動作にわずかながら違いが生じます。また、予測速度も変動する可能性があります。これは多くのアプリケーションにとって重大な要素です。事前にトレーニングされたモデルをいくつか試すことで、自分のビジネス課題を解決するのに最適なモデルを見つけることができます。 まず、Apache の MXNet モデルズーから、3 つのイメージ分類モデルをダウンロードしてみましょう。 VGG-16 (研究報告)、ImageNet Large Scale Visual Recognition Challenge (ImageNet 大規模ビジュアルリコグニッションチャレンジ) における 2014 年度の分類最優秀モデル。 Inception v3 (研究報告)、GoogleNet の発展、オブジェクト検査での 2014 年度最優秀モデル。 ResNet-152 (研究報告)、複数カテゴリにおける 2015 度最優秀モデル。 各モデルについて次に示す 2 種類のファイルをダウンロードする必要があります。 ニューラルネットワークの JSON 定義を含むシンボルファイル: レイヤー、接続、アクティベーション機能など。 全接続加重、バイアスの値を保存する加重ファイルで別名パラメーター。トレーニングフェーズ中にネットワークにより習得。 # MacOS users can easily install ‘wget’ with Homebrew: ‘brew install wget’ !wget http://data.dmlc.ml/models/imagenet/vgg/vgg16-symbol.json -O […]

Read More

EC2 の – H1 インスタンス料金値下げ

EC2 の H1 インスタンスは、ビックデータアプリケーションに 2 〜 16 テラバイトの高速で高密度なストレージ を提供し、シーケンシャル I/O に高スループットを提供するように最適化されています。拡張ネットワーキングをサポートし、32 〜 256 ギガバイトの RAM を提供、およびベース動作周波数 2.3 GHz の Intel Xeon E5-2686 v4 プロセッサーを搭載しています。 米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、および欧州 (アイルランド)リージョンの H1 インスタンスのオンデマンド、リザーブドインスタンス料金をまもなく 15% 値引することをお知らせいたします。 — Jeff;

Read More

Amazon SageMaker での機械学習で、Amazon Pinpoint キャンペーンを加速

成功した多くのビジネスの中心には、顧客に対する深い理解があります。以前のブログ記事では、AWS データレイク戦略の一環として Amazon Redshift Spectrum を使用することで、全方向の顧客イニシアティブを強化する方法を説明しました。 このブログ記事では、敏捷性、コスト効率、そして AWS が顧客分析の実践を通じてどのように革新を起こすのかを実証するテーマを続けたいと考えています。みなさんの多くは、AI がどのようにして顧客イニシアティブを強化できるかを探っているでしょう。そこで、Amazon SageMaker と Amazon Pinpoint を活用したソリューションを通じて、ターゲットとするキャンペーンを機械学習 (ML) によってどのように推進できるかを実証します。 小売りの例を見てみましょう。消費者として、私たちには購入習慣の直感があります。私たちは、良い経験をした製品を再購入する傾向があります。あるいは、逆に、不満足な経験の結果として代替製品に移る可能性があります。三部作の一部である本を購入した場合、そのシリーズの次の本を購入する可能性が高くなります。スマートフォンを購入すると、近い将来にアクセサリーを購入する可能性が高くなります。 顧客の購買行動を知る能力があればどうなるでしょうか?次の購入がどうなるかを比較的高い確率で知ることができたら、どうすればいいでしょうか?私たちがこの予測能力を持っていれば、対処できる多くのことがあります。たとえば、在庫管理の効率を改善したり、マーケティングキャンペーンのパフォーマンスを向上させることができます。 このブログ記事では、Amazon SageMaker を使用してカスタムの長・短期記憶リカレントニューラルネットワーク (LSTM RNN) モデルを構築、トレーニング、使用して購入行動を予測し、予測を活用して Amazon Pinpoint によるキャンペーンを配信する方法を紹介します。 RNN は、特殊なタイプのニューラルネットワークであり、ML のアルゴリズムです。RNN は、通常、シークエンスデータと共に使用します。一般的なアプリケーションとしては、音声のテキストへの変換、言語の翻訳、¥感情分析などの自然言語処理 (NLP) の問題があります。このケースでは、少し創造的になり、UCI 機械学習リポジトリからダウンロードした 現実のオンライン小売データセット[i] の顧客取引履歴に RNN モデルを適用します。 課題 ソリューションに入る前に、こうしたプロジェクトをコンセプトから本番運用に移行する際の課題を理解してみましょう。標準的な ML プロセスを考えてみましょう。 いくつかの重要な観察があります。 このプロセスには、データエンジニアリングプロジェクトに共通のデータパイプラインが含まれているため、大規模なビッグデータの課題に直面します。このブログで紹介しているデータセットは小規模ですが、Amazon.com などの大手小売業者の類似データセットはビッグデータの規模であり、さまざまなフォーマットのバッチやストリームから集められています。モデルのパフォーマンスが向上するため ML プロジェクトには大量のデータが適していますが、データを大規模に活用するには適切なプラットフォームが必要です。AWS データレイク戦略は、運用の複雑さを最小限に抑え、コスト効率を最大化する、将来を見越したソリューションを提供することができます。AI イニシアチブだけでなく、他のデータエンジニアリングプロジェクトでも、引き続き基盤が実を結ぶことになります。 多様な活動をサポートする必要があります。多様な活動は、チームメンバーの役割やスキルセットに最も適した豊富な種類のツールの必要性につながります。データ処理、発見、大規模な機能エンジニアリングなどの活動には、Spark のようなツールが適しています。AWS では、Amazon EMR が […]

Read More

AWS IoT AnalyticsがGAに

今日は、うれしいお知らせがあります。2018 年 4 月 24 日より、AWS IoT Analytics サービスが一般でご利用いただけるようになりました。接続済みデバイスデータに対し、スケールに合わせてクリーン、処理、強化、保存、分析などを行うことができるようになります。AWS IoT Analytics は、米国東部 (バージニア北部)、米国西部 (オレゴン)、米国東部 (オハイオ) および欧州 (アイルランド) で今すぐご利用いただけます。昨年の 11 月、同僚の Tara Walker が AWS IoT Analytics サービスの機能の一部について珠玉のブログ記事を書き、 Ben Kehoe (AWS コミュニティのヒーローであり、iRobot のリサーチサイエンティスト) が AWS re:Invent にて、柔軟な検索クラスターにデータを送信するために、iRobot の従来からある「変に手の込んだ機械」を AWS IoT Analytics に置き換える方法について講演を行いました。 サービスプレビューの期間中お客様から受け取ったフィードバックを振り返りながら、AWS IoT Analytics チームは BatchPutMessage API を使用して外部のソースからデータを取得する機能や SampleChannelData API を使って既存のデータ、プレビューパイプラインの結果、機械からのプレビューメッセージを処理する機能など、いくつもの新機能を追加しました。 それでは IoT Analytics の主要なコンセプトについて見直して、その後、サンプルを見ていきましょう。 […]

Read More

Policybazaar.com が、Amazon Polly を採用して、効率とカスタマーエクスペリエンスを強化

これは、PolicyBazaar.com の最高技術責任者兼チーフプロダクトオフィサーである、Ashish Gupta 氏のゲストブログ記事です。彼ら自身の言葉によれば、「PolicyBazaar.com はインドで最大の保険マーケットプレイスであり、顧客は購入前に複数の保険商品を比較することができます。」 2008 年の創業以来、Policybazaar.com は、インドが保険を購入する方法を再定義した新しい FinTech エコシステムを開拓してきました。私たちの 10 年間の長い旅の間、課題は私たちの絶え間ない進化と進歩の内在的な部分でした。  私たちのビジネスが成長するための核心は、消費者の問題を迅速かつ効率的に解決することです。私たちには哲学があります — つぼみのうちに摘み取る!2017 年、事業規模が拡大しました。平均取引件数が、以前の月当たり 12 万件から月当たり 25 万件に増加したのです。これは、私たちが以前よりもより多くの消費者を管理し、以前よりも多くの消費者の問題を解決したことを意味しました。2017 年、約 1 億件の顧客からの電話問い合わせを管理しました。 明らかに、この成長に追いつくために革新する必要があります。従来のツールを使って顧客の期待に応えることは不可能です。 したがって、新しい最先端の技術革新を採用することが最重要です。TTS (text-to-speech) ソリューションである、Amazon Polly が、日常の課題を解決するのに最適なツールでした。Amazon Polly の採用により、顧客サービスを次のレベルに引き上げ、より大きな成果性と高い生産性を実現しました。現在、Amazon Polly は次の方法で使用しています。 音声ブロードキャスト 重大な音声アラート 受信通話 Amazon Polly は、多目的用途に適した事前定義の応答の共有から、「ドキュメントが保留中です」や「アップロードに問題がありました」などの顧客の問い合わせにシフトすることを可能にして、プロセスと効率に差をつけました。Amazon Polly では、システムがお客様を識別し、個人ベースで質問を解決する音声通話を生成します。 つまり、特定の問題に重点を置いて関連性のあるメッセージを送信できるようになったのです。一例があります。「住所の証明を提出していただきありがとうございます。ただし、お客様が提出された所得の証明は間違っています。3 ヶ月の銀行口座明細書、または 3 ヶ月分の給料明細を送っていただけますか?」Amazon Polly への移行により、シームレスなカスタマーエクスペリエンスが増加し、より実践的なコミュニケーションが促進されます。 Amazon Polly と社内 IVR 通話サービスである PBee Connect を統合して以来、特に対処の通話がある場合に、顧客関与の大幅な改善が見られました。 私たちの場合、4 […]

Read More

EC2 フリート – 1 回のリクエストで、大量のオンデマンドおよびスポットインスタンスを管理する

EC2 スポットフリートは実に画期的です。EC2 インスタンスタイプからアベイラビリティーゾーンに至るスポットインスタンスのフリートを、容量を見つけたり料金を監視するためのカスタムコードなしに開始できるようになります。アプリケーションに意味のある単位で対象の容量 (フリートのサイズ) を設定し、スポットフリートを作成して、自分の代わりにフリートの管理を任せることができます。私たちのお客様はあらゆる種類のスポットフリートを作成しています。たとえば、ある金融サービスのお客様は 10 個の異なる EC2 インスタンスタイプで、モンテカルロのシミュレーションを実行しています。このお客様は日常的に大量の vCPU のリクエストを作成し、可能な限り安価に大容量のアクセスを提供するという作業をスポットフリートに任せています。 EC2 フリート 本日、私たちは EC2 フリートを使ったスポットフリートで、自分たちが開拓した「一度設定するだけであとはお任せ」のモデルを拡張し、一般でも利用できるようになりました。これはユーザーにフリートを作成する新しいビルディングブロックで、EC2 オンデマンド、リザーブド、スポットの各インスタンスの組み合わせを 1 度の API コールで構成したものです。皆さんの必要なもの、容量、インスタンスまわりのことを聞かせてください。私たちがまとめて面倒見ます。私たちは足場組み的なコードを書く必要なく、必要に応じてインスタンスを開始、管理、監視、およびスケールします。 ユーザーはインスタンス、vCPU、またはアプリケーション指向の単位を条件にフリートの容量を指定し、また、スポットインスタンスで処理すべき容量の程度を指定できます。アプリケーション指向の単位を使用することで、ユーザーはアプリケーションのニーズを直接マップする方法で、各 EC2 インスタンスタイプの関連する性能を指定できます。3 つの容量指定オプション (インスタンス、vCPU、アプリケーション指向単位) はいずれも重量値として知られています。 この機能を使ってフリートにインスタンスを容易に管理させる方法が多数見つかるはずです。また、チームの近い将来のロードマップもきっと皆さんのお役に立つと思います (これについてはすぐに詳しくお話しします)。 EC2 フリートの使用 ステートレスのウェブサービス、ビッグデータクラスターを実行しているのであれ、継続的な統合パイプラインを実行しているのであれ、この機能を活用できる方法は多数あります。今日は、ゲノムのプロセスに EC2 フリートをどのように使用できるかについて説明しますが、これはリスクの分析、ログのプロセス、イメージのレンダリングといったワークロードと似ています。最近の DNA シークエンサーは毎日数テラバイトの未加工データを生成する可能性があり、これを適宜意味のある情報へプロセスするには、大量の処理能力が必要になります。ここでは従属的な分析タスクを並行的に走らせることで、大量のデータを超高速で処理してくれるワーカーノード「グリッド」のデプロイ方法をご紹介します。 ゲノム解析プロジェクトでは、数百、ときには数千のサーバー上で新しいパイプラインを実験し、試すために、EC2 の提供する伸縮性を使用できます。EC2 を利用すれば、必要なときすぐに必要な量のコアにアクセスでき、お支払いいただくのは使用した分のみです。今日からは RunInstances API または Auto Scaling グループをグリッドのオンデマンドおよびリザーブドインスタンスポーションに使用する必要があります。最高のコストパフォーマンスを得るために、もしパワフルなセカンダリ分析にスポットインスタンスを追加するのであれば、異なるインスタンスタイプをもつスポットフリートか複数の Spot Auto Scaling グループを追加する必要もあります。最後に、複数の API と Auto Scaling グループでスケーリングの決定を自動化するには、グリッドの進捗とバックログに定期的にアクセスする Lambda […]

Read More

異常検出にビルトイン Amazon SageMaker Random Cut Forest アルゴリズムを使用する

本日、Amazon SageMaker 向けの最新ビルトインアルゴリズムとして、Random Cut Forest (RCF) のサポートを開始しました。RCF は監視を伴わない学習アルゴリズムで、データセット内の異常なデータポイントや外れ値を検出します。このブログ記事では異常検出に関する問題について紹介するとともに、Amazon SageMaker RCF アルゴリズムについて説明し、実世界のデータセットを使った Amazon SageMaker RCF の使用法を実演します。 異常検出は極めて重要です たとえば、いくつもの街の区画で長期間にわたり交通量のデータを収集してきたとします。交通量が急増した場合、その背後にあるのが何らかの事故なのか、一般的なラッシュアワーなのかを予測することはできますか?交通量の急増が 1 区画だけで起きているのか、複数の区画で起きているのかは重要ですか? また、1 つのクラスターにあるサーバー間にネットワークのストリームがあるとします。そのインフラストラクチャが目下 DDoS 攻撃を受けている最中なのか、またはネットワークアクティビティの増加が良好な状態であるかを自動的に見極めることはできますか? 異常とは、 よく系統立てられた、またはパターン化されたデータから逸脱する観測結果を意味します。たとえば、異常は時系列データ上の想定外の急増、周期性のある中断、または分類不能なデータポイントを示します。データセットにそうした異常なデータが含まれる場合、「通常」データはシンプルなモデルで記述されることから、機械学習タスクの複雑性を急激に増大させる可能性があります。 Amazon SageMaker Random Cut Forest アルゴリズム Amazon SageMaker Random Cut Forest (RCF) アルゴリズムはデータセット内の異常なデータポイントを検出するための監視を伴わないアルゴリズムです。特に、Amazon SageMaker の RCF アルゴリズムは 1 件の異常スコアと各データポイントを関連付けます。異常スコアの値が低ければ、データポイントが「通常」であることを意味し、スコアの値が高ければ異常があることを意味します。「低い」と「高い」の定義はアプリケーションによって異なりますが、慣例から平均スコアから 3 つの値が逸脱していた場合、異常と見なされます。 Amazon SageMaker の RCF アルゴリズムの処理ではまず、トレーニングデータからランダムなサンプルを取得することから始めます。トレーニングデータが 1 台のマシンに入りきらない可能性がある場合は、レザボアサンプリングと呼ばれる手法で、データストリームから効果的にサンプルを抽出します。その後、ランダムカットフォレストの各構成要素ツリーにサブサンプルが配分されます。各サブサンプルはそれぞれの葉が単独のデータを含む 1 つのバウンディングボックスを表すように分割されるまでランダムにバイナリツリーへと分割されていきます。入力データポイントへ割り当てられた異常スコアは、そのフォレストの平均的な深度に対し、逆比例します。詳細については、SageMaker […]

Read More

ノートブックインスタンスのトレーニングに Amazon SageMaker のローカルモードを使用する

Amazon SageMaker が最近、事前構築型の TensorFlow と MXNet コンテナを使用したローカルトレーニングのサポートを開始しました。  Amazon SageMaker はフレキシブルな機械学習プラットフォームで、機械学習モデルを本番環境に、より効果的に構築、トレーニング、およびデプロイできるようにします。  Amazon SageMaker トレーニング環境は管理されています。つまり、即時のスピンアップ、アルゴリズムコンテナのロード、Amazon S3 からのデータ取得、コードの実行、Amazon S3 への結果の出力、クラスターの解体などの処理について、ユーザーが考える必要がなくなります。  トレーニングを別々のマルチノード GPU クラスターにオフロードできる機能は大きな利点です。毎回新しいハードウェアをスピンアップすることは、反復性とセキュリティの面で良いことですが、アルゴリズムコードのテストやデバッグの際には無駄に回転させることになります。 Amazon SageMaker の深層学習コンテナを使用することで、普段通りに TensorFlow または MXNet のスクリプトを書けるようになります。しかし、今後は、これらをトレーニングとホスティングの両方の目的で、管理されている本番グレードの環境にプレビルトコンテナとしてデプロイすることになります。  これまで、こうしたコンテナは Amazon SageMaker 固有の環境でのみ使用できました。  最近これらのコンテナがオープンソース化されました。これにより、ユーザーは自身のアルゴリズムをローカルでテストするためにわずか 1 行のコードを書き換えるだけで、自分の作業環境にコンテナを取り込み、Amazon SageMaker Python SDK でカスタムコードビルトを使用できるようになるのです。  つまり、毎回新しいトレーニング用またはホスティング用のクラスターが構築されるのを待つことなく、自分の作業を反復したり、テストしたりできることを意味します。  小さなデータセットのサンプルをローカルで反復し、フルデータセットを分散してトレーニングするためにスケーリングするのが機械学習の一般的な手法です。  多くの場合、プロセス全体を再度書き込むことになるため、バグが生じないのを願うばかりです。  Amazon SageMaker のローカルモードでは、コードを 1 行書き換えるだけで、ローカルと分散されたマネージドトレーニング間をシームレスに切り替えられます。その他の動作はすべて同じです。 Amazon SageMaker Python SDK のローカルモードは、TensorFlow または MXNet エスティメーターの 1 […]

Read More

Amazon EC2 インスタンスでのより高いパフォーマンスのために最適化された Chainer 4 と Microsoft Cognitive Toolkit (CNTK) 2.5.1

AWS Deep Learning AMIs for Ubuntu および Amazon Linux に、Amazon EC2 インスタンスでのより高いパフォーマンスのために最適化された Chainer 4 と Microsoft Cognitive Toolkit (CNTK) 2.5.1 が付属します。AMI はまた、5 つの追加リージョンでも利用できるようになり、対応の AWS リージョンが 16 か所に拡大します。 Chainer 4 で深層学習を加速する この AMI にはアマゾンの コンピューティング最適化 C インスタンスをサポートするインテルアーキテクチャのコンボリューションや ReLU (rectified linear units) ルーチンといった深層学習処理を加速するために構成された Intel’s Deep Learning Extension Package (iDeep) 搭載の Chainer 4 が付属します。 たとえば、開発者は CPU 専用の EC2 […]

Read More