Amazon Web Services ブログ

Localization Team

Author: Localization Team

Amazon SageMaker アルゴリズムのパイプ入力モードを使用する

本日は Amazon SageMaker の内蔵型アルゴリズムのためのパイプ入力モードについて紹介します。パイプ入力モードを使い、データセットが最初にダウンロードされるのではなく、トレーニングインスタンスに直接ストリーミングされます。これは、トレーニングジョブが直ぐに始まり、早く完了し、必要なディスク容量も少なくて済むという意味です。Amazon SageMakerのアルゴリズムは、高速で拡張性が高くなるように設計されています。このブログ記事では、パイプ入力モード、それがもたらす利点、トレーニングジョブにおいてそれをどのように活用できるかについて説明しています。 パイプ入力モードでは、データはディスク I/O なしで実行中にアルゴリズムコンテナに送られます。このアプローチは、長くかかるダウンロードの処理を短縮し、起動時間を大きく短縮します。それによって通常ならファイル入力モードより読込スループットも良くなります。これは、高度に最適化されたマルチスレッドバックグラウンドプロセスによって、データが Amazon S3 から取得されるからです。また、16 TB の Amazon Elastic Block Store (EBS) のボリュームサイズ制限よりもずっと大きいデータセットをトレーニングできます。 パイプモードによって以下のことが可能になります。 データがトレーニングインスタンスにダウンロードされるのではなく、ストリーミングされるため、起動時間がより短くなります。 より高性能なストリーミングエージェントによる I/O スループットの向上 実質的に無制限のデータ処理能力。 内蔵型 Amazon SageMaker アルゴリズムでファイル入力モードまたはパイプ入力モードを活用できます。大きなデータセットにはパイプモードが推奨されているとはいえ、メモリ内に収まる小さなファイルやアルゴリズムのエポック数が多い場合であっても、ファイルモードは有効です。現在、どちらのモードでもトレーニングジョブの小さい実験から、ペタバイト規模の分散型のトレーニングジョブに至るまでさまざまな使用範囲をカバーしています。 Amazon SageMakerのアルゴリズム 大半のファーストパーティのAmazon SageMakerアルゴリズムは、最適化された Protocol Buffers (プロトコルバッファー) のrecordIO フォーマットを使えば最適に動作します。このため、本リリースでは、protobuf の recordIO フォーマット用のパイプモードのみがサポートされています。以下に一覧するアルゴリズムは、Protocol Buffers (プロトコルバッファー) の recordIO にエンコードされたデータセットで使用した場合に、パイプ入力モードをサポートします。 主成分分析法 (PCA) K 平均法クラスタリング 因数分解法 潜在的ディリクレ配分法 (LDA) 線形の学習者 (分類と回帰) […]

Read More

Apache MXNet (Incubating) が Keras 2 のサポートを追加

Keras および Apache MXNet (Incubating) のオープンソースプロジェクトへの参画者のおかげで、Keras-MXNet 深層学習のバックエンドが現在利用可能です。Keras は Python で書かれた高水準なニューラルネットワーク API です。CNN および RNN のプロトタイピングを素早く簡単に作成することで知られています。 Keras の開発者は、現在、畳み込みニューラルネットワーク (CNN) のトレーニングおよび再帰型ニューラルネットワーク (RNN) の分散トレーニング向けのハイパフォーマンスな MXNet 深層学習エンジンを使用することができます。コードを数行更新すると、Keras の開発者は、MXNet のマルチ GPU の分散トレーニング機能を使用して、トレーニングスピードを速めることができます。MXNet モデルを保存できることは、このリリースのもう一つの注目すべき機能です。Keras での設計、Keras-MXNet によるトレーニング、本番環境のインターフェイスの実行が大規模な MXNet で可能です。 Keras 2 および MXNet の分散トレーニング この記事では、Keras-MXNet のインストール方法と CNN および RNN のトレーニング方法の説明をします。以前、他の深層学習エンジンで分散トレーニングを実施したことがある場合は、退屈で難しいかもしれません。それでは、Keras-MXNet について内容を見ていきましょう。 インストールは数ステップだけです。 AWS 深層学習 AMI のデプロイ Keras-MXNet のインストール Keras-MXNet の設定 1. AWS […]

Read More

Amazon SageMaker を使用して、より迅速に大規模な主成分分析法を実行できます

このブログ記事では、Amazon SageMaker、Spark ML、Scikit-Learn を使用した、高ディメンジョンセットでの PCA に関するパフォーマンス比較を実施します。SageMaker は一貫してより高速な計算性能を示しました。速度改善内容を確認するために、下図 (1) および (2) を参照してください。 主成分分析法 主成分分析 (PCA) とは、依然として、可能な限りより多くの情報を保持しながら、データセット内部のディメンジョナリティ (例: 機能の個数など) の低減を目的とした監督機能解除済み学習アルゴリズムです。PCA は、各列は、それ以降はお互いが独立性を有する状況となるような、1 組のデータ行列を 1 個の直交空間に線形変換するものであり、個別のカラムが対象データ内で 1 個の既知の割合を占めることができるものです。換言すれば、個別のコンポーネントが互いに無相関性のような、元の特徴の複合体である、コンポーネントと呼ばれる 1 つの新しいセットの機能を発現します。更に、これらは制限が付加されることで、第 1 コンポーネントが対象データ内で可能な限り巨大な可変率を占め、第 2 コンポーネントが第 2 番目に最大であり、そして以下も同様となることとなります。 より包括的な説明については、「https://docs.aws.amazon.com/sagemaker/latest/dg/how-pca-works.html」を参照してください。 PCA は、Exploratory Data Analysis (EDA) 用の 1 個のツールおよび 1 個の機械学習用アルゴリズム (ML) の両面でも強力です。EDA に関して、PCA はディメンジョナリティ低減および 1 件のデータ問題についての多重共線性 (マルチコ) 低減に最適です。ML 方法論の 1 つとして、異常検出 (例: […]

Read More

Amazon SageMaker で fast.ai ノートブックを実行する

fast.ai はすべての人にディープラーニング能力へのアクセスを可能にすることを目的とした組織です。彼らは fast.ai と呼ばれる人気のあるオープンソースディープラーニングフレームワークを開発しました。このテクノロジーはコンピュータビジョン、自然言語処理、構造化データ、協調フィルタリングなどドメイン内のわずか数行のコードでユーザーが最新のモデルを作成することができる使いやすいディープラーニングライブラリ PyTorch に基づいています。  彼らはまた、機械学習の経験がない開発者向けに、数週間で最先端のディープラーニングモデルをデプロイするためのライブラリの使い方を学べる非常に人気のあるオンラインコースも開講しています。 Amazon SageMaker の主な利点の 1 つは、人気のある Jupyter オープンソースノートブック形式で完全に管理された機械学習ノートブック環境を 1 クリックで提供できることです。このブログ記事では、お使いの fast.ai ベースのディープラーニングモデルをトレーニングするために、fast.ai ライブラリと Jupyter ノートブックサンプルを Amazon SageMaker でホストされたノートブックにデプロイする方法を説明します。 これは fast.ai オンラインコース経由で実行している場合、またはカスタムアプリケーションで独自の fast.ai ベースのディープラーニングモデルをビルドし、トレーニングする場合に便利です。これから、SageMaker ノートブックインスタンスでカスタム fast.ai 環境の設定と構成を自動化するために必要なすべてのステップを説明します。 ステップ 1: Amazon SageMaker ノートブックライフサイクル設定を作成する Amazon SageMaker は、追加ライブラリをノートブックインスタンスに手動でインストールする機能を備えています。しかし、ノートブックインスタンスの終了後は、これらの追加されたカスタマイズも削除されます。つまり、ノートブックインスタンスを再起動時に、手動でこれらを再度追加する必要があります。しかし、最近リリースされた Amazon SageMaker のライフサイクル設定機能では、これらのカスタマイズを自動化することで、インスタンスのライフサイクルのさまざまな段階に適用することが可能になりました。 この例では、ノートブックインスタンスが起動されるたびに、ライフサイクル設定機能を使用して fast.ai ライブラリと関連する Anaconda 環境をインストールすることで、再起動のたびに繰り返しインストールする必要がなくなりました。 Amazon SageMaker コンソール (https://console.aws.amazon.com/sagemaker/) を開きます。 左側のナビゲーションウィンドウから [Notebook]、次に [Lifecycle configurations] […]

Read More

AWS IoT 1-Click – Lambda 関数のトリガーにシンプルなデバイスを使用する

AWS re:Invent 2017 にて AWS IoT 1-Click のプレビューを発表しました。その後、平易であること、完全な設定不要のエクスペリエンスであることに重点を置き、調整を重ねてきました。幅広い利用者に IoT を提供し、ご利用いただけるようにするために設計された AWS IoT 1-Click がついに一般公開のときを迎え、AWS と AT&T からリリースされた最新の IoT ボタンでご利用いただけるようになります。 ひと月かふた月ほど前、ブログ記事の準備をするためにこのサービスについて学ぼうと、開発チームをたずねました。このミーティングの間、彼らから一組の IoT ボタンを借りて、クリエイティブな使い方に思いを馳せました。思いついたアイデアをいくつかご紹介しましょう。 ヘルプリクエスト – 今月の初め、ロサンゼルスで HackTillDawn ハッカソンに参加し、とても和やかなウィークエンドを過ごしました。参加者は遠隔地からハッキングに参加していたため、AWS、機械学習、Amazon SageMaker、および AWS DeepLens などについて質問されることも時たまありました。AWS ソリューションアーキテクトが大勢近くにいたものの (目立つようにおしゃれで個性的な AWS のシャツで会場に華を添えていました)、各チームに IoT ボタンを使えるのではないかと考えました。ボタンを押すと、SMS を介して SA クルーに通知が行き、クルーが正しいテーブルに直行します。 カメラの制御 – Tim Bray と私は、AWS の動画スタジオでAWS Messaging に関する Tim のシリーズの 1 話目を撮影する準備をしていました。 Twitch ストリームを開始する数分前、ズームイン画面に切り替えるためにカメラマンに指示を送る明確で目立たない方法がないことに気付きました。ここでも、IoT ボタンが […]

Read More

Amazon Sumerian – GAのお知らせ

当社は AWS re:Invent 2017 で Amazon Sumerian を発表しました。Tara のブログ記事 (Amazon Sumerian: VR、AR、3D 体験を作成する簡単な方法の紹介) にあるように、Sumerian は特別なプログラミングや 3D グラフィックスの専門知識を必要としません。モバイルデバイス、ヘッドマウントディスプレイ、デジタルサイネージ、ウェブブラウザなど幅広い一般的なハードウェアプラットフォームで、VR、AR、3D 体験を構築できます。 Sumerian が一般提供されたことをお知らせします。3D モデリング、アニメーション、照明、オーディオ編集、プログラミングのための特別なツールを購入または習得することなく、リアルな仮想環境とシーンを作成できます。ビルド後はカスタムコードを記述したり、特殊なデプロイシステムやプロセスを処理することなく、完成した作品を複数のプラットフォームにデプロイできます。 Sumerian はウェブベースのエディタを提供し、これを使用してリアルでプロフェッショナル品質のシーンをすばやく簡単に作成できます。オブジェクトやキャラクター (Sumerian Hosts) がユーザー操作に反応する方法を制御するロジックを構築するためのビジュアルスクリプティングツールがあります。Sumerian は、Amazon Lex、Polly、AWS Lambda、AWS IoT、Amazon DynamoDB などの AWS によるリッチで自然な対話を作成することもできます。 Sumerian は複数のプラットフォームで動作するように設計されています。Sumerian で作成した VR や AR アプリケーションは、WebGL や WebVR をサポートするブラウザおよび Oculus Rift、HTC Vive、iOS または Android 搭載の一般的なデバイスで動作します。 プレビュー期間中、当社は幅広い顧客に Sumerian のテストに参加してもらい、従業員教育、トレーニングシミュレーション、現場サービス生産性、仮想コンシェルジュ、設計と制作、ブランドエンゲージメントなど多様なユースケースをハイライトするように設計された PoC (概念実証) […]

Read More

Amazon Aurora Backtrack – 時間を巻き戻す

こんなご経験、皆さんにもありますよね。重要なプロダクションデータベースに素早く、見かけ上はシンプルな修正を加えなければならないという状況。まずクエリを作成して、ざっと目を通し、そして実行キーを押す。数秒後、WHERE 句を書き忘れたとか、ドロップしたのが誤ったテーブルだったとか、または、他にも深刻な間違いがあったことに気づき、クエリを中断するものの、すでに一部の変更は反映されてしまっている。あなたは深いため息をつき、歯の間から弱々しい音をもらし、Undo (元に戻す) 機能があればよかったのにとうつむくのです。さて、次はどうしますか? 最新の Amazon Aurora Backtrack 今日は Amazon Aurora の新しい「巻き戻し」機能についてご紹介します。 これは現在の技術レベルで可能な、現実世界を「元に戻す」のに最も近い方法です。 この機能は新しく開始される Aurora データベースクラスターで有効にすることができます。 これを有効にするには、巻き戻す必要がある可能性のある時間を指定するだけで、そのあとは通常通りにデータベースを使用します (以下は事前設定の設定ページ): Aurora は分散型ログ構造ストレージシステム (詳細については Design Considerations for High Throughput Cloud-Native Relational Databases を参照) を採用しています。データベースへ変更を加えるたびに新しいログレコードが作成され、ログシーケンス番号 (LSN) が生成されます。巻き戻し機能を有効にすることで、LSN のストレージ用クラスターに FIFO バッファーがプロビジョニングされます。これにより、素早いアクセスと秒単位で測定されたリカバリ時間が利用できるようになります。 すべてが失われたように思えたその絶望的な瞬間のあと、あなたはただアプリケーションを一時停止し、Aurora コンソールを開いてクラスターを選択して [Backtrack DB cluster] (DB クラスターを巻き戻す) をクリックするだけです。 それから Backtrack を指定し、取り返しのつかない過ちを犯してしまった寸前を選び、[Backtrack DB cluster] (DB クラスターを巻き戻す) をクリックします。 それから巻き戻しが終わるまで待ち、アプリケーションを再開して、何ごともなかったかのように作業に戻ります。巻き戻し機能を開始すると、Aurora はデータベースを一時停止し、すべての接続を遮断して、コミットされていない書き込みをドロップし、巻き戻し機能が完了するのを待ちます。その後、通常のオペレーションを再開して、リクエストを受け入れます。 巻き戻し機能の実行中、インスタンスの状態は […]

Read More

EC2 スポットインスタンスと TIBCO GridServer を使用して AWS 上で 130万個の vCPU グリッドを作成する

私の同僚の多くがお客様に会い、お客様の声に耳を傾けるといった機会を持てることは幸運です。これによりお客様のビジネスやテクノロジーのニーズをより満足させる方法を見つけるのに最善を尽せます。この情報は細心の注意を払って扱い、新しいサービスと新機能のロードマップに取り組むときに利用します。 金融サービス業界 (FSI) の AWS を利用するお客様は、2019年から2021年に実施される FRTB (Fundamental Review of Trading Book) の規制に備えています。とりわけ、それぞれの金融機関がニューヨークで取引が終了してから東京で開始するまでの4時間の時間枠内に「バリュー・アット・リスク」の計算を実行しなければならなという新しい方法取り組みが規定されます。現在、このミッションクリティカルな計算は、20万個の vCPU (仮想CPU) のリソースを消費していますが、本規制により 40万 〜 80万個の vCPU (仮想CPU) に増加する見込みです。この高いスループットの計算を実行するのに必要な規模や回数などについては、まだ議論が必要ですが、全体的な方向性は明確になっています。 FSIのお客様がこれらの新しい規制に対処できるようサポート体制が整ったことを確かなものにするため、TIBCOと協力して、 AWSクラウドでPoC (概念実証) を実施します。4時間以内に処理を完了するために必要な処理能力とストレージ量が伴う計算には、費用対効果の高く、オンデマンドで膨大な量の計算能力を利用できる環境が最も適しています。 当社のお客様は、すでにオンプレミスの TIBCO GridServer をクラウドで利用することを検討しています。本製品は、エンタープライズ規模でグリッドを実行するように設計されています。仮想化された方法でアプリケーションを実行し、リソースの要求を受諾し、必要に応じて動的にプロビジョニングします。クラウド版では、Amazon Linux だけでなく、PostgreSQL と互換性のある Amazon Aurora サポートしています。 TIBCOと協力して、現在のハイエンド予測である 80万個の vCPU よりも大幅に大きいグリッドを作成し、50% の安全係数を追加した 130万個の vCPU (オンプレミスの5倍の規模) まで拡張しました。この目標を念頭に置いて、アカウント制限を次のように引き上げました。 スポットインスタンス制限 – 120,000 EBS ボリューム制限 – 120,000 EBS 容量制限 – […]

Read More

AWS オンラインテックトーク – 2018 年 5 月および 6 月前半

AWS オンラインテックトーク – 2018 年 5 月および 6 月前半 AWS では今月も注目の新サービスやソリューションのベストプラクティスについてご紹介します。また、初の re:Invent 2018 ウェビナーシリーズ、「How to re:Invent」も企画しています。 お見逃しないよう早目にご登録ください。 注意 – すべてのセッションは無料で、太平洋時間です。 今月の主なテックトーク 分析 & ビッグデータ 2018 年 5 月 21 日 | 午前 11:00 ~ 11:45 (太平洋時間) – Integrating Amazon Elasticsearch with your DevOps Tooling – Amazon Elasticsearch Service をいかに簡単に DevOps へ統合し、ログデータから価値ある詳細情報を得ることができるかについて学びます。 2018 年 5 月 […]

Read More

Amazon SageMaker で量子系をシミュレートする

Amazon SageMaker は、開発者やデータサイエンティストがあらゆる規模の機械学習モデルを迅速かつ簡単に構築、訓練、およびデプロイすることを可能にする完全マネージド型サービスです。しかし、機械学習 (ML) のワークフローを能率化するだけでなく、Amazon SageMaker は科学技術向けコンピューティングタスクの大規模なスペクトルを実行したり、並列化したりするためのサーバーレスでパワフルな使いやすいコンピューティング環境も提供します。このノートブックでは、TensorFlow と Amazon SageMaker の「bring your own algorithm (BYOA)」 (独自のアルゴリズムを活用する) 機能を併用して、シンプルな量子系をシミュレートする方法についてご紹介します。 この演習を実行するにあたり、Amazon SageMaker にアクセスできる AWS アカウントと Python および TensorFlow に関する基礎知識が必要になります。 量子系の超放射: 簡単な説明 これから私たちがシミュレートする量子効果は超放射として知られています。 これは、ある一定の環境下で、独立した発光体 (個別の原子など) が自然に量子コヒーレンスを増加させ、1 つの実体として協調的に動作するという現象を示します。コヒーレンスが増大したことで、このグループが高輝度のバーストを単発で発します。このバーストは独立した粒子のグループから生じると予想される輝度の N 倍 (!) も強いものである、この場合の N とはグループの粒子の数を示します。興味深いことに、この影響は粒子との相互作用に基づくものではなく、むしろ、粒子の明視野との相互作用と対称的な性質によってのみ生じます。 以下の図では、発光プロファイルが独立型 (上のパネル) と超放射型 (下のパネル) の粒子集団で明確に異なっていることがわかります。超放射は空間的に方向を持った、短時間の高輝度パルスを生じさせます。これは従来の急激に崩壊する放出プロファイルとは異なります。 超放射は多くの様々な量子系で見られ、 提示されてきました。ここでは TensorFlow と Amazon SageMaker を使って、ダイヤモンド窒素-空孔中心の核スピン集団からの超放射をシミュレートする方法を見ていきましょう。 Amazon SageMaker における科学的コンピューティングの構造 Amazon […]

Read More