Amazon Web Services ブログ

Amazon SageMaker ノートブックインスタンスで一般的なワークフローを使用する方法

 Amazon SageMaker ノートブックインスタンスは、データサイエンスや機械学習を行うためのスケーラブルなクラウドベースの開発環境を提供します。このブログ記事では、より生産性が高く、効果的な一般的ワークフローを紹介します。 このブログ記事で紹介するテクニックは、使い捨てと交換が可能であることを念頭におく、よりクラウドネイティブな方法でノートブックインスタンスを扱うツールとなります。以下を説明します。 まず、協調型の開発のために GitHub および AWS CodeCommit を使用する方法を示します。 次に、AWS CloudFormation を使用して、ノートブックインスタンスを自動的にプロビジョニングし、jupyter ノートブックをアップロードする方法を示します。 3 番目に、Amazon S3 バケットを使用してノートブックインスタンスからアセットをバックアップおよび復元する方法を示します。 チュートリアル Git によるコラボレーション ノートブックインスタンスは、1 人の開発者が 1 つのインスタンスに割り当てられている場合が最適な使用です。ただし、データサイエンティストはしばしば協調型の環境で作業をします。Git は、複数のコントリビュータがバージョン管理されたコードリポジトリに書き込むことを可能にするツールです。複数の開発者/データサイエンティストがそれぞれのノートブックインスタンスで作業し、リモートリポジトリからコードをプルし、変更をそのリポジトリにプッシュ (またはコミット) することができます。AWS CodeCommit と GitHub は、リモート Git リポジトリを配置することができる 2 つの場所です。 CodeCommit CodeCommit リポジトリで作業するには、Amazon SageMaker コンソールを開き、次の手順に従います。 SageMaker インスタンスのロール設定 AWS コンソールにログインします。 検索バーに「sagemaker」と入力し、sagemaker コンソールを開きます。 左側のメニューでノートブックを選択し、ノートブックを選択します (または最初に作成します)。 [IAM role ARN] の下のリンクをクリックします。 [Permissions] タブで、[attach […]

Read More

Amazon SageMaker と AWS Deep Learning AMI で PyTorch 1.0 プレビューが利用できるようになりました

Amazon SageMaker と AWS Deep Learning AMI (DLAMI) が、PyTorch 1.0 プレビューリリースを簡単に評価する手段を提供できるようになりました。PyTorch 1.0 は、PyTorch の人気が急騰する理由となった使いやすさを維持したまま、研究から本番にシームレスに移行する機能を追加します。AWS Deep Learning AMI には、高速コンピューティングインスタンスを活用するための CUDA と MKL のライブラリと共に、PyTorch 1.0、Anaconda、および Python のパッケージが事前構築されています。Amazon SageMaker は、あらゆる規模の機械学習 (ML) モデルを迅速かつ容易に構築、訓練、調整、およびデプロイするためのエンドツーエンドプラットフォームです。そして今、Amazon SageMaker は、お客様が PyTorch 1.0 を使って、自動モデルチューニングを含むすべての SageMaker 機能を活用できるように、PyTorch 1.0 プレビューを備えた事前構築済みの環境を提供するようになりました。 PyTorch は、研究と実験に最適なオープンソースの深層学習フレームワークです。しかし、開発者の最大の課題のひとつは、PyTorch で作成したモデルを使って、それらを大規模な本番環境で実行することでした。PyTorch は、その使いやすさ、命令型スタイル、シンプルな API、そして柔軟性で開発者の人気を急速に得ましたが、モデル探索から本番への移行には、フリージンググラフなど、反復的であるがゆえに時間がかかる追加の作業が必要です。PyTorch 1.0 は、深層学習フレームワークに研究から本番にシームレスに移行する機能を実現します。 Amazon SageMaker 内に事前構築された PyTorch 環境によって、開発者とデータ科学者は、単一の API コールを使ってそれぞれのスクリプトを指定して、ローカルで訓練、または分散型トレーニングジョブを送信することができます。開発者はまた、二番目の API コールを使って、需要の必要性に応じて自動的にスケールアップまたはスケールダウンできる管理された高可用性のオンラインエンドポイントに PyTorch で訓練されたモデルをデプロイできるようにもなりました。開発者は、異なるバージョン向けに単一のパラメータを変更することによって、PyTorch […]

Read More

re:Invent 2018 – 残り 55 日になりました….

今このブログを書いている時点で、AWS re:Invent 2018 まで残すところ 55 日となっています。私と同僚たちは、皆さんに最高の学習経験を提供するために全力を尽くしています。今日は、いくつかの事柄について簡単に説明したいと思います… 交通手段 – 「Customer Obsession」は、最初のアマゾンリーダーシッププリンシプルであり、私たちは皆さんのフィードバックを真剣に受け止めています。 今年の re:Invent 2018 キャンパスはさらに大きくなっており、交通システムもそれに合わせて調整および拡大されています。これには、ひとつの会場で待たされることがないようにするための会場から会場への直通シャトルルート、そして re:Invent アプリと会場の看板によるリアルタイムの交通情報へのアクセスが含まれます。モバイルアプリは、皆さんが定刻通りかどうかを知らせると共に、セッション間を移動する手助けにもなります。もっと独自に行動したい、シャトルに乗りたくないという場合は、アマゾンは Lyft および Uber などのライドシェア企業とも提携しています。re:Invent Transportation ページにアクセスして、交通プラン、ルート、およびオプションに関する詳細をご覧ください。 予約席 – 皆さんにとって最も大切な技術的コンテンツを見る機会を出来るだけ多くご提供するために、予約席を復活させました。予約は 10 月 11 日 (木) の午前 10 時 (太平洋時間) 開始となっていますので、カレンダーに印をつけておいてください。席の予約は、長い列で待つことなくお気に入りのセッションの席を確保するための最良の方法です。会場には開始予定時間の 10 分前には到着するようにしてください。前にお話ししたとおり、私たちはに最も人気のあるセッションの再演をすでに予定しており、これらは Session Catalog で予約できるようになっています。再演は、1 週間を通してすべての re:Invent 会場で行われ、コンテンツハブ (各会場における、集中化されたオーバーフロールーム) も用意されています。また、セッションが満席になると、コンテンツハブにライブコンテンツをストリーミングします。 トリビアナイト – 史上初の Camp re:Invent トリビアナイトのために、水曜日の午後 7:30、ベネチアンシアターにお集まりください。トリビアナイトで re:Invent と AWS […]

Read More

ゲノミクス研究とクラウドコンピューティングでコアラを救う

今日はコアラを救う日で、AWS Research Credits と AWS クラウドによって可能になった注目に値する画期的な研究についてお話しするためにこれ以上良いタイミングはありません。 5 年前、レベッカ・ジョンソン博士 (Australian Museum Research Institute のディレクター) は、コアラの個体群、遺伝的性質、および疾患についてより詳しく学ぶ研究に着手しました。食に限りがある生物学的にユニークな動物として、健康で遺伝的に多様な個体群を維持することは、どちらもあらゆる保護計画の重要な要素です。コアラ個体群の遺伝的多様性の特性を明らかにすることに加えて、このチームは、大規模なゲノムシーケンシングプロジェクトを率いるオーストラリアの能力を強めたいと考えていました。 コアラゲノムの内部 このチームは先月、その結果をNature Genetics紙上で発表しました。彼らの研究論文 (Adaptation and Conservation Insights from the Koala Genome) は、コアラのユニークな生態に関する遺伝的基盤を特定しています。この研究論文を読むにはたくさんの概念を調べなければなりませんでしたが、チームが発見した事柄をある程度理解することはできました。これがそのまとめです。 有毒な食習慣 – コアラが好むユーカリの葉には、他の種が摂取すると有害になる物質が数え切れないほど含まれています。解毒機能を持つエンザイムをエンコードする遺伝子での遺伝子拡張と遺伝子選択の事象は、コアラがこれらの物質を素早く解毒することを可能にし、他のどの動物も好まない食物で生命を維持することができるようになります。加速化された代謝の根本にある遺伝的レパートリーは、疾患のあるコアラを治療するための一般的な抗炎症剤と抗生物質の効果もなくしてしまいます。 食物の選択 – 前述したように、コアラは好き嫌いの多い動物です。遺伝学的見地から言うと、これは、匂いに基づいて植物代謝物の違いを識別する能力を提供する 6 個の遺伝子によって、コアラの嗅覚と味覚が増大される結果として起こるものです。研究者たちは、コアラが水分含有量の多いユーカリの葉を選ぶために役立つ遺伝子と、苦味と旨味を判断する能力を向上させる遺伝子を持つことも発見しました。 繁殖 – 排卵と出産を制御する特定の遺伝子も見つかりました。無駄を避けるため、雌のコアラは必要なときにしか卵子を作りません。 コアラの母乳 – 生まれたばかりのコアラはインゲンマメの大きさで、体重もたったの 2 分の 1 グラムです! コアラの赤ちゃんは約 1 年間、時間と共に組成が変化する母乳を飲んで育ち、これには潜在的な遺伝相関があります。研究者たちは、抗微生物性を発揮するとして知られる遺伝子も特定しました。 免疫システム – 研究者たちは、コアラに影響する特定の疾患に対する耐性、免疫、および感受性の基礎を形成した遺伝子を確認しました。コアラレトロウイルスが、実際にそれ自体をゲノムに挿入するという「遺伝的侵略」 (研究者自身の言葉です) の証拠も発見しました。 遺伝的多様性 – 研究者たちは、生息環境の障害物、および表面温度などの地質学上の事象が、どのように遺伝的多様性と種の進化を形作ったかについても調査を行いました。彼らは、多様性 […]

Read More

AWS IoT Analytics 東京リージョン 一般提供開始のおしらせ

みなさん、こんにちは。アマゾン ウェブ サービス、プロダクトマーケティング エバンジェリストの亀田です。 AWS IoT Analyticsが東京リージョンで一般提供開始となりましたのでお知らせいたします。 AWS IoT Analytics は、膨大な量の IoT データの高度な分析を簡単に実行および操作できるよう設計された、完全マネージド型サービスであり、これを用いることでIoT アプリケーションや 機械学習のユースケースで最適かつ正確な判断を下すために、IoT データを分析してインサイトを簡単に得ることができます。   特徴 完全マネージド型時系列データストア: ペタバイトまで格納可能な完全マネージド型の時系列データストアに無期限にデータを保存することができ、デバイスからのデータを時系列で保存することができます。 データ変換: パイプラインという機能を用いることで、データストアにデータを保存する前に、例えば大きな誤差やメッセージの破損、誤認識等による情報をクリーンアップすることができます。 組み込みの SQL クエリエンジン: アドホッククエリまたはスケジュールされたクエリを実行することでデータを分析するか、さらに複雑な分析と機械学習推論を実行することができます。 Jupyter ノートブックや独自のツール等との連携: 作成されたコンテナにパッケージ化されたカスタム分析の実行を自動化して、これを定期的に実行することができます。 データ収集 AWS IoT Core、Amazon S3、Amazon Kinesis、またはその他のソースから AWS IoT Analytics にデータを送信することができます。MQTT トピックフィルタを用いてメッセージの処理や変換なども可能です。 処理 AWS Lambda 関数を定義して欠落データを検出したときにトリガーできるため、コードを実行して欠落を推定し、これを埋めることや、最大/最小フィルタとパーセンタイルのしきい値を定義して、データ上の異常値を削除すること等ができます。そして、定義した数学的または条件付きロジックを使用してメッセージを変換できるため、あらかじめ定めたルールに基づき値を変更することが可能で、摂氏から華氏への変換のような一般的な計算を実行できます。 また、外部のデータソースと連携し、データの内容を強化させることも可能です。例えば温度に対して、天気予報などの外部データソースを使用してデータを強化させるなどです。 保存 ペタバイトのデータを格納することが可能な時系列データストアがIoT Analyticsの一部として提供されます。そして、アクセス権限の管理、データ保持ポリシーの実装、外部アクセスポイントへのデータのエクスポート等の設定も可能です。 分析 SQL クエリエンジンが組み込まれているため、アドホック SQL クエリまたはスケジュールされた SQL クエリの実行を行うことができます。そして、時系列分析に対応しており、、時間の経過とともにデバイスのパフォーマンスを分析したり、使用方法や使用場所を把握するだけでなく、デバイスデータを継続的にモニタリングしてメンテナンスの問題を予測したり、センサーをモニタリングして環境条件を予測して対応することが可能となります。さらた時系列データを用いて差分データのみの分析などもできるようになります。 また、統計分析やAmazon […]

Read More

Apache MXNet を Amazon SageMaker および AWS Greengrass ML Inference と共に使用する脳組織のセグメント化 – パート 1

医療画像のアノテーションとセグメンテーションは、困難な作業ですが深層学習 (DL) 技術によって部分的に自動化することができます。こうした手法は、画素レベルで画像を分類することを目的とする一般的なセグメンテーションタスクにおいて最先端の結果を達成しています。 このブログ記事のパート 1 では、Amazon SageMaker を使用する簡単で合理的な方法で、MRI スキャンから脳組織を自動的にセグメント化するためにニューラルネットワークをトレーニングおよびデプロイする方法を紹介します。Apache MXNet を使って、「Bring Your Own Script」のパラダイムを採用する Amazon SageMaker で畳み込みニューラルネットワーク (CNN) をトレーニングします。U-Net と効率的で低レイテンシーの ENet の 2 つのネットワークをトレーニングします。パート 2 では、AWS Greengrass ML Inference を使用して、低接続または非接続の環境でのオフライン推論用のポータブルエッジデバイスに ENet をデプロイする方法を見ていきます。 この記事ではこのアプローチを脳の MRI に適用しますが、一般的なセグメンテーションの手法として、X 線の分析などの類似のユースケースに適用できます。 このブログ記事では、高レベルの概要を紹介します。完全なチュートリアルのノートブックについては、GitHub にある Amazon SageMaker の脳セグメンテーションを参照してください。 このブログ記事の最後で、ここに示すように MRI からの脳組織のセグメンテーションを予測します。 このユースケースでは、医療画像を保護医療情報 (PHI) ではなく未処理画像として取り扱っていますが、以下の点に注意してください。 AWS Greengrass は、この記事の執筆時点では AWS HIPAA 準拠サービスではありません。AWS Business Associate […]

Read More

re:Invent 2018 での AI と機械学習の案内

re:Invent 2018 がもうすぐ開催されます! 議題を考えるとき、人工知能 (AI) は間違いなくホットなテーマです。今年は 200 以上のブレークアウトセッション、ハンズオンワークショップ、ディープダイブチョークトークなどで、AI、機械学習 (ML)、深層学習 (DL) についての多くの優れた技術的な内容が用意されています。Sony、Moody’s、NFL、Intuit、21st Century Fox、トヨタなどの顧客やパートナーから直接 AWS での機械学習の成功事例を聞けます。今年の re:Invent はまた、AI サミットも併催され、学術界の思想リーダー達が AI の未来について語ります。 イベント概要を計画するのに役立つ、今年の re:Invent セッションカタログから、いくつかのハイライトを取り上げて紹介します。 AI と ML 入門 一般的な ML のユースケース 最先端の ML トピック AI サミット AI と ML 入門 AI が初めての方は、機械学習と深い学習の基礎概念を学ぶためのセッションをいくつかご用意しています。Amazon SageMaker 機械学習プラットフォーム、深層学習フレームワーク、視覚と言語に関する AI サービスの概要説明とデモを行います。これらのサービスは、始めるにあたって機械学習のスキルを必要としません。 リーダーシップセッション – 機械学習 (セッション AIM202) Amazon は個別化、推奨エンジン、フルフィルメントセンターのロボティクスまで、AI 分野で長い歴史を持っています。Amazon Go、Amazon Alexa、Amazon […]

Read More

Amazon SageMaker 自動モデルチューニングによる高精度なモデル、高速化

Amazon SageMaker では、このほど、機械学習モデルのハイパーパラメータ値を自動的に調整することで、より正確な予測を生成できる機能をリリースしました。ハイパーパラメータは、トレーニング中にアルゴリズムがどのように動作するかを示すユーザー定義の設定です。例としては、データを繰り返し処理する毎に、決定木のサイズを拡張する方法、セグメンテーションで必要なクラスタの数やニューラルネットワークの重み付けを更新する方法などがあります。 機械学習モデルに適したハイパーパラメータ値を選択することは、最終的な精度とパフォーマンスに大きな影響を与える可能性があるため重要です。しかしながら、ハイパーパラメータ値を設定するプロセスは難しい場合があります。正しいやり方はデータによって異なります。アルゴリズムによっては、調整が可能なさまざまなハイパーパラメータがあります。一部のハイパーパラメータは、選択した値に対して他のパラメータよりも敏感に反応します。ほとんどの場合、モデルフィットとハイパーパラメータ値の間には非線形の関係があります。 ハイパーパラメータ値を選択するためのさまざまな方策があります。一部のサイエンティストは、ドメイン知識、経験則、直感、または手動の実験を活用します。他のサイエンティストは力まかせ探索を使用します。いくつかのメタモデルを構築して、どのようなハイパーパラメータ値がうまくいくか予測します。このアプローチの詳細については、Shahriari et alを参照してください。(2016) 方法にかかわらず、ハイパーパラメータ値の選択によっては、新たな機械学習の問題を解決するための特殊なスキルセットを必要になる場合があります。 Amazon SageMaker 自動モデルチューニングを使えば、この作業が容易になります。 ガウス過程回帰 (Gaussian Process regression) を使用して、どのパラメータ値がフィットを改善するのに最も効果的かを予測します。また、ベイズ最適化を使用して、ハイパーパラメータの領域の探索と特定のハイパーパラメータ値の利用が適切な場合にバランスをとることができます。また、重要なポイントとして、Amazon SageMakerの組み込みアルゴリズム、あらかじめ構築された詳細な深層学習フレームワーク、独自アルゴリズムコンテナを使って、自動モデルチューニングを使用することができます。 本ブログ記事では、Amazon SageMakerでハイパーパラメータチューニングを実行し、2つの方法を比較する方法を紹介します。つまり、自動モデルチューニングとランダム検索です。 単純に無作為に選んだハイパーパラメータ値は、最終的なフィットとそれに到達するために必要なジョブの数の両方に適したベースラインとしてしばしば利用できます。最先端の方法にも匹敵する方法です。 問題の概要 本記事では、全体的なアプローチについて説明します。 詳細と完全なステップバイステップの使い方については、対応する例・ノート。 使用するデータセットは、一般的なコンピュータビジョンベンチマークである CIFAR-10 画像データセット。 これは、60K 32×32 ピクセルのカラー画像 (50K トレイン、10Kテスト) で構成され、10 クラスに均等に分散しています。そのサイズは、ダウンロードするには十分に小さく、1つのインスタンスでトレーニングを行います。しかし、さまざまなアプローチの違いがハイライトされるので難しい作業です。 私たちは、Amazon SageMaker MXNetコンテナを使用して、ResNet-34 畳み込み画像分類ニューラルネットワークをトレーニングし、確率的勾配降下を使用してネットワークの重みを見つけます。すべてのジョブ実行に対して、単一の ml.p3.8xlarge インスタンスで、エポックを 50、ミニバッチサイズを 1,024 に修正します。私たちの目標は、ハイパーパラメータのチューニングを通してホールドアウトによる分類精度を向上させる方法と、各チューニング方法がどのように機能するかを示すことです。 この例をエンドツーエンドで実行すると約 400 USD の費用がかかります。 トレーニング 一度デフォルトのハイパーパラメータ値を使って、シンプルにモデルをトレーニングしてみましょう。 確率的勾配降下 (SGD) を使用して畳み込みニューラルネットワーク (CNN) をトレーニングしています。これは、トレーニング損失を改善するネットワーク重みを変更する方向を見つけることでトレーニング損失を最小限に抑える方法です。SGD はその方向の重みを少し更新して繰り返します。これらの3つのハイパーパラメータに焦点を当てます : learning_rate: 重みに対して行う更新の大きさを制御します。 momentum: 前回の更新の方向からの情報を使い、現在の更新を知らせます。 デフォルト値 0 は、現在のバッチ内の情報のみに基づいて重みの更新が行われることを意味します。 wd: […]

Read More

今すぐ利用可能 – SAP HANAに最適な6, 9, 12TBメモリを搭載したAmazon EC2 ハイメモリインスタンス

私が1977年に組み立てたコンピュータAltair 8800は、わずか4キロバイトのメモリしか持っていませんでした。現在、約40億倍の12テラバイト (正確には12テビバイト)のメモリを搭載したEC2インスタンスを使うことができます。 新しいAmazon EC2 ハイメモリインスタンスは、Amazon Elastic Block Store (EBS)、Amazon Simple Storage Service (S3)、AWS Identity and Access Management (IAM)、Amazon CloudWatch、そしてAWS Configといった他のAWSサービスを活用できます。これらは、AWSのお客様が大規模なSAP HANAのインストールを実行できるように設計されており、エンタープライズレベルのデータ保護とビジネス継続性を提供する本稼働システムの構築に使用できます。 スペックは以下の通りです: インスタンス名 メモリ 論理プロセッサ 専用のEBS帯域 ネットワーク帯域 u-6tb1.metal 6 TiB 448 14 Gbps 25 Gbps u-9tb1.metal 9 TiB 448 14 Gbps 25 Gbps u-12tb1.metal 12 TiB 448 14 Gbps 25 Gbps

Read More