Amazon Web Services ブログ

Apache MXNet を Amazon SageMaker および AWS Greengrass ML Inference と共に使用する脳組織のセグメント化 – パート 1

医療画像のアノテーションとセグメンテーションは、困難な作業ですが深層学習 (DL) 技術によって部分的に自動化することができます。こうした手法は、画素レベルで画像を分類することを目的とする一般的なセグメンテーションタスクにおいて最先端の結果を達成しています。 このブログ記事のパート 1 では、Amazon SageMaker を使用する簡単で合理的な方法で、MRI スキャンから脳組織を自動的にセグメント化するためにニューラルネットワークをトレーニングおよびデプロイする方法を紹介します。Apache MXNet を使って、「Bring Your Own Script」のパラダイムを採用する Amazon SageMaker で畳み込みニューラルネットワーク (CNN) をトレーニングします。U-Net と効率的で低レイテンシーの ENet の 2 つのネットワークをトレーニングします。パート 2 では、AWS Greengrass ML Inference を使用して、低接続または非接続の環境でのオフライン推論用のポータブルエッジデバイスに ENet をデプロイする方法を見ていきます。 この記事ではこのアプローチを脳の MRI に適用しますが、一般的なセグメンテーションの手法として、X 線の分析などの類似のユースケースに適用できます。 このブログ記事では、高レベルの概要を紹介します。完全なチュートリアルのノートブックについては、GitHub にある Amazon SageMaker の脳セグメンテーションを参照してください。 このブログ記事の最後で、ここに示すように MRI からの脳組織のセグメンテーションを予測します。 このユースケースでは、医療画像を保護医療情報 (PHI) ではなく未処理画像として取り扱っていますが、以下の点に注意してください。 AWS Greengrass は、この記事の執筆時点では AWS HIPAA 準拠サービスではありません。AWS Business Associate […]

Read More

re:Invent 2018 での AI と機械学習の案内

re:Invent 2018 がもうすぐ開催されます! 議題を考えるとき、人工知能 (AI) は間違いなくホットなテーマです。今年は 200 以上のブレークアウトセッション、ハンズオンワークショップ、ディープダイブチョークトークなどで、AI、機械学習 (ML)、深層学習 (DL) についての多くの優れた技術的な内容が用意されています。Sony、Moody’s、NFL、Intuit、21st Century Fox、トヨタなどの顧客やパートナーから直接 AWS での機械学習の成功事例を聞けます。今年の re:Invent はまた、AI サミットも併催され、学術界の思想リーダー達が AI の未来について語ります。 イベント概要を計画するのに役立つ、今年の re:Invent セッションカタログから、いくつかのハイライトを取り上げて紹介します。 AI と ML 入門 一般的な ML のユースケース 最先端の ML トピック AI サミット AI と ML 入門 AI が初めての方は、機械学習と深い学習の基礎概念を学ぶためのセッションをいくつかご用意しています。Amazon SageMaker 機械学習プラットフォーム、深層学習フレームワーク、視覚と言語に関する AI サービスの概要説明とデモを行います。これらのサービスは、始めるにあたって機械学習のスキルを必要としません。 リーダーシップセッション – 機械学習 (セッション AIM202) Amazon は個別化、推奨エンジン、フルフィルメントセンターのロボティクスまで、AI 分野で長い歴史を持っています。Amazon Go、Amazon Alexa、Amazon […]

Read More

Amazon SageMaker 自動モデルチューニングによる高精度なモデル、高速化

Amazon SageMaker では、このほど、機械学習モデルのハイパーパラメータ値を自動的に調整することで、より正確な予測を生成できる機能をリリースしました。ハイパーパラメータは、トレーニング中にアルゴリズムがどのように動作するかを示すユーザー定義の設定です。例としては、データを繰り返し処理する毎に、決定木のサイズを拡張する方法、セグメンテーションで必要なクラスタの数やニューラルネットワークの重み付けを更新する方法などがあります。 機械学習モデルに適したハイパーパラメータ値を選択することは、最終的な精度とパフォーマンスに大きな影響を与える可能性があるため重要です。しかしながら、ハイパーパラメータ値を設定するプロセスは難しい場合があります。正しいやり方はデータによって異なります。アルゴリズムによっては、調整が可能なさまざまなハイパーパラメータがあります。一部のハイパーパラメータは、選択した値に対して他のパラメータよりも敏感に反応します。ほとんどの場合、モデルフィットとハイパーパラメータ値の間には非線形の関係があります。 ハイパーパラメータ値を選択するためのさまざまな方策があります。一部のサイエンティストは、ドメイン知識、経験則、直感、または手動の実験を活用します。他のサイエンティストは力まかせ探索を使用します。いくつかのメタモデルを構築して、どのようなハイパーパラメータ値がうまくいくか予測します。このアプローチの詳細については、Shahriari et alを参照してください。(2016) 方法にかかわらず、ハイパーパラメータ値の選択によっては、新たな機械学習の問題を解決するための特殊なスキルセットを必要になる場合があります。 Amazon SageMaker 自動モデルチューニングを使えば、この作業が容易になります。 ガウス過程回帰 (Gaussian Process regression) を使用して、どのパラメータ値がフィットを改善するのに最も効果的かを予測します。また、ベイズ最適化を使用して、ハイパーパラメータの領域の探索と特定のハイパーパラメータ値の利用が適切な場合にバランスをとることができます。また、重要なポイントとして、Amazon SageMakerの組み込みアルゴリズム、あらかじめ構築された詳細な深層学習フレームワーク、独自アルゴリズムコンテナを使って、自動モデルチューニングを使用することができます。 本ブログ記事では、Amazon SageMakerでハイパーパラメータチューニングを実行し、2つの方法を比較する方法を紹介します。つまり、自動モデルチューニングとランダム検索です。 単純に無作為に選んだハイパーパラメータ値は、最終的なフィットとそれに到達するために必要なジョブの数の両方に適したベースラインとしてしばしば利用できます。最先端の方法にも匹敵する方法です。 問題の概要 本記事では、全体的なアプローチについて説明します。 詳細と完全なステップバイステップの使い方については、対応する例・ノート。 使用するデータセットは、一般的なコンピュータビジョンベンチマークである CIFAR-10 画像データセット。 これは、60K 32×32 ピクセルのカラー画像 (50K トレイン、10Kテスト) で構成され、10 クラスに均等に分散しています。そのサイズは、ダウンロードするには十分に小さく、1つのインスタンスでトレーニングを行います。しかし、さまざまなアプローチの違いがハイライトされるので難しい作業です。 私たちは、Amazon SageMaker MXNetコンテナを使用して、ResNet-34 畳み込み画像分類ニューラルネットワークをトレーニングし、確率的勾配降下を使用してネットワークの重みを見つけます。すべてのジョブ実行に対して、単一の ml.p3.8xlarge インスタンスで、エポックを 50、ミニバッチサイズを 1,024 に修正します。私たちの目標は、ハイパーパラメータのチューニングを通してホールドアウトによる分類精度を向上させる方法と、各チューニング方法がどのように機能するかを示すことです。 この例をエンドツーエンドで実行すると約 400 USD の費用がかかります。 トレーニング 一度デフォルトのハイパーパラメータ値を使って、シンプルにモデルをトレーニングしてみましょう。 確率的勾配降下 (SGD) を使用して畳み込みニューラルネットワーク (CNN) をトレーニングしています。これは、トレーニング損失を改善するネットワーク重みを変更する方向を見つけることでトレーニング損失を最小限に抑える方法です。SGD はその方向の重みを少し更新して繰り返します。これらの3つのハイパーパラメータに焦点を当てます : learning_rate: 重みに対して行う更新の大きさを制御します。 momentum: 前回の更新の方向からの情報を使い、現在の更新を知らせます。 デフォルト値 0 は、現在のバッチ内の情報のみに基づいて重みの更新が行われることを意味します。 wd: […]

Read More

今すぐ利用可能 – SAP HANAに最適な6, 9, 12TBメモリを搭載したAmazon EC2 ハイメモリインスタンス

私が1977年に組み立てたコンピュータAltair 8800は、わずか4キロバイトのメモリしか持っていませんでした。現在、約40億倍の12テラバイト (正確には12テビバイト)のメモリを搭載したEC2インスタンスを使うことができます。 新しいAmazon EC2 ハイメモリインスタンスは、Amazon Elastic Block Store (EBS)、Amazon Simple Storage Service (S3)、AWS Identity and Access Management (IAM)、Amazon CloudWatch、そしてAWS Configといった他のAWSサービスを活用できます。これらは、AWSのお客様が大規模なSAP HANAのインストールを実行できるように設計されており、エンタープライズレベルのデータ保護とビジネス継続性を提供する本稼働システムの構築に使用できます。 スペックは以下の通りです: インスタンス名 メモリ 論理プロセッサ 専用のEBS帯域 ネットワーク帯域 u-6tb1.metal 6 TiB 448 14 Gbps 25 Gbps u-9tb1.metal 9 TiB 448 14 Gbps 25 Gbps u-12tb1.metal 12 TiB 448 14 Gbps 25 Gbps

Read More

新しくなった Amazon Aurora の Parallel Query

Amazon Aurora は、豊富なネットワーキング、処理、およびクラウド上で利用可能なストレージリソースを最大限に活用できるように設計されたリレーショナルデータベースです。Amazon Aurora は、MySQL と PostgreSQL との互換性をユーザー側で維持することができ、最新かつ専用の分散ストレージシステムを使用しています。データは、3 つの異なる AWS アベイラビリティゾーンに分散する数百のストレージノードにストライプ化され、高速 SSD ストレージの各ゾーンに 2 つづつコピーを作成します。次のようになります (Amazon Aurora の開始方法から抜粋): 新しくなった Parallel Query Amazon Aurora を立ち上げた際、同じスケールアウト設計原理を、他のデータベーススタックの層にも適用するつもりであることをお伝えしていました。今日は、今後の予定についてお話したいと思います。 上に描かれたストレージ層の各ノードは、大きな処理能力も持ち合わせています。Amazon Aurora は現在、分析クエリ (通常は、かなりサイズが大きいテーブルのすべてまたは大部分を処理するクエリ) を使用して、処理能力を最大限に活用することができます。また、数百または数千のストレージノード全体を並列で実行することで、処理スピードは2 桁台に近づいています。今回のニューモデルは、ネットワーク、CPU、およびバッファプールの競合を減らすため、同じテーブル上で分析クエリとトランザクションクエリを同時に実行でき、かつ両クエリで高いスループットを維持します。 インスタンスクラスは、指定された時間にアクティブにできる並列クエリの数を決定します: db.r*.large – 1 つの同時並列クエリセッション db.r*.xlarge – 2 つの同時並列クエリセッション db.r*.2xlarge – 4 つの同時並列クエリセッション db.r*.4xlarge – 8 つの同時並列クエリセッション db.r*.8xlarge –16 個の同時並列クエリセッション db.r4.16xlarge – 16 個の同時並列クエリセッション Aurora_pq パラメーターを使用して、グローバルレベルおよびセッションレベルで、並列クエリの使用を有効または無効にすることができます。 並列クエリは、200を超える単一テーブルの述語およびハッシュ結合のパフォーマンスを向上させることが可能です。Amazon […]

Read More

【開催報告】AWS Data Lake ハンズオンセミナー 秋

こんにちは。AWS ソリューションアーキテクトの上原誠(@pioh07)です。 9月21日に、「AWS Data Lake ハンズオンセミナー」を開催いたしました。前回行ったワークショップの3回目となります。前回も盛況でしたが、今回も80名近くのお客様にご参加頂きました。 はじめに、AWSにおけるデータ活用のベストプラクティスであるAmazon S3を中心とした Data Lakeについて解説し、ビッグデータ分析基盤の考え方として有名なラムダアーキテクチャの解説を行いました。 当イベントでは、AthenaやRedshiftのAWSサービスを駆使して実際にラムダアーキテクチャを構築してみる、というのがゴールです。とはいえすべてを構築し切るのはボリュームが大きいため、コース別に取り組めるようにハンズオンコンテンツを用意しました。最初にコースの説明を行い、出席いただいたお客様ご自身の課題に合わせてコースを選択頂き、ハンズオンを行っていただきました。今回、参加者も多くいらっしゃいましたので、サポートするソリューションアーキテクトも4名で対応させていただきました。 今回参加できなかった方も、ソリューションアーキテクトのサポートを受けながらハンズオンを行いログ分析を初めてみてはいかがでしょうか?   次回は冬ごろに開催予定です。ご参加お待ちしております。

Read More

New Engen は Amazon Rekognition を使用して、顧客獲得マーケティングキャンペーンを改善

New Engen は顧客企業が新しい顧客を獲得することを支援するために、独自のソフトウェア製品と創造的なソリューションを使用するクロスチャネルパフォーマンスマーケティングテクノロジー企業です。New Engen は、マーケティング、AI、創造的な専門知識を統合して、顧客企業がデジタルマーケティング予算を Facebook、Google、インスタグラム、Snap などに最適に振り分けることを支援するワンストップソリューションを提供しています。 広告キャンペーンパフォーマンスを向上 New Engen では広告キャンペーンパフォーマンスを向上するために、ディープラーニングベースのイメージとビデオ分析サービスである Amazon Rekognition を使用して、クリエイティブな広告ライブラリのイメージからメタデータを抽出します。このメタデータは内部レポートに取り込まれ、共通のラベルでイメージを整理します。レポートには広告イメージがどれくらいのパフォーマンスかが表示されます。例えば、人物、化粧品、都市などのラベルを含む写真は、エンゲージメント率、表示回数、合計クリック数などのメトリクスを使用して、パフォーマンス分析と一緒に集計されます。これにより、クリエイティブチームは類似したラベルを持つ広告イメージを簡単にフィルタリングして、特定の広告イメージの一般的な側面を評価し、パフォーマンスの向上と低下の原因を評価します。 仕組みの説明 創造的な広告イメージを構築することは費用がかかります。そのため、New Engen は、広告イメージ分析と結合したデータによってクリエイティブな決定が確実に行われるようにしたいと考えました。これを説明するため、以下の簡略した例では、クリエイティブチームがデータ駆動型の決定にどのようにイメージメタデータを使用するかを説明しています。すべてのメタデータを集約したレポートにより、クリエイティブチームは自分が作業しているアカウントを選択して、類似したイメージがどのようなパフォーマンスであったかを確認することができます。この例では、「不良」および「平均」とマークされたイメージは、「良好」とマークされたイメージと比較して、大きな違いがあります。 例えば、「平均」イメージでは犬はカメラを見ておらず、「悪い」イメージでは銀のボウルが使用されず、犬の頭も傾いています。この情報を 1 か所に集約することで、顧客企業のために広告を作成したり、A/B 試験を実行する際に、New Engen のクリエイティブチームがより効率的で、データに基づいた方法を可能にしました。 「Amazon Rekognition は、当社のアルゴリズムが何十万ものイメージを分析し、効率的な時間内で一貫したイメージタグ付けと分析を提供することで、当社の顧客が最も共感するようなテーマや素材を見つけ出すことを支援しています。Rekognition は創造的な広告を開発するプロセスを合理化し、成功するマーケティングキャンペーンを推進するイメージプロパティを決定するために費やした貴重な時間を取り戻すことを可能にしてくれました」と New Engen のリードエンジニア Charles Brophy は述べています。 まとめ New Engen は Amazon Rekognition を使用することで、クリエイティブ広告の構築と特定の視聴者が共感するイメージを選択することから不確定さを排除することができました。クリエイティブデザイナーは、Amazon Rekognition から生成されたラベルで New Engen の広告イメージをフィルタリングできるようになり、すでに成功実績のあるイメージを簡単に見つけることができます。 「Amazon Rekognition からメタデータを抽出するこの簡単な使い方によって、クリエイティブチームは、実績のあるイメージや作成するイメージタイプをすばやく見つけるのに必要なデータを得ることができました。Rekognition の使用は簡単で、DetectLabels API を使用するだけで、この成果を達成しました」と Brophy は語ります。 今回のブログ投稿者について […]

Read More

Amazon SageMaker を使用して、間違いの経済的コストが不均等なモデルをトレーニングする

多くの企業は、機械学習 (ML) に取り組んで、顧客やビジネスに対する成果を向上させています。そのために、「ビッグデータ」に基づいて構築された ML モデルの力を活用して、パターンを特定し、相関関係を見つけ出しています。次に、新しいインスタンスに関するデータに基づいて、適切なアプローチを特定したり、可能性のある結果を予測したりすることができます。ただし、ML モデルは実世界の近似なので、こうした予測の一部が誤っている可能性もあります。 一部のアプリケーションでは、すべてのタイプの予測の間違いの影響が実際には同等です。他のアプリケーションでは、ある種の間違いは、別の間違いよりもはるかに高価または重大になります – ドル、時間、または何か他の単位で絶対的または相対的に測定されます。例えば、医学的推定によって誰かが乳癌に罹っていないと予測して実際には罹っていたとすると (偽陰性の間違い)、逆の間違いよりもはるかに大きなコストまたは結果が生じるでしょう。偽陰性の間違いを十分に減らして補えるなら、より多くの偽陽性の誤りを許容することも可能かもしれません。 このブログ記事では、トレードオフの透明性を高めながら、望ましくない間違いを減らすという目標で、間違いのコストが不均等であるアプリケーションに対処します。異なる種類の誤分類のコストが非常に異なるバイナリ分類問題について、Amazon SageMaker のモデルをトレーニングする方法を紹介します。このトレードオフを調べるために、非対称の誤分類コストを組み込んだカスタム損失関数 (モデルがどの程度うまく予測を行っているかを評価するメトリクス) を書く方法を示します。そして、その損失関数を使って、Amazon SageMaker Build Your Own Model をトレーニングする方法を示します。さらに、モデルによる間違いの評価方法と、異なる相対コストでトレーニングされたモデルを比較する方法を示し、全体として最良の経済的成果を持つモデルを特定できるようにします。 このアプローチの利点は、ML モデルの成果と間違いと意思決定のためのビジネスの枠組みを明示的にリンク付けできることです。このアプローチでは、予測に基づいて対処するべき具体的な行動に基づいて、ビジネスがコストマトリクスを明示的に提示する必要があります。そうすることで、ビジネスはモデル予測の経済的帰結を全体的なプロセス、予測に基づいて対処した行動、それらに関連するコストで評価することができます。この評価プロセスは、モデルの分類結果を単純に評価するだけではありません。このアプローチは、ビジネスにおける挑戦的な議論を促し、オープンな議論と合意のためにさまざまな暗黙の意思決定や評価を明らかにすることができます。 背景とソリューションの概要 モデルのトレーニングは常に間違いを最小限に抑えることを目指していますが、ほとんどのモデルは、すべてのタイプの間違いが等しいと想定してトレーニングされています。しかし、種類が異なる間違いのコストが等しくないことが分かったらどうなるでしょうか? たとえば、UCI の乳癌診断データセットでトレーニングされたサンプルモデルを取り上げましょう。1 明らかに、偽陽性の予測 (乳癌ではないのに、乳癌であると予測する) は、偽陰性の予測 (乳癌であるのに、乳癌でないと予測する) とは非常に異なる結果をもたらすでしょう。最初のケースでは、追加スクリーニングが行われます。2 番目のケースでは、発見される前に癌が進行してしまう可能性があります。こうした結果を定量化するために、しばしば結果を相対コストの観点から議論し、トレードオフが可能になります。偽陰性や偽陽性の予測の正確なコストがどうあるべきかを議論することはできますが、少なくともすべてが同じではないことに全員が同意すると確信しています – ML モデルは一般にすべてが同じであるかのようにトレーニングされますが。 カスタムのコスト関数を使用してモデルを評価し、モデルが行っている間違いの経済的影響を確認することができます (効用解析)。Elkan2 は、モデルの結果にコスト関数を適用することで、標準的なベイジアンおよび意思決定木の学習方法で使用される場合の不均衡なサンプルを補正することができると示しました (例: より少ない債務不履行、大量の債務返済のサンプル)。また、カスタム関数を使用して、この同じ補正を実行することもできます。 モデルでは、カスタムの損失関数を使用して、トレーニング中にさまざまなタイプの間違いのコストをモデルに提供することで、コストの差異を反映した方法でモデルに予測を「シフト」させることもできます。たとえば、前述の乳癌の例では、モデルが行う偽陰性の間違いを少なくしたいと考えており、その目的を達成するために偽陽性をより多く受け入れる意思があります。さらに言うなら、偽陰性を少なくするためには、いくつかの「正しい」予測をあきらめても構わないかもしれません。少なくとも、ここではトレードオフを理解したいと考えます。この例では、医療業界のコストを使用します。3,4 さらに、多くの場合、モデルの予測は「ほぼ」として予測されていることを理解したいと思います。たとえば、バイナリモデルでは、スコアを「True」または「False」として分類するためにカットオフ (例、0.5) を使用します。 実際に、どのくらいのケースがカットオフに非常に近いでしょうか? スコアが 0.499999 だったので、偽陰性はそのように分類されたのでしょうか? こうした詳細は、混同行列または AUC 評価の通常の表現では見られません。こうした質問に取り組むために、特定の閾値に依存することなくこれらの詳細を調べることができる、モデル予測の斬新でグラフィカルな表現を開発しました。 実際に、特定の種類の間違いを回避するようにトレーニングされたモデルが、間違いの差別化に特化し始める可能性が高いケースがあります。街路から見える標識の誤認識がすべて同じであると信じるようにトレーニングされたニューラルネットワークを想像してみてください。 5 それでは、一時停止標識を速度制限 45 mph の標識として誤って認識することは、2 […]

Read More

AWS データ転送料金の値下げ – 値下げ幅は日本向けで最大 34%、オーストラリア向けで最大 28%

アジアパシフィック (東京) およびアジアパシフィック (シドニー) リージョンで AWS をご利用のお客様には良いお知らせがあります。 2018 年 9 月 1 日にさかのぼって、料金を値下げいたします。対象は Amazon Elastic Compute Cloud (EC2)、Amazon Simple Storage Service (S3)、Amazon CloudFront からのデータ転送で、値下げ幅は日本向けで最大 34%、オーストラリア向けで最大 28% です。 EC2 および S3 データ転送 EC2 および S3 からインターネットへのデータ転送の新料金は次のとおりです。 EC2 & S3 からインターネットへのデータ転送量 (アウト) 日本 オーストラリア 旧料金 新料金 値下げ幅 旧料金 新料金 値下げ幅 最初の 1 GB/月まで 0.000 USD 0.000 USD 0% […]

Read More

接続されたデバイスの異常な動作をAWS IoT Device Defenderを利用して検知する

HBOの人気シリーズSilicon Valleyでは、Gilfoyleが冷蔵庫をハックして悪意あるソフトウエアが実行されるシーンが登場します。これはテレビや映画に限ったことではなく、現実世界でも実際に起きうるシナリオです。 この様に侵入された冷蔵庫は許可されていないエンドポイントにカスタマーの情報を送ることが可能です。 ネットに接続された冷蔵庫などのデバイスは、IoTアプリケーションの安全な動作を保証するために保護する必要があります。 しかし、接続されたデバイスのセキュリティを企業が管理することは難しいことです。 すべてのセキュリティ対策が施行されているにもかかわらず、Gilfoyleの様なハッカーは、繰り返し接続されたデバイスに侵入する可能性があります。 この様な出来事にタイムリーに対応するには、侵入したデバイスを検出することが不可欠です。 AWS IoT Device Defenderは、デバイス上で実行するエージェントと連携して、デバイスの異常動作を検出し、必要な処置を実行できます。

Read More