Amazon Web Services ブログ

新しくなった Amazon Aurora の Parallel Query

Amazon Aurora は、豊富なネットワーキング、処理、およびクラウド上で利用可能なストレージリソースを最大限に活用できるように設計されたリレーショナルデータベースです。Amazon Aurora は、MySQL と PostgreSQL との互換性をユーザー側で維持することができ、最新かつ専用の分散ストレージシステムを使用しています。データは、3 つの異なる AWS アベイラビリティゾーンに分散する数百のストレージノードにストライプ化され、高速 SSD ストレージの各ゾーンに 2 つづつコピーを作成します。次のようになります (Amazon Aurora の開始方法から抜粋): 新しくなった Parallel Query Amazon Aurora を立ち上げた際、同じスケールアウト設計原理を、他のデータベーススタックの層にも適用するつもりであることをお伝えしていました。今日は、今後の予定についてお話したいと思います。 上に描かれたストレージ層の各ノードは、大きな処理能力も持ち合わせています。Amazon Aurora は現在、分析クエリ (通常は、かなりサイズが大きいテーブルのすべてまたは大部分を処理するクエリ) を使用して、処理能力を最大限に活用することができます。また、数百または数千のストレージノード全体を並列で実行することで、処理スピードは2 桁台に近づいています。今回のニューモデルは、ネットワーク、CPU、およびバッファプールの競合を減らすため、同じテーブル上で分析クエリとトランザクションクエリを同時に実行でき、かつ両クエリで高いスループットを維持します。 インスタンスクラスは、指定された時間にアクティブにできる並列クエリの数を決定します: db.r*.large – 1 つの同時並列クエリセッション db.r*.xlarge – 2 つの同時並列クエリセッション db.r*.2xlarge – 4 つの同時並列クエリセッション db.r*.4xlarge – 8 つの同時並列クエリセッション db.r*.8xlarge –16 個の同時並列クエリセッション db.r4.16xlarge – 16 個の同時並列クエリセッション Aurora_pq パラメーターを使用して、グローバルレベルおよびセッションレベルで、並列クエリの使用を有効または無効にすることができます。 並列クエリは、200を超える単一テーブルの述語およびハッシュ結合のパフォーマンスを向上させることが可能です。Amazon […]

Read More

【開催報告】AWS Data Lake ハンズオンセミナー 秋

こんにちは。AWS ソリューションアーキテクトの上原誠(@pioh07)です。 9月21日に、「AWS Data Lake ハンズオンセミナー」を開催いたしました。前回行ったワークショップの3回目となります。前回も盛況でしたが、今回も80名近くのお客様にご参加頂きました。 はじめに、AWSにおけるデータ活用のベストプラクティスであるAmazon S3を中心とした Data Lakeについて解説し、ビッグデータ分析基盤の考え方として有名なラムダアーキテクチャの解説を行いました。 当イベントでは、AthenaやRedshiftのAWSサービスを駆使して実際にラムダアーキテクチャを構築してみる、というのがゴールです。とはいえすべてを構築し切るのはボリュームが大きいため、コース別に取り組めるようにハンズオンコンテンツを用意しました。最初にコースの説明を行い、出席いただいたお客様ご自身の課題に合わせてコースを選択頂き、ハンズオンを行っていただきました。今回、参加者も多くいらっしゃいましたので、サポートするソリューションアーキテクトも4名で対応させていただきました。 今回参加できなかった方も、ソリューションアーキテクトのサポートを受けながらハンズオンを行いログ分析を初めてみてはいかがでしょうか?   次回は冬ごろに開催予定です。ご参加お待ちしております。

Read More

New Engen は Amazon Rekognition を使用して、顧客獲得マーケティングキャンペーンを改善

New Engen は顧客企業が新しい顧客を獲得することを支援するために、独自のソフトウェア製品と創造的なソリューションを使用するクロスチャネルパフォーマンスマーケティングテクノロジー企業です。New Engen は、マーケティング、AI、創造的な専門知識を統合して、顧客企業がデジタルマーケティング予算を Facebook、Google、インスタグラム、Snap などに最適に振り分けることを支援するワンストップソリューションを提供しています。 広告キャンペーンパフォーマンスを向上 New Engen では広告キャンペーンパフォーマンスを向上するために、ディープラーニングベースのイメージとビデオ分析サービスである Amazon Rekognition を使用して、クリエイティブな広告ライブラリのイメージからメタデータを抽出します。このメタデータは内部レポートに取り込まれ、共通のラベルでイメージを整理します。レポートには広告イメージがどれくらいのパフォーマンスかが表示されます。例えば、人物、化粧品、都市などのラベルを含む写真は、エンゲージメント率、表示回数、合計クリック数などのメトリクスを使用して、パフォーマンス分析と一緒に集計されます。これにより、クリエイティブチームは類似したラベルを持つ広告イメージを簡単にフィルタリングして、特定の広告イメージの一般的な側面を評価し、パフォーマンスの向上と低下の原因を評価します。 仕組みの説明 創造的な広告イメージを構築することは費用がかかります。そのため、New Engen は、広告イメージ分析と結合したデータによってクリエイティブな決定が確実に行われるようにしたいと考えました。これを説明するため、以下の簡略した例では、クリエイティブチームがデータ駆動型の決定にどのようにイメージメタデータを使用するかを説明しています。すべてのメタデータを集約したレポートにより、クリエイティブチームは自分が作業しているアカウントを選択して、類似したイメージがどのようなパフォーマンスであったかを確認することができます。この例では、「不良」および「平均」とマークされたイメージは、「良好」とマークされたイメージと比較して、大きな違いがあります。 例えば、「平均」イメージでは犬はカメラを見ておらず、「悪い」イメージでは銀のボウルが使用されず、犬の頭も傾いています。この情報を 1 か所に集約することで、顧客企業のために広告を作成したり、A/B 試験を実行する際に、New Engen のクリエイティブチームがより効率的で、データに基づいた方法を可能にしました。 「Amazon Rekognition は、当社のアルゴリズムが何十万ものイメージを分析し、効率的な時間内で一貫したイメージタグ付けと分析を提供することで、当社の顧客が最も共感するようなテーマや素材を見つけ出すことを支援しています。Rekognition は創造的な広告を開発するプロセスを合理化し、成功するマーケティングキャンペーンを推進するイメージプロパティを決定するために費やした貴重な時間を取り戻すことを可能にしてくれました」と New Engen のリードエンジニア Charles Brophy は述べています。 まとめ New Engen は Amazon Rekognition を使用することで、クリエイティブ広告の構築と特定の視聴者が共感するイメージを選択することから不確定さを排除することができました。クリエイティブデザイナーは、Amazon Rekognition から生成されたラベルで New Engen の広告イメージをフィルタリングできるようになり、すでに成功実績のあるイメージを簡単に見つけることができます。 「Amazon Rekognition からメタデータを抽出するこの簡単な使い方によって、クリエイティブチームは、実績のあるイメージや作成するイメージタイプをすばやく見つけるのに必要なデータを得ることができました。Rekognition の使用は簡単で、DetectLabels API を使用するだけで、この成果を達成しました」と Brophy は語ります。 今回のブログ投稿者について […]

Read More

Amazon SageMaker を使用して、間違いの経済的コストが不均等なモデルをトレーニングする

多くの企業は、機械学習 (ML) に取り組んで、顧客やビジネスに対する成果を向上させています。そのために、「ビッグデータ」に基づいて構築された ML モデルの力を活用して、パターンを特定し、相関関係を見つけ出しています。次に、新しいインスタンスに関するデータに基づいて、適切なアプローチを特定したり、可能性のある結果を予測したりすることができます。ただし、ML モデルは実世界の近似なので、こうした予測の一部が誤っている可能性もあります。 一部のアプリケーションでは、すべてのタイプの予測の間違いの影響が実際には同等です。他のアプリケーションでは、ある種の間違いは、別の間違いよりもはるかに高価または重大になります – ドル、時間、または何か他の単位で絶対的または相対的に測定されます。例えば、医学的推定によって誰かが乳癌に罹っていないと予測して実際には罹っていたとすると (偽陰性の間違い)、逆の間違いよりもはるかに大きなコストまたは結果が生じるでしょう。偽陰性の間違いを十分に減らして補えるなら、より多くの偽陽性の誤りを許容することも可能かもしれません。 このブログ記事では、トレードオフの透明性を高めながら、望ましくない間違いを減らすという目標で、間違いのコストが不均等であるアプリケーションに対処します。異なる種類の誤分類のコストが非常に異なるバイナリ分類問題について、Amazon SageMaker のモデルをトレーニングする方法を紹介します。このトレードオフを調べるために、非対称の誤分類コストを組み込んだカスタム損失関数 (モデルがどの程度うまく予測を行っているかを評価するメトリクス) を書く方法を示します。そして、その損失関数を使って、Amazon SageMaker Build Your Own Model をトレーニングする方法を示します。さらに、モデルによる間違いの評価方法と、異なる相対コストでトレーニングされたモデルを比較する方法を示し、全体として最良の経済的成果を持つモデルを特定できるようにします。 このアプローチの利点は、ML モデルの成果と間違いと意思決定のためのビジネスの枠組みを明示的にリンク付けできることです。このアプローチでは、予測に基づいて対処するべき具体的な行動に基づいて、ビジネスがコストマトリクスを明示的に提示する必要があります。そうすることで、ビジネスはモデル予測の経済的帰結を全体的なプロセス、予測に基づいて対処した行動、それらに関連するコストで評価することができます。この評価プロセスは、モデルの分類結果を単純に評価するだけではありません。このアプローチは、ビジネスにおける挑戦的な議論を促し、オープンな議論と合意のためにさまざまな暗黙の意思決定や評価を明らかにすることができます。 背景とソリューションの概要 モデルのトレーニングは常に間違いを最小限に抑えることを目指していますが、ほとんどのモデルは、すべてのタイプの間違いが等しいと想定してトレーニングされています。しかし、種類が異なる間違いのコストが等しくないことが分かったらどうなるでしょうか? たとえば、UCI の乳癌診断データセットでトレーニングされたサンプルモデルを取り上げましょう。1 明らかに、偽陽性の予測 (乳癌ではないのに、乳癌であると予測する) は、偽陰性の予測 (乳癌であるのに、乳癌でないと予測する) とは非常に異なる結果をもたらすでしょう。最初のケースでは、追加スクリーニングが行われます。2 番目のケースでは、発見される前に癌が進行してしまう可能性があります。こうした結果を定量化するために、しばしば結果を相対コストの観点から議論し、トレードオフが可能になります。偽陰性や偽陽性の予測の正確なコストがどうあるべきかを議論することはできますが、少なくともすべてが同じではないことに全員が同意すると確信しています – ML モデルは一般にすべてが同じであるかのようにトレーニングされますが。 カスタムのコスト関数を使用してモデルを評価し、モデルが行っている間違いの経済的影響を確認することができます (効用解析)。Elkan2 は、モデルの結果にコスト関数を適用することで、標準的なベイジアンおよび意思決定木の学習方法で使用される場合の不均衡なサンプルを補正することができると示しました (例: より少ない債務不履行、大量の債務返済のサンプル)。また、カスタム関数を使用して、この同じ補正を実行することもできます。 モデルでは、カスタムの損失関数を使用して、トレーニング中にさまざまなタイプの間違いのコストをモデルに提供することで、コストの差異を反映した方法でモデルに予測を「シフト」させることもできます。たとえば、前述の乳癌の例では、モデルが行う偽陰性の間違いを少なくしたいと考えており、その目的を達成するために偽陽性をより多く受け入れる意思があります。さらに言うなら、偽陰性を少なくするためには、いくつかの「正しい」予測をあきらめても構わないかもしれません。少なくとも、ここではトレードオフを理解したいと考えます。この例では、医療業界のコストを使用します。3,4 さらに、多くの場合、モデルの予測は「ほぼ」として予測されていることを理解したいと思います。たとえば、バイナリモデルでは、スコアを「True」または「False」として分類するためにカットオフ (例、0.5) を使用します。 実際に、どのくらいのケースがカットオフに非常に近いでしょうか? スコアが 0.499999 だったので、偽陰性はそのように分類されたのでしょうか? こうした詳細は、混同行列または AUC 評価の通常の表現では見られません。こうした質問に取り組むために、特定の閾値に依存することなくこれらの詳細を調べることができる、モデル予測の斬新でグラフィカルな表現を開発しました。 実際に、特定の種類の間違いを回避するようにトレーニングされたモデルが、間違いの差別化に特化し始める可能性が高いケースがあります。街路から見える標識の誤認識がすべて同じであると信じるようにトレーニングされたニューラルネットワークを想像してみてください。 5 それでは、一時停止標識を速度制限 45 mph の標識として誤って認識することは、2 […]

Read More

AWS データ転送料金の値下げ – 値下げ幅は日本向けで最大 34%、オーストラリア向けで最大 28%

アジアパシフィック (東京) およびアジアパシフィック (シドニー) リージョンで AWS をご利用のお客様には良いお知らせがあります。 2018 年 9 月 1 日にさかのぼって、料金を値下げいたします。対象は Amazon Elastic Compute Cloud (EC2)、Amazon Simple Storage Service (S3)、Amazon CloudFront からのデータ転送で、値下げ幅は日本向けで最大 34%、オーストラリア向けで最大 28% です。 EC2 および S3 データ転送 EC2 および S3 からインターネットへのデータ転送の新料金は次のとおりです。 EC2 & S3 からインターネットへのデータ転送量 (アウト) 日本 オーストラリア 旧料金 新料金 値下げ幅 旧料金 新料金 値下げ幅 最初の 1 GB/月まで 0.000 USD 0.000 USD 0% […]

Read More

接続されたデバイスの異常な動作をAWS IoT Device Defenderを利用して検知する

HBOの人気シリーズSilicon Valleyでは、Gilfoyleが冷蔵庫をハックして悪意あるソフトウエアが実行されるシーンが登場します。これはテレビや映画に限ったことではなく、現実世界でも実際に起きうるシナリオです。 この様に侵入された冷蔵庫は許可されていないエンドポイントにカスタマーの情報を送ることが可能です。 ネットに接続された冷蔵庫などのデバイスは、IoTアプリケーションの安全な動作を保証するために保護する必要があります。 しかし、接続されたデバイスのセキュリティを企業が管理することは難しいことです。 すべてのセキュリティ対策が施行されているにもかかわらず、Gilfoyleの様なハッカーは、繰り返し接続されたデバイスに侵入する可能性があります。 この様な出来事にタイムリーに対応するには、侵入したデバイスを検出することが不可欠です。 AWS IoT Device Defenderは、デバイス上で実行するエージェントと連携して、デバイスの異常動作を検出し、必要な処置を実行できます。

Read More

最新情報 – AWS Storage Gateway ハードウェアアプライアンス

AWS Storage Gateway は、お使いのオンプレミスアプリケーションを Amazon Simple Storage Service (S3)、Amazon Elastic Block Store (EBS)、Amazon Glacier のような AWS のストレージサービスに接続します。AWS Storage Gateway は既存の仮想環境内で実行され、ユーザーのアプリケーションやクライアントオペレーティングシステムでは、ファイル共有、ローカルブロックボリューム、または仮想テープライブラリとみなされます。こうして提供されるハイブリッドストレージモデルにより、バックアップ、アーカイブ、災害対策、クラウドデータ処理、ストレージの階層化、移行などを AWS Storage Gateways を使用して行えるようになります。 新たなハードウェアアプライアンス 本日より、Storage Gateway は現行の VMware ESXi、Microsoft Hyper-V、Amazon EC2 のサポートに加え、ハードウェアアプライアンスとして利用できるようになりました。つまり、仮想環境やサーバークラスのハードウェアがなくても、または専門的な管理スキルを持つ IT スタッフがいなくても、Storage Gateway を使用できるようになります。Amazon.com からアプライアンスを注文し、支店、倉庫、IT 専門のリソースが不在の営業所に配達できます。このあとご説明する簡便な設定で、3 種類のストレージソリューションがご利用になれます。 ファイルゲートウェイ – Amazon S3 へのファイルインターフェースで、NFS または SMB ファイル共有を使用してアクセス。ファイルは S3 オブジェクトとして格納され、ライフサイクル管理やクロスリージョンレプリケーションのような S3 の特徴的な機能の使用が可能になります。AWS Lambda 関数のトリガー、Amazon Athena […]

Read More

Amazon Rekognitionでの索引中に顔をフィルターして、時間とお金を節約します。

Amazon Rekognitionはオブジェクト、人物、文字、場面および活動を識別し、さらに不適切な内容を検知する、ディープラーニングベースの画像および映像分析サービスです。新しいAmazon Rekognitionの顔フィルター機能を使用して、顔認識のために索引できる顔の質と量を制御できます。これはコストを抑え、開発時間を減少し、顔認識の正確性を向上させます。 このリリースに先駆け、IndexFaces API アクションを使用するとき、Amazon Rekognitionは画像中のすべての顔を検知し、ご指定のコレクションに索引しました。しかし、一部の画像は索引したくない顔を含んでいることがあります。例えば、顔検索の質に逆効果を与える小さくてぼやけた顔、またはレッドカーペットプレミアのような、人込みの背景の関連のない顔を索引したくないかもしれません。そのような顔を索引することはコストを増やし、多くの場合、精確性に対して有害になります。これまでは、顔検知の実行、それぞれの顔の集まりでフィルタールールを適用する、およびフィルターを通過した顔の集まりを索引することのみでそのような顔をフィルターすることができました。新しいAmazon Rekognition顔フィルター機能は、たった二つのパラメータを使用して索引中に顔をフィルターさせることにより、この処理を簡易化します。複数のAPIコールを使って追加のコードを書いたり維持する、または質を測定するための独自ルールを作成する必要がありません。 このブログでの掲示で、新しいAmazon Rekognitionの顔フィルター機能の使用法のいくつかの例をお見せします。 手順 1 – コレクションの作成 CreateCollection API アクションを使用することにより、コレクションを作成できます。 リクエストの例: boto3をインポートする collection_name = “TestCollection” def create_collection(): # awsのデフォルト位置およびクレデンシャルを仮定する rekognition_client = boto3.client(‘rekognition’) response = rekognition_client.create_collection(CollectionId=collection_name) print(response) create_collection() 手順 2 – 索引に使用される画像を収集、検査する コレクションが設定された後、顔を索引したい画像をそこから収集できます。索引に使用される一部の画像は、被写体が離れているため、非常に小さいまたはぼやけた、または一部分しか見えない顔を含んでいることがあります。理想的には、「良い」質の顔だけが索引されることを確かなものにしたいですが、質の悪い顔は自動的にフィルターされます。画像に映っているすべての顔を索引したくないという状況に遭遇することもあるかもしれません。例えば、バーでのデートで自撮りされた二つの最も目立つ顔だけを索引したいのに、背景に他人の多くの小さな顔があるかもしれません。 これがどのように行われるかを説明するために、2枚の写真を例として使用します。一枚目はWikiMedia Creative Commons (Alan Light)から取り寄せられ、二枚目はPexels.comからのものです。 まず、正式な写真家に撮影されているレッドカーペットイベントの例を見てみましょう。 次に、顔検出を使用して、Amazon Rekognitionで見つかった顔を見てみましょう。 ご覧の通り、二つの大きくて目立つ顔があり、背景に三つの他の顔があります。それでは二枚目の写真で見つかった顔を見てみましょう。 ご覧のとおり、背景に、おそらく私たちが索引に使いたくないぼやけた顔があります。 二つのユースケースを見てみます: (i) 目立つ、高品質の顔のみを索引したいのですが、背景に顔がない(一枚目の写真). (ii) You want […]

Read More

Amazon SageMaker で高解像度胸部 X 線医療画像を分類する

医療画像処理は、深層学習が大きな効果を発揮する重要な分野の 1 つです。一般的な処理としては、様々な医用画像モダリティを用いた分類、検出、セグメンテーションがあります。このブログ記事では、HIPAA 準拠サービスである Amazon SageMaker を使用して、Amazon SageMaker 画像分類アルゴリズムで胸部 X 線画像分類の深層学習モデルをトレーニングする方法を概説します。この画像分類アルゴリズムが、高解像度医療画像を分析するための有効なツールとなり得ることを示したいと考えています。マルチラベルサポートや混合精度トレーニングなどのアルゴリズムの新しい機能を使用して、 混合精度モードを使用する胸部 X 線画像分類モデルが Amazon EC2 P3 インスタンスで float32 データタイプを使用する場合より、トレーニングによって 33% 速くなることを示します。また、高解像度の画像で胸部 X 線画像をどのようにトレーニングすることができるかを示し、低解像度のモデルでもパフォーマンスを向上できることを示します。 高解像度胸部 X 線医療画像の分類 ディープニューラルネットワークベースのアプローチは、通常は、メモリの制約のために低解像度の画像で動作します。画像分類 (ResNet-152) で使用する一般的なディープネットワークでは、256×256 サイズの画像でも大きなメモリが必要です。また、メモリ要件は、トレーニングで使用するバッチサイズにも依存します。ただし、一部の疾患は、胸部 X 線画像の小さな領域にしか存在しないため、高解像度画像分類の恩恵を受ける可能性が高くなります。 胸部 X 線画像のデータセットは、アメリカ国立衛生研究所 (NIH) [1] から公表されており、https://nihcc.app.box.com/v/ChestXray-NIHCC から入手できます。このデータセットは、30,805 人の患者からの 112,120 件の正面図 X 線画像で構成されます。これらの画像は、自然言語処理を使用して、関連付けられた放射線レポートからマイニングされた最大 14 のテキストマイニング病気画像ラベルを含むことができます。これらの 14 のラベルのいずれも、それぞれの X 線に関連付けることができることが、マルチラベル画像分類の問題となります。疾患のラベルは、無気肺、浸潤影、浸潤、気胸、浮腫、気腫、線維症、滲出、肺炎、胸膜肥厚、小瘤、結節、腫瘤およびヘルニアです。 近年、胸部 X 線画像分類に深層学習アルゴリズムが適用されています [1]。ImageNet […]

Read More

IP アドレスで、Jupyter ノートブックインスタンスへのアクセスを制限する

セキュリティを強化するため、Amazon SageMaker のお客様は、ノートブックインスタンスへのアクセスを一定の範囲の IP アドレスに限定することができます。 IP アドレスによるフィルタリングは、トラフィックのサブセットのみがノートブックインスタンスにアクセスできるようにする必要がある場合に役立ちます。ノートブックのアクセスを制限するのは、以下のような場合です。 IP アドレスの特定のホワイトリストを除いてトラフィックをブロックすることにより、セキュリティとコンプライアンスの要件を満たす場合。 特定の地域や人口をテストする場合。 一群の人々にのみ実験中のアクセスを許可する場合。 ノートブックインスタンスへのアクセスを IP アドレスで制限するには、Amazon SageMaker ノートブックにアクセスするすべてのユーザーまたはグループの AWS Identity and Access Management (IAM) ロールに、IP アドレスの条件付き演算子があるポリシーをアタッチする必要があります。IAM は、AWS のリソースへのアクセスを安全にコントロールするのに役立つウェブサービスです。ポリシーとは、アイデンティティまたはリソースにアタッチして、そのアクセス許可を定義するエンティティです。 IP アドレスの条件付き演算子がある IAM ポリシーは、指定したリストにある IP アドレスからの呼び出しでない限り、 CreatePresignedNotebookInstanceUrl および AuthorizedUrl へのアクセスを拒否します。また、このポリシーは、Amazon SageMaker コンソールでノートブックインスタンスを開くアクセスも制限します。Effect を「Deny」と定義し、NotIpAddress 条件付き演算子を aws:SourceIP キーで使用することで、ノートブックインスタンスへのアクセス許可を付与したい IP アドレスのリスト以外のインターネットから来るすべてのトラフィックをブロックできます。 IP アドレスの条件は、キーを IPv4 または IPv6 のアドレスあるいは IP アドレスの範囲と比較することに基づいてアクセスを制限します。 値は、標準 CIDR 形式 (例、203.0.113.0/24 または 2001:DB8:1234:5678::/64) […]

Read More