Amazon Web Services ブログ

AWS 深層学習 AMI に ONNX が含まれ、深層学習フレームワーク間でのモデルの移植性が向上

Ubuntu および Amazon Linux 用の AWS 深層学習 AMI (DLAMI) に完全に設定済みの Open Neural Network Exchange (ONNX) がプリインストールされることになり、深層学習フレームワーク間でのモデルの移植性が向上しました。このブログ記事では、ONNX を紹介し、DLAMI で ONNX を使用してフレームワーク間でモデルを移植する方法を示します。 ONNX とは ONNX は、オープンソースライブラリであり、シリアライゼーションフォーマットを使って深層学習モデルをエンコードおよびデコードします。ONNX は、ニューラルネットワークの計算グラフのフォーマットと、ニューラルネットワークアーキテクチャで使用される演算子の広範なリストを定義します。ONNX は、Apache MXNet、PyTorch、Chainer、Cognitive Toolkit、TensorRT などの一般的な深層学習フレームワークですでにサポートされています。普及しているツールで ONNX のサポートが拡大することにより、機械学習の開発者は、ツールの違いを超えてモデルを移動し、必要な作業に最適なツールを選択することができるようになります。 Chainer モデルを ONNX にエクスポートする それでは、Chainer モデルを ONNX ファイルにエクスポートする手順を見てみましょう。 まず、Ubuntu または Amazon Linux で DLAMI のインスタンスを起動します。以前に起動したことがない場合は、DLAMI を使い始める方法を説明しているこの素晴らしいチュートリアルをご覧ください。 SSH 経由で DLAMI に接続したら、DLAMI に設定済みでプリインストールされている Chainer Python 3.6 […]

Read More

機械学習の正確性に関する考察

本ブログ記事は、機械学習の正確性とバイアスについての大まかな考えをいくつかまとめたものです。 まず、顔認識トライアルを実施した最近の ACLU ブログ記事に関する意見から始めましょう。ACLU は Rekognition を使って、公開されている 25,000 枚の逮捕写真を用いた顔データベースを構築してから、アメリカ連邦議会の現議員全員の公開写真でデータベースの顔の類似性検索を実行しました。この検索では 535 件中 28 件の誤一致 (信頼水準 80%) が見つかり、これは 5% の誤認 (「偽陽性」とも呼ばれます) 率、95% の 正解率となります。ACLU はデータセット、手法、または詳細な結果を公開していないので、ここでは ACLU が公表した事柄に基づいて判断することしかできませんが、ACLU の主張に関しては以下のように考えています。 Rekognition における顔認識 API のデフォルト信頼性しきい値は 80% です。これは、広範な一般的ユースケース (ソーシャルメディアで著名人を認識する、または写真アプリでよく似た家族を認識するなど) には適切ですが、公共安全のユースケースには適切ではありません。ACLU が使った 80% の信頼性しきい値は、個人の正確な認識を確実にするには低すぎる値です。このレベルの信頼性では、偽陽性は避けられません。 AWS では、公開されている AWS ドキュメントに記載されているとおり、精度の高い顔の類似性一致が重要となるユースケースには 99% を推奨しています。偽陽性に対する信頼性しきい値の影響を説明するために、AWS は、学究的環境で一般的に使用される 850,000 を超える顔のデータセットを使って顔コレクションを作成し、テストを実施しました。次に、アメリカ連邦議会 (上院および下院) の全議員の公開写真を使い、ACLU ブログと似た方法でこのコレクションの検索を行いました。 信頼性しきい値を 99% (AWS ドキュメントで推奨されている値) に設定した場合、より大きな顔のコーパス (ACLU のテストよりも […]

Read More

TensorFlow コンテナと Amazon SageMaker での「独自のアルゴリズムの導入」を活用する、カスタムラベルの転移学習

データ科学者および開発者は、Amazon SageMaker の完全マネージド型機械学習サービスを使用して機械学習 (ML) モデルを構築およびトレーニングし、実稼働対応可能なレベルでホストされている環境に直接デプロイすることができます。 このブログ記事では、Amazon SageMaker を使用して、トレーニングと推論のための独自のコードで TensorFlow コンテナによる転移学習を行う方法を説明します。 転移学習は、追加のカスタムラベルのために AlexNet や ResNet[1] などの既にトレーニングされたニューラルネットワークを再トレーニングするためにコンピュータビジョンの問題で使用されるよく知られているテクニックです。また、Amazon SageMaker は、組み込みの画像分類アルゴリズムによる画像分類のための転移学習もサポートしており、独自のラベル付き画像データを使用して ResNet[1] ネットワークを再トレーニングすることもできます。Amazon SageMaker についての詳細は、この画像分類のドキュメントを参照してください。転移学習および関連するガイドラインをいつ使用するかを理解するには、こちらをご覧ください。 Amazon SageMaker の組み込みの画像分類アルゴリズムは幅広い種類の用途に適していますが、事前にトレーニングされたネットワークとそれがトレーニングされた画像データの異なる組み合わせが必要となる場合があります。たとえば、念頭に置いておくべき基準のいくつかは、元のデータセットと新しいデータセットの類似性、新しいデータセットのサイズ、必要なラベルの数、モデルの精度、トレーニングしたモデルのサイズ、そして再トレーニングに必要なコンピューティング能力の量などです。仮に、トレーニングしたモデルをハンドヘルドデバイスにデプロイしようとしているなら、MobileNet などのフットプリントが小さいモデルを採用する方が良いかもしれません。あるいは、コンピューティング効率がより良いモデルが欲しいなら、Xception のほ方が VGG16 や Inception よりも優れています。 このブログ記事では、ImageNet データセットで事前にトレーニングした inception v3 ネットワークを採用し、Caltech-256 データセット (Griffin、G. Holub、AD. Perona、P. The Caltech 256. Caltech Technical Report) を使用して再トレーニングします。Amazon SageMaker を使用すると、独自のコンテナをバンドルして Amazon Elastic Container Registry (Amazon ECR) にインポートするのが非常に簡単になります。あるいは、Amazon […]

Read More

R5、R5d、z1d インスタンスが利用可能になりました

つい先週のことですが、私は高速なプロセッサーとより多くのメモリを使用する EC2 インスタンスを起動する計画について語りました。本日より R5、R5d、z1d インスタンスが利用開始となったことを報告させていただきます。では詳しく見てみましょう。 R5 インスタンス メモリ最適化された R5 インスタンスは、カスタム Intel® Xeon® Platinum 8000 シリーズ (Skylake-SP) プロセッサーを使用し、持続するオールコア Turbo Boost を搭載した最大 3.1 GHz で動作します。これらは分散インメモリキャッシュ、インメモリ分析、ビッグデータ解析に最適で、6 つのサイズが利用できます。 インスタンス名 vCPU メモリ EBS 最適化された帯域幅 ネットワーク帯域幅 r5.large 2 16 GiB 最大 3.5 Gbps 最大 10 Gbps r5.xlarge 4 32 GiB 最大 3.5 Gbps 最大 10 Gbps r5.2xlarge 8 64 GiB 最大 […]

Read More

1億2500万人のゲーマーをオンラインでスムーズにプレーするにはどうすればいいでしょうか?Epic GamesがFortniteについて語ってくれました。

FortniteのクリエイターであるEpic Gamesは、2018年7月17日にニューヨークのJavits Centerで開催されたAWSサミットでAWSサービスへオールインを明らかにしました。 ゲーム上に1億2500万人のプレイヤーを想像してください。1億2500万人、それはニューヨークの人口の15倍になります。マルチプレイヤーゲームをプレイしているすべての人が、夢を実現するでしょう。 プレイヤー全員が素晴らしい時間を過ごすことを保証しなければなりません。どのようにしてこの大変多くの人々のすべてのデータを取り扱うのでしょう? Epic GamesのFortnite クリエイターが今年、自分自身でそれを見つました。Fortomiteのこの驚異的な成長により、Epic Gamesが毎月2ペタバイトのデータを扱わなければいけないことを意味します。2,000テラバイトのハードドライブが積み上がっていることを想像してください。どのようにゲームデベロッパーがその規模の情報量を処理するでしょうか?

Read More

[AWS Black Belt Online Seminar] Amazon Elastic File System (Amazon EFS) 資料及び QA 公開

先日 (2018/7/4) 開催しました AWS Black Belt Online Seminar 「Amazon Elastic File System (Amazon EFS)」 の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20180704 AWS Black Belt Online Seminar Amazon Elastic File System (Amazon EFS) from Amazon Web Services Japan PDF Q. EFSを複数のLambda間でのデータ共有に使ってみたいのですが、可能ですか ? A. Lambda 関数から EFS にアクセスすることはできません。Lambda 関数の間で情報共有を行う場合は DynamoDB を利用するか S3 を介したファイル渡しなどで実装してください。 Q. 最大どれくらいのスループットがでますでしょうか。 A. デフォルトの最大スループットは 1GB/s または 3GB/s が設定されており(リージョンによって異なります)、上限緩和申請を行うことができます。 Q. S3へのバックアップオプションなどはありますか? A. 現時点で EFS の機能として EFS から S3 へのバックアップ機能は提供されておりません。バックアップソフトウエアを利用して(EC2など)、S3に格納することなどをご検討ください。 Q. 拡張するサイズに制限をかけることはできますか? A. ファイルシステムが拡張する際の上限を設ける機能は現時点では提供されていません。 Q. オンプレからはDirect Connect経由でアクセス可能とのことですが、その場合も通信料金(下り課金)は発生しないのでしょうか。 A. AWS Direct Connect のデータ送信の料金が発生します。 Q. AWS Storage Gateway との使い分けはどのように考えるべきですか。 […]

Read More

Piksel RetailによるAWS上のSAP Hybris Commerceのホスティング

Piksel Retailのジェネラルマネージャーを務めるJonathan Kirby、同じくPiksel Retailのテクニカルアーキテクトを務めるMichal Stypikによる記事です。 多くの小売環境で、伝統的な方法として最もよく述べられるものに、SAP Hybris Commerceをプロダクションに導入していることがあります。Hybris Commerceは、インプレース方式のコードリリースにより、静的なクラスターとして実装されます。つまり、構成変更のために、実行中のサーバー上でファイルを置き換えたり更新したりする必要があります。アップデートには慎重なリリース計画が必要であり、ダウンタイムを適切に管理する必要もあり、現行ページの裏で変更を行わなければならず、プロセス全体が非常に混乱する恐れもあります。 いくつかの組織で、SAP Hybris Commerceをクラウドに移行することを選択していますが、「リフト・アンド・シフト」の方法を採用しています。これは、クラウドに移行はしたものの、その過程で再構築はしていないことを意味しています。その結果、プラットフォームはオンプレミス環境とほぼ同じように動作しています。 Pikselのグループ企業であるPiksel Retailでは、最近、これらの課題に対処するために、デジタルコマースチャネル (Digital Commerce Channel、DC2)を構築しました。DC2は、SAP Hybrisベースのeコマースソリューションで、Amazon Web Services (AWS)上に導入しています。

Read More

Amazon Comprehend が構文解析をサポート

Amazon Comprehend が、Syntax API をサポートするようになりました。 これにより、テキストを (たとえば、単語の境界を抽出するために) トークン化し、対応する品詞 (PoS) を単語毎にトークン化することができます。 本日、Amazon Comprehend は、顧客のコメントが否定的であるか肯定的であるかを知ることや、たとえば「Amazon」を「組織」として固有名詞を分類して特定することなど、ユースケースの分析を可能にします。この新しい Syntax API を使用すると、顧客は最も詳細なレベルのテキストとその単語自体の構文的な意味を分析できるため、より幅広いユースケースをカバーするテキスト文書をより細かく分析することができます。 たとえば、キッチンブレンダー製品を発売したばかりで、お客様のコメントを分析して、どの色が最も多く話題に挙げられているかを調べたいとします。 API に対して次の文字列を送信します。 「I love my new red kitchen blender」 応答は、それぞれの単語、トークン ID、単語自体、オフセット (テキスト内でのその単語の位置)、品詞タグ (形容詞、名詞、動詞など)、信頼度スコア (サービスが、正しい品詞タグであると確信できる度合) を返します。 以下は、応答の例です。 { “SyntaxTokens”: [ { “Text”: “It”, “EndOffset”: 2, “BeginOffset”: 0, “PartOfSpeech”: { “Tag”: “PRON”, “Score”: 0.8389829397201538 }, “TokenId”: 1 }, { “Text”: “is”, […]

Read More

Amazon SageMaker を使用して画像を分類する

イメージ分類と画像内の物体検出が最近注目されてきていますが、アルゴリズム、データセット、フレームワーク、およびハードウェアの機能の向上が組み合わさった結果です。こうした改良のおかげで技術が一般大衆化し、イメージ分類のためのソリューションが独自で作成できるようになったのです。 画像内の物体検出は、以下の画像が示すように、こうしたアクティビティを実行するアプリケーションの中でも最も重要な機能です。 人の進路と物体追跡 実際の店舗で、商品の再配置を警告する 視覚的な検索 (画像を入力して検索する) イメージ分類および物体検出に使う技術は、深層学習 (DL) に基づいているのが現状です。DL は、多層のニューラルネットワーク (NN) あるいはディープニューラルネットワークを処理するためのアルゴリズムに焦点を当てた機械学習 (ML) のサブ領域です。一方、ML は人工知能 (AI) のサブ領域で、コンピューターサイエンスの分野です。 誰でもこれらの技術にアクセスできますが、実際のビジネスプロセスをサポートするエンドツーエンドのソリューションとして、これらの要素をつなぎ合わせて使うことはまだ難しい状況です。Amazon Rekognition は、非常に正確な顔分析と画像や動画の顔認識ができるシンプルな API を装備しており、すぐに利用できるサービスなので、最初に選ぶならよい選択肢かもしれません。さらに、顔を検出、分析、比較することができるため、多岐にわたるユーザー検証、人数計算、公共の安全といったユースケースにも利用できます。Amazon Rekognition のドキュメントを読めば、シンプルな API 呼び出しでこれらの機能全てをアプリケーションに簡単に追加できることが分かります。 ただし、ビジネス上でカスタムでのイメージ分類が必要な場合は、機械学習モデルを作成するためのパイプライン全体をサポートするプラットフォームが必要です。Amazon SageMaker は、そのためのものです。Amazon SageMaker は、ML モデル開発の全ての手順、つまりデータ検索と構築、トレーニング、および ML モデルのデプロイをサポートする、完全マネージド型のサービスです。Amazon SageMaker を使用すると、どんなビルトインアルゴリズムでも選択でき使用することができるので、市場投入までの時間と開発コストを削減できます。詳細は、「Amazon SageMaker でビルトインアルゴリズムを使用する」をご参照ください。 カスタムの画像識別子を作成する このブログ記事は、服装品やアクセサリーを識別するための画像識別子の作成を目標としています。これらのアイテムの画像がいくつかあり、それらを見て、何の物体が各画像に含まれているかを言う (予測する) モデルが必要だとしましょう。Amazon SageMaker はすでにビルトインのイメージ分類アルゴリズムを装備しています。これで、データセット (画像コレクションと各オブジェクトのそれぞれのラベル) を準備し、モデルのトレーニングを開始するだけです。 公開データセットを使用します。これは Fashion-MNIST と呼ばれる ML アルゴリズムをベンチマークするための新しい画像データセットです。データセットは、6 万例のトレーニングセットと 1 万例のテストセットで構成されています。各例は、ラベルまたはクラスに関連付けられた、28×28 のグレースケール画像です。データセットには、T […]

Read More