Amazon Web Services ブログ

Amazon SageMaker が、バッチ変換機能と TensorFlow コンテナ向けのパイプ入力モードを追加

数日前のニューヨーク Summit で、Amazon SageMaker の 2 つの新しい機能が始まりました。ペタバイトのデータに対して非リアルタイムシナリオで予測を行うことができるバッチ変換と呼ばれる新しいバッチ推論機能と、TensorFlow コンテナのためのパイプ入力モードのサポートです。SageMaker は大好きなサービスの 1 つであり、このブログや機械学習のブログで幅広く取り上げてきました。実際、SageMaker チームのインベーションの速いペースは、追いつくのが少し難しいです。SageMaker のハイパーパラメータ最適化による自動モデルチューニングに関する最後の記事以降に、このチームは 4 つの新しい組み込みアルゴリズムと多数の新機能を発表しています。それでは、新しいバッチ変換機能を見てみましょう。 バッチ変換 バッチ変換機能は、データを変換して推論を生成するための高性能かつ高スループットの方法です。これは、大量のバッチデータを扱う場合、1 秒未満のレイテンシーを必要としない場合、あるいはトレーニングデータを前処理して変換する必要がある場合に理想的です。何よりもよい点は?この機能を利用するために、わずか 1 行のコードを追加する必要さえありません。既存のモデルをすべて使用して、それらに基づいてバッチ変換ジョブを開始することができます。この機能は追加料金なしで利用でき、基盤となるリソースについてのみ支払うことになります。 物体検出アルゴリズムでこれをどうやって行うのかを見てみましょう。サンプルのノートブックに従って、物体検出モデルのトレーニングを行いました。それでは、SageMaker コンソールに移動し、バッチ変換サブコンソールを開きます。 そこから、新しいバッチ変換ジョブを開始することができます。 ここで、自分の変換ジョブに名前をつけ、使用するモデルを選択し、使用するインスタンスの数とタイプを選択することができます。さらに、同時に推論に送信するレコードの数とペイロードのサイズに関する詳細を設定することができます。これらを手動で指定しないと、SageMaker がいくつかの適切なデフォルトを選択します。 次に、入力の場所を指定する必要があります。マニフェストファイルを使用するか、S3 の場所にあるすべてのファイルをロードするだけです。ここでは画像を扱っているので、入力のコンテンツタイプを手動で指定しました。 最後に、出力の場所を設定してジョブを開始します! ジョブが実行されると、ジョブの詳細ページを開いて、Amazon CloudWatch のメトリクスとログへのリンクをたどることができます。 ジョブが実行中であることがわかります。S3 で結果を確認すると、それぞれの画像について予測されるラベルが表示されます。 変換は、検出した物体を含む入力ファイルごとに 1 つの出力 JSON ファイルを生成しました。 ここから、AWS Glue でバケットのテーブルを作成し、Amazon Athena で結果を照会するか、Amazon QuickSight で視覚化するのは簡単です。 もちろん、これらのジョブを SageMaker API からプログラムで開始することも可能です。 自分のコンテナでバッチ変換を使用する方法についての詳細は、ドキュメントに説明があります。 TensorFlow のためのパイプ入力モード パイプ入力モードでは、高度に最適化されたマルチスレッドバックグラウンドプロセスを使用して、Amazon Simple Storage […]

Read More

2018 年 8 月の AWS Black Belt オンラインセミナーのご案内

こんにちは。マーケティングの鬼形です。8 月の AWS Black Belt オンラインセミナーの配信についてご案内させて頂きます。 !!オンラインセミナーお申し込み方法: オンラインセミナー登録ページよりお申し込みください Amazon QuickSight アップデート:一般公開後に追加された特徴的な新機能 2018 年 8 月 1 日 | 18:00 – 19:00 | IT 知識レベル:★★☆☆☆ | AWS 知識レベル:★★☆☆☆ Amazon QuickSight は高速かつサーバ運用不要の BI(ビジネスインテリジェンス) サービスです。AWS内のRDSやRedshiftといったデータソースだけでなく、オンプレミス環境や各種SaaSにも対応しています。2016年11に一般公開(GA)されて以降60以上の新機能が追加されてきました。今回サービスアップデートとして、QuickSight GA後に追加された機能の中から、便利で特徴的な機能を中心に御説明いたします。 対象者 BI環境に興味があり、Amazon QuickSightを知りたいという方全般 本セミナーで学習できること Amazon QuickSightの基本機能や料金の理解に加え、GA後に追加された特徴的な新機能をクイックに把握することが出来ます スピーカー 下佐粉 昭 Solutions Architect   クラウド設計・運用のベストプラクティス集 “AWS Well-Architected Framework” 2018 年 8 月 7 日 | 12:00 – 13:00 […]

Read More

AWS OpsWorks for Chef Automate におけるクックブックの継続的なテストとデリバリー

Chef サーバは、テスト済みの信頼できるクックブックを対象ノードの run list に簡単に追加できるハブであるべきです。しかしながら、クックブックのテストを実行し、Chef サーバへ配信する作業は手間のかかるタスクです。このプロセスをシンプルかつ迅速にするために、私たちは AWS の技術を活用してテストの実行と Chef サーバへのクックブックの配信を統合したパイプラインを構築しました。これによりクックブック開発の定型的ながらも重要な部分を自動化できます。

Read More

アセットライブラリにおける課題:機械学習を利用したプロダクションパイプラインの高速化

利用したいテクスチャをライブラリから探す作業は非常に手間がかかる作業です。Amazon RekognitionやAmazon Machine Learning APIを利用することで、テクスチャへのタグ付けを行い、高速な検索が実現できます。 ゲーム開発では一般的に”painter’s pallet(画家のパレット)”として扱われるテクスチャやシーンを扱う巨大なアセットライブラリを持っています。これらは3Dのランドスケープや地形を表現するために利用されており、データの選択によって世界観をを変えることができるため、非常に重要なものとなります。テクスチャによっては実生活の風景や漫画の陰影、セル画調での世界滅亡の風景などを自由に表現することができます。 膨大な数のデータが保存されているライブラリから、何千ものテクスチャを選ぶことも珍しいことではありません。その場合、まれに正しいタグが付与されていなかったり、ファイルやフォルダ名に依存することで生じる誤解などが問題となります。より正確性を向上するために、正確なタグ付けを手作業によって行うことは非現実的でとてつもない作業になるでしょう。 正確なタグ付けを実現するために、1人または複数人でデータを確認し、意見を集め、その情報によって各ファイルにタグ付けをする必要がありますが、どんなシナリオでも非常に多くの時間がかかります。 しかし、機械学習を利用したAmazonの画像認識サービスであるAmazon Rekognitionを使えば、これらの作業を非常に簡単に高速に行うことができます。アーティストがファイルを開くのに40秒かかり、画像を見て意見を集め、複数のタグを書き込んでデータベースに格納する場合、5,000ファイルを処理するのに約55時間を要します。Amazon Rekognitionを利用する場合、画像のアップロードをバッチ処理することが可能で、私たちのテストコードでは200Mbpsの速度でアップロードしたところ3分未満で完了しました。 試してみましょう! もし1枚の画像で試す場合、こちらをご確認ください。画像をアップロードし、レスポンスを確認するだけです。 https://console.aws.amazon.com/rekognition/home?region=us-east-1#/label-detection もちろん、SDKもご利用になれます。こちらのページからインストールできるAWS SDKを利用します。 https://aws.amazon.com/tools/#sdk それでは、特定のフォルダで簡単なサンプルを動かしてみましょう。ご紹介するサンプルはフォルダの中のすべてのJPEG/PNGファイルをAmazon Rekognitionにアップロードし、メタタグをファイル名と一緒にSQLiteに保存します。また、簡単な検索機能も提供します。 今回はPythonを使ったシンプルな例をご紹介します。もしあなたがPythonのファンではない場合は、AWS SDKでサポートされているお好みの言語を利用いただくことができます。 まずはAWS SDK for Pythonをこちらの手順に沿ってインストールします。 https://boto3.readthedocs.io/en/latest/guide/quickstart.html 最も早い方法は”Boto3″パッケージのインストールです。 pip install boto3 また、AWSアクセスキーの設定をAWSマネージメントコンソール(https://console.aws.amazon.com)から行います。 [IAM]-[ユーザー]-[認証情報]-[アクセスキーの作成]をクリックしてください。 アクセスキーIDとシークレットアクセスキーをメモし、以下のクイックスタートの設定ファイルを編集してください。(Macの場合は”~/.aws/credentials”、Windowsの場合は”%USERPROFILE%\.aws\credentials”となります。) あとは数行のコードで実行することができます。 1. boto3のライブラリをインポートします。 import boto3   2.  利用するリージョンをRekognition APIに設定します。 def detect_labels(bucket, key, imagebytes=None, max_labels=6, min_confidence=70, region=”us-east-1″): rekognition = boto3.client(“rekognition”, region)   3. […]

Read More

Amazon SageMaker を使用して、整形外科的病理を予測するためのモデルを作成する

人工知能 (AI) および機械学習 (ML) の分野は、ヘルスケア産業、特に医用画像化において、勢いを増しつつあります。ML に対する Amazon SageMaker のアプローチは、ヘルスケア分野において将来有望であると言えます。ML は、産業間全体のどの分野においても、適用可能であると考えられています。ヘルスケア分野の範囲で言えば、ML は最終診断を下すための重要な要素として、放射線検査または検査報告のような役割を果たすことが可能なのです。 このブログ投稿では、UCI ML Dataset を使用して、整形外科における ML の使用について説明し、脊椎の病状予測を自動化することを目指します。この技術は、診断時間を短縮し、ML を用いた拒絶選択肢技術を促すことによって、診察訪問数および / または処方数を最小限に抑える対策について考えるよい機会となるでしょう。 この技術により、難しい症例は整形外科医などの専門家に委ねられることになるでしょう。データセットの 2 つの診断である、椎間板ヘルニアおよび脊椎すべり症は、筋骨格疼痛障害を引き起こしうる脊髄病変の 1 つです。疼痛障害のためのオピオイド処方を最小限に抑えるため、リスクにさらされている患者を客観的かつ効果的に特定し治療を行うことのできる ML 技術を駆使することで、コンピュータ支援診断システムに可能性を見出すことができるのです。 このブログの記事では、これらのデータセットをダウンロードして、脊柱の特徴または特性に基づいて、正常または異常な整形外科的あるいは脊髄の病状 (ヘルニアまたは脊椎すべり症) を有するかどうかを予測するための例を提示しています。これらの病状の特性を考慮する予備診断ツールは、高い偽陽性率を有します。MRI は、腰椎椎間板ヘルニアの抑制を検出するのに使用しますが、この技法では ~ 33% の偽陽性率を有します。診断に用いる脊髄ブロック (注射) は、22% から 47% の偽陽性率があります。(注: これを ML モデルを評価する際のベースラインとして使用します)。 これらのデータセットは、マルチクラスおよびバイナリ分類問題の両方を提示します。 病理予測のための Amazon SageMaker での ML モデルの作成 この投稿では、マルチクラスのカテゴリ分類モデルとバイナリ分類モデルという 2 つのモデルを作成し、両方を評価します。マルチクラスのカテゴリ分類は、正常、椎間板ヘルニア、または脊椎すべり症の病状を有するかどうかを予測します。バイナリ分類はバイナリ応答を予測します。0 – 正常、または 1 – […]

Read More

Amazon EC2 インスタンスの最新情報 – より高速なプロセッサーとより多くのメモリ

先月、私は Nitro システムについて語り、これがどのように EC2 インスタンスの選択肢を広げ、コンピューティング、ストレージ、メモリ、ネットワークオプションの選択肢を拡大することでペースを速めることができるかを説明しました。これによって最新テクノロジーへのアクセスが非常に迅速に可能になり、アプリケーションに最適なインスタンスタイプを選択することができます。 本日は、現在準備中で、間もなく利用できるようになる新しい 3 つのインスタンスタイプを紹介します。 Z1d – 持続するオールコア Turbo Boost を搭載した最大 4.0 GHz で動作する計算集約型インスタンス。これらは EDA (Electronic Design Automation) やリレーショナルデータベースワークロードに最適であり、複数の HPC ワークロードにも適しています。 R5 – 持続するオールコア Turbo Boost を搭載した最大 3.1 GHz で動作するメモリ最適化されたインスタンスで、R4 インスタンスと比べて最大 50% 増加した vCPU と 60% 多くのメモリを搭載しています。 R5d – ローカル NVMe ストレージ (最大の R5d インスタンスでは最大 3.6 TB) を持つメモリ最適化されたインスタンスで、R5 インスタンスと同じサイズ、同じ性能で利用できます。 また、R5 ベアメタル、R5d ベアメタル、Z1d […]

Read More

新機能 – AWS Snowball Edge 用 EC2 コンピューティングインスタンス

私は工場が大好きで、見学ツアーがあれば必ず参加するほどです。これまでも運良く、原材料や組み立て部品が、車、機関車、メモリチップ、連結式バスといったものに変化するのを見れる機会がありました。スピード、精度、再現性、そして可能な限り全ての生産段階をオートメーション化しようとする努力に、いつも感心するのです。最近参加したツアーで、EC2 インスタンスや他のクラウドリソースと同じくらい簡単かつ効率的に、機械装置をモニタリングするオンプレミスの工業用 PC のグローバルコレクションを設定し、集中管理できるようにしたいと、IT マネージャーが言うのを耳にしました。 そして今日、AWS Snowball Edge デバイス上で作動する EC2 インスタンスの導入により、彼の夢が実現しようとしています。100 TB のローカルストレージを備え、耐久性を持つこのデバイスを使うと、限定したまたは存在しないインターネット接続といった厳しい環境においてデータを収集および処理した後、処理済みデータを保存、集約、詳細分析するために AWS に戻すことが可能となります。インスタンスのスペックは次をご覧ください。 インスタンス名 vCPU メモリ sbe1.small 1 1 GiB sbe1.medium 1 2 GiB sbe1.large 2 4 GiB sbe1.xlarge 4 8 GiB sbe1.2xlarge 8 16 GiB sbe1.4xlarge 16 32 GiB 各 Snowball Edge デバイスは、Intel ® Xeon ® D プロセッサを 1.8 GHz で実行でき、インスタンスのどんな組合わせもサポートすることで、最大 24 […]

Read More

Amazon Translate が、日本語、ロシア語、イタリア語、繁体字中国語、トルコ語、およびチェコ語のサポートを追加しました。

本日、Amazon Translate が、日本語、ロシア語、イタリア語、繁体字中国語、トルコ語、さらにチェコ語のサポートを追加しました。Amazon Translate は、高速で高品質な言語翻訳を、お手ごろな価格で提供する翻訳 API です。Amazon Translate は元々、2017 年開催の AWS re:Invent でのプレビューでリリースしました。同僚の Tara が、このサービスの詳細について書いています。 最初のプレビュー時から、Amazon Comprehend 、 Amazon CloudWatch の指標、および各 TranslateText 内にある膨大なテキストを使った自動ソース言語推論のような機能を追加しようと、お客様とのやり取りを続けてきました。4 月にはこのサービスが一般に利用可能となり、機能のリクエストやフィードバックをお客様から引き続きいただいています。 Amazon Translate との連携 Amazon Translate コンソールにある API エクスプローラーを使って、今すぐ新しい言語を試してみてください。 任意の SDK を使用することもできます。以下に、簡単な Python のサンプルを書いてみました。 import boto3 translate = boto3.client(“translate”) lang_flag_pairs = [(“ja”, “????”), (“ru”, “????”), (“it”, “????”), (“zh-TW”, “????”), (“tr”, “????”), (“cs”, […]

Read More

Amazon EMR と Apache Livy を使用して、同時データオーケストレーションパイプラインを構築する

多くのお客様が、Amazon EMR と Apache Spark を使用してスケーラブルなビッグデータパイプラインを構築しています。大規模な生産パイプラインの場合、一般的ユースケースは、さまざまなソースから発生する複雑なデータを読み取ることです。このデータは、機械学習パイプライン、分析ダッシュボード、ビジネスレポートなどの下流アプリケーションに役立つように変換する必要があります。このようなパイプラインでは、Amazon EMR で Spark ジョブを並行して実行することがたびたび必要になります。この記事では、EMR バージョン 5.9.0 以降で利用可能な Apache Livy を使用して、複数の Spark ジョブを EMR クラスター上で平行して送信する方法を中心に取り扱います。 Apache Livy は、REST インターフェイスを通じて、Spark クラスターとのやりとりを容易にするサービスです。Apache Livy を使用すると、大きな jar ファイルを管理、デプロイする代わりに、REST API コールでシンプルな Scala コードまたは Python コードを送信できます。これは、EMR ステップ API を使用してシリアルで実行するのではなく、複数の Spark ジョブをパラレルで実行することでデータパイプラインを容易に拡張できるためです。お客様は、ワークフローの一環として一時的なクラスターを継続して利用し、結果としてコストを削減できます。 このブログ記事の目的に合わせ、今回は Apache Airflow を使用してデータパイプラインをオーケストレーションします。Airflow は ETL タスクの管理に役立つオープンソースのタスクスケジューラです。ワークフローを 1 か所からスケジューリングして管理できるため、Apache Airflow はお客様に人気があります。Airflow の Configuration as Code […]

Read More

Amazon SageMaker ハンズオン開催報告とシナリオ公開のお知らせ

(この記事は2018年7月17日に公開したあと、7月31日にシナリオが更新されたので追記しました) みなさん、こんにちは。アマゾン ウェブ サービス ジャパン、プロダクトマーケティング エバンジェリストの亀田です。 2018年7月3日にAmazon SageMaker ハンズオンを弊社目黒オフィスで開催しました。講師は弊社ソリューションアーキテクトの志村と鮫島がお届けさせていただきました。 その時の資料が公開され、ご自宅でもハンズオンを楽しんでいただくことができるようになりましたのでお知らせいたします。 Amazon SageMaker 紹介 & ハンズオン(2018/07/03 実施) from Amazon Web Services Japan Amazon SageMaker 紹介 & ハンズオン(2018/07/25 実施) from Amazon Web Services Japan (2018年7月31日、シナリオが新しく更新されました) 57ページからがハンズオンの資料となっています。SageMakerはその学習モデルの開発においてJupyter Notebookを使用します。このため、ハンズオンではあらかじめ用意されたJupyter Notebookの内容に従って作業を進めて行く形態をとっています。中身はDeep Learningですので、慣れてない方からすると、すべてを理解いただくのが大変な一方で、ハンズオンの完走自体は非常に簡単に行っていただけるような工夫がされています。 最後に自分のマウスで書いた手書きの文字を判別する実習を行ってハンズオンは終了となります。 またSageMakerは非常に頻繁にアップデートがかかっています。 https://aws.amazon.com/jp/blogs/news/category/artificial-intelligence/sagemaker/ 2018年6月1日東京リージョンでの一般提供開始以降に対応した主なアップデートが以下です。 トレーニングジョブのクローン作成機能 自動モデルチューニングにおけるハイパーパラメーターチューニングに対応 PyTorch と TensorFlow 1.8 のサポート AWS PrivateLink を使用した Amazon Virtual Private Cloud […]

Read More