Amazon Web Services ブログ

Amazon SageMaker Ground Truth — 高い精度のデータセットを構築し、ラベル付けのコストを最大70%削減

1959年、アーサー・サミュエルは機械学習を「明示的にプログラムされなくても新しいことを学べる能力をコンピュータに与える学問分野」と定義しました。しかし、機械仕掛けの神 (deus ex machina) など存在せず、学習プロセスにはアルゴリズム (「どのように学ぶか」) と学習用データセット (「何から学ぶか」) が必要です。 今日では、ほとんどの機械学習タスクは教師あり学習という技術を用いており、アルゴリズムはラベル付けされたデータセットからパターンや行動を学習します。ラベル付けされたデータセットにはデータサンプルに加え、それぞれに対する正しい答え、すなわち “ground truth” が含まれています。手元の問題に合わせて、ラベル付きの画像 (「これは犬」「これは猫」) を使ったり、ラベル付きのテキスト (「これはスパム」「これは違う」) を使ったりします。

Read More

新発表 – Amazon Forecast – 時系列予測を容易に

未来を予見する能力は、信じられないほどのスーパーパワーとなります。AWSは、あなたにその力を与えることはできませんが、機械学習において、数ステップで時系列の予測を行うお手伝いができます。 時系列予測のゴールは、毎週の売上、1日の在庫レベル、1時間ごとのウェブサイトトラフィックなどの時間依存データの将来の値を予測することです。 今日の企業は、シンプルなスプレッドシートから複雑な財務計画ソフトウェアまであらゆるものを使用して、製品需要、リソースニーズ、財務パフォーマンスなどの将来のビジネス成果を正確に予測しようとしています。 これらのツールは、時系列データと呼ばれる一連の履歴データを見て予測を作成します。例えば、そのようなツールは、レインコートの将来の売上を、過去の売上データと、未来が過去によって決定されるという前提をもとにして、単に予測しようとする場合があります。 このアプローチは、不規則な傾向を持つ大量のデータセットに対して正確な予測を生成するのに苦労する可能性があります。 また、時間とともに変化するデータ系列(価格、割引、ウェブトラフィックなど)を、製品の機能や店舗の場所などの関連する独立変数と簡単に組み合わせることもできません。

Read More

re:Invent 2018 / Andy Jassy Keynote / AWS Outposts

AWS Outposts がアナウンスされました。 AWS Outposts AWS Outpostsは、ネイティブのAWSサービス、インフラストラクチャ、および運用モデルをほぼすべてのデータセンター、コロケーションスペース、またはオンプレミス施設に提供します。シームレスなハイブリッドクラウドソリューションのためにAWSで使用するのと同じソフトウェア、サービス、インフラストラクチャ、管理ツール、開発、および展開モデルをOutpostsに使用します。 AWS Outpostには次の2種類があります。1)AWS Outposts上で実行されるAWSサービス上のVMware Cloud。2)AWSクラウドで使用されているのと同じネイティブのAWS APIを使用して、顧客がオンプレミスでコンピューティングとストレージを実行できるようにするAWS Outposts。Outpostsを使用すると、オンプレミス環境とクラウド環境の両方の管理プレーンとして、AWS上のAWS Management ConsoleまたはVMware Cloudを選択できます。オンプレミスまたはクラウドに展開できる最新のクラウドネイティブアプリケーションを構築および展開するために、同じオートメーション、ガバナンスコントロール、ポリシー、API、および開発者ツールを使用できます。 AWS Outpostsを使用すると、AWSクラウドとオンプレミスのすべてのアプリケーションで、API、管理コンソール、自動化、ガバナンスポリシー、およびセキュリティコントロールの管理プレーンとして、AWS上のAWS Management ConsoleまたはVMware Cloudを選択できます。   – プロダクトマーケティング エバンジェリスト 亀田

Read More

Amazon Elastic Inference — GPUを利用した深層学習推論の高速化

近年の AI や深層学習の発展には、Graphics Processing Units (GPU) の素晴らしい処理能力が重要な役割を果たしてきました。 10年程前、研究者は機械学習や High Performance Computing (HPC) に対して、大規模なハードウェア並列演算能力を活用する方法を編み出しました。興味のある方は、2009年にスタンフォード大から発表され大きな影響を与えた、この論文 (PDF) をご覧ください。 現在では、GPU のおかげで開発者やデータサイエンティストは複雑なモデルを医療画像分析や自動運転の大量のデータで学習できています。例えば、Amazon EC2 P3 ファミリーを利用すると1インスタンスあたり最大8枚の NVIDIA V100 GPU、つまり混合精度演算で最大 1PFLOPS を利用できます。これが10年前の最速のスーパーコンピューターと同じパフォーマンスだなんて信じられるでしょうか?

Read More

AWS DeepRacer – 強化学習のハンズオン at re:Invent

強化学習は、”エージェント”が、インタラクティブな環境下でトライアンドエラーベースで行動が可能なときに、行動からのフィードバックを利用して、事前に定義されたゴールに到達する、あるいは、有る種のスコアや報奨を最大化するよう学習を行う機械学習の形式の一つです。強化学習は、教師あり学習などの他の型式の機械学習とは対照的に、一連の事実(ground truth)を利用してモデルの学習を行い、推論を行います。 AWS re:inventでは、皆様に強化学習のハンズオンをご提供します。本日その全てをご紹介します。このハードウェアとソフトウェアの組み合わせは、(文字通り)物事を前進させるのに役に立ちます! AWS DeepRacer ハードウェアとソフトウェアについてまず最初にご紹介します。AWS DeepRacerは、1/18スケールの4輪ラジコンカーです: オンボードIntel Atom® プロセッサー、1080p解像度の4メガピクセルカメラ、高速WiFi(802.11ac)、複数のUSBポート、およそ2時間稼働できるバッテリーを搭載しています。Atom processor上で、Ubuntu 16.04 LTS、ROS(Robot Operating System)、および Intel OpenVino™ コンピュータービジョンツールキットが稼働します。

Read More

re:Invent 2018 / Andy Jassy Keynote / Amazon Textract

Amazon Textractがアナウンスされました。 Amazon Textract スキャンされたドキュメントからテキストとデータを自動的に抽出するサービスです。Amazon Textractは、単純な光学式文字認識(OCR)を超えて、テーブルに格納されたフォームや情報のフィールドの内容も識別するサービスです。 機械学習を使用して、手作業やカスタムコードを必要とせずに、テキストやデータを正確に抽出するためにあらゆる種類の文書を即座に「読む」ことができるようになります。Textractを使用すると、ドキュメントワークフローを迅速に自動化できるため、何百万ものドキュメントページを数時間で処理できます。情報が取り込まれると、ビジネスアプリケーション内で情報を処理して、ローン申請または医療請求処理の次のステップを開始できます。さらに、スマート検索インデックスの作成、承認済みワークフローの自動作成、文書のアーカイブルールへの準拠を維持するために、修正が必要なデータにフラグを立てることができます。 ユースケース スマート検索インデックスの作成 Amazon Elasticsearch Serviceを使用して、構造化されたデータをドキュメントから抽出し、スマートなインデックスを作成し、数百万件の財務諸表をすばやく検索できるようにします。たとえば、住宅ローン会社はAmazon Textractを使用して数百万のスキャンローンアプリケーションを数時間で処理し、抽出されたデータをAmazon Elasticsearchで索引付けすることができます。これにより、「申請者名がJohn Doeのローン申請の検索」や「金利が2%の検索契約」などの検索エクスペリエンスを作成できます。 自動化されたドキュメント処理ワークフローの構築 Amazon Textractは、人間の介入なしにフォームを自動的に処理するために必要な入力を提供できます。たとえば、銀行は融資申し込みのPDFを読むためのコードを書くことができます。文書に記載されている情報は、顧客が手作業によるレビューと検証のために数日待つ必要はなく、アプリケーションの即時結果を得るために、ローンを承認するために必要なバックグラウンドとクレジットチェックを開始するために使用できます。   – プロダクトマーケティング エバンジェリスト 亀田  

Read More

re:Invent 2018 / Andy Jassy Keynote / AWS Inferentia

みなさん、こんにちは。アマゾン ウェブ サービス ジャパン、プロダクトマーケティング エバンジェリストの亀田です。 AWS Inferentia がアナウンスされました。 AWS Inferentia     低コストで高性能を実現するように設計された機械学習の推論チップです。AWS Inferentは、TensorFlow、Apache MXNet、PyTorchディープラーニングフレームワーク、およびONNXフォーマットを使用するモデルをサポートし、アプリケーションの計算コストの90%を節約することができます。 AWS Inferentiaは、非常に低コストで高スループット、低遅延の推論性能を提供します。各チップは、複雑なモデルによる高速予測を可能にするために、数百のTOPS(1秒間のテラ操作)の推論スループットを提供します。パフォーマンスをさらに向上させるために、複数のAWS Inferentiaチップを一緒に使用して、何千ものスループットを向上させることができます。Amazon SageMaker、Amazon EC2、Amazon Elastic InferenceでAWS Inferentiaを使用できます。 2019年のサービス提供開始を予定しています。続報をお待ちください。 – プロダクトマーケティング エバンジェリスト 亀田

Read More

re:Invent 2018 / Andy Jassy Keynote / Amazon Managed Blockchain

Amazon Managed Blockchainが発表されました。 Amazon Managed Blockchain オープンソースフレームワークHyperledger FabricとEthereum *を使用してスケーラブルなブロックチェーンネットワークを簡単に作成および管理できる、完全に管理されたサービスです。 ブロックチェーンを使用すると、複数の当事者が信頼できる中央権限を必要とせずにトランザクションを実行できるアプリケーションを構築することができます。しかし、既存のテクノロジーを使用してスケーラブルなブロックチェーンネットワークを構築することは、セットアップして管理するのが複雑です。ブロックチェーンネットワークを作成するには、各ネットワークメンバーが手動でハードウェアをプロビジョニングし、ソフトウェアをインストールし、アクセス制御用の証明書を作成および管理し、ネットワークコンポーネントを設定する必要があります。ブロックチェーンネットワークが稼働したら、インフラストラクチャを継続的に監視し、トランザクション要求の増加やネットワークへの参加または離脱の新しいメンバーなどの変更に適応する必要があります。 Amazon Managed Blockchainは、わずか数回のクリックでスケーラブルなブロックチェーンネットワークをセットアップおよび管理できる、完全に管理されたサービスです。ネットワークを構築するために必要なオーバーヘッドを排除し、数百万のトランザクションを実行する数千のアプリケーションの要求に合わせて自動的に拡張します。ネットワークが起動して実行されると、管理されたブロックチェーンにより、ブロックチェーンネットワークの管理と保守が容易になります。証明書を管理し、新しいメンバーをネットワークに簡単に招待し、計算、メモリ、ストレージリソースなどの運用メトリクスを追跡することができます。さらに、Managed Blockchainは、完全に管理されている元帳データベースであるAmazon Quantum Ledger Database(QLDB)にブロックチェーンネットワークアクティビティの不変なコピーを複製することができます – プロダクトマーケティング エバンジェリスト 亀田

Read More

re:Invent 2018 / Andy Jassy Keynote / Amazon Quantum Ledger Database(QLDB)

Amazon Quantum Ledger Databae (QLDB)がアナウンスされました。 Amazon Quantum Ledger Database (QLDB) 完全に管理された元帳データベースとなり、中央の信頼された機関が有する透過的、不変、および暗号で検証可能なトランザクションログを提供します。Amazon QLDBは​​、すべてのアプリケーションデータの変更を追跡し、時間の経過とともに完全かつ検証可能な変更の履歴を保持します。 一般的には、組織内の経済活動および財務活動の履歴を記録するために使用され、多くの組織では、銀行取引におけるクレジットや借方の履歴の追跡、保険金請求のデータ系列の検証、または保険会社の動きの追跡など、アプリケーションのデータの正確な履歴を維持するために、Ledgerのような機能を備えたアプリケーションを構築することになります。 Amazon QLDBは​​、独自の元帳のようなアプリケーションを構築する複雑な開発作業に携わる必要性を排除する新しいクラスのデータベースです。QLDBを使用すると、データの変更履歴が変更されたり変更されたりすることがなくなります。 Amazon QLDBでは、プロビジョニングの容量や読み書き制限の設定の心配が不要なサーバレスで提供れ、元帳を作成し、テーブルを定義すると、アプリケーションの要求をサポートするためにQLDBが自動的に拡大/縮小されます。   – プロダクトマーケテイング エバンジェリスト 亀田

Read More

Amazon DynamoDB On-Demand – 事前のキャパシティプランニングが不要のリクエスト課金が可能になりました。

少し前まで、あなたのビジネスに合わせていつでもスケールし安定した低いレイテンシを提供するデータベースを作成することは困難でした。2012年にWerner VogelsがpostしたブログでAmazon DynamoDBがアナウンスされました。(これは私がAWSに入る数ヶ月前の事でした。)DynamoDBは2007年にAmazonが公表したDynamoの論文に基づいて設計されています。それから数年、多くの新機能がAWSの顧客が利用するデータベースを更に簡略化するために導入されました。今、フルマネージドかつマルチリージョン、マルチマスターデータベースとencryption at rest、point-in-time recovery、in-memory cachingなどの機能、そして99.99%のuptime SLAを提供しています。 Amazon DynamoDB On-Demand 今日我々はAmazon DynamoDB on-demand、事前のキャパシティプランニングが不要で1秒あたり数千リクエストのトラフィックにも対応が出来るフレキシブルな課金を実現する新しいオプションを案内します。DynamoDB on-demandはシンプルなpay-per-request課金モデルを提供しreadリクエストとwriteリクエストを使った分に応じて支払うだけになります。これによりシンプルなコスト計算とパフォーマンス管理を実現します。例えばtableにon-demanmd modeを適用すると、DynamoDBは即座に対応しワークロードに応じて以前に観測されたトラフィックレベルまで処理できるようにパフォーマンスを調整します。また新たなピークトラフィックが観測されたときはDynamoDBはワークロードに対応するために迅速に適応します。(翻訳者注: DynamoDBは内部的にパーテーションという概念で負荷を分散します。そのため一度拡張されたテーブルは内部的に何もしなくても拡張された状態を維持している事と、新たな負荷が発生したときも自動的に拡張して対応します。) DynamoDBのコンソールを見るとon-demand read/wriite capacity modeが新規テーブル作成時と既存テーブルのCapacityタブに追加されている事が確認出来ます。 on-demand modeを適用したTableは全てのDynamoDBの機能がサポートされ(例としてencryption at rest、point-in-time recovery、global tablesなど)、例外としてauto scalingはこのmodeでは無効になります。 on-demand modeが有効な状態でセカンダリインデックスを構築した場合も同じスケーラビリティと課金モデルが適用されます。セカンダリインデックスへも使った分だけお支払い頂き事前にキャパシティプロビジョニングする必要はありません。もしon-demand modeが有効なtableでread/writeリクエストが発生しなかった場合、支払う必要があるのはストレージ課金のみになります。 DynamoDBは予測困難なアプリケーショントラフィックへの対応や短期間で大きなスパイクが発生するワークロード、もしくはあなたのテーブルの使用率が平均では低い場合にとても有効です。例えば以下のようなユースケースです。 新たなアプリケーション開発時、もしくはワークロードが複雑で予測が困難な場合 pay-per-use な課金モデルのサーバレスサービスとの組み合わせ SaaSプロバイダやソフトウェアベンダーでシンプルかつリソース分離を必要とするようなアプリケーションを開発している on-demand modeへの変更は1日1回可能です。on-demandからprovisioned modeへの変更も可能です。 簡単にパフォーマンステストをやってみましょう では早速新たに作ったDynamoDB on-demand modeのtableに対して負荷テストを実施してみましょう。 私は2つのサーバレスアプリケーションを作ってみました。 1つ目のアプリケーションはAmazon API GatewayとAWS LambdaでHTTPインターフェイスによるDynamoDBに対してread/writeする処理を実装しています。 2つ目のアプリケーションはLambdaで1000個の並行に同時実行でランダムにHTTPメソッドを生成しendpointに各Itemに操作リクエストを生成するファンクションです。 全てのファンクションは同時実行数100でリクエストを実行し、終了するとすぐにまた別の100同時実行がスタートする処理を一分間行います。ランプアップするために必要な時間は無く、負荷の生成はフルスピードで実行されます!! DynamoDB コンソールのメトリクス tabから、ピーク時には5000request/secの負荷が流れていることとスロットリングが発生しないことをメトリクスから確認ができます。 サーバレスアプリケーションがscalingするか、API GatewayとLambdaとDynamoDBはフルマネージドで対応が出来ています。スループットやアプリケーションロジックに寄る課金の仕組みを計画する事はなく実現出来ました。 […]

Read More