AWS ビッグデータブログは、ソリューションアーキテクト、データサイエンティスト、および開発者がビッグデータのベストプラクティスを理解し、ユースケースにどの管理型 AWS ビッグデータサービスがそれぞれのユースケースに適しているかを見極め、AWS ビッグデータサービスの使用を開始し、深く理解できるよう支援します。このブログの目標は、人々があらゆる規模のデータを収集、保存、処理、分析、視覚化するためのハブとなることです。コードサンプル付きの短いチュートリアル、AWS でのビッグデータ利用に特有のメリットを示す導入事例、新しい機能の発表、パートナーやお客様が作成したデモやチュートリアル、および AWS ビッグデータサービス使用のヒントやベストプラクティスを掲載しています。



Amazon パブリックデータセットプログラムは、革新と高度な科学研究を促進するために、誰でも自由に利用できる、興味深いデータセットをホスティングすることを目的としています。Common Crawl オープンウェブコーパスを探す場合も、ゲノムを配列する場合も、NASA からの画像を調べる場合も、AWS が必要なデータ、サービス、およびインフラストラクチャを提供します。


DynamoDB はシンプルでコスト効率に優れた高速な完全マネージド型 NoSQL データベースサービスで、任意の量のデータを格納、取得し、任意のレベルのリクエストトラフィックを処理できます。スループットの点で、また数ミリ秒のレイテンシーの点で信頼性の高いものであり、ゲーム、広告、モバイル、他の多くのアプリケーションに最適です。

Amazon Elastic MapReduce (Amazon EMR) は、大量のデータを迅速、容易に、かつコスト効果よく処理するためのウェブサービスです。

Amazon EMR では、Hadoop というオープンソースフレームワークを使用したデータの分散処理を Amazon EC2 インスタンスの拡大縮小可能なクラスターで行うことができます。ログ分析、ウェブインデックス作成、データウェアハウス、機械学習、財務分析、科学シミュレーション、バイオインフォマティクスなど、Amazon EMR の用途は多岐にわたります。毎年数百万の Amazon EMR クラスターがカスタマーによって起動されています。

Amazon Kinesis は、大規模なストリーミングデータをリアルタイムで処理する完全マネージド型サービスです。Amazon Kinesis は、数十万のソースから 1 時間あたり数百テラバイトのデータを収集し、処理できます。そのため、ウェブサイトのクリックストリーム、マーケティング情報、財務情報、製造業の計器、ソーシャルメディア、運用ログ、計測データなどのソースから取得した情報を、リアルタイムで処理するアプリケーションを容易に作成できます。

Amazon Kinesis アプリケーションを使用すると、リアルタイムダッシュボードの構築、例外のキャプチャとアラートの生成、推奨事項の調整、およびその他のビジネス上または運用上の決定をリアルタイムで行うことができます。また、Amazon Simple Storage Service(Amazon S3)、Amazon DynamoDB、Amazon Redshift などのさまざまなサービスに容易にデータを送信することもできます。秒単位であらゆるスケールのデータストリーム変更に対応するアプリケーションを、数回クリックするだけで、2 行のコードからビルドすることができ、料金は使用したリソースに対してのみ料金が発生します。

Amazon S3 はインターネットのストレージであり、また AWS のビッグデータアーキテクチャの基礎となる構成要素でもあります。ウェブスケールの処理能力を開発者が簡単に利用できるよう設計されています。

Amazon S3 にはシンプルなインターフェイスが用意されており、いつでもウェブのどこからでも容量に関係なくデータを保存/取得できます。このインターフェイスによって、開発者は、拡張性や信頼性が高く、安全かつ高速で、安価なインフラストラクチャを利用することができます。このインフラストラクチャは、Amazon がウェブサイトの独自のグローバルネットワークを運用する際に使用しているものと同じインフラストラクチャです。このサービスの目的は、規模の拡大や縮小のメリットを最大限に活かし、開発者に提供することです。

Amazon Redshift は高速で完全マネージド型の、ペタバイト規模のデータウェアハウスサービスです。シンプルでコスト効率に優れたサービスを実現し、既存のビジネスインテリジェンスツールを使用して、すべてのデータを効率的に分析できます。小規模で開始するのであれば、1 時間あたりわずか 0.25 USD で、長期契約も前払いも不要です。1 ペタバイトを超える規模までスケールしても、料金はテラバイトあたり年間 1,000 USD と、他の多くのデータウェアハウスソリューションの 10 分の 1 以下です。