Amazon Web Services ブログ

Amazon S3 アップデート – 強力な書き込み後の読み取り整合性

2006 年に S3 をローンチした当時、私はその事実上無制限の容量 (「あらゆる数のブロックを簡単に保存…」)、99.99% の可用性を実現するように設計されており、データが複数の場所に透過的に保存される耐久性に優れたストレージを提供するという事実について説明しました。このローンチ以来、AWS のお客様は、バックアップと復元、データアーカイブ、エンタープライズアプリケーション、ウェブサイト、ビッグデータ、そして最終集計で 10,000 個を超えたデータレイクといった、驚くほど多様な方法で S3 を使用しておられます。

S3、およびその他の大規模な分散システムの興味深い (時には分かりにくいこともある) 側面のひとつに、一般に結果整合性として知られているものがあります。要するに、PUT などのデータを格納または変更する S3 API 関数を呼び出した後には、データが受け入れられ、永続的に保存されたものの、まだどの GET または LIST リクエストも参照できない短い期間があるということです。これは、以下の図のようになります。

S3 のこの側面は、書き込み直後に最新のデータにアクセスする必要があるビッグデータワークロード (そのほとんどが Amazon EMR を使用) とデータレイクにとって極めて困難なものになり得ます。お客様がクラウドでビッグデータワークロードを実行できるようにするため、Amazon EMR は EMRFS Consistent View、およびオープンソースの Hadoop デベロッパーは S3Guard を構築して、これらのアプリケーションに強力な整合性レイヤーを提供しました。

S3 の整合性が強力になりました
前置きが長くなってしまいましたが、良いニュースをいくつかお知らせしたいと思います!

本日から、S3 の GETPUTLIST 操作のすべて、およびオブジェクトタグACL、またはメタデータを変更する操作に強力な整合性が適用されます。書き込む内容をすぐさま読み取ることができるようになり、LIST の結果はバケットの内容を正確に反映するようになります。これは、既存および新規の S3 オブジェクトすべてに適用され、全リージョンで機能し、追加料金なしでご利用いただけます! パフォーマンスへの影響はなく、必要に応じてオブジェクトを毎秒何百回でも更新でき、グローバルな依存関係はありません。

この改善はデータレイクにとってすばらしいメリットですが、他のアプリケーションタイプにもメリットがあります。強力な整合性を備えた S3 により、オンプレミスワークロードの移行と AWS へのストレージもこれまで以上に容易になります。

私たちは、お客様がそれぞれのビッグデータワークロードでこの更新を活用できることを確実にするため、Amazon EMR チーム、そしてオープンソースコミュニティのデベロッパーたちと協力してきました。その結果、EMRFS Consistent View や S3Guard を使用する必要がなくなり、AWS でビッグデータワークロードを実行するコストがさらに削減されます。

S3 の強力な整合性に関する詳細については、こちらの機能ページをご覧ください。

Dropbox からのメッセージ
AWS の長年のお客様である Dropbox は、最近 34 PB の分析データレイクをオンプレミスの Hadoop クラスターから S3 に移行しました。強力な整合性と、これによって Dropbox のデータレイクがどのようにシンプル化されたかに関する詳細については、こちらの動画をご覧ください。

Jeff;