投稿日: Dec 20, 2022

Amazon DocumentDB Elastic Clusters は、お客様のドキュメントワークロードを拡張し、毎秒数百万の書き込みとペタバイト規模のデータ保存を可能に

Amazon OpenSearch Serverless により、基盤インフラの設定、拡張、運用管理を行うことなく、検索や分析のワークロードを実行可能に

Amazon Athena for Apache Spark により、Apache Spark を利用したインタラクティブな分析の開始に従来数分間要していたところを 1 秒未満に短縮

AWS Glue Data Quality により、データレイクやデータパイプライン全体で
自動的にデータ品質の測定やモニタリング、管理を行うことで、何日もかかっていたデータ分析やルール識別を数時間に短縮

Amazon Redshift が、複数の AWS アベイラビリティーゾーン(AZ)による高可用性構成をサポート

※本プレスリリースは、現地時間 2022 年 11 月 30 日に米国で発表されたプレスリリースの抄訳版です。

(ラスベガス、2022 年 11 月 30 日発表)Amazon.com, Inc.(NASDAQ:AMZN)の関連会社である Amazon Web Services, Inc.(AWS)は、AWS re:Inventにおいて、AWS のお客様がより迅速かつ簡単にペタバイト規模のデータの管理や分析を行えるようにするために、同社のデータベースおよび分析関連のポートフォリオにおける5 つの新機能を発表しました。今回発表した Amazon DocumentDB(MongoDB 互換)、Amazon OpenSearch Service、Amazon Athena の新機能により、お客様は大規模なスケールで高パフォーマンスなデータベースや分析ワークロードを簡単に実行できるようになります。また、AWS は、さまざまなデータレイクやデータパイプラインを通じてデータ品質を自動的に管理する AWS Glue の新機能も発表しました。最後に、Amazon Redshift が複数の AWS アベイラビリティゾーン(AZ)での高可用性構成をサポートできるようになりました。今回の発表は、AWS のお客様が自社のデータワークロードに最適なツールへのアクセス、大規模なスケールでの運用、可用性の向上を実現し、AWS 上のデータを最大限に活用できるようにするものです。AWS を利用したデータの価値の解放の詳細については、以下のウェブサイトをご確認ください。
aws.amazon.com/data  

AWS のデータベース、アナリティクスおよび機械学習担当バイスプレジデントであるスワミ・シヴァスブラマニアン(Swami Sivasubramanian)は、次のように述べています。「本来、データは動的なものであり、その価値を最大限に活用するには、お客様のニーズに応じて拡張可能で、現在だけでなく将来もあらゆるタイプのユースケースに対応できるエンドツーエンドのデータ戦略が求められます。量も多様性も増大し続ける中、お客様がデータを最大限に活用できるようにするために、当社はデータベースや分析に関する最も広範で深いサービスを提供しています。今回発表した新機能は、こうしたサービスをベースに、お客様がこれまで以上に容易にデータのクエリや管理、拡張を行い、データ主導の意思決定を迅速に行えるようにするものです」

今や企業は、ペタバイト規模、あるいはエクサバイト規模のデータを、増加し続けるデータソース(デジタルメディア、オンライントランザクション、コネクテッドデバイスなど)から生成し、保管するようになっています。企業がこうしたデータの価値を最大化するには、データ量の増加や増加のペースが高まっても、大規模なスケールで信頼性の高いパフォーマンスを実行できる能力と併せて、すべてのデータワークロードやアプリケーションで適切なツールにアクセスできるようにする、エンドツーエンドのデータ戦略が必要です。AWS では、お客様がそれぞれ独自にエンドツーエンドのデータ戦略を考案できるよう、業界で最も包括的なデータサービスやソリューションのセットを提供しています。この中には、リレーショナルデータベースの Amazon Aurora や、ドキュメントデータベースの Amazon DocumentDB など、お客様にとって最も重要なユースケースに最適化した、フルマネージドデータベースが含まれます。また、検索や分析のワークロード(リアルタイムアプリケーションのモニタリング、ログ分析、ウェブサイト検索など)のための Amazon OpenSearch Service、インタラクティブ分析のための Amazon Athena、データ統合のための AWS Glue、データウェアハウスのための Amazon Redshift など、企業が自社のデータから貴重な洞察を得られるようにするための幅広い分析サービスも含まれます。今回の発表は、こうしたサービスに対して追加された高度な新機能に関するものです。

  • 毎秒数百万の書き込みでペタバイト規模のアプリケーションを実現する Amazon DocumentDB Elastic Clusters:何万ものお客様が、高速でスケーラブルかつ可用性の高いフルマネージド型ドキュメントデータベースである Amazon DocumentDB を利用して、ドキュメントワークロードを実行しています。Amazon DocumentDBは1ノードあたり最大 64 テビバイト(TiB)のデータと毎秒数百万の読み取りリクエストに対応できるものの、極めて厳しい要求が求められるワークロードを持つ一部の企業は、この制限を超えて毎秒数百万の書き込みとペタバイト級のデータに対応できる拡張を必要としています。こうした企業はこれまで、手動でデータを分散させて、Amazon DocumentDB の複数のノード間で容量を管理しなければなりませんでした。Amazon DocumentDB Elastic Clusters は、単一データベースノードの制限を超えた拡張を数分ででき、毎秒数百万の読み取りと書き込みに対応し、最大 2 ペタバイトのデータを保存することが可能です。ワークロード要求の増加に応じて、Amazon DocumentDB Elastic Clusters は分散ストレージシステムを活用して、自動的に大量のデータセットを複数のノードに分割します。これにより、企業はカスタムコードを書いてデータセットを分散させ、手動でノード間の容量管理を行う必要がなくなります。基盤となるインフラストラクチャは自動的に運用管理されるため、AWS のお客様はそれぞれのニーズに応じて簡単に容量を拡張でき、データベースクラスタ―の変更や拡張、管理を行う必要はありません。Amazon DocumentDB Elastic Clusters の詳細については、以下のウェブサイトをご確認ください。
    aws.amazon.com/documentdb/features/#elastic_clusters
  • 自動的に検索や分析のワークロードを拡張する Amazon OpenSearch Serverless:何万ものお客様が Amazon OpenSearch Service を利用して、ウェブサイト検索やリアルタイムアプリケーションモニタリングなどのユースケースを実現しています。こうしたワークロードの多くは、突発的な使用量の急増が断続的に発生する傾向があり、容量計画を難しくしています。Amazon OpenSearch Serverless は OpenSearch のインフラストラクチャの変更、設定、拡張を自動的に行って、予測不可能で断続的なワークロードであっても、高速なデータインジェストとミリ秒単位のクエリ応答を実現します。Amazon OpenSearch Serverless では、データの取り込みと検索のリソースは独立して拡張できるため、それぞれのパフォーマンスに影響を与えることなく、オペレーションを実行できます。Amazon OpenSearch Serverless の利用により、企業はログデータの把握や異常の特定、検索関連ランキングの確認などに役立つビルトインデータ視覚化機能のような Amazon OpenSearch Service の機能と併せて、サーバーレスのメリット(自動プロビジョニング、オンデマンドスケーリング、従量制料金など)を享受することもできます。Amazon OpenSearch Serverless の詳細については、以下のウェブサイトをご確認ください。
    aws.amazon.com/opensearch-service/features/serverless
  •  1 秒以内にインタラクティブな分析の開始をできるようにする Amazon Athena for Apache Spark:AWS のお客様がサーバーレスのインタラクティブクエリサービスである Amazon Athena を採用しているのは、標準的な SQL インターフェースを使って、Amazon Simple Storage Service(Amazon S3)でペタバイト規模のデータに対して最も簡単かつ高速にクエリを実行できるというメリットがあるからです。ビッグデータワークロードのためのオープンソースの処理フレームワークで、人気の高い言語フレームワーク(Java、Scala、Python、R)をサポートする Apache Spark の利用に関しても、多くの企業が同様の使いやすさを求めています。開発者は高速クエリのスピードや Apache Spark の使いやすさを享受する一方で、クエリを実行するたびに自社の Apache Spark インフラストラクチャの設定や管理、拡張に時間を取られたくないと考えています。今回発表した Amazon Athena for Apache Spark により、お客様はリソースを自分たちでプロビジョニング、設定、拡張する必要はなくなります。インタラクティブな Apache Spark アプリケーションを 1 秒以下で開始して、Spark に最適化した AWS のランタイムを利用することで、オープンソースよりも高速な処理を行うことができます。Amazon Athena は AWS の他のサービスに統合されているため、AWS のお客様は複数のソースからデータのクエリを実行し、複雑な分析のために計算を連鎖させて、結果を視覚化できます。Amazon Athena for Apache Spark は、アプリケーションの要求や規模に基づいて、必要に応じてリソースを自動的に決定するため、お客様は実行したクエリに対してのみ料金を支払います。Amazon Athena for Apache Spark の利用を開始するには、以下のウェブサイトをご確認ください。
    aws.amazon.com/athena/spark
  • AWS Glue Data Quality がデータの適時性、正確性、整合性を自動的にモニターして管理:何十万ものお客様が AWS Glue を利用して、モダンなデータパイプラインを素早く簡単かつ低コストで構築、管理しています。組織としては、データ品質をモニターする必要があり、データの適時性や正確性、整合性を評価して、分析や機械学習アプリケーションの実現に利用する前に、データレイクやデータパイプラインの情報が確実に高い品質を保つようにしなければなりません。しかしながら、データ品質の効果的な管理には時間や複雑なプロセスが必要になるため、データエンジニアには、自社のデータについて、何日もかけて詳細な統計を収集し、そうした統計に基づいて手作業でデータ品質ルールを特定して、何千というデータセットやデータパイプラインにそのルールを適用することが求められます。このようなルールを一度適用すると、データエンジニアは継続的にモニターし、データのエラーや変更があると、その都度、ルールを調整しなければなりません。AWS Glue Data Quality は、Amazon S3 のデータレイクや、AWS Glue のデータパイプラインのデータ品質を自動的に測定、モニタリング、管理し、何日もかかっていたデータ分析やルールの特定にかかる時間を数時間に短縮します。AWS Glue Data Quality はデータセットの統計情報(最小値、最大値、ヒストグラム、相関など)を計算し、これを使ってデータの適時性や正確性、整合性を保つルールを自動的に推奨します。AWS のお客様は AWS Glue Data Quality が定期的に実行されるようスケジュールを組み、データが変更されると自動的に分析して、関連性が確保されるよう、データ品質ルールの変更が提案されるようにできます。データエンジニアはコードを書き込むことなく、アラートを設定してユーザーにアクションを促したり、品質に問題が生じた場合、データパイプラインをストップさせたりできます。AWS Glue Data Quality の詳細については、以下のウェブサイトをご確認ください。aws.amazon.com/glue/features/data-quality
  • Amazon Redshift がマルチ AZ をサポート:AWS の何万ものお客様が、毎日エクサバイト規模のデータを Amazon Redshift で処理しています。 Amazon Redshift はミッションクリティカルなワークロードをサポートするために、自動バックアップやクラスタを数分で別の AZ に移行するなど、可用性や信頼性を高める機能を提供します。現在、多くのデータベースがプライマリー・スタンバイのレプリケーションモードを使用して高可用性をサポートしており、1 つのデータベースがプライマリーとして稼働し、リプレースの必要が生じた場合に備えて、スタンバイのデータベースがプライマリーからデータを複製します。こうした機能をベースに、Amazon Redshift はデータ損失リスクを最小化しながら、迅速な復旧を可能にする、高可用性構成を提供できるようになりました。Amazon Redshift のマルチ AZ 構成機能により、複数の AZ にクラスタを配置し、すべてのリソースを使用してクエリの読み取りや書き込みの処理を行うことで、無駄なスタンバイコピーを不要にして、コストパフォーマンスを最大限に高めることができます。マルチ AZ のデータウェアハウスは、 1 つのエンドポイントを持つAmazon Redshift の単一のデータウェアハウスとして運用管理されるため、ビジネスの継続性を維持するためにアプリケーションを変更する必要はありません。Amazon Redshift Multi-AZ の詳細については、以下のウェブサイトをご確認ください。aws.amazon.com/jp/redshift/reliability

FINRA(金融取引業規制機構)は米国の一般市民向け事業を行う証券会社の規制機関であり、株式や証券、オプション取引の規制を行っています。FINRA のシニアディレクターである Ratnakar Korem 氏は、次のように述べています。「FINRA では Amazon Athena 上でアプリケーションを開発し、アナリストやビジネスパートナーが毎日更新される数テラバイトの金融取引データに対して安全にクエリが実行できるようにしています。私たちがこれまで活用してきた Amazon Athena のオンデマンドやバッチ分析にさらなるスピードと使いやすさをもたらしてくれる Amazon Athena for Apache Spark には大いに期待しています。サーバーレスのこの機能により、FINRA は明確にコンピュートリソースとして定義されるオーバーヘッドなしに、ビッグデータ分析を実行することができ、Apache Spark のパフォーマンスをチューニングする必要もありません。これにより、最終的には規制ユーザーやデータアナリストは市場ダイナミクスの変化に素早く対応できるようになり、その結果をコスト効率の良いタイムリーな方法で、他の人たちと共有できるようにもなります」

ユナイテッド航空(United Airlines)は米国国内線および国際線の大規模な運航ネットワークを持ち、米国と世界 6 大陸の大小さまざまな都市を結んでいます。ユナイテッド航空のデータエンジニアリング担当ディレクターである Sarang Bapat 氏は、次のように述べています。「ユナイテッド航空では、お客様や従業員のために、データやアナリティクス主導の何百ものツールを開発し、当社の業務にとっては不可欠なデータ品質の管理や維持を行っています。今回発表された AWS Glue Data Quality によって、データ品質に関する問題を数分で自動的に特定し、分析を行って、対処できるようになり、非常に嬉しく思っています。これにより、当社は十分な情報を元に、データに関するあらゆる問題について、タイムリーかつ正確な意思決定が行えるようになり、問題の特定や解決を人手による作業で行うためにかかっていた時間を大幅に削減できます」

ヤンセンファーマ(Janssen Pharmaceuticals)は ジョンソン・エンド・ジョンソングループの子会社で、患者さんや医療業界のニーズの変化に焦点を当てた医薬品の研究・製造を行っています。ジョンソン・エンド・ジョンソングループ ヤンセンファーマのインフォメーションテクノロジー担当ディレクターである Shyam Mohapatra 氏は、次のように述べています。「ヤンセンファーマは Amazon Redshift を利用して重要な洞察を得て、データサイエンティストやデータスチュワード、ビジネスユーザー、さらに社外のステークホルダーのための重要なビジネスの意思決定を行えるようにしています。Amazon Redshift Multi-AZ によって、遅延や、重要なビジネスの意思決定に影響を及ぼすような中断を生じる心配なく、安心して当社のデータウェアハウスを利用できるようになります」