投稿日: Dec 19, 2022

Amazon Aurora と Amazon Redshift のゼロ ETL 統合により、ほぼリアルタイムでペタバイト規模のトランザクションデータの分析が可能になり、カスタムデータパイプラインの構築が不要に

Amazon Redshift とApache Spark の統合により、AWS のアナリティクスや機械学習サービスを利用することで、Amazon Redshift のデータに対して Apache Spark のアプリケーションを素早く簡単に実行可能に

※本プレスリリースは、現地時間 2022 年 11 月 29 日に米国で発表されたプレスリリースの抄訳版です。

(ラスベガス、2022 年 11 月 29 日発表)Amazon.com, Inc.(NASDAQ:AMZN)の関連会社である Amazon Web Services, Inc.(以下、AWS)は 11 月 29 日、AWS re:Invent において、さまざまなサービス間でデータを移動せずとも、簡単に複数のデータストアをまたいでデータをつなぎ、分析可能とする、2 つの新しい統合サービスを発表しました。今回の発表により、AWS のお客様は ほぼリアルタイムで Amazon Aurora のデータを Amazon Redshift で分析できるようになり、一方のサービスで利用するためのデータの抽出、変換、格納(ETL)を不要にします。また、AWS のアナリティクスや機械学習(ML)サービス(Amazon EMR、AWS Glue、Amazon SageMaker など)を利用して、Amazon Redshift のデータを利用した Apache Spark アプリケーションを簡単に実行できるようになります。この 2 つの機能によって、AWS はお客様が AWS 上で ETL が不要な未来に移行していけるよう支援します。AWS を利用してデータが持つ価値を解放する取り組みの詳細については、以下のウェブサイトをご確認ください。
aws.amazon.com/data  

AWS のデータベース、アナリティクスおよび機械学習担当バイスプレジデントであるスワミ・シヴァスブラマニアン(Swami Sivasubramanian)は、次のように述べています。「今日、お客様は膨大で複雑なデータを管理するようになっており、単一のテクノロジー、あるいは少数のツールセットでは分析や検索が行えなくなっています。AWS のお客様の多くは、複数の AWS データベースやアナリティクスサービスを活用してデータから価値を引き出すこと、また、そのためには適切なツールにアクセスできるようにすることが、ビジネスの成功に向けて重要であることを実感しています。AWS が本日発表した 2 つの新機能によって、お客様が AWS 上で ETL が不要な未来に移行していけるよう支援し、手動によるサービス間のデータ移行や変換をする必要性を減らします。ETL を始めとするデータの移行タスクをなくすことによって、組織やデータの規模や複雑さに関わらず、お客様がデータを分析してビジネスのための新たなインサイトを得ることに注力できるよう、AWS は取り組んでいきます」

データはあらゆるアプリケーションやプロセス、ビジネスの意思決定の中心にあり、ほぼすべての組織のデジタルトランスフォーメーションの基礎となります。しかし、現実世界のデータシステムは、多種多様なデータがさまざまなサービスやオンプレミスのシステムに分散しているために、往々にして広範囲に散乱する複雑なものになっています。多くの組織はデータの宝庫を抱え、そこから最大の価値を引き出したいと考えています。AWS は Amazon Aurora のように目的に応じた様々な専用ツールを提供し、トランザクションデータを MySQL や PostgreSQL に対応するリレーショナルデータベースに保管し、Amazon Redshift でペタバイト級のデータに対して、高パフォーマンスなデータウェアハウスや分析ワークロードを実行します。しかしデータの価値を真に最大化するためには、こうしたツールがシームレスに一体化して機能するようにする必要があります。AWS が、サービス間でデータを移行させることなく 機械学習(ML)を利用可能とした事例のように、Amazon SageMaker の利点を活用できるよう、Amazon Aurora ML や Amazon Redshift ML のようなゼロ ETL 機能に投資を行ってきたのはそのためです。さらに、AWS は AWS ストリーミングサービス(Amazon Kinesis や Amazon Managed Streaming for Apache Kafka (MSK))から、Amazon Simple Storage Service (Amazon S3)や Amazon OpenSearch Service などのさまざまな AWS データストアへのシームレスなデータインジェストも提供するため、お客様はデータが利用可能になればすぐに分析を開始することができます。本日の発表は、AWS のデータベースやアナリティクスのポートフォリオの強みと深さを基盤に、これらを統合して、AWS のあらゆるデータストアにお客様がより迅速かつ簡単でコスト効率よくアクセスし、分析できるようにするものです。

Amazon Aurora と Amazon Redshift のゼロ ETL 統合により、Amazon Aurora のトランザクションデータに対しての、ほぼリアルタイムでのペタバイト規模のアナリティクスの実行が容易に
組織がコアビジネスを推進する背景への理解を深め、売上拡大、コスト削減、競争優位性の獲得のための戦略を定めるにつれて、トランザクションデータ(購買、予約、金融取引など)に関するインサイトを、ほぼリアルタイムで手にしたいという要求が高まります。現在、多くの組織はトランザクションデータの分析を、リレーショナルデータベースからデータストア、データウェアハウスから分析の実行、リレーショナルデータベースからデータウェアハウスまでの ETL データパイプライン、という 3 つのソリューションに分けて行っています。データパイプラインの構築には多額のコストがかかる上に管理が難しく、開発者はカスタムコードを書き込んだうえで、常に要求に応じた規模を確保できるよう、インフラを管理する必要があります。なかには、このプロセスを円滑にするためだけにチームを維持している企業さえあります。また、分析のためのデータの準備に何日もかかったり、断続的にデータ転送エラーが発生して、急を要するインサイトの理解がさらに遅れる場合もあり、ビジネス機会の損失につながりかねません。

今回発表した Amazon Aurora と Amazon Redshift のゼロ ETL 統合により、トランザクションデータが Amazon Aurora に書き込まれると、数秒後には常に自動的に複製されるため、シームレスに Amazon Redshift で利用できるようになります。お客様は、データが Amazon Redshift で利用できるようになるとすぐに分析を開始し、データ共有のような高度な機能を活用して、Amazon Redshift ML から包括的かつ予測的なインサイトを得ることができます。また、Amazon Aurora の複数のデータベースクラスターから Amazon Redshift の同じインスタンスにデータを複製して、いくつものアプリケーションにまたがってインサイトを導き出すことができます。今回、トランザクションデータベースのニーズに Amazon Aurora が対応できるようになり、複雑なデータパイプラインを構築したり維持したりせずに、Amazon Redshift で分析を実行できるようになりました。

Amazon Redshift と Apache Spark の統合により、Amazon Redshift のデータに対して、AWS のアナリティクスや機械学習(ML)サービスを活用した Apache Spark アプリケーションの構築や実行が容易に
Apache Spark は、ビッグデータワークロードのためのオープンソースの処理フレームワークとして、多くの開発者がアナリティクスや ML の幅広いアプリケーションのサポートに使用しています。AWS は現在、 Amazon EMR、AWS Glue、Amazon SageMaker で Apache Spark をサポートしており、AWS に最適化した際のランタイムはオープンソースに比べて 3 倍高速です。AWS のお客様からは頻繁に、こうしたサービスから直接、Amazon Redshift のデータを分析したいという声をいただいていますが、そのためには、それぞれの環境と Amazon Redshift との間でデータの読み書きができるサードパーティのコネクターが必要になり、お客様はその発見やテスト、認証という複雑で手間のかかる手順を踏まなければなりません。コネクターが見つかったとしても、Amazon S3 のように、データステージングロケーション間のデータの管理は自社で行って、Amazon Redshift とのデータのやり取りのための読み取り・書き込みを行う必要があります。こうした問題の全てがオペレーションの複雑化につながるため、お客様にとっては Apache Spark の機能を十分に活かすことが難しい状況です。

今回発表した Amazon Redshift と Apache Spark の統合により、開発者は Amazon Redshift のデータに対し、 AWS に対応する分析や ML サービスを利用することで、Apache Spark アプリケーションを簡単に構築・実行できるようになります。Amazon Redshift と Apache Spark の統合は、AWS が認証、パッケージ、サポートを行うことで、サードパーティのコネクターに関連した面倒でエラーの起こりやすいプロセスを排除することができます。開発者は、Apache Spark ベースのアプリケーションから、 Amazon Redshift のデータについて、汎用言語フレームワーク(Java、Python、R、Scala など)を使って数秒の内にクエリの実行を開始できます。データステージング間は自動的に管理され、お客様がアプリケーションコードで設定、管理する必要はなくなります。Amazon Redshift と Apache Spark の統合を開始するには、以下のウェブサイトにアクセスしてください。
aws.amazon.com/redshift/features/integration-for-apache-spark  

アドビ(Adobe) は、個人や中小企業から公共機関やグローバルブランドまで、あらゆる人のために卓越したデジタル体験を創出して提供しています。同社の Adobe Acrobat Sign 担当プリンシパルサイエンティストである Jack Lull 氏は、次のように述べています。「アドビ のミッションは、デジタル体験で世界を動かすことであり、これは、今日の世界において、深さとリアルタイム性の両方を兼ね備えた洞察を提供できる分析力を持つことを意味します。Amazon Aurora のユーザーとして、Amazon Aurora と Amazon Redshift のゼロ ETL 統合のサポートを、当社は嬉しく思います。これによって、拡大する当社の Acrobat Sign のお客様に、利用拡大に伴う新たなインサイトやより迅速な分析パフォーマンスが提供できるようになります。しかも、すべてはこれまで通り、自社でメンテナンスを行うことなく実現できるのです」

GE エアロスペース(GE Aerospace) は、民間および軍用航空機用ジェットエンジンや部品、システムのグローバルプロバイダーであり、第 1 次世界大戦から、ジェットエンジンの設計、開発、製造を手掛けてきました。GE エアロスペース のシニアプリンシパル・データアーキテクトである Alcuin Weidus 氏は、次のように述べています。「当社は、 Amazon Redshift を軸として、組織全体でデータを極めてアクセスしやすく、使いやすいものにする、という戦略を掲げています。データサイエンティストやエンジニア、開発者が Apache Spark を活用してデータプロダクトを構築し、Amazon EMR、AWS Glue および AWS 上で提供されるサードパーティ製 ML プラットフォームで分析ワークロードを実行しています。今回発表された Amazon Redshift と Apache Spark の統合 によって、当社の開発者は開発プロセスを効率化し、アプリケーションのパフォーマンスや安全性を向上できると大いに期待しています」

ザ・ゴールドマン・サックス・グループ・インク(Goldman Sachs Group、以下、ゴールドマン・サックス)は、投資銀行業務、証券業務および投資運用業務を中心に、企業、金融機関、政府機関、個人など多岐にわたるお客様を対象に幅広い金融サービスを提供している世界有数の金融機関です。ゴールドマン・サックス のチーフデータオフィサーである Neema Raphael 氏は、次のように述べています。「当社では、社内のすべてのユーザーにセルフサービスでの データ アクセスを提供することに注力しています。当社は、自社のオープンソースデータ管理およびガバナンスプラットフォームである Legend を通じて、金融サービス業界全体と連携して、ユーザーがデータ主導のアプリケーションを開発し、データドリブンなインサイトを導き出せるようにしています。Amazon Redshift と Apache Spark の統合 によって、当社のデータプラットフォームチームは最小限の手間で Amazon Redshift のデータにアクセスできるようになります。つまり、ゼロコード ETL が実現されることで、当社はエンジニアが完全かつタイムリーに情報を収集しながらワークフローを完了することに集中できるようになります。また、ユーザーが Amazon Redshift の最新データに簡単にアクセスできるようになったことで、アプリケーションのパフォーマンスが向上し、セキュリティが改善されると期待しています」