Amazon Web Services ブログ
Amazon Redshift の新機能 — データインジェストを簡素化し、データウェアハウスの安全性と信頼性を高めます
お客様とお話をすると、データから得られるインサイトを活用して、タイムリーで影響力のある、実行可能なビジネス上の意思決定を行えるようにしたいとのご要望が耳に入ります。データ主導型の組織に共通するパターンは、分析システムに取り込む必要のあるさまざまなデータソースが多数あることです。それゆえ、運用データベース、データレイク、ストリーミングデータ、およびウェアハウス内のデータにまたがる手動のデータパイプラインを構築する必要があります。このような複雑なセットアップのために、データエンジニアがデータインジェストパイプラインの構築に数週間から数か月かかることもあります。これらのデータパイプラインにはコストがかかり、遅延によりビジネスチャンスが失われる可能性があります。さらに、データウェアハウスは、高可用性、信頼性、セキュリティを必要とする業務に不可欠なシステムになりつつあります。
Amazon Redshift は、何万人ものお客様が使用しているフルマネージド型のペタバイト規模のデータウェアハウスであり、あらゆる規模のあらゆるデータを簡単、迅速、安全、かつコスト効率の高い方法で分析します。Amazon Redshift は、2022年の re:Invent で、安全で信頼性の高い環境で、データインジェストを簡素化し、簡単かつ迅速にインサイトを得ることができるさまざまな機能を発表しました。
このブログでは、主に次の 2 つのカテゴリーに当てはまる新機能をいくつかご紹介します。
- データインジェストを簡素化
- Amazon Redshift は Amazon S3 からの自動コピーをサポートするようになりました (プレビュー版で利用可能)。この新しい機能により、Amazon Redshift は、お客様が指定した Amazon Simple Storage Service (Amazon S3) の場所に到着したファイルを自動的にデータウェアハウスにロードします。ファイルでは、CSV、JSON、Parquet、Avro など、Amazon Redshift のコピーコマンドでサポートされている任意の形式を使用できます。これにより、コピーの手順を手動で行ったり繰り返し実行したりする必要がなくなります。Amazon Redshift はファイルインジェストを自動化し、データインジェスト手順を内部で処理します。
- Amazon Aurora Zero-ETL と Amazon Redshift の統合により、Amazon Redshift を使用して、Amazon Aurora MySQL データベース (限定プレビュー版で利用可能) に保存されているペタバイト級のトランザクションデータについて、ほぼリアルタイムの分析と機械学習を行うことができます。この機能を使用すると、Amazon Redshift で分析するデータを含む Amazon Aurora データベースを選択できます。トランザクションデータが Amazon Aurora に書き込まれてから数秒以内にデータがデータウェアハウスに複製されるため、複雑なデータパイプラインを構築したり維持したりする必要がなくなります。複数の Amazon Aurora データベースのデータを同じ Amazon Redshift インスタンスに複製して、複数のアプリケーションにわたって分析を実行できます。トランザクションデータにほぼリアルタイムでアクセスできるため、組み込みの機械学習 (ML)、マテリアライズドビュー、データ共有、および複数のデータストアやデータレイクへのフェデレーテッドアクセスなどの Amazon Redshift の分析と機能を活用して、トランザクションデータやその他のデータからインサイトを引き出すことができます。
- Amazon Redshift Streaming Ingestion の一般提供により、Amazon Kinesis Data Streams と Amazon MSK から 1 秒間に数百メガバイトのデータを Amazon Redshift のマテリアライズドビューにネイティブに取り込み、数秒でクエリを実行することができます。詳細については、こちらの記事をご覧ください。
- データウェアハウスの安全性と信頼性を高める
- 複数のアベイラビリティーゾーン (AZ) デプロイを選択することで、データウェアハウスの可用性を向上させることができるようになりました。Amazon Redshift クラスターのマルチ AZ 配置はプレビュー版で利用でき、自動復旧により復旧時間を数秒に短縮できます。このようにして、AWS Well-Architected フレームワークの信頼性の柱のレコメンデーションにより準拠したソリューションを構築できます。
- 動的データマスキング (プレビュー版で利用可能) を使用すると、データウェアハウスに保存されている機密情報を保護し、ユーザーの役割に応じた関連データのみにアクセスできるようにすることができます。複数のレベルのポリシーを使用して、ユーザーに表示される識別可能なデータの量を制限できます。これにより、データのコピーを複数作成しなくても、ユーザーやグループごとに異なるレベルのデータアクセスが可能になります。動的データマスキングは、行レベルおよび列レベルのセキュリティやロールベースのアクセスコントールなど、Amazon Redshift の他のきめ細かいアクセスコントール機能を補完します。このように、動的データマスキングは、GDPR、CCPA、およびその他のプライバシー規制の要件を満たすのに役立ちます。
- Amazon Redshift は、AWS Lake Formation (パブリックプレビュー版で利用可能) とのデータ共有のための中央アクセスコントロールをサポートするようになりました。Lake Formation を使用すると、Amazon Redshift から共有されるデータのガバナンスを簡素化し、すべてのデータ共有コンシューマーにわたるきめ細かなアクセスを一元管理できます。
re:Invent での Amazon Redshift に関する興味深いニュースは他にもあります。既にお聞きになったことがあるかもしれません。
- Apache Spark 向けの Amazon Redshift インテグレーションの一般提供により、Amazon Redshift と Redshift サーバーレスで Spark アプリケーションを簡単に構築して実行できるようになり、より幅広い AWS 分析および機械学習ソリューションのデータウェアハウスが使用できるようになります。
- AWS Backup は Amazon Redshift をサポートするようになりました。AWS Backupでは、一元的なバックアップポリシーを定義してアプリケーションのデータ保護を管理し、、Amazon Redshiftクラスターも保護できます。このように、サポートされているすべてのサービスで、一貫したデータ保護管理ができます。
利用可能なリージョンと料金
米国東部 (オハイオ)、米国東部 (バージニア北部)、米国西部 (オレゴン)、アジアパシフィック (東京)、欧州 (アイルランド)、欧州 (ストックホルム) では、マルチ AZ 配置、AWS Lake Formation とのデータ共有のための中央アクセスコントロール、Amazon S3 からの自動コピー、および動的データマスキングがプレビュー版にあります。
Amazon S3 からの自動コピーとトランザクションデータのほぼリアルタイムの分析を使用しても追加料金はかかりません。データ共有のための動的データマスキングと中央アクセスコントロールには追加料金はかかりません。詳細については、Amazon Redshift の料金を参照してください。
これらの新機能により、データウェアハウスのセキュリティと信頼性を向上させながら、シンプルなデータインジェスト機能を使用してデータソース全体のすべてのデータをさらに分析できるようになります。
— Danilo
原文はこちらです。