Amazon Redshift の機能
データレイクハウス向けの SQL を使用して、比類のないコストパフォーマンスを大規模に実現
優れたコストパフォーマンス、スケーラビリティ、セキュリティを実現
すべて開くRA3 インスタンスは、必要なインスタンスの数を指定することにより、ストレージとは別にコンピューティングリソースについて支払う柔軟性を備えており、大量のコンピューティングキャパシティを必要とする、パフォーマンスが重要なワークロードの速度を最大化します。
列指向ストレージ、データ圧縮、ゾーンのマッピングによって、クエリ実行に必要な I/O の量が削減されます。また、Amazon Redshift では、LZO、Zstandard などの業界標準のエンコーディングだけでなく、数値と日付/時刻型向けの専用の圧縮エンコーディング AZ64 も提供しており、それによりストレージの節約とクエリパフォーマンスの最適化を実現できます。
同時実行数の増加に応じて数秒で一時的なキャパシティを追加することで、一貫したサービスレベルで事実上無制限の同時ユーザーと同時クエリをサポートします。各クラスターは 1 日あたり最大 1 時間の無料同時実行スケーリングクレジットを獲得できるため、コストへの影響を最小限に抑えてスケーリングできます。これらの無料クレジットは、97% のお客様の同時実行性に関するニーズを十分に満たすものです。
わずか数クリックで他の Redshift データウェアハウスから Redshift データベースへの書き込みを開始でき、料金パフォーマンスのニーズに応じてさまざまなタイプとサイズのウェアハウスを追加することで、データコラボレーション、ETL/データ処理ワークロードのコンピューティングの柔軟なスケーリングがさらに可能になります。各ウェアハウスは独自のコンピューティングに対して課金されるため、コンピューティング使用量の透明性が高まり、その結果、コストを抑えることができます。
Amazon Redshift マテリアライズドビューを使用すると、ダッシュボード作成やビジネスインテリジェンス (BI) ツールからのクエリや、抽出、変換、ロード (ETL) データ処理ジョブなど、反復的または予測可能な分析ワークロードのクエリパフォーマンスを大幅に向上させることができます。マテリアライズドビューを使用して、データレイク、ゼロ ETL、データ共有テーブルなど 1 つ以上のテーブルを参照できる SELECT ステートメントの事前計算済みの結果を格納および管理できます。増分更新では、Amazon Redshift は前回の更新後に発生したベーステーブルまたはテーブルの変更を識別し、マテリアライズドビュー内の対応するレコードのみを更新します。増分更新は完全更新よりも短時間で実行され、ワークロードのパフォーマンスが向上します。
繰り返されるクエリについて、 1 秒未満の応答時間を実現します。繰り返しクエリを実行するダッシュボード、ビジュアライゼーション、および BI ツールでは、パフォーマンスが大幅に向上します。クエリを実行すると、Amazon Redshift はキャッシュを検索し、以前の実行でキャッシュされた結果がないか確認します。キャッシュされている結果が見つかり、データが変更されていないことがわかると、クエリを再度実行せずに、キャッシュされている結果を即座に返します。
着信クエリフィルター (特定の地域の売上など) に基づいてデータを自動的にソートすることで、反復クエリのパフォーマンスを向上させる新しい強力なテーブルソートメカニズム。この方法では、従来の方法に比べてテーブルスキャンのパフォーマンスが大幅に向上します。
リカバリ時間を短縮し、データを失うことなく自動的にリカバリできる容量を保証することで、リカバリ機能を拡張します。Amazon Redshift マルチ AZ データウェアハウスは、スタンバイリソースを使用することなく高可用性を実現することで、パフォーマンスと価値を最大化し、可用性を 99.99% の SLA 水準に引き上げます。
Amazon Redshift では、ファイアウォールルールを設定して、データウェアハウスクラスターに対するネットワークアクセスを制御できます。Amazon Redshift を Amazon Virtual Private Cloud (Amazon VPC) の中で実行することもでき、このようにするとデータウェアハウスクラスターはお客様専用の仮想ネットワーク内に隔離されます。このクラスターをお客様の既存の IT インフラストラクチャに接続するには、業界標準の暗号化 IPsec VPN を使用します。
いくつかのパラメータを設定するだけで、Amazon Redshift が、転送中のデータの保護には TLS、保管中のデータの保護にはハードウェアアクセラレーション対応の AES-256 暗号化を使用するように設定できます。保管中のデータの暗号化を有効化する場合、ディスクに書き込まれたすべてのデータはあらゆるバックアップと同じように暗号化されます。Amazon Redshift はデフォルトでキー管理を行います。
IAM アイデンティティセンターとの統合により、組織は Amazon Redshift、Amazon QuickSight、および AWS Lake Formation 間の信頼できる ID 伝播をサポートできます。お客様は、Microsoft Entra ID、Okta、Ping、OneLogin などのサードパーティー ID プロバイダー (IdP) を利用して、組織のアイデンティティを使って QuickSight や Amazon Redshift クエリエディタ、サードパーティー BI ツールや SQL エディタから、シングルサインオンで Amazon Redshift にアクセスできます。管理者は、サードパーティーの IdP のユーザーとグループを使用して、サービス全体のデータへのアクセスをきめ細かく管理し、AWS CloudTrail でユーザーレベルのアクセスを監査できます。信頼できる ID 伝播により、ユーザーの ID は QuickSight、Amazon Redshift、および Lake Formation 間でシームレスに渡され、インサイトを得るまでの時間が短縮され、スムーズな分析が可能になります。
詳細な行および列レベルのセキュリティコントロールにより、ユーザーはアクセスできる必要があるデータのみを表示できます。Amazon Redshift は AWS Lake Formation と統合されており、Lake Formation の列レベルのアクセスコントロールが、データレイク内のデータに対する Redshift クエリにも適用されます。Amazon Redshift のデータ共有は、Lake Formation による一元化されたアクセスコントロールをサポートし、Amazon Redshift から共有されるデータのガバナンスを簡素化します。Lake Formation は、安全なデータレイクのセットアップ、すべての消費サービスにわたるデータへのきめ細かなアクセスの集中管理、および行レベルと列レベルの制御の適用を容易にするサービスです。動的データマスキングを使用すると、ユーザーに表示される識別可能なデータの量を制限して、機密データを保護できます。このようなフィールドに複数のレベルのアクセス許可を定義すると、データのコピーを複数作成しなくても、Amazon Redshift の使い慣れた SQL インターフェイスを使用して、さまざまなユーザーやグループがさまざまなレベルのデータにアクセスできるようになります。
SQL を使用してレイクハウス内の統合データ全体からインサイトを引き出す
すべて開く
Amazon Redshift と、Amazon SageMaker 内のレイクハウスとの統合により、SQL を使用してすべての統合データを分析できます。Amazon Simple Storage Service (Amazon S3) のデータをオープンフォーマットでクエリできるため、データレイクとデータウェアハウス間のデータ移動が不要になります。SageMaker のレイクハウスで Amazon Redshift データを開くと、AWS と Apache Iceberg 分析ツールにアクセスできるようになり、包括的なデータ分析と機械学習 (ML) がサポートされます。
Amazon Redshift は、Apache Iceberg、Apache Hudi、Delta Lake のテーブル形式で使い慣れた ANSI SQL を使用する読み取り専用クエリをサポートし、Apache Parquet、ORC、Avro、JSON、CSV などのオープンファイル形式を Amazon S3 で直接クエリすることもできます。Apache Iceberg は、テーブル構造を通じてトランザクションの一貫性を実現し、データレイクの整理を強化するオープンソースのテーブル形式の例です。Amazon Redshift Spectrum を使用すると、データレイク内のテーブルや Parquet などのオープンデータ形式のデータを読み取ることができると同時に、Amazon S3 に最大エクサバイト規模の構造化データ、半構造化データ、非構造化データを保持できます。Parquet にエクスポートするオプションを含め、Amazon Redshift UNLOAD コマンドを使用してデータレイクにデータをエクスポートすることもできます。Amazon Redshift からデータレイクにデータをエクスポートして戻すと、Amazon Athena、Amazon EMR、SageMaker などの AWS サービスを使用してデータをさらに分析できます。
SQL を使用すると、データ探索と分析のためのウェブベースのアナリストワークベンチにより、データアナリスト、データエンジニア、その他の SQL ユーザーが Amazon Redshift のデータとデータレイクにアクセスしやすくなります。Query Editor では、ワンステップでクエリ結果を視覚化したり、スキーマやテーブルを作成したり、データを視覚的にロードしたり、データベースオブジェクトを参照したりできます。また、SQL クエリ、分析、視覚化、および注釈を作成および共有し、それらをチームと安全に共有するための直感的なエディタも提供します。
1 つのデータと AI の開発環境である SageMaker Unified Studio で Amazon Redshift を利用した組み込み SQL エディタを使用して、データレイク、データウェアハウス、データベース、およびアプリケーションに保存されているデータをクエリできます。
ほぼリアルタイムの分析で意思決定を加速
すべて開く
Aurora、Amazon Relational Database Service (Amazon RDS)、Amazon DynamoDB、エンタープライズアプリケーション、Amazon Redshift の間のノーコード統合により、データベースやアプリケーション全体でペタバイト規模のデータを即座に分析し、ML を実行できます。例えば、オペレーション、トランザクション、またはエンタープライズアプリケーションソースに書き込まれたデータについては、Aurora ゼロ ETL 統合と Amazon Redshift の併用により、データを Amazon Redshift でシームレスに使用できるようになり、複雑な ETL データパイプラインを構築して維持する必要が最小限に抑えられます。
Amazon S3 からのデータインジェストを簡素化および自動化することで、カスタムソリューションの構築やサードパーティーサービスの管理にかかる時間と労力を削減できます。この機能により、Amazon Redshift は、ファイルの取り込みを自動化し、内部で継続的なデータのロードステップを処理することにより、COPY 処理を手動で繰り返し実行する必要がなくなります。自動コピーのサポートにより、データエンジニアリングの知識がなくても基幹業務ユーザーやデータアナリストが簡単に取り込みルールを作成し、Amazon S3 からロードするデータの場所を設定できます。
SQL を使用して、Amazon Kinesis Data Streams と Amazon Managed Streaming for Apache Kafka (Amazon MSK) に接続し、そこからデータを直接取り込みます。また、Amazon Redshift ストリーミング取り込みでは、ストリームの上にマテリアライズドビューを直接作成できるため、ダウンストリームパイプラインの作成と管理が簡単になります。マテリアライズドビューには、ELT パイプラインの一部として SQL 変換を含めることもできます。定義されたマテリアライズドビューを手動で更新して、最新のストリーミングデータを照会できます。
Amazon Aurora PostgreSQL 互換エディション、Amazon Relational Database (Amazon RDS) for MySQL、Amazon Aurora MySQL 互換エディションのデータベースなどの 1 つ以上の Amazon RDS インスタンスのライブデータをクエリすることで、データを移動せずにビジネスオペレーション全体を即座に可視化できます。
インフラストラクチャの管理なしに簡単な SQL 分析を実現
すべて開く
データウェアハウスのインフラストラクチャをセットアップして管理することなく、数秒で分析を実行してスケールできます。AI ドリブンのスケーリングと最適化テクノロジーにより、Amazon Redshift Serverless は、データウェアハウスのキャパシティを自動的かつプロアクティブにプロビジョニングおよびスケールし、極めて要求の厳しいワークロードでも高速なパフォーマンスを実現できます。このシステムは、AI の手法を使用して、同時実行クエリ、クエリの複雑さ、データ量の流入、ETL パターンなど、主要な側面にわたってお客様のワークロードパターンを学習します。その後、1 日を通じて継続的にリソースを調整し、カスタマイズされたパフォーマンス最適化を適用します。希望するパフォーマンス目標を設定すると、データウェアハウスは一貫したパフォーマンスを実現するために自動的にスケールします。
高度なアルゴリズムにより、実行時間とリソース要件に基づいて着信クエリを予測および分類し、パフォーマンスと同時実行を動的に管理すると同時に、ビジネスクリティカルなワークロードの優先順位付けをサポートします。ショートクエリアクセラレーション (SQA) では、ダッシュボードなどのアプリケーションから高速キューに短いクエリを送信し、大規模なクエリの背後で長時間にわたって待機するのではなく、即座に処理されるようにします。自動ワークロード管理 (WLM) では、ML を使用してメモリと同時実行を動的に管理することで、クエリのスループットを最大限に高めます。また、数百件のクエリが送信されていても、最も重要なクエリを優先するように設定できるようになりました。Amazon Redshift Advisor は、Amazon Redshift のパフォーマンスをさらに強化するために明示的なユーザーアクションが必要な場合にレコメンデーションを行います。クエリパターンが予測不能な動的なワークロードの場合、自動マテリアライズドビューは、Amazon Redshift クラスターの自動更新、自動クエリ書き換え、増分更新、継続的なモニタリングを通じて、クエリのスループットを改善し、クエリのレイテンシーを低減して、実行時間を短縮します。自動テーブル最適化は、クラスターのワークロードのパフォーマンスを最適化するためのソートキーおよび分散キーを選択します。Amazon Redshift が、キーを適用するとクラスターのパフォーマンスが向上すると判断した場合、管理者の介入を必要とせずに、テーブルが自動的に変更されます。追加機能である自動バキューム削除、自動テーブルソート、および自動分析により、Amazon Redshift クラスターを手動でメンテナンスおよび調整する必要がなくなり、新しいクラスターと本番ワークロードで最高のパフォーマンスを実現できます。
簡単な API を使用して Amazon Redshift を操作する: Amazon Redshift を利用すると、あらゆる種類の従来型、クラウドネイティブ、コンテナ化されたサーバーレスウェブサービスベースのアプリケーション、およびイベント駆動アプリケーションを使用してデータに簡単にアクセスできます。Amazon Redshift Data API は、AWS SDK でサポートされているプログラミング言語とプラットフォーム (Python、Go、Java、Node.js、PHP、Ruby、C++ など) からのデータアクセス、取り込み、送信を簡素化します。Data API を使用することで、ドライバーを設定したり、データベース接続を管理したりする必要がなくなります。代わりに、データ API によって提供される安全な API エンドポイントを呼び出すことで、Amazon Redshift クラスターに対して SQL コマンドを実行できます。データベース接続の管理とデータのバッファリングは Data API が行います。Data API は非同期であるため、後で結果を取得できます。クエリ結果は 24 時間保存されます。
コンソール内でクエリを実行したり、QuickSight、Tableau、Microsoft Power BI、Alteryx、Querybook、Jupyter Notebook、Informatica、dbt、MicroStrategy、Looker などの SQL クライアントツール、ライブラリ、データサイエンスツールに接続したりできます。
生成 AI でアプリケーションがコンテキストを踏まえるようにし、ユーザーの生産性を高める
すべて開くAmazon Redshift クエリエディタでは、データアクセス許可の範囲内で正確な SQL コードレコメンデーションをセキュアに生成するクエリを平易な英語で記述します。
Amazon Redshift は Amazon Bedrock とシームレスに統合されているため、標準の SQL コマンドを使用して直接生成 AI 機能を実現できます。この統合により、データチームはインフラストラクチャをさらに複雑にすることなく、テキスト分析、翻訳、感情検出などのタスクに Anthropic Claude や Amazon Titan などの基盤モデルを使用できます。ユーザーは既存のデータ分析ワークフロー内でシームレスに AI モデルを呼び出すことができ、企業データからインサイトを抽出する方法を変革します。
Amazon Redshift ML により、データアナリスト、データサイエンティスト、BI プロフェッショナル、デベロッパーは SQL を使用して SageMaker モデルを簡単に作成、トレーニング、デプロイできます。Amazon Redshift ML では、SQL ステートメントを使用して、Amazon Redshift のデータで SageMaker モデルを作成およびトレーニングしてから、そのモデルを使って、直接クエリやレポートでチャーン検出や財務予測、パーソナライゼーション、リスクスコアリングなどの予測を取得することができます。テキスト要約、エンティティ抽出、感情分析などの高度な自然言語処理タスクに対して大規模言語モデルを Amazon Redshift に取り込むことで、SQL を使用してデータからより深いインサイトを得ることができます。