全般

Amazon Redshift の最新情報を確認するには、最新情報ページを参照してください。
詳細情報と使用のガイダンスを表示するには、ドキュメントにアクセスしてください。

Q: Amazon Redshift とは何ですか?

Amazon Redshift は、フルマネージドでスケーラブルなクラウドデータウェアハウスであり、高速かつ簡単で、安全な大規模分析により、インサイトを得るまでの時間を短縮します。何千もの顧客が、テラバイト規模からペタバイト規模に至るデータを分析し、複雑な分析クエリを実行するために Amazon Redshift を利用しています。運用データベース、データレイク、データウェアハウス、およびサードパーティーのデータセット全体にわたり、すべてのデータに関するリアルタイムインサイトと予測分析を取得できます。Amazon Redshift は、他のクラウドデータウェアハウスの最大 3 倍の料金パフォーマンスでこれらすべてを提供し、予測可能なコストを維持します。

Amazon Redshift Serverless を使用すれば、ペタバイト規模の分析を数秒で簡単に実行して、迅速なインサイトを得ることができます。データウェアハウスのクラスターを構成および管理する必要はありません。Amazon Redshift Serverless は、データウェアハウスの容量を自動的にプロビジョンおよびスケーリングして、要求の厳しい予測不可能なワークロードに高いパフォーマンスを提供し、使用したリソースに対してのみ料金をお支払いいただきます。

Q: 顧客が Amazon Redshift を選択する主な理由は何ですか?

何千ものお客様が Amazon Redshift を選択して、インサイトを得るまでの時間を短縮しています。これは、使いやすく、あらゆる規模のパフォーマンスを提供し、すべてのデータを分析できるためです。Amazon Redshift はフルマネージドサービスであり、プロビジョンされたオプションとサーバーレスオプションの両方を提供するため、データウェアハウスを管理せずに、簡単に分析を実行して拡張できます。予測可能なワークロードに対してプロビジョンされたオプションを選択するか、Amazon Redshift サーバーレスオプションを使用してデータウェアハウスの容量を自動的にプロビジョンおよびスケーリングして、要求の厳しい予測不可能なワークロードに対して高いパフォーマンスを提供できます。あらゆる規模のパフォーマンスを実現し、他のクラウドデータウェアハウスの最大 3 倍の料金パフォーマンスを実現し、予測可能なコストを維持します。Amazon Redshift を使用すれば、運用データベース、データレイク、データウェアハウス、および数千のサードパーティーデータセット全体にわたり、すべてのデータに対してリアルタイムの予測分析を実行してインサイトを得ることができます。Amazon Redshift は、保存中のデータおよび転送中のデータを安全に保ち、内部および外部のコンプライアンス要件を満たします。業界をリードするセキュリティをサポートして、転送中および保存中のデータを保護し、SOC1、SOC2、SOC3、および PCI DSS レベル 1 の要件に準拠しています。すべての Redshift セキュリティおよびコンプライアンス機能が含まれています。追加費用は発生しません。

Q: Amazon Redshift はどのようにデータウェアハウス管理を簡素化しますか?

Amazon Redshift は AWS によるフルマネージド型であるため、ハードウェアプロビジョン、ソフトウェアパッチ、設定、構成、障害から回復するためのノードとドライブのモニタリング、バックアップなどのデータウェアハウス管理タスクについて心配する必要はありません。AWS は、お客様に代わってデータウェアハウスの設定、運用、スケーリングに必要な作業を管理し、お客様がアプリケーションの構築に集中できるようにします。Amazon Redshift には自動チューニング機能もあり、Redshift Advisor でウェアハウスを管理するためのレコメンデーションが表示されます。Redshift Spectrum では、Amazon Redshift によりコンピューティングインフラストラクチャ、ロードバランシング、計画、スケジューリング、および Amazon S3 に保存されているデータに対するクエリ実行がすべて管理されます。サーバーレスオプションは、データウェアハウスの容量を自動的にプロビジョンおよびスケーリングして、要求の厳しい予測不可能なワークロードに高いパフォーマンスを提供し、使用したリソースに対してのみ料金をお支払いいただきます。

Q: Amazon Redshift のパフォーマンスは、他のデータウェアハウスのパフォーマンスと比較していかがですか?

TPC-DS ベンチマークの結果、比較的小さい 3 TB のデータセットに対しても、Amazon Redshift は、すぐに利用できる最高の料金パフォーマンスを提供することを示しています。Amazon Redshift は、他のクラウドデータウェアハウスよりも最大 3 倍優れた料金パフォーマンスを提供します。これは、手動で調整しなくても、最初から Amazon Redshift の優れた料金パフォーマンスを経験できることを意味します。 Amazon Redshift を使用すれば、他のクラウドデータウェアハウス | AWS ビッグデータブログよりも最大 3 倍優れた料金パフォーマンスを得ることができます

Amazon Redshift はさまざまなイノベーションを利用して、データウェアハウジングおよび分析ワークロードの従来のデータベースよりも最大 10 倍優れたパフォーマンスを実現します。これには、数百のノードに線形にスケーリングする超並列処理 (MPP) コンピューティングクラスターを備えた効率的な読み取り最適化列型圧縮データストレージが含まれます。Amazon Redshift はデータを一続きの行で保存せずに、データを列で整理します。データを空のテーブルにロードすると、Amazon Redshift によりデータが自動的にサンプリングされ、最も適切な圧縮方式が選択されます。

Redshift Spectrum により、Amazon S3 にあるエクサバイト単位のデータにクエリを実行できます。ロードや抽出、変換、ロード (ETL) は必要ありません。Amazon Redshift にデータを保存しなくても、Redshift Spectrum を使用して Amazon S3 にあるエクサバイト単位のデータセットにクエリを実行できます。マテリアライズドビューは、ダッシュボード、ビジネスインテリジェンス (BI) ツールからのクエリおよび ETL データ処理など、予測可能で繰り返し起きる分析ワークロードのクエリパフォーマンスを大幅に高速化します。マテリアライズドビューを使用すると、ソーステーブルに加えられた最新の変更を逐次的に処理することで、事前にコンピューティングしたクエリの結果を保存し、それらを効率的に維持することができます。マテリアライズドビューを参照する後続のクエリは、事前に計算された結果を使用して実行を大幅に高速化し、自動リフレッシュおよびクエリ書き換え機能を使用して、マテリアライズドビューの使用を簡素化および自動化します。

オンプレミスデータウェアハウスのコンピューティングおよびストレージ容量は、オンプレミスハードウェアの制約によって制限されます。Amazon Redshift は、変化するワークロードに対応するために、必要に応じてコンピューティングとストレージを個別にスケーリングする機能を提供します。Redshift Managed Storage (RMS) を使用すれば、Amazon S3 ストレージを使用してストレージをペタバイト規模に拡張できるようになります。

自動テーブル最適化 (ATO) は自己調整機能で、手動での作業なしでソートおよびディストリビューションキーのパフォーマンス上の利点を実現するのに役立ちます。ATO は、クエリがテーブルとどのように相互作用するかを観察し、機械学習 (ML) を使用して最適なソートキーとディストリビューションキーを選択して、クラスターにおけるワークロードのパフォーマンスを最適化します。ATO 最適化は、ATO を行わないクラスターと比較して、3 TB および 30 TB の TPC-DS ベンチマークを使用してクラスターのパフォーマンスをそれぞれ 24% および 34% 向上させることが示されています。追加機能の自動バキューム削除、自動テーブルソート、自動分析などにより、Redshift クラスターを手動でメンテナンスおよび調整する必要がなくなり、新しいクラスターと本番ワークロードで最高のパフォーマンスを得ることができます。

ワークロード管理を使用すると、クエリを一連の定義済みキューにルーティングして、クラスターの同時実行性とリソース使用率を管理できます。現在、Amazon Redshift には自動構成タイプと手動構成タイプの両方が用意されています。手動 WLM 構成では、各キューに割り当てられるメモリの量とクエリの最大数を定義する必要があります。クエリのそれぞれは、各キューで実行できるメモリの一部を取得します。手動の WLM 構成はワークロードの変化に適応しないため、正しく構成するにはクエリのリソース使用率に関する深い知識が必要です。Amazon Redshift Auto WLM では、キューのメモリ使用率や同時実行性を定義する必要はありません。代わりに、スループットを最適化するために同時実行性を動的に調整します。オプションで、クエリの優先順位を明確化して、ビジネスの優先順位に基づいてクエリに優先的なリソース割り当てを行います。Auto WLM は、ワークロードを管理するための強力なツールも提供します。クエリの優先順位を使用すると、ワークロードの優先順位を明確にして、忙しい時間帯にリソースを増やしてクエリのパフォーマンスを一貫させるなど、Amazon Redshift で優先的に処理できるようにします。クエリモニタリングのルールは、暴走したクエリや高価なクエリがシステムリソースを消費するのを検知して防止するなど、予期しない状況を管理する方法を提供します。適応型同時実行パフォーマンスが改善された Auto WLM の主な領域は以下のとおり、メモリの適切な割り当て、キュー間のメモリの静的パーティションの排除、およびスループットの向上があります。

Amazon Redshift Advisor は、クラスターのワークロードと使用状況のメトリクスを分析することにより、パフォーマンスを向上させ、コストを最適化するためのカスタマイズされたレコメンデーションを開発します。Amazon Redshift コンソールにサインインして、アドバイザーのレコメンデーションをご覧ください。詳細については、Amazon Redshift Advisor からのレコメンデーションの使用を参照してください。

Q: Amazon Redshift の使用を開始するにはどのようにすればよいですか?

AWS マネジメントコンソールで数回クリックするだけで、データのクエリを開始できます。ベンチマークデータセット TPC-H、TPC-DS、およびその他のサンプルクエリを含む、事前にロードされたサンプルデータセットを利用して、分析をすぐに開始できます。データベース、スキーマ、テーブルを作成し、Amazon S3、Amazon Redshift からデータをロードしたり、Amazon Redshift でプロビジョンされた既存のクラスタースナップショットを復元したりできます。また、Amazon S3 データレイクの Parquet や ORC などのオープンフォーマットのデータや、Amazon Aurora や Amazon RDS PostgreSQL、MySQL などの運用データベースのデータを直接クエリすることもできます。

Amazon Redshift Serverless の使用を開始するには、[Try Amazon Redshift Serverless] (Amazon Redshift Serverless を試す) を選択して、データのクエリを開始します。Amazon Redshift Serverless は、ワークロードの増加に合わせて自動的にスケーリングします。

Q: Amazon Redshift の詳細を知り、オンボードするためのサポートを受けることはできますか?

A: はい、Amazon Redshift スペシャリストが質問に答え、サポートをご提供します。お問い合わせいただければ、1 営業日以内に私たちからご連絡し、AWS がお客様の組織にどのように役立つかをご説明します。

Q: Amazon Redshift 向け Advanced Query Accelerator (AQUA) とは何ですか?

Advanced Query Accelerator (AQUA) は、特定のタイプのクエリを自動的にブーストすることで、Amazon Redshift を他のエンタープライズクラウドデータウェアハウスよりも最大で 10 倍高速に実行できるようにする、新しい分散型のハードウェアアクセラレーションキャッシュです。AQUA は、RA3.16xlarge、RA3.4xlarge、RA3.xlpluノードで、追加料金なしで、コードの変更なしでご利用いただけます。

Q: Redshift データウェアハウスで AQUA を有効/無効にするにはどうすればよいですか?

RA3 ノードで実行されている Redshift クラスターの場合、Redshift コンソール、AWS Command Line Interface (CLI)、または API を使用して、クラスターレベルで AQUA を有効/無効にできます。DC、DS、または旧世代のノードで実行されている Redshift クラスターの場合、最初に RA3 ノードにアップグレードしてから、AQUA を有効/無効にする必要があります。

Q: AQUA によってどのような種類のクエリが高速化されますか?

AQUA は、スキャン、フィルタリング、集約などのデータを大量に処理するタスクをストレージレイヤーの近くで実行することにより、分析クエリを高速化します。大規模なスキャンを必要とするクエリ、特に LIKE 述語と SIMILAR_TO 述語を使用するクエリでは、パフォーマンスが最も顕著に向上します。時間の経過とともに、AQUA によって高速化されるクエリのタイプが増加します。

Q: Redshift クラスターのどのクエリが AQUA によって高速化されているかを知るにはどうすればよいですか?

システムテーブルにクエリを実行して、AQUA によって高速化されたクエリを確認できます。

Q: Amazon Redshift マネージドストレージとは何ですか?

Amazon Redshift マネージドストレージはサーバーレスノードタイプと RA3 ノードタイプでご利用いただけます。コンピューティングとストレージを個別にスケーリングして支払うことができるため、コンピューティングのニーズのみに基づいてクラスターのサイズを設定できます。ティア 1 キャッシュとして高性能 SSD ベースのローカルストレージを自動的に使用し、データブロックの温度、データブロックの経過時間、ワークロードパターンなどの最適化を利用して、アクションを行うことなく必要に応じて Amazon S3 にストレージを自動的にスケーリングしながら高性能を提供します。

Q: Amazon Redshift のマネージドストレージはどのように使用しますか?

すでに Amazon Redshift Dense Storage または Dense Compute ノードをご使用の場合は、Elastic Resize を使用して、既存のクラスターを新しいコンピューティングインスタンス RA3 にアップグレードできます。Amazon Redshift Serverless および RA3 インスタンスを使用するクラスターは、Redshift が管理するストレージを自動的に使用してデータを保存します。この機能を使用するために、Amazon Redshift Serverless または RA3 インスタンスを使用する以外のアクションを行う必要はありません。

Q: Amazon Redshift Spectrum とは何ですか?

Amazon Redshift Spectrum は、データのロードや ETL を必要とすることなく Amazon S3 のデータレイクに対してクエリを実行できる Amazon Redshift の機能です。SQL クエリを発行すると、クエリはクエリ計画を生成および最適化する Amazon Redshift エンドポイントに移動します。Amazon Redshift はどのデータがローカルでどのデータが Amazon S3 にあるかを特定し、読み込む必要がある S3 データの量を最小化する計画を生成して、リソースプールから Amazon Redshift Spectrum の作業者に S3 からデータの読み込みと処理を要求します。

Q: RA3 インスタンスの使用を検討した方がよいのはどのような場合ですか?

このような場合は、RA3 ノードタイプを選択することを検討してください。

  • ストレージとは別に、コンピューティングのスケーリングと支払いを行うための柔軟性が必要です。
  • 合計データの一部をクエリします。
  • データ量が急速に増加しているか、急速に増加することが予想されます。
  • パフォーマンスのニーズのみに基づいてクラスターのサイズを柔軟に設定する必要があります。

データの規模がペタバイトに達するまで拡大し続けるにつれて、Amazon Redshift データウェアハウスに取り込むデータの量も増えています。すべてのデータを費用対効果の高い方法で分析できる方法をお探しかもしれません。

マネージドストレージを備えた新しい Amazon Redshift RA3 インスタンスでは、パフォーマンス要件に基づいてノードの数を選択し、使用するマネージドストレージに対してのみ料金をお支払いいただきます。これにより、ストレージコストを増やすことなく、毎日処理するデータの量に基づいて RA3 クラスターのサイズを柔軟に設定できます。AWS Nitro システム上に構築されたマネージドストレージを備えた RA3 インスタンスは、ホットデータに高性能 SSD を使用し、コールドデータに Amazon S3 を使用して、使いやすさ、費用対効果の高いストレージ、高速クエリパフォーマンスを提供します。

Q: Amazon Redshift とAmazon RDS?

Amazon Redshift でも Amazon Relational Database Service (RDS) でも、データベース管理の負荷を軽減しながら、クラウド内で従来のリレーショナルデータベースを実行できます。Amazon RDS データベースは主にオンライントランザクション処理 (OLTP) のワークロードに対して使用されるのに対し、Amazon Redshift は主にレポーティングと分析に対して使用されます。OLTP ワークロードは、特定の情報をすばやくクエリして、挿入、更新、削除などのトランザクションをサポートする必要があるため、Amazon RDS が最適に処理を行います。Amazon Redshift ではスケーリングと複数ノードのリソースを利用し、さまざまな最適化を行います。それにより、非常に大型のデータセットに対する分析と報告のワークロードにおいて、従来のデータベースと比べて大幅なパフォーマンスの改善を実現します。Amazon Redshift には、レポーティングおよび分析処理が OLTP ワークロードのパフォーマンスを妨げないようにすることを望む場合にデータやクエリの複雑さの増大に対応するための、優れたスケールアウトのオプションがあります。今回、新しい横串検索機能により、Amazon Redshift を使用して Amazon RDS または Aurora データベースサービスに保存されているデータに対して簡単にクエリを実行できるようになりました。

Q: Amazon Redshift または Redshift Spectrum とAmazon EMR をどのように使い分ければよいですか?

Apache Spark、Hadoop、Presto、Hbase などのビッグデータ処理フレームワークを使って、きわめて大規模なデータセットを処理および分析するためにカスタムコードを使用する場合は、Amazon EMR を使用できます。Amazon EMR では、クラスターの設定と、クラスターにインストールするソフトウェアを完全に制御できます。

Amazon Redshift のようなデータウェアハウスは、異なるタイプの分析用に設計されています。データウェアハウスは、在庫、財務、小売販売システムなど、さまざまなソースからのデータを集めるように設計されています。企業全体で一貫して正確なレポートを作成するために、データウェアハウスは高度に構造化された方法でデータを保存します。この構造は、データ整合性ルールをデータベースのテーブルに直接構築します。Amazon Redshift は、構造化データと半構造化データの膨大な集合に対して複雑なクエリを実行し、高速なパフォーマンスを得る必要がある場合に最適なサービスです。

Redshift Spectrum 機能は Amazon Redshift と S3 のデータに対するクエリを実行するのに最適ですが、企業が通常 Amazon EMR のような処理フレームワークに求めているタイプのユースケースにはあまり適していません。Amazon EMR の機能は、単なる SQL クエリの実行をはるかに超えるものです。Amazon EMR は、完全にカスタマイズ可能なクラスターで、Spark、Hadoop、Presto などの有名なビッグデータ処理フレームワークの最新バージョンを使用して、非常に大規模なデータセットを処理および分析できるマネージドサービスです。Amazon EMR を使用すれば、機械学習、グラフ分析、データ変換、ストリーミングデータ、および実質的にコード可能なすべてのアプリケーション向けに、スケールアウトする幅広いデータ処理タスクを実行できます。

Redshift Spectrum は EMR と一緒に使用できます。Redshift Spectrum は Amazon EMR と同じ方法でテーブル定義を保存します。Redshift Spectrum は、Amazon EMR で使用されているのと同じ Apache Hive メタストアをサポートし、データとテーブルの定義を見つけることができます。Amazon EMR を使用していてすでに Hive メタストアを使用している場合、Amazon Redshift クラスターでそれを使用するように設定するだけで済みます。Amazon EMR ジョブでそのデータをすぐに検索することができます。したがって、大規模なデータストアを処理するために既に EMR を使用している場合、Redshift Spectrum を使用して、Amazon EMR ジョブを妨げずにそのデータに対して同時にクエリを実行することができます。

クエリサービス、データウェアハウス、複雑なデータ処理フレームワークはすべてそれぞれの役割を持ち、異なる目的で使用されます。その作業に適したツールを選択する必要があります。

Q: Amazon Athena とAmazon Redshift Spectrum はいつ使用する必要がありますか?

Amazon Athena はインタラクティブなクエリサービスで、Amazon S3 内のデータを標準 SQL を使用して簡単に分析できるようになります。Athena は簡単に使えます。操作は簡単で、S3 にあるデータを指定し、スキーマを定義し、標準的な SQL を使用してクエリの実行を開始するだけです。

Redshift Spectrum は、Amazon Redshift の機能です。最高のパフォーマンスで頻繁にアクセスされるデータを厳格なサービスレベルアグリーメント (SLA) で分析する必要がある場合は、Amazon Redshift を使用してください。Redshift Spectrum を使用して、Amazon Redshift クエリを Amazon S3 アクセス頻度の低いデータレイク内のデータに拡張できます。これにより、任意の場所に任意の形式でデータを保存でき、必要なときに処理することができます。

Q: 独自の Amazon EC2 の MPP データウェアハウスクラスターを実行するのではなく、Amazon Redshift を使用する理由は何ですか?

Amazon Redshift は独自のデータウェアハウスの管理に関連する、以下のような時間のかかる多くのタスクを自動的に処理します。
  • セットアップ: Amazon Redshift では、データウェアハウスクラスターを作成してスキーマを定義すれば、データのロードとクエリを開始できるようになります。プロビジョニング、構成、パッチ適用を管理する必要はありません。
  • データの耐久性: Amazon Redshift では、データウェアハウスクラスターの中でデータが自動的に複製され、Amazon S3 へのバックアップも継続的に行われます。Amazon S3 は、耐久性が限りなく 100% に近い「イレブンナイン」となるように設計されています。Amazon Redshift は、各ドライブのデータをクラスター内の他のノードにミラーリングします。ドライブに障害が発生した場合、レイテンシーが少し増加するだけでクエリは続行され、Redshift は複製からドライブを再作成します。ノードに障害が発生した場合、Amazon Redshift は新規ノードを自動的にプロビジョニングし、クラスター内の他のドライブまたは Amazon S3 からデータを復元し始めます。最も高頻度のクエリ対象データが優先的に復元されるため、高頻度で実行されるクエリは速やかに利用可能になります。
  • スケーリング: 容量やパフォーマンスのニーズが変化したときも、API コールを 1 回実行するか AWS マネジメントコンソールで数回クリックするだけで、Amazon Redshift データウェアハウスクラスターのノードを追加または削除できます。Amazon Redshift のスケジューラ機能を使用して、スケーリング操作やサイズ変更操作をスケジュールすることもできます。
  • 自動更新とパッチ適用: Amazon Redshift によって自動的に更新やパッチがデータウェアハウスに適用されるので、お客様は管理作業ではなくアプリケーションそのものに集中することができます。
  • エクサバイト規模のクエリ実行機能: Amazon Redshift Spectrum により、Amazon S3 にあるエクサバイト単位のデータにクエリを実行できます。ロードや ETL は必要ありません。Amazon Redshift にデータを保存しなくても、Redshift Spectrum を使用して Amazon S3 にあるエクサバイト単位のデータセットにクエリを実行できます。

Q: Amazon Redshift データウェアハウスクラスターの作成およびアクセスはどのように行えますか?

AWS マネジメントコンソール、または Amazon Redshift API を使用して、Amazon Redshift データウェアハウスクラスターを簡単に作成できます。最初はノード 1 つのみで 160 GB のデータウェアハウスを作成し、ここから数ペタバイト規模までスケールするときも、AWS コンソールで数回クリックするか、1 回の API コールのみで可能です。

評価または開発/テストのワークロードに最適な単一ノード構成により、Amazon Redshift を迅速かつコスト効率よく使用し、ニーズの増加に応じてマルチノード構成にスケールアップすることができます。Redshift のデータウェアハウスクラスターあたりのコンピューティングノード数は、ノードのタイプに応じて 1~128 個となります。最新世代のノードタイプ RA3 の場合、ノードの最小数は 2 です。詳細については、ドキュメントを参照してください。

複数ノード構成にはリーダーノードが必要です。リーダーノードではクライアントの接続を管理し、クエリを受け取ります。またデータを保存してクエリとコンピューティングを実行する 2 つのコンピューティングノードも必要です。計算ノードと同じサイズのリーダーノードが自動的にプロビジョニングされます。料金はかかりません。

アベイラビリティーゾーン(オプション)、ノード数、ノードタイプ、プライマリ名とパスワード、セキュリティグループ、バックアップ保持設定、その他のシステム設定を指定するだけです。構成の選択が完了すると、Amazon Redshiftは自動的に、必要なリソースがプロビジョニングされてデータウェアハウスクラスターがセットアップされます。

データウェアハウスクラスターが利用可能になると、そのエンドポイントと JDBC および ODBC 接続文字列を、AWS マネジメントコンソールまたは Redshift API を使用して取得することができます。お好みのデータベースツール、プログラミング言語、ビジネスインテリジェンス(BI)ツールでこの接続文字列を使用できます。実行中のデータウェアハウスクラスターに対するネットワークリクエストの承認が必要になります。詳細な説明については、入門ガイドを参照してください。

Q: Amazon Redshift Spatial を使用する利点は何ですか?

Amazon Redshift Spatial は、データに対する豊富なインサイトを得るためのロケーションベースの分析を提供します。空間データとビジネスデータをシームレスに統合して、意思決定を行うための分析を提供します。Amazon Redshift は、2019 年 11 月に、ポリモーフィックなデータ型である GEOMETRY といくつかの主な SQL 空間関数を使用して、ネイティブな空間データ処理サポートの提供を開始しました。現在、GEOGRAPHY データ型をサポートしており、SQL 空間関数のライブラリは 80 に増えました。Shapefiles、GeoJSON、WKT、WKB、eWKT、eWKB など、すべての一般的な空間データ型と標準をサポートしています。詳細については、ドキュメントページまたは Amazon Redshift 空間チュートリアルページをご覧ください。

Q: コールドクエリのパフォーマンス向上とは何ですか? また、コールドクエリのパフォーマンスを向上させるために Amazon Redshift は何をしますか?

Amazon Redshift は、コンパイルが必要な場合に、クエリを最大 2 倍の速さで処理できるようになりました。この改善により、新しい Redshift クラスターを作成するとき、既存のクラスターに新しいワークロードをオンボードするとき、または既存のクラスターのソフトウェアを更新した後に、クエリのパフォーマンスが向上します。これらのクエリパフォーマンスの向上は、追加料金なしで利用でき、クラスターでそれを有効にするためのアクションは必要ありません。

コールドクエリのパフォーマンスが向上すると、クエリのコンパイルは、クラスターのリーダーノードのコンピューティングリソースを越えて、サーバーレスのコンピレーションサービスにスケーリングされるようになります。Amazon Redshift は、コンパイルされたオブジェクトを保存するための無制限のキャッシュをサポートしており、ミッションクリティカルなクエリが Amazon Redshift に送信された際のキャッシュヒットが 99.60% から 99.95% に増加しています。

クエリが Amazon Redshift に送信されると、クエリ実行エンジンがクエリをマシンコードにコンパイルし、クラスターノードに配布します。コンパイルされたコードは、インタープリターを使用するオーバーヘッドをなくすため、より速く実行されます。コードキャッシュのない新しいクラスターの場合、または既存のクラスターが最新リリースでアップグレードされた後、コードキャッシュはフラッシュされ、クエリはコンパイルされる必要があります。その結果、クエリのレイテンシーが異なる可能性があり、一部のワークロードの要件を満たさない場合があります。このアップデートでは、無制限のキャッシュによりコードをコンパイルする必要性が最小限に抑えられ、コンパイルが必要な場合、スケーラブルなコンパイルファームが並列にコンパイルしてワークロードを高速化します。速度の向上率は、ワークロードの複雑さと並行性によって異なります。コードコンパイルの詳細については、データベースデベロッパーガイドのクエリ処理をご覧ください。

サーバーレス

Q: Amazon Redshift Serverless (プレビュー) とは何ですか?

Amazon Redshift Serverless (プレビュー) は、Amazon Redshift のサーバーレスオプションであり、データウェアハウスインフラストラクチャを設定および管理することなく、数秒以内に簡単に分析を実行してスケーリングできます。Redshift Serverless を使用すれば、データアナリスト、デベロッパー、ビジネスプロフェッショナル、データサイエンティストなど、データウェアハウスにデータをロードしてクエリを実行するだけであらゆるユーザーがデータからインサイトを得ることができます。

Q: Amazon Redshift Serverless (プレビュー) の使用を開始するにはどのようにすればよいですか?

AWS マネジメントコンソールで数回クリックするだけで、[configure Amazon Redshift Serverless] (Amazon Redshift Serverless の設定) を選択して、データのクエリを開始できます。気象データ、国勢調査データ、ベンチマークデータセットなどの事前にロードされたサンプルデータセットとサンプルクエリを利用して、分析をすぐに開始できます。データベース、スキーマ、テーブルを作成し、Amazon S3、Amazon Redshift からデータをロードしたり、Redshift でプロビジョンされた既存のクラスタースナップショットを復元したりできます。また、Amazon S3 データレイクの (Parquet や ORC など) オープンフォーマットのデータや、Amazon Aurora や Amazon RDS PostgreSQL、MySQL などの運用データベースのデータを直接クエリすることもできます。

Q: Amazon Redshift Serverless (プレビュー) はどのような機能を提供しますか?

Amazon Redshift Serverless には、以下のようにたくさんの利点があります。

  • クラスターをプロビジョンおよび管理することなく、迅速にインサイトを得る機能。
  • リソースを過剰にプロビジョンすることなく、ワークロードのリクエストに基づいたインテリジェントなオートスケーリング。
  • スケーリングとバージョン更新のための継続的なサービスの可用性。
  • データウェアハウスにロードされたデータ、Amazon S3 データレイクのオープンフォーマット、およびデータベースの調整を必要としない運用データベースの両方のデータに対して、すぐに使用できる高速なクエリパフォーマンス。
  • Amazon Redshift の豊富な SQL 分析、耐久性、およびトランザクションの保証。
  • 使用した容量のみに対して支払い、データウェアハウスの複雑さを軽減するコスト効率。

Q: Amazon Redshift Serverless (プレビュー) を使用する利点は何ですか?

データウェアハウス管理の経験がない場合は、クラスターの設定、構成、管理、またはウェアハウスの調整について心配する必要はありません。データから有意味なインサイトを引き出すこと、またはデータを通じてコアビジネスの成果を実現することに専念できます。支払いは実際に使用した分のみになるため、コストを管理しやすくなります。Amazon Redshift の最高のパフォーマンス、豊富な SQL 機能、データレイクおよび運用データウェアハウスとのシームレスな統合、組み込みの予測分析およびデータ共有機能のすべてを引き続きご利用いただけます。データウェアハウスをきめ細かく制御する必要がある場合は、Redshift クラスターをプロビジョンできます。

Q: Amazon Redshift Serverless (プレビュー) は他の AWS サービスとどのように連携しますか?

複雑な結合、Amazon S3 データレイクと運用データベースのデータへの直接クエリ、マテリアライズドビュー、ストアドプロシージャ、半構造化データのサポート、機械学習、大規模の高パフォーマンスなど、Amazon Redshift の豊富な分析機能をすべて引き続きご利用いただけます。Amazon Redshift が統合するすべての関連サービス (Amazon Kinesis、AWS Lambda、Amazon QuickSight、Amazon SageMaker、Amazon EMR、AWS Lake Formation、AWS Glue など) は、引き続き Amazon Redshift Serverless で動作します。

Q: Amazon Redshift Serverless (プレビュー) でどのようなユースケースを処理できますか?

すべての分析ユースケースを引き続き実行できます。シンプルな開始ワークフロー、オートスケーリング、および使用料の支払い機能により、Amazon Redshift Serverless エクスペリエンスを用いれば、迅速に開始する必要のある開発環境とテスト環境、アドホックのビジネス分析、予測不可能な各種コンピューティングのニーズを伴うワークロード、断続的または散発的なワークロードの実行がさらに簡単になり、費用対効果が高くなります。

Q: Amazon Athena は Amazon Redshift Serverless とどのように異なりますか?

Amazon Athena と Amazon Redshift は、両方のサービスがサーバーレスであっても、異なるニーズとユースケースに対応します。あらゆる規模で高いパフォーマンスを必要とする、複雑なビジネスインテリジェンスおよび分析ワークロードに対して最高の料金パフォーマンスが必要な場合は、Amazon Redshift などのデータウェアハウスが最適です。Amazon Redshift は、Amazon S3 に保存されているデータをクエリし、データウェアハウスに保存されているデータと組み合わせる機能も提供します。比べると、Athena はデータの取り込みやフォーマットについて心配することなく、あらゆるデータストアでのインタラクティブな分析に適しています。Athena 分析はストレージから分離されているため、Spark、Flink、Kafka などの他のツールやサービスを使用して、Athena によって分析された同一データの分析とデータ処理をさらに充実させるための柔軟性が得られます。

データ共有

Q: Amazon Redshift データ共有とは何ですか?

Amazon Redshift データ共有を使用すると、Amazon Redshift でライブデータを共有して、読み取りを目的とする AWS アカウント内および AWS アカウント間で他の Redshift クラスターと、データレイクを使用する AWS 分析サービスとデータを安全かつ簡単に共有できます。データ共有を使用すれば、データのコピーやデータの移動に関連する複雑さや遅延が生じることなく、アクセス許可がある限り、Redshift クラスターからライブデータを即座にクエリできます。Amazon Redshift を使用すると、組織、アカウント、さらにはリージョン間でライブデータを共有してクエリできます。

Q: データ共有のユースケースを教えてください。

主なユースケースには、以下のようなものがあります。

  • 多くのビジネスインテリジェンス/分析クラスターとデータを共有する中央 ETL クラスターは、読み取りワークロードの分離と選択可能な請求機能を提供します。
  • 外部使用者とデータを共有するデータプロバイダー。
  • 顧客、製品などの共通データセットをさまざまなビジネスグループ間で共有し、幅広い分析とデータサイエンスのために協力します。
  • 管理を簡素化するためのデータウェアハウスの分散化。
  • 開発、テスト、および実稼働環境の間でデータを共有します。
  • 他の AWS 分析サービスから Redshift データへのアクセス。

Q: Amazon Redshift のクロスデータベースクエリとは何ですか?

クロスデータベースクエリにより、接続しているデータベースに関係なく、アクセスできるあらゆる Redshift データベースのデータをシームレスにクエリして結合できます。これには、クラスター上でローカルなデータベースや、リモートクラスターから利用できる共有データセットも含まれます。クロスデータベースクエリを使用すると、データを個別のデータベースとして整理して、マルチテナント設定をサポートする柔軟性が得られます。

Q: AWS Data Exchange for Amazon Redshift とは何ですか?

AWS Data Exchange for Amazon Redshift を使用すると、AWS Data Exchange でサードパーティー製のデータを検索してサブスクライブし、数分以内に Redshift データウェアハウスでクエリを実行できます。AWS Data Exchange を経由して Amazon Redshift でデータのライセンスを簡単に取得することもできます。顧客がデータをサブスクライブすると自動的にアクセスが許可され、サブスクリプションが終了すると自動的に取り消されます。さらに、請求書が自動的に生成され、AWS を通じて支払いが自動的に支払われます。この機能により、これらのサードパーティーのデータを使用して、迅速にアプリケーションをクエリ、分析、構築することができます。

Q: AWS Data Exchange の主なユーザーは誰ですか?

AWS のお客様は AWS Data Exchange で、AWS のサードパーティーのデータを安全に交換および使用できます。ほとんどの業界のデータアナリスト、製品マネージャー、ポートフォリオマネージャー、データサイエンティスト、金融アナリスト、臨床試験技術者、デベロッパーも、より多くのデータへアクセスして、分析を進めたり、機械学習モデルをトレーニングしたり、データ駆動型の意思決定を行いたいと望んでいます。しかしながら、複数のプロバイダーにデータを検索する場所はなく、また、プロバイダーがデータを配信する方法に一貫性がないため、出荷済み物理メディア、FTP 認証情報、カスタマイズされた API コールが混在したままとなります。一方、多くの組織ではデータを研究または商業目的で利用できるようにしたいと考えていますが、データ配信、権利、請求技術を構築し管理するのは非常に難しく、コストも高くつき、貴重なデータの供給がさらに抑制されることになります。

Q: AWS Data Exchange が利用できるのは、どの AWS リージョンですか?

AWS Data Exchange には、プロバイダーが提供する、グローバルで利用できる単一の製品カタログがあります。利用しているリージョンに関係なく、同じカタログを表示できます。製品の基礎となるリソース (データセット、リビジョン、アセット) は、プログラムまたは特定の AWS リージョンの AWS Data Exchange コンソールを介して管理する各リージョンでのリソースです。現在 AWS Data Exchange が利用可能な AWS リージョンのリストについては、AWS リージョン別アベイラビリティー表をご覧ください。

Q: AWS Data Exchange と Registry of Open Data on AWS の違いは何ですか?

AWS Data Exchange と Registry of Open Data on AWS には 5 つの重要な相違点があります。

  • まず、AWS Data Exchange は、無料データ製品と商用データ製品の両方をサポートしており、AWS の請求書には該当する商用料金が適用されます。Registry of Open Data on AWS を使用すると、キュレートされた無料オープンデータセット一覧にアクセスできます。 
  • 次に、AWS Data Exchange では、データプロバイダーが製品を公開するときに設定した条件の概要を示すデータサブスクリプション契約にお客様が明示的に同意する必要があります。Registry of Open Data on AWS には使用条件がありません。 
  • 次に、AWS Data Exchange API を使用して、AWS Data Exchange から目的の Amazon S3 の場所にデータをコピーする必要があります。Registry of Open Data on AWS には、S3 API 経由でアクセスします。 
  • また、AWS Data Exchange では、サブスクリプションアクティビティの詳細な日次、週次、月次のレポートへのアクセスをデータプロバイダーに提供します。Registry of Open Data on AWS では、データプロバイダーがデータの使用状況を追跡するために独自のログを分析する必要があります。 
  • 最後に、AWS Data Exchange のデータプロバイダーになるには、認定済みのお客様が AWS Marketplace にデータプロバイダーとして登録して、無料製品と商用製品の両方を一覧表示する資格を得る必要があります。ただし、どのお客様も GitHub を介して Registry of Open Data on AWS に無料データを追加でき、AWS の AWS Public Dataset Program に申請して、選択したオープンデータセットのストレージと帯域幅のコストを後援することができます。

Q: Amazon Redshift クエリエディタ V2 とは何ですか?

Amazon Redshift クエリエディタ v2 は、Redshift データウェアハウスでクエリを作成および実行するために使用できる、ウェブベースの SQL クライアントアプリケーションです。クエリ結果をグラフで視覚化し、チームのメンバーとクエリを共有することで共同作業を行うことができます。クエリエディタ v2 は、複数のデータベース、外部テーブル、ビュー、ストアドプロシージャ、ユーザー定義関数を参照および探索する機能など、いくつかの機能を提供します。スキーマ、テーブル、およびユーザー定義関数を作成するためのウィザードを提供します。ビジュアルウィザードを使用して、Amazon S3 から Amazon Redshift にデータをロードすることもできます。保存されたクエリの管理とコラボレーションが簡素化されます。また、1 回のクリックで結果を視覚化することで、より迅速なインサイトを得ることができます。最新のプレビューリリースでは、データアナリストはクエリを共有し、Query Doc という共通のインターフェイスを介して共同作業を行うことができます。これにより、コード/SQL クエリ、注釈、結果、および視覚化を組み込むことができます。

Q: クエリエディタ V2 を使用する利点は何ですか?

データアナリスト、データサイエンティスト、またはデータエンジニアの場合は、クエリエディタ V2 を使用して、ウェブベースのインターフェイスを経由でクエリエディタ V2 の参照、スキーマとテーブルの作成、データの読み取り、SQL クエリ、ストアドプロシージャ、および UDF の作成を行うことができます。ツールを離れることなく、インプレースでデータの視覚的分析を実行することもできます。長時間実行されるクエリや、日次レポートなどの単純なレポート目的のクエリを予約することもできます。

Q: クエリエディタ v2 に含まれている機能は何ですか?

クエリエディタ v2 では、以下のことが可能です。

  • スキーマ、テーブルを視覚的に作成し、Amazon S3 からデータをロードします。
  • SQL クエリを作成するための直感的なエディタを使用して、クエリを作成し、より迅速なインサイトを得ることができます。
  • 結果の分析を実行し、結果を JSON/CSV 形式でデスクトップにダウンロードします。
  • さまざまなバージョンのクエリを自動的に管理します。
  • 他のユーザーと協力して、クエリ、分析、および結果を共有します。
  • ブラウザが閉じている場合でも、バックグラウンドでクエリを実行します。

スケーラビリティおよび並行性

Q: Amazon Redshift データウェアハウスクラスターのサイズとパフォーマンスはどのようにスケールすればよいですか?

クエリのパフォーマンスを向上させる、または CPU、メモリ、I/O の過度の使用率に対応する場合、AWS マネジメントコンソールから [Elastic Resize] (伸縮自在なリサイズ) を使用して、または ModifyCluster API を使用してデータウェアハウスクラスター内のノード数を増やすことができます。 データウェアハウスのクラスターを変更すると、すぐに変更が適用されます。コンピューティング使用率、ストレージ使用率、Redshift データウェアハウスクラスターの読み取り/書き込みトラフィックのメトリクスは、AWS マネジメントコンソールまたは Amazon CloudWatch API から無料で利用できます。ユーザー定義のメトリクスも、Amazon CloudWatch のカスタムメトリクス機能を使用して追加できます。

同時実行スケーリング機能の使用により、実質的に無制限の同時実行ユーザーと同時実行クエリをサポートし、安定した高速なクエリパフォーマンスを維持できます。同時実行スケーリングが有効になっている場合、クラスターでクエリキューが増加すると、Amazon Redshift では自動的にクラスター容量が追加されます。

Amazon Redshift Spectrum では、Amazon S3 にある同じデータにアクセスする複数の Redshift クラスターを実行できます。異なるユースケースに対して異なるクラスターを使用できます。たとえば、1 つのクラスターを標準レポートの作成に使用し、別のクラスターをデータ分析クエリに使用できます。マーケティングチームは運用チームと異なる独自のクラスターを使用できます。Redshift Spectrum ではクエリの実行を、共有リソースプールの中から選んだ複数の Redshift Spectrum ワーカーに自動的に分散させて、Amazon S3 からのデータを読み取って処理し、残りの処理のために Redshift クラスターに結果を戻します。

Q: データウェアハウスクラスターはスケーリングの最中も使用できますか?

使用できるかどうかは状況により異なります。同時実行スケーリング機能を使用している場合、同時実行スケーリング中データウェアハウスクラスターでは読み取りおよび書き込みが完全に使用可能です。Elastic サイズ変更を使用している場合、4~8 分のサイズ変更期間中はクラスターを使用できません。マネージドストレージで Redshift RA3 のストレージ伸縮性を使用している場合、データウェアハウスクラスターは完全に使用可能であり、データはマネージドストレージとコンピューティングノードの間で自動的に移動されます。

Q: いつ同時実行スケーリングを使用し、いつデータ共有を使用する必要があるのでしょうか?

データ共有と同時実行スケーリングは補完的な機能です。同時実行スケーリングにより、Amazon Redshift は、1 つのクラスター内の 1 つ以上のワークロードを自動スケーリングして、高い同時実行性とクエリの急増を処理できます。Amazon Redshift は、ユーザーアクティビティのバーストに対処するために容量を数秒で伸縮自在かつ自動的にスピンアップし、アクティビティが停止すると容量を下げます。アプリケーションは、単一のアプリケーションエンドポイントを使用して引き続き Amazon Redshift とやり取りします。データ共有により、マルチクラスター、マルチアカウントデプロイで多様なワークロードにスケーリングできます。これにより、ワークロードを分離して課金し、分散環境においてグループ間でコラボレーションし、内部および外部のステークホルダーにサービスとしてデータを提供できるようになりました。データ共有プロデューサークラスターとコンシューマークラスターの両方で同時実行スケーリングを有効にできます。

Q: 同時実行性が高い期間中に Amazon Redshift クラスターが一貫して高速のパフォーマンスを提供できるようにするには、リソースをどのように管理すればよいですか?

一般的なデータウェアハウスでは、1 日の中で同時実行クエリの使用状況が大きく異なります。ピーク需要にプロビジョニングするのではなく、必要とされる期間だけリソースを追加する方が費用対効果が高くなります。Amazon Redshift では、ユーザーに代わってこれを自動的に処理します。

同時実行スケーリングは Amazon Redshift の機能で、数千の同時実行クエリに対応する場合でも一貫して高速のクエリパフォーマンスを提供します。この機能を使用すると、Amazon Redshift によって必要に応じて一時的な容量が自動的に追加され、大量の需要を処理することができます。Amazon Redshift は、クエリを自動的にスケーリングクラスターにルーティングします。スケーリングクラスターは数秒でプロビジョニングされ、すぐにクエリの処理を開始します。

この機能は、ほとんどのお客様に無料でお使いいただけます。各 Amazon Redshift クラスターは、1 日あたり最大 1 時間の無料同時実行スケーリングクレジットを獲得します。これにより、分析需要が変動している期間でも、月ごとのコストを予測することができます。

Q: Elastic リサイズとは何ですか? また、同時実行スケーリングとの違いを教えてください。

Elastic リサイズは、数分以内に単一の Redshift クラスターにノードを追加または削除して、クエリのスループットを管理します。例えば、1 日または月末のレポートで特定の時間の ETL ワークロードを完了するためには、追加の Amazon Redshift リソースが必要になる場合があります。同時実行スケーリングでは、全体的なクエリの同時実行性を高めるためにクラスターリソースが追加されます。

Q: 同時実行スケーリングクラスターに直接アクセスできますか?

いいえ。同時実行スケーリングは Amazon Redshift リソースのきわめてスケーラブルなプールであり、お客様はこれに直接アクセスすることはできません。

データの統合とロード

Q: Amazon Redshift データウェアハウスへのデータのロードはどのように行えばよいですか?

Amazon Redshift へのデータは、さまざまなデータソースから、例えば Amazon S3Amazon RDSAmazon DynamoDBAmazon EMRAWS GlueAWS Data Pipeline からロードでき、他にも Amazon EC2 上またはオンプレミスの SSH 対応ホストからロードできます。Amazon Redshift では各コンピューティングノードへのデータの並列ロードを行い、データウェアハウスクラスターへのデータ取り込みを最速化します。クライアントは ODBC または JDBC を使用して Amazon Redshift に接続し、SQL の「insert」コマンドを発行してデータを挿入できます。この処理は S3 または DynamoDB に比べて速度が劣ることに注意してください。S3 や DynamoDB は各コンピューティングノードに対してデータを並列ロードするのに対し、SQL の insert 文は 1 つのリーダーノードからデータをロードするためです。Amazon Redshift へのデータロードの詳細については、入門ガイドを参照してください。

Q: 既存の Amazon RDS、Amazon EMR、Amazon DynamoDB、Amazon EC2 データソースから Amazon Redshift へのデータロードはどのようにすればよいですか?

COPY コマンドを使用すると、Amazon EMR、Amazon DynamoDB、または任意の SSH 対応ホストからデータを並行して直接 Amazon Redshift にロードできます。Amazon Redshift Spectrum では、単純な INSERT INTO コマンドを使用して、Amazon S3 からクラスターにデータをロードすることもできます。これにより、Parquet や ORC などのさまざまな形式のデータをクラスターにロードできます。この方法を使用すると、Amazon S3 からスキャンされたデータに応じて Redshift Spectrum の料金が発生することに注意してください。 

Amazon RDS などのさまざまな AWS データソースから Redshift にデータをロードするための、高パフォーマンスかつ安全で耐障害性を備えたソリューションである AWS Data Pipeline が用意されています。AWS Data Pipeline を使用して、データソース、希望のデータ変換を指定した後に、事前に準備したインポートスクリプトを実行してデータを Amazon Redshift にロードできます。また、AWS Glue は抽出、変換、ロード (ETL) を行うフルマネージド型のサービスで、分析用データの準備とロードを簡単にします。AWS マネジメントコンソールで数回クリックするだけで、AWS Glue ETL ジョブを作成および実行できます。さらに、多数の ETL 企業から、各社のツールでの Amazon Redshift の使用が認定されており、データのロードを開始できるように多数の企業が無料トライアルを提供しています。これらの機能の一部は、Redshift コンソールとのより深い統合も実装しており、さまざまなサードパーティーソースから Amazon Redshift へのデータパイプラインの検出とモニタリングを容易にします。

Q: Amazon Redshift に最初にロードするデータが大量にあります。インターネットでの転送には時間がかかります。このデータをどのようにロードすればよいですか?

AWS Snowball でポータブルストレージデバイスを使用し、Amazon S3 にデータを転送できます。さらに AWS Direct Connect を使用すると、ユーザーのネットワークまたはデータセンターと AWS 間にプライベートなネットワーク接続を確立することができます。1 秒あたり 1 ギガビットまたは 1 秒あたり 10 ギガビットの接続ポートを選択してデータを転送できます。

セキュリティ

Q: Amazon Redshift ではデータはどのように保護されますか?

Amazon Redshift は、組み込みの AWS IAM 統合、シングルサインオン (SSO) 向けの ID フェデレーション、多要素認証、列レベルのアクセスコントロール、Amazon Virtual Private Cloud (Amazon VPC) で業界をリードするセキュリティをサポートし、組み込みの AWS KMS 統合で転送中および保存中のデータを保護します。Amazon Redshift では、業界標準の暗号化技術を用いて、通信中または保存されているデータを暗号化して保護します。Amazon Redshift は、通信中のデータを保護するため、クライアントアプリケーションと Redshift データウェアハウスクラスター間で SSL 対応接続がサポートされます。Amazon Redshift は、保存されているデータを保護するため、データがディスクに書き込まれるときに、ハードウェアアクセラレーションを利用した AES-256 で各ブロックが暗号化されます。この暗号化は I/O サブシステムの下位レベルで実行されるため、中間クエリ結果をはじめとするディスクに書き込まれるデータのすべてが暗号化されます。ブロックはそのままの状態でバックアップされるため、バックアップも同じく暗号化されます。デフォルトでは Amazon Redshift がキー管理を処理しますが、AWS Key Management Service を介してキーを管理するように選択できます。Amazon Redshift のセキュリティ機能はすべて、追加費用なしで提供されます。Redshift Spectrum では、AWS Key Management Service (KMS) によって管理されるアカウントのデフォルトキーを使用して、Amazon S3 のサーバー側の暗号化 (SSE) をサポートします。

Q: Redshift は列レベルのセキュリティなどのきめ細かなアクセスコントロールをサポートしていますか?

はい。詳細な列レベルのセキュリティコントロールによって、アクセス権を与えられたデータのみがユーザーに表示されるようにすることができます。Amazon Redshift はローカルテーブルの列レベルのアクセスコントロールをサポートしているため、ユーザーまたはユーザーグループに列レベルの権限を付与したり取り消したりすることにより、テーブルまたはビューの各列へのアクセスをコントロールできます。Redshift は AWS Lake Formation と統合されているため、Lake Formation の列レベルのアクセスコントロールは、データレイク内のデータに対する Redshift のクエリにも適用されます。

Q: Amazon Redshift はデータマスキングまたはデータのトークナイゼーションをサポートしていますか?

Amazon Lambda ユーザー定義関数 (UDF) を利用すると、AWS Lambda 関数を Amazon Redshift の UDF として使用し、Redshift SQL クエリから呼び出すことができます。この機能を使用すると、SQL クエリのカスタム拡張機能を記述して、他のサービスやサードパーティー製品との密接な統合を実現できます。Lambda UDF を記述して、Protegrity などのベンダーと統合することにより、外部トークン化、データマスキング、データの識別または匿名化を有効にし、さらにクエリ時にユーザーの許可とグループに基づいて機密データを保護または保護解除できます。

Q: Amazon Redshift はシングルサインオンをサポートしていますか?

はい。Microsoft Azure アクティブディレクトリ、アクティブディレクトリフェデレーションサービス、Okta、Ping Federate、またはその他の SAML 準拠 ID プロバイダーなどの企業 ID プロバイダーをご使用のお客様は、Amazon Redshift を設定してシングルサインオンを提供できます。

Q: Amazon Redshift は Microsoft Azure アクティブディレクトリでのシングルサインオンをどのようにサポートしていますか?

お客様は、Microsoft Azure アクティブディレクトリ (AD) ID を使用して Amazon Redshift クラスターにサインオンできます。これにより、Redshift で Azure Active Directory ID を複製せずに Redshift にサインオンできるようになります。

Q: Amazon Redshift は、Multi-Factor Authentication (MFA) をサポートしていますか?

はい。Amazon Redshift クラスターへの認証時に、追加セキュリティのために Multi-Factor Authentication (MFA) を使用できます。

Q: Amazon Redshift を Amazon Virtual Private Cloud (Amazon VPC) で使用できますか?

はい。Amazon Redshift を VPC 構成の一部として使用できます。Amazon VPC では、お客様がデータセンターで運用しているような従来のネットワークに非常によく似た仮想ネットワークのトポロジーを定義することができます。これにより、Redshift データウェアハウスクラスターにアクセスできるユーザーを完全に制御することができます。Redshift Spectrum は、Amazon VPC の一部である Redshift クラスターで使用できます。

Amazon Redshift は、VPC 内の Redshift クラスターに接続するためのマネージド VPC エンドポイント (AWS PrivateLink を利用) をサポートしています。Amazon Redshift マネージドのエンドポイントを使用すると、同じまたは別の AWS アカウント内の別の VPC のクライアントアプリケーションから VPC 内の Redshift データウェアハウスにプライベートにアクセスしたり、パブリック IP の使用や、トラフィックがインターネットを通過する必要なしでオンプレミスで実行できたりします。

Q: Amazon Redshift コンピューティングノードに直接アクセスできますか?

いいえ。Amazon Redshift のコンピューティングノードはプライベートネットワーク空間に存在するため、データウェアハウスクラスターのリーダーノード以外からはアクセスできません。これにより、データに対するセキュリティが一層強化されます。

Q: Redshift は、データベースでのロールベースのアクセスコントロールをサポートしていますか? (予告)

Amazon Redshift では、ロールベースのアクセスコントロールのサポートを間もなく提供する予定です。

可用性と耐久性

Q: 1 つのノードのドライブに障害が発生した場合、データウェアハウスクラスターの可用性とデータ耐久性はどうなりますか?

このような場合、Amazon Redshift はドライブまたはノードの障害を検出し、クラスターノードを自動的に置き換えます。Dense Compute (DC) および Dense Storage (DS2) クラスターでは、データがコンピューティングノードに格納され、高いデータ耐久性を保証します。ノードが置き換えられると、データは他のノードのミラーコピーから更新されます。

データは Amazon S3 に保存され、ローカルドライブはデータキャッシュとしてのみ使用されるため、RA3 クラスターと Redshift サーバーレスが同じように影響を受けることはありません。ノードが置き換えられた場合、Amazon S3 からデータが取得されます。Amazon S3 は、99.9999% のデータ耐久性を保証します。マルチノードまたは完全なクラスター障害が発生した場合、S3 でデータの最新コピーを利用できるため、クラスターはデータを失うことなく同じアベイラビリティーゾーンまたは別のアベイラビリティーゾーンで回復できます。

データウェアハウスクラスターは代替ノードがプロビジョンされてデータベースに追加されるまで、クエリと更新を行うことはできません。Amazon Redshift は、交換ノードをすぐに利用できるようにし、RA3 およびサーバーレスの Amazon S3 から、および DS2 と Amazon Dense Compute (DC2) のミラーから、最も頻繁にアクセスされるデータをロードします。単一ノードの DC2 および DS2 クラスターは、データのレプリケーションをサポートしません。ドライブに障害が発生した場合、S3 のスナップショットからクラスターを復元する必要があります。単一ノードの RA3.XLPLUS クラスターは、AWS Support の支援を受けて S3 に保存されたデータを使用し、データを失うことなく再作成できます。可用性を最大化するために、実稼働には少なくとも 2 つのノードを使用することをお勧めします。

Q: 個々のノードに障害が発生した場合、データウェアハウスクラスターの可用性とデータ耐久性はどうなりますか?

Amazon Redshift ではデータウェアハウスクラスター内の障害ノードが自動的に検知され、障害ノードの交換が行われます。データウェアハウスクラスターは代替ノードがプロビジョニングされてデータベースに追加されるまで、クエリと更新を行うことはできません。Amazon Redshift では代替ノードが即座に利用可能となり、まず最も高い頻度でアクセスされるデータが S3 からロードされます。こうすることで、可能な限り速やかにクエリの実行が再開できるようになります。単一ノードのクラスターは、データのレプリケーションをサポートしません。ドライブに障害が発生した場合、S3 のスナップショットからクラスターを復元する必要があります。実稼働には少なくとも 2 つのノードを使用することをお勧めします。

Q: データウェアハウスクラスターのアベイラビリティーゾーン (AZ) が機能停止した場合に、データウェアハウスクラスターの可用性とデータ耐久性はどうなりますか?

Amazon Redshift データウェアハウスクラスターのアベイラビリティーゾーンが利用できなくなった場合、Amazon Redshift は、データの損失やアプリケーションの変更なしに、クラスターを別の AWS アベイラビリティーゾーン (AZ) に自動的に移動させます。これをアクティブ化するには、クラスター設定で再配置機能を有効にする必要があります。

Q: Amazon Redshift はマルチ AZ 配置をサポートしていますか?

現在、Amazon Redshift はシングルリージョンのデプロイのみをサポートしています。災害対策 (DR) 構成を設定するには、クラスターでクロスリージョンのスナップショットコピーを有効にします。これにより、すべてのスナップショットがクラスターから別の AWS リージョンに複製されます。災害対策イベントが発生した場合、レプリカリージョンのスナップショットを復元して、新しいクラスターを作成できます。Amazon Redshift は、リージョン間のデータ共有もサポートしています。この共有では、コンシューマクラスターが別のリージョンのプロデューサクラスターのライブデータにアクセスできます。こちらは、Amazon Redshift Serverless および RA3 でのみサポートされます。

クエリと分析

Q: Amazon Redshift と Redshift Spectrum にはよく利用されるビジネスインテリジェンスソフトウェアパッケージや ETL ツールと互換性がありますか?

はい。Amazon Redshift では業界標準の SQL が使用されており、標準の JDBC や ODBC ドライバーを使用してアクセスされます。Redshift コンソールの [Connect Client] タブからは、Amazon Redshift のカスタムの JDBC および ODBC ドライバーをダウンロードできます。一般的な BI および ETL ベンダーと統合できることが確認できており、該当するベンダーの多くは、データのロードと分析を開始できるように、無料トライアルを提供しています。また、AWS Marketplace でも、Amazon Redshift と連携するように設計されたソリューションを数分でデプロイおよび設定できます。

Amazon Redshift Spectrum はすべての Amazon Redshift クライアントツールをサポートしています。クライアントツールは、引き続き ODBC または JDBC 接続を使用して Amazon Redshift クラスターエンドポイントに接続できます。変更の必要はありません。

Redshift Spectrum のテーブルにアクセスするために使用するクエリは、Redshift クラスターのローカルストレージにあるテーブルに対して使用するものと完全に同じ構文および機能を持ちます。外部テーブルは、それらが登録された CREATE EXTERNAL SCHEMA コマンドで定義されたスキーマ名を使用して参照されます。

Q: Amazon Redshift Spectrum ではどのデータフォーマットと圧縮フォーマットがサポートされていますか?

Amazon Redshift Spectrum では、Avro、CSV、Grok、Amazon Ion、JSON、ORC、Parquet、RCFile、RegexSerDe、Sequence、Text、TSV など多くのオープンソースデータフォーマットがサポートされています。

Amazon Redshift Spectrum では現在、Gzip と Snappy 圧縮がサポートされています。

Q: ローカルストレージ内のテーブルの名前が外部テーブルと同じ場合はどうなりますか?

ローカルテーブルの場合と同じように、クエリで schema_name.table_name を使用することで、スキーマ名を使用して、意図したテーブルを正確に選択できます。

Q: S3 データレイクに関するメタデータを保存するために Hive メタストアを使用しています。Redshift Spectrum を使用することはできますか?

はい。CREATE EXTERNAL SCHEMA コマンドは Hive メタストアをサポートしています。現在、Hive メタストアに対する DDL はサポートされていません。

Q: クラスターで作成されたすべての外部データベーステーブルのリストを取得するにはどうすればよいですか?

システムテーブル SVV_EXTERNAL_TABLES にクエリを実行して、その情報を取得することができます。

Q: Redshift は SQL で機械学習を利用する機能をサポートしていますか?

はい。Amazon Redshift ML 機能により、SQL ユーザーは使い慣れた SQL コマンドを使用して機械学習 (ML) モデルを簡単に作成、トレーニング、デプロイできます。Amazon Redshift 機械学習を使用すると、フルマネージドの機械学習サービスである Amazon SageMaker を使用して Amazon Redshift のデータを利用できます。Amazon Redshift は、教師なし学習 (K-Means) と教師あり学習 (Autopilot、XGBoost、MLP アルゴリズム) の両方をサポートしています。また、AWS Language AI サービスを使用して、事前に構築された Lambda UDF 関数で SQL クエリのテキストフィールドを翻訳、リダクト、分析することができます - ブログの投稿を参照してください。

Q: Amazon Redshift はデータをクエリするための API を提供していますか?

Amazon Redshift は Data API を提供しています。これにより、すべてのタイプの従来のクラウドネイティブでコンテナ化されたサーバーレスウェブサービスベースのイベント駆動型アプリケーションで Amazon Redshift のデータに簡単にアクセスできます。Data API は、ドライバーを設定したりデータベース接続を管理したりする必要がないため、Amazon Redshift へのアクセスを簡素化します。それらの管理を行う代わりに、ユーザーは Data API が提供する安全な API エンドポイントを呼び出すだけで、Amazon Redshift クラスターに SQL コマンドを実行することができます。データベース接続の管理とデータのバッファリングは Data API が行います。Data API は非同期であるため、後で結果を取得できます。クエリ結果は 24 時間保存されます。

Q: Amazon Redshift Data API ではどのような種類の認証情報を使えますか?

Data API は、IAM 認証情報と AWS Secrets Manager のシークレットキーの使用の両方をサポートしています。Data API は AWS Identity and Access Management (IAM) 認証情報を統合するため、API 呼び出しでデータベース認証情報を渡すことなく、Okta や Azure Active Directory などの ID プロバイダーまたは Secrets Manager に保存されているデータベース認証情報を使用できます。

Q: AWS CLI から Amazon Redshift Data API を使用できますか?

はい、aws redshift-data コマンドラインオプションを使用して、AWS CLI から Data API を使用できます。

Q: Redshift Data API は他の AWS のサービスと統合されていますか?

AWS Lambda、AWS Cloud9、AWS AppSync、Amazon EventBridge などの他のサービスの Data API を利用できます。

Q: Amazon Redshift Data API を使用するには、別途料金を支払う必要がありますか?

いいえ。Data API の使用に別途料金はかかりません。

バックアップと復元

Q: Amazon Redshift ではデータをどのようにバックアップしますか? クラスターをバックアップから復元するにはどうすればよいのですか?

Amazon Redshift RA3 クラスターと Amazon Redshift Serverless は、常に最新のデータコピーを利用できる Redshift マネージドストレージを使用します。DS2 および DC2 クラスターは、クラスター上のデータをミラーリングして、障害が発生した場合に最新のコピーを使用できるようにします。バックアップはすべての Redshift クラスタータイプで自動的に作成され、24 時間保持されます。サーバーレスの復旧時点では直近 24 時間のものが提供されます。

無期限に保持できる独自のバックアップを作成することもできます。これらのバックアップはいつでも作成でき、Amazon Redshift 自動バックアップまたは Amazon Redshift Serverless の復旧時点をユーザーのバックアップに変換することで、保持期間を長引かせることができます。

また、Amazon Redshift は災害対策用に、スナップショットまたは復旧時点を別リージョンの Amazon S3 に非同期でレプリケートすることもできます。

DS2 または DC2 クラスターでは、無料のバックアップストレージは、データウェアハウスクラスターのノード上のストレージの総サイズまでに制限されており、アクティブなデータウェアハウスクラスターにのみ該当します。

例えば、データウェアハウスストレージが合計で 8 TB の場合は、追加費用なしでは最大でも 8 TB のバックアップストレージしか使用できません。バックアップ保持期間を 1 日以上に延長する場合は、AWS マネジメントコンソールまたは Amazon Redshift API を使用して延長することができます。自動スナップショットの詳細については、Amazon Redshift 管理ガイドをご覧ください。

Amazon Redshift では変更されたデータのみがバックアップされるため、ほとんどのスナップショットでは無料のバックアップストレージがほんのわずかしか消費されません。バックアップを復元する必要がある場合、お使いのバックアップ保持ウィンドウ内にすべての自動バックアップへのアクセスをお持ちです。復元するバックアップを選択したら、新規データウェアハウスクラスターがプロビジョニングされ、そこにデータが復元されます。

Q: 自動バックアップと DB スナップショットの保持はどのように管理すればよいですか?

AWS マネジメントコンソールまたは ModifyCluster API を使用して RetentionPeriod パラメータを修正し、自動バックアップが保持される期間を管理できます。自動バックアップをすべて無効にしたい場合、保持期間を 0 に設定します (推奨されません)。

Q: データウェアハウスクラスターを削除した場合、バックアップはどうなりますか?

データウェアハウスクラスターを削除すると、削除と同時に最終スナップショットを作成するかどうかを指定できます。そのスナップショットを使用し、後日削除済みデータウェアハウスクラスターを復元できます。事前に手動で作成したすべてのデータウェアハウスクラスターのスナップショットは、そのスナップショットをユーザーが削除するまでは保持され、標準 Amazon S3 使用料で請求が行われます。

モニタリングとメンテナンス

Q: Amazon Redshift データウェアハウスクラスターのパフォーマンスをどのようにモニタリングすればよいですか?

コンピューティング使用率、ストレージ使用率、Amazon Redshift データウェアハウスクラスターの読み込み/書き込みトラフィックのメトリクスは、AWS マネジメントコンソールまたは Amazon CloudWatch API から無料で利用できます。 Amazon CloudWatch のカスタムメトリクス機能を使用して、ユーザー定義メトリクスを追加することもできます。AWS マネジメントコンソールでは、すべてのクラスターの状態とパフォーマンスをモニタリングするのに役立つモニタリングダッシュボードを利用できます。Amazon Redshift では、AWS マネジメントコンソールからクエリとクラスターのパフォーマンス情報を取得することもできます。この情報を利用して、最もシステムリソースを消費しているユーザーとクエリを確認し、クエリプランと実行統計情報を参照することでパフォーマンスの問題を診断することができます。さらに、各コンピューティングノードのリソース使用率を確認し、すべてのノード間でデータとクエリのバランスが確実にとれるようにできます。

Q: メンテナンスウィンドウとは何ですか? ソフトウェアメンテナンスの間もデータウェアハウスクラスターの利用は可能ですか?

Amazon Redshift では、クラスターに対して修正、機能強化、機能追加を適用するためのメンテナンスが定期的に実行されます。クラスターをプログラムまたは Redshift コンソールを使用して変更することで、スケジュールされたメンテナンスウィンドウを変更できます。メンテナンスウィンドウの間、Amazon Redshift クラスターで通常のオペレーションは実行できません。メンテナンスウィンドウおよびリージョン別のスケジュールの詳細については、Amazon Redshift 管理ガイドのメンテナンスウィンドウを参照してください。

Amazon Redshift 料金の詳細

料金ページを見る
構築を始めましょう。
Amazon Redshift の使用を開始する
ご不明な点がおありですか?
お問い合わせ