全般

Amazon Redshift の最新情報を確認するには、最新情報ページを参照してください。
詳細情報と使用のガイダンスを表示するには、ドキュメントにアクセスしてください。

Q: Amazon Redshift とは何ですか?

Amazon Redshift は高速でフルマネージド型のクラウドデータウェアハウスです。標準 SQL および既存のビジネスインテリジェンス (BI) ツールを使用して、すべてのデータをシンプルかつコスト効率よく分析できます。洗練されたクエリ最適化、高パフォーマンスストレージでの列指向ストレージ、および超並列クエリ実行を使用して、ペタバイトからペタバイト単位にいたる構造化データに対して複雑な分析クエリを実行できます。ほとんどの結果は数秒で返されます。Redshift を使用して、1 時間あたりわずか 0.25 USD で、コミットメントなしの小規模から始めて、年間 1 テラバイトあたり 1,000 USD の費用でペタバイト規模にスケールアウトできます。コストは従来のオンプレミスソリューションの 1/10 未満です。Amazon Redshift には、Amazon S3 データレイクのエクサバイト単位の非構造化データに対して SQL クエリを直接実行できる Amazon Redshift Spectrum も含まれています。ロードや変換は不要で、Avro、CSV、Grok、Amazon Ion、JSON、ORC、Parquet、RCFile、RegexSerDe、Sequence、Text、TSV などのオープンデータフォーマットを使用できます。Redshift Spectrum は、取得中のデータに基づいて自動的にクエリのコンピューティング性能をスケーリングし、Amazon S3 に対するクエリがデータセットのサイズに関係なく高速で実行されるようにします。

Amazon Redshift では、よく知られた SQL ベースのクライアントおよびビジネスインテリジェンス (BI) ツールで標準の ODBC や JDBC 接続を使用して、構造化データに高速でクエリを実行できます。クエリは複数の物理リソース間で分散され、並列化されます。AWS マネジメントコンソールでの数回のクリック、または 1 回の API コールのみで、Amazon Redshift データウェアハウスの規模を簡単に拡大縮小できます。Amazon Redshift では、データウェアハウスへのパッチの適用とバックアップが自動的に行われます。バックアップはユーザーが定義した保持期間の間格納されます。Amazon Redshift では、レプリケーションと連続バックアップにより可用性が向上され、データ耐久性が改善されます。これにより、自動的にコンポーネントとノードの障害から復旧できます。Amazon Redshift はさらに、AWS IAM 統合、ID フェデレーション、列レベルのアクセスコントロール、Amazon Virtual Private Cloud (Amazon VPC)、SSL、AES-256 暗号化、および組み込みの AWS KMS 統合により、業界をリードするセキュリティをサポートして、転送中および保存中のデータを保護します。Amazon Redshift のすべてのセキュリティ機能が含まれています。追加費用は発生しません。

Amazon Redshift は AWS CloudTrail と統合されているため、Redshift の API 呼び出しをすべて監査できるようになります。Redshift での SQL 操作 (データウェアハウスへの接続試行、クエリ、変更) はすべてログに記録されます。このログにアクセスするには、システムテーブルに対する SQL クエリを使用するか、Amazon S3 上の安全な場所にログを保存します。Amazon Redshift は、SOC1、SOC2、SOC3、および PCI DSS Level 1 の要件に準拠しています。

アマゾン ウェブ サービスのすべてのサービスと同様に、初期費用は不要です。使用したリソースに対してのみ支払いが発生します。Amazon Redshift では、従量課金制が採用されています。Amazon Redshift を無料で試用することもできます。

Amazon Redshift のリージョンでの提供状況の詳細については、AWS リージョン表を参照してください。

Q: オンプレミスのデータウェアハウスではなく Amazon Redshift を使用する理由は何ですか?

オンプレミスのデータウェアハウスの管理には (特に大型のデータセットへの対応に関して)、膨大な時間とリソースが必要でした。さらに、セルフマネージド型のオンプレミスデータウェアハウスにおいては、構築、メンテナンス、拡張に関連する費用が非常に高額になります。データが増大するにつれ、コストを管理し、ETL の複雑さを低く抑え、優れたパフォーマンスを実現するために、データウェアハウスにロードするデータとストレージにアーカイブするデータのトレードオフを常に考慮する必要があります。Amazon Redshift では、データウェアハウスに関連したそれらの費用や運用オーバーヘッドを大幅に削減できるだけでなく、Redshift Spectrum を使用することで、データをロードすることなく大量のデータをネイティブフォーマットで容易に分析できるようになります。

Q: Amazon Redshift 向け AQUA (Advanced Query Accelerator) とは何ですか?

AQUA はハードウェアにより高速化された新しい分散型キャッシュで、Redshift が他のクラウドデータウェアハウスに比べて最大 10 倍の速度で動作します。集中型ストレージを備えた既存のデータウェアハウジングアーキテクチャでは、処理目的でデータをコンピューティングクラスターに移動する必要があります。データウェアハウスは今後数年にわたって成長し続けるため、このすべてのデータを移動するために必要なネットワーク帯域幅は、クエリパフォーマンスのボトルネックになります。

AQUA は、クラウドデータウェアハウジングに新しいアプローチを採用しています。AQUA は、革新的なキャッシュ上で大量のデータ処理を実行することにより、コンピューティングをストレージにもたらします。さらに、AWS が設計したプロセッサとスケールアウトアーキテクチャを使用して、従来の CPU が現在できるレベル以上にデータ処理を高速化します。詳細情報およびプレビューを希望する場合のサインアップについては、こちらを参照してください。

Q: Redshift Spectrum とは何ですか?

Redshift Spectrum は、ロードや ETL を必要とすることなく Amazon S3 のエクサバイト単位の非構造化データに対してクエリを実行できる Amazon Redshift の機能です。クエリを発行すると、クエリはクエリ計画を生成および最適化する Amazon Redshift SQL エンドポイントに移動します。Redshift はどのデータがローカルでどのデータが Amazon S3 にあるかを特定し、読み込む必要がある Amazon S3 データの量を最小化する計画を生成して、リソースプールから Amazon Redshift Spectrum の作業者に Amazon S3 からデータの読み込みと処理を要求します。

Redshift Spectrum は、必要に応じて何千ものインスタンスにスケールアウトされるため、データサイズに関係なくクエリが迅速に実行されます。また、Amazon Redshift のクエリに対して行うのと同じように Amazon S3 データにも同じ SQL を使用し、同じ BI ツールを使用して同じ Amazon Redshift エンドポイントに接続することができます。Redshift Spectrum により、ストレージとコンピューティングを分離して、個別にスケーリングすることができます。Amazon S3 データレイクにクエリを実行するための Amazon Redshift クラスターを必要な数だけ設定して、高可用性と無制限の並行性を実現できます。Redshift Spectrum により、任意の場所に任意の形式でデータを保存でき、必要なときに処理することができます。 Redshift Spectrum を利用可能なリージョンの詳細については、Amazon Redshift の料金ページを参照してください。

Q: Amazon Redshift マネージドストレージとは何ですか?

Amazon Redshift マネージドストレージは RA3 ノードタイプでご利用いただけます。コンピューティングとストレージを個別にスケーリングして支払うことができるため、コンピューティングのニーズのみに基づいてクラスターのサイズを設定できます。ティア 1 キャッシュとして高性能 SSD ベースのローカルストレージを自動的に使用し、データブロックの温度、データブロックの経過時間、ワークロードパターンなどの最適化を利用して、アクションを行うことなく必要に応じて Amazon S3 にストレージを自動的にスケーリングしながら高性能を提供します。

Q: Amazon Redshift のマネージドストレージはどのように使用しますか?

すでに Amazon Redshift DS または DC ノードをご使用の場合は、既存のクラスターを新しいコンピューティングインスタンス RA3 にアップグレードして、マネージドストレージを使用できます。RA3 インスタンスに基づいて新しいクラスターを作成することもできます。マネージドストレージは自動的に含まれます。この機能を使用するために他のアクションを行う必要はありません。

Q: Amazon Redshift はどのようにデータウェアハウス管理を簡素化しますか?

Amazon Redshift は、データウェアハウスの設定、運用、スケーリングに必要な作業を管理します。たとえば、インフラストラクチャ容量のプロビジョニング、バックアップ、パッチ適用などの継続的な管理タスクの自動化、ノードとドライブの監視による障害からの回復などの作業です。Redshift Spectrum では、Amazon Redshift によりコンピューティングインフラストラクチャ、負荷分散、計画、スケジューリング、および Amazon S3 に保存されているデータに対するクエリ実行がすべて管理されます。

Q: 大半のデータウェアハウジングおよび分析用オンプレミスデータベースと比較して、Amazon Redshift ではどの程度のパフォーマンスが実現しますか?

Amazon Redshift ではさまざまな革新的技術を駆使して、従来のデータウェアハウジングおよび分析ワークロード用のデータベースと比較して、最大で 10 倍のパフォーマンスを達成します。次のものが含まれます。

  • 列指向データストレージ: Amazon Redshift はデータを一続きの行で保存せずに、データを列で整理します。行ベースのシステムはトランザクション処理には向いていますが、大型のデータセットに対する集計クエリが頻繁に実行されるデータウェアハウスや分析には、列ベースのシステムが最適です。クエリに含まれた列だけが処理され、列指向データはシーケンス方式でストレージメディアに格納されるため、列ベースのシステムに必要な I/O は非常に少なくなり、クエリのパフォーマンスが劇的に改善されます。
  • 高度な圧縮: 列指向のデータストアは類似データがシーケンス方式でディスクに格納されるため、行ベースのデータストアに比べてはるかに圧縮率が高くなります。Amazon Redshift には複数の圧縮技術が採用されており、多くの場合、従来のリレーショナルデータストアに比べて非常に効果的な圧縮が実現できます。データを空のテーブルにロードすると、Amazon Redshift によりデータが自動的にサンプリングされ、最も適切な圧縮方式が選択されます。
  • 超並列処理 (MPP): Amazon Redshift では、データとクエリの負荷がすべてのノードに自動的に分散されます。Amazon Redshift は、データウェアハウスにノードを簡単に追加でき、データウェアハウスの増大に合わせてクエリの高速なパフォーマンスを維持できます。
  • Redshift Spectrum: Redshift Spectrum により、Amazon S3 にあるエクサバイト単位のデータにクエリを実行できます。ロードや ETL は必要ありません。Amazon Redshift にデータを保存しなくても、Redshift Spectrum を使用して Amazon S3 にあるエクサバイト単位のデータセットにクエリを実行できます。 クエリを発行すると、クエリはクエリ計画を生成する Amazon Redshift SQL エンドポイントに移動します。Redshift ではどのデータがローカルでどのデータが Amazon S3 にあるかを特定し、読み込む必要がある Amazon S3 データの量を最小化する計画を生成します。また、共有リソースプールから選んだ Amazon Redshift Spectrum ワーカーに Amazon S3 からデータの読み込みと処理を要求し、その他の処理については Amazon Redshift クラスターに結果を戻します。
  • マテリアライズドビュー: マテリアライズドビューは、ダッシュボード、ビジネスインテリジェンス (BI) ツールからのクエリおよび ELT (抽出、ロード、変換) データ処理など、予測可能で繰り返し起きる分析ワークロードのクエリパフォーマンスを大幅に高速化します。マテリアライズドビューを使用すると、ソーステーブルに加えられた最新の変更を逐次的に処理することで、事前にコンピューティングしたクエリの結果を保存し、それらを効率的に維持することができます。事前に計算された結果を使用することで、マテリアライズドビューを参照する後続クエリは、より高速に実行されます。マテリアライズドビューは、フィルター、プロジェクション、内部結合、アグリゲーション、グループ化、関数およびその他の SQL 構造を使用し、1 つ以上のソーステーブルに基づいて作成することができます。
  • スケーラビリティ: オンプレミスデータウェアハウスのコンピューティングおよびストレージ容量は、オンプレミスハードウェアの制約によって制限されます。Redshift は、変化するワークロードに対応するために、必要に応じてコンピューティングとストレージをスケーリングする機能を提供します。

Q: Amazon Redshift の使用を開始するにはどのようにすればよいですか?

Amazon Redshift の詳細ページ、または AWS マネジメントコンソールからサインアップして、すぐに使用を開始できます。まだ AWS アカウントをお持ちでない場合は、画面の指示に従って作成してください。Amazon Redshift を無料で試用する方法については、開始方法のページをご覧ください。

Q: Amazon Redshift データウェアハウスクラスターの作成およびアクセスはどのように行えますか?

AWS マネジメントコンソール、または Amazon Redshift API を使用して、Amazon Redshift データウェアハウスクラスターを簡単に作成できます。最初はノード 1 つのみで 160 GB のデータウェアハウスを作成し、ここから数ペタバイト規模までスケールするときも、AWS コンソールで数回クリックするか、1 回の API コールのみで可能です。

評価または開発/テストのワークロードに最適な単一ノード構成により、Amazon Redshift を迅速かつコスト効率よく開始し、ニーズの増加に応じてマルチノード構成にスケールアップすることができます。Redshift のデータウェアハウスクラスターあたりのコンピューティングノード数は、ノードのタイプに応じて 1~128 個となります。詳細については、ドキュメントをご覧ください。

複数ノード構成にはリーダーノードが必要です。リーダーノードではクライアントの接続を管理し、クエリを受け取ります。またデータを保存してクエリとコンピューティングを実行する 2 つのコンピューティングノードも必要です。計算ノードと同じサイズのリーダーノードが自動的にプロビジョニングされます。料金はかかりません。

アベイラビリティーゾーン(オプション)、ノード数、ノードタイプ、マスターの名前とパスワード、セキュリティグループ、バックアップ保持設定、その他のシステム設定を指定するだけです。構成の選択が完了すると、Amazon Redshiftは自動的に、必要なリソースがプロビジョニングされてデータウェアハウスクラスターがセットアップされます。

データウェアハウスクラスターが利用可能になると、そのエンドポイントと JDBC および ODBC 接続文字列を、AWS マネジメントコンソールまたは Redshift API を使用して取得することができます。お好みのデータベースツール、プログラミング言語、ビジネスインテリジェンス(BI)ツールでこの接続文字列を使用できます。実行中のデータウェアハウスクラスターに対するネットワークリクエストの承認が必要になります。詳細な説明については、入門ガイドを参照してください。

Q: コンピューティングノードあたりの最大ストレージ容量はどのくらいですか? また、パフォーマンスを最適化するには、コンピューティングノードあたりどのくらいのデータ量が推奨されますか?

クラスターの作成に使用できるノードには、RA3、DC、または DS ノードタイプがあります。RA3 ノードタイプを使用すると、コンピューティングおよびストレージのスケールと支払いを別々に行うことができます。パフォーマンス要件に基づいて必要なインスタンスの数を選択し、使用したマネージドストレージに対してのみ支払いを行います。

RA3 ノードタイプには、RA3.16XL と RA3.4XL の 2 つのサイズがあります。各 RA3.16XL ノードは、48 個の vCPU、384 GiB のメモリを備え、8 GB/秒の IO をサポートしています。RA3.16XL と RA3.4XL の両方のクラスターは最低 2 つのノードで実行され、最小サイズの 2 つのノードである RA3.16XL または RA3.4XL クラスターは 128 TB のマネージドストレージを提供します。ノード別の RA3.16XL と RA3.4XL の両方のマネージドストレージクォータは 64 TB です。RA3.16XL クラスターは最大 128 ノードまで拡張できるため、最大 8 ペタバイトのマネージドストレージでクラスターを構築できます。RA3.4XL ノードは、12 個の vCPU、96 GiB のメモリを備え、2 GB/秒の IO をサポートしています。RA3.4XL クラスターは最大 64 ノードまで拡張できるため、最大 4 ペタバイトのマネージドストレージでクラスターを構築できます。注: ここで説明するすべてのマネージドストレージサイズは圧縮データ用です。Redshift はデータを 3〜4 倍に圧縮するため、圧縮されていないデータサイズはここで述べたものより 3〜4 倍大きくなります。

また、DC ノードタイプは、2 つのサイズから選択できます。ラージは、SSD ストレージ 160 GB、Intel Xeon E5-2670v2 (Ivy Bridge) 仮想コア 2 個、RAM 15 GiB を備えています。エイトエクストララージ (8XL) は大きさが 16 倍で、SSD ストレージ 2.56 TB、Intel Xeon E5-2670v2 仮想コア 32 個、RAM 244 GiB を備えています。最初は DC2.Large ノード 1 つだけであれば、料金は 1 時間あたり 0.25 USD で、最大では 8XL ノード 128 個、SSD ストレージ 326 TB、仮想コア 3,200 個、RAM 24 TiB までスケールできます。

DS ノードタイプは、エクストララージおよびエイトエクストララージの 2 つのサイズから選択できます。エクストララージ (XL) が HDD 3 台 (磁気ストレージ合計 2 TB) を備えているのに対して、エイトエクストララージ (8XL) は HDD 24 台 (磁気ストレージ合計 16 TB) を備えています。DS2.8XLarge は Intel Xeon E5-2676 v3 (Haswell) 仮想コア 36 個と RAM 244 GiB を備えており、DS2.XL は Intel Xeon E5-2676 v3 (Haswell) 仮想コア 4 個と RAM 31 GiB を備えています。

詳細については、料金表ページをご覧ください。

Q: Amazon Redshift とAmazon RDS をどのように使い分ければ良いですか?

Amazon Redshift でも Amazon RDS でも、データベース管理の負荷を軽減しながら、クラウド内で従来のリレーショナルデータベースを実行できます。Amazon RDS データベースは主にオンライントランザクション処理 (OLTP) のワークロードに対して使用されるのに対し、Redshift は主にレポーティングと分析に対して使用されます。OLTP ワークロードは、特定の情報をすばやくクエリして、挿入、更新、削除などのトランザクションをサポートする必要があるため、Amazon RDS が最適に処理を行います。Amazon Redshift ではスケーリングと複数ノードのリソースを利用し、さまざまな最適化を行います。それにより、非常に大型のデータセットに対する分析とレポーティングの処理において、従来のデータベースと比べて大幅なパフォーマンスの改善を実現します。Amazon Redshift には、レポーティングおよび分析処理が OLTP ワークロードのパフォーマンスを妨げないようにすることを望む場合にデータやクエリの複雑さの増大に対応するための、優れたスケールアウトのオプションがあります。今回、新しい横串検索機能により、Amazon Redshift を使用して Amazon RDS または Aurora データベースサービスに保存されているデータに対して簡単にクエリを実行できるようになりました。

Q: Amazon Redshift または Redshift Spectrum とAmazon EMR をどのように使い分ければよいですか?

Apache Spark、Hadoop、Presto、Hbase などのビッグデータ処理フレームワークを使って、きわめて大規模なデータセットを処理および分析するためにカスタムコードを使用する場合は、Amazon EMR を使用できます。Amazon EMR では、クラスターの設定と、クラスターにインストールするソフトウェアを完全に制御できます。

Amazon Redshift のようなデータウェアハウスは、異なるタイプの分析用に設計されています。データウェアハウスは、在庫、財務、小売販売システムなど、さまざまなソースからのデータを集めるように設計されています。企業全体で一貫して正確なレポートを作成するために、データウェアハウスは高度に構造化された方法でデータを保存します。この構造は、データ整合性ルールをデータベースのテーブルに直接構築します。Amazon Redshift は、構造化データと半構造化データの膨大な集合に対して複雑なクエリを実行し、高速なパフォーマンスを得る必要がある場合に最適なサービスです。

Redshift Spectrum 機能は Amazon Redshift と S3 のデータに対するクエリを実行するのに最適ですが、企業が通常 Amazon EMR のような処理フレームワークに求めているタイプのユースケースにはあまり適していません。Amazon EMR の機能は、単なる SQL クエリの実行をはるかに超えるものです。Amazon EMR は、完全にカスタマイズ可能なクラスターで、Spark、Hadoop、Presto などの有名なビッグデータ処理フレームワークの最新バージョンを使用して、非常に大規模なデータセットを処理および分析できるマネージドサービスです。Amazon EMR を使用すれば、機械学習、グラフ分析、データ変換、ストリーミングデータ、および実質的にコード可能なすべてのアプリケーション向けに、スケールアウトする幅広いデータ処理タスクを実行できます。

Redshift Spectrum は EMR と一緒に使用できます。Redshift Spectrum は Amazon EMR と同じ方法でテーブル定義を保存します。Redshift Spectrum は、Amazon EMR で使用されているのと同じ Apache Hive メタストアをサポートし、データとテーブルの定義を見つけることができます。Amazon EMR を使用していてすでに Hive メタストアを使用している場合、Amazon Redshift クラスターでそれを使用するように設定するだけで済みます。Amazon EMR ジョブでそのデータをすぐに検索することができます。したがって、大規模なデータストアを処理するために既に EMR を使用している場合、Redshift Spectrum を使用して、Amazon EMR ジョブを妨げずにそのデータに対して同時にクエリを実行することができます。

クエリサービス、データウェアハウス、複雑なデータ処理フレームワークはすべてそれぞれの役割を持ち、異なる目的で使用されます。その作業に適したツールを選択する必要があります。

Q: Amazon Athena とRedshift Spectrum はどのように使い分ければよいですか?

Amazon Athena は、従業員が Amazon S3 のデータに対してアドホッククエリを実行できるようにする最も簡単な方法です。Athena はサーバーが不要です。そのため、セットアップや管理のためのインフラストラクチャがなく、即座にデータ分析を開始できます。

頻繁にアクセスされるデータが存在し、そのデータを一貫性のある高度に構造化された形式で保存する必要がある場合は、Amazon Redshift のようなデータウェアハウスを使用します。これにより柔軟性が増します。頻繁にアクセスされる構造化データを Amazon Redshift に保存し、Redshift Spectrum を使用して Amazon Redshift のクエリを Amazon S3 データレイク内のデータに拡張することができます。これにより、任意の場所に任意の形式でデータを保存でき、必要なときに処理することができます。

Q: 独自の Amazon EC2 の MPP データウェアハウスクラスターを実行するのではなく、Amazon Redshift を使用する理由は何ですか?

Amazon Redshift は独自のデータウェアハウスの管理に関連する、以下のような時間のかかる多くのタスクを自動的に処理します。
  • セットアップ: Amazon Redshift では、データウェアハウスクラスターを作成してスキーマを定義すれば、データのロードとクエリを開始できるようになります。プロビジョニング、構成、パッチ適用を管理する必要はありません。
  • データの耐久性: Amazon Redshift では、データウェアハウスクラスターの中でデータが自動的に複製され、Amazon S3 へのバックアップも継続的に行われます。Amazon S3 は、耐久性が限りなく 100% に近い「イレブンナイン」となるように設計されています。Amazon Redshift は、各ドライブのデータをクラスター内の他のノードにミラーリングします。ドライブに障害が発生した場合、レイテンシーが少し増加するだけでクエリは続行され、Redshift は複製からドライブを再作成します。ノードに障害が発生した場合、Amazon Redshift は新規ノードを自動的にプロビジョニングし、クラスター内の他のドライブまたは Amazon S3 からデータを復元し始めます。最も高頻度のクエリ対象データが優先的に復元されるため、高頻度で実行されるクエリは速やかに利用可能になります。
  • スケーリング: 容量やパフォーマンスのニーズが変化したときも、API コールを 1 回実行するか AWS マネジメントコンソールで数回クリックするだけで、Amazon Redshift データウェアハウスクラスターのノードを追加または削除できます。Redshift のスケジューラ機能を使用して、スケーリング操作やサイズ変更操作をスケジュールすることもできます。
  • 自動更新とパッチ適用: Amazon Redshift によって自動的に更新やパッチがデータウェアハウスに適用されるので、お客様は管理作業ではなくアプリケーションそのものに集中することができます。
  • エクサバイト規模のクエリ実行機能: Redshift Spectrum により、Amazon S3 にあるエクサバイト単位のデータにクエリを実行できます。ロードや ETL は必要ありません。Amazon Redshift にデータを保存しなくても、Redshift Spectrum を使用して Amazon S3 にあるエクサバイト単位のデータセットにクエリを実行できます。

請求

Q: Amazon Redshift の使用に対する課金と請求はどのように行われるのですか?

使用料金は従量課金制となっており、最低料金やセットアップ料金はありません。Amazon Redshift は、クラスターを一時停止および再開する機能のサポートを開始しました。これにより、クラスターが使用されていない間、オンデマンド請求を簡単に一時停止できます。たとえば、開発に使用されるクラスターは、使用されていないときにコンピューティングの請求を一時停止できます。クラスターが一時停止している間は、クラスターのストレージに対してのみ課金されます。使用率が安定した本番ワークロードの場合、リザーブドインスタンスに切り替えることで、オンデマンド料金と比べて大幅な割引を受けることができます。

データウェアハウスクラスターが利用可能になると同時に、データウェアハウスクラスターに対する請求が開始されます。削除またはインスタンス障害によるデータウェアハウスクラスターの停止まで、請求が続きます。以下の内容に基づき、請求が行われます。

  • コンピューティングノード時間: コンピューティングノード時間は、その請求期間でのコンピューティングノード全体の総実行時間数です。データウェアハウスクラスターが利用可能な状態で実行されている時間が 1 時間単位で、ノードの使用時間として請求されます。データウェアハウスクラスターについて課金されないようにするには、データウェアハウスクラスターを停止してノード時間に対して新たに請求が行われないようにする必要があります。1 時間未満のノード使用時間は、1 時間分として請求されます。毎時のノードあたりの料金を 1 単位として請求されます。そのため、3 ノードのデータウェアハウスクラスターを 1 ヶ月間常時実行すると、2,160 インスタンス時間の課金が発生します。リーダーノード時間については課金されません。コンピューティングノードにだけ課金が発生します。
  • マネージドストレージ: マネージドストレージに保存されたデータに対して、対象のリージョンにおいて GB 単位の固定月額料金が課金されます。マネージドストレージは RA3 ノードタイプのみに付属し、データサイズにかかわらず、同じ低額の Redshift マネージドストレージ料金が課金されます。マネージドストレージの使用量は、マネージドストレージに存在する合計データに基づいて 1 時間ごとに計算されます。RA3 クラスターのデータ量は、Amazon CloudWatch や AWS マネジメントコンソールでモニタリングできます。RA3 ノードとマネージドストレージの間のデータ転送に対する支払いは発生しません。マネージドストレージの料金に、自動/手動スナップショットによるバックアップストレージ料金は含まれません。クラスターが終了した場合、手動バックアップの保持には引き続き料金が発生します。
  • バックアップストレージ: バックアップストレージはデータウェアハウスの自動スナップショットまたは手動スナップショットと関連するストレージです。データウェアハウスによるバックアップストレージの使用量は、バックアップ保持期間の延長やスナップショットの追加取得を行うと増加します。アクティブなデータウェアハウスクラスターについては、バックアップストレージの使用量がプロビジョニングしたストレージの 100% に達するまで、バックアップストレージ分の追加料金は発生しません。例えば、アクティブな 1 ノードの XL データウェアハウスクラスターの場合、ローカルインスタンスストレージが 2 TB なので、バックアップストレージは毎月 2 TB まで追加料金なしでご利用いただけます。プロビジョニングされたストレージサイズを超えるバックアップストレージと、クラスターが停止した後に格納されたバックアップについては、標準 Amazon S3 使用料で請求されます。
  • データ転送: 同じ AWS リージョン内の Amazon Redshift と Amazon S3 の間で転送されたデータについては、データ転送料金が発生しません。これ以外の Amazon Redshift との間のデータ転送すべてには、通常の AWS データ転送料金が請求されます。
  • データスキャン: Redshift Spectrum では、クエリを実行するためにスキャンされた Amazon S3 データの量に応じて課金されます。クエリを実行していないときは、Redshift Spectrum の支払いは発生しません。Parquet や RC などの列指向形式でデータを保存する場合、Redshift Spectrum は行全体を処理するのではなく、クエリで必要な列のみをスキャンするため、料金が安くなります。同様に、Redshift Spectrum のサポートされている形式のいずれかを使用してデータを圧縮する場合も、料金が安くなります。標準の Amazon S3 データストレージ料金および使用したクラスターに対する Amazon Redshift のインスタンス料金が課金されます。

別途記載がない限り、表示される料金には VAT、売上税その他取引に対して適用される一切の税金等および関税は含まれません。日本の居住者であるお客様が AWS サービスをご利用になった場合には、料金とあわせて別途消費税をご請求させていただきます。詳細。

Amazon Redshift の料金情報については、Amazon Redshift の料金ページをご覧ください。

データの統合とロード

Q: Amazon Redshift データウェアハウスへのデータのロードはどのように行えばよいですか?

Amazon Redshift へのデータは、さまざまなデータソースから、例えば Amazon S3Amazon RDSAmazon DynamoDBAmazon EMRAWS GlueAWS Data Pipeline からロードでき、他にも Amazon EC2 上またはオンプレミスの SSH 対応ホストからロードできます。Amazon Redshift では各コンピューティングノードへのデータの並列ロードを行い、データウェアハウスクラスターへのデータ取り込みを最速化します。クライアントは ODBC または JDBC を使用して Amazon Redshift に接続し、SQL の「insert」コマンドを発行してデータを挿入できます。この処理は S3 または DynamoDB に比べて速度が劣ることに注意してください。S3 や DynamoDB は各コンピューティングノードに対してデータを並列ロードするのに対し、SQL の insert 文は 1 つのリーダーノードからデータをロードするためです。Amazon Redshift へのデータロードの詳細については、入門ガイドを参照してください。

Q: 既存の Amazon RDS、Amazon EMR、Amazon DynamoDB、Amazon EC2 データソースから Amazon Redshift へのデータロードはどのようにすればよいですか?

COPY コマンドを使用すると、Amazon EMR、Amazon DynamoDB、または任意の SSH 対応ホストからデータを並行して直接 Amazon Redshift にロードできます。Redshift Spectrum では、単純な INSERT INTO コマンドを使用して、Amazon S3 からクラスターにデータをロードすることもできます。これにより、Parquet や RC などのさまざまな形式のデータをクラスターにロードできます。この方法を使用すると、Amazon S3 からスキャンされたデータに応じて Redshift Spectrum の料金が発生することに注意してください。 

さらに、多数の ETL 企業から、各社のツールでの Amazon Redshift の使用が認定されており、データのロードを開始できるように多数の企業が無料トライアルを提供しています。Amazon RDS などのさまざまな AWS データソースから Redshift にデータをロードするための、高パフォーマンスかつ安全で耐障害性を備えたソリューションである AWS Data Pipeline が用意されています。AWS Data Pipeline を使用して、データソース、希望のデータ変換を指定した後に、事前に準備したインポートスクリプトを実行してデータを Amazon Redshift にロードできます。また、AWS Glue は抽出、変換、ロード (ETL) を行うフルマネージド型のサービスで、分析用データの準備とロードを簡単にします。AWS マネジメントコンソールで数回クリックするだけで、AWS Glue ETL ジョブを作成および実行できます。

Q: Amazon Redshift に最初にロードするデータが大量にあります。インターネットでの転送には時間がかかります。このデータをどのようにロードすればよいですか?

AWS Import/Export でポータブルストレージデバイスを使用し、Amazon S3 にデータを転送できます。さらに AWS Direct Connect を使用すると、ユーザーのネットワークまたはデータセンターと AWS 間にプライベートなネットワーク接続を確立することができます。1 秒あたり 1 ギガビットまたは 1 秒あたり 10 ギガビットの接続ポートを選択してデータを転送できます。

セキュリティ

Q: Amazon Redshift ではデータはどのように保護されますか?

Amazon Redshift は、組み込みの AWS IAM 統合、シングルサインオン (SSO) 向けの ID フェデレーション、多要素認証、列レベルのアクセスコントロール、Amazon Virtual Private Cloud (Amazon VPC) で業界をリードするセキュリティをサポートし、組み込みの AWS KMS 統合で転送中および保存中のデータを保護します。Amazon Redshift では、業界標準の暗号化技術を用いて、通信中または保存されているデータを暗号化して保護します。Amazon Redshift は、通信中のデータを保護するため、クライアントアプリケーションと Redshift データウェアハウスクラスター間で SSL 対応接続がサポートされます。Amazon Redshift は、保存されているデータを保護するため、データがディスクに書き込まれるときに、ハードウェアアクセラレーションを利用した AES-256 で各ブロックが暗号化されます。この暗号化は I/O サブシステムの下位レベルで実行されるため、中間クエリ結果をはじめとするディスクに書き込まれるデータのすべてが暗号化されます。ブロックはそのままの状態でバックアップされるため、バックアップも同じく暗号化されます。デフォルトでは Amazon Redshift がキー管理を処理しますが、AWS Key Management Service を介してキーを管理するように選択できます。Amazon Redshift のセキュリティ機能はすべて、追加費用なしで提供されます。Redshift Spectrum では、AWS Key Management Service (KMS) によって管理されるアカウントのデフォルトキーを使用して、Amazon S3 のサーバー側の暗号化 (SSE) をサポートします。

Q: Redshift は列レベルのセキュリティなどのきめ細かなアクセスコントロールをサポートしていますか?

はい。詳細な列レベルのセキュリティコントロールによって、アクセス権を与えられたデータのみがユーザーに表示されるようにすることができます。Amazon Redshift はローカルテーブルの列レベルのアクセスコントロールをサポートしているため、ユーザーまたはユーザーグループに列レベルの権限を付与したり取り消したりすることにより、テーブルまたはビューの各列へのアクセスをコントロールできます。Redshift は AWS Lake Formation と統合されているため、Lake Formation の列レベルのアクセスコントロールは、データレイク内のデータに対する Redshift のクエリにも適用されます。

Q: Redshift はシングルサインオンをサポートしていますか?

はい。Microsoft Azure Active Directory、Active Directory フェデレーションサービス、Okta、Ping Federate、またはその他の SAML 準拠 ID プロバイダーなどの企業 ID プロバイダーをご使用のお客様は、Amazon Redshift を設定してシングルサインオンを提供できます。

Q: Redshift は Microsoft Azure Active Directory でのシングルサインオンをどのようにサポートしていますか?

お客様は、Microsoft Azure Active Directory (AD) ID を使用して Amazon Redshift クラスターにサインオンできます。これにより、Redshift で Azure Active Directory ID を複製せずに Redshift にサインオンできるようになります。

Q: Amazon Redshift は、Multi-Factor Authentication (MFA) をサポートしていますか?

はい。Amazon Redshift クラスターへの認証時に、追加セキュリティのために Multi-Factor Authentication (MFA) を使用できます。

Q: Amazon Redshift を Amazon Virtual Private Cloud (Amazon VPC) で使用できますか?

はい。Amazon Redshift を VPC 構成の一部として使用できます。Amazon VPC では、お客様がデータセンターで運用しているような従来のネットワークに非常によく似た仮想ネットワークのトポロジーを定義することができます。これにより、Amazon Redshift データウェアハウスクラスターにアクセスできるユーザーを完全に制御することができます。Redshift Spectrum は、VPC の一部である Amazon Redshift クラスターで使用できます。

Q: Amazon Redshift コンピューティングノードに直接アクセスできますか?

いいえ。Amazon Redshift のコンピューティングノードはプライベートネットワーク空間に存在するため、データウェアハウスクラスターのリーダーノード以外からはアクセスできません。これにより、データに対するセキュリティが一層強化されます。

可用性と耐久性

Q: 1 つのノードのドライブに障害が発生した場合、データウェアハウスクラスターの可用性とデータ耐久性はどうなりますか?

Amazon Redshift ではデータウェアハウスクラスター内の障害ノードが自動的に検知され、障害ノードの交換が行われます。データウェアハウスクラスターは代替ノードがプロビジョニングされてデータベースに追加されるまで、クエリと更新を行うことはできません。Amazon Redshift では代替ノードが即座に利用可能となり、まず最も高い頻度でアクセスされるデータが S3 からロードされます。こうすることで、可能な限り速やかにクエリの実行が再開できるようになります。単一ノードのクラスターは、データのレプリケーションをサポートしません。ドライブに障害が発生した場合、S3 のスナップショットからクラスターを復元する必要があります。実稼働には少なくとも 2 つのノードを使用することをお勧めします。

Q: 個々のノードに障害が発生した場合、データウェアハウスクラスターの可用性とデータ耐久性はどうなりますか?

Amazon Redshift ではデータウェアハウスクラスター内の障害ノードが自動的に検知され、障害ノードの交換が行われます。データウェアハウスクラスターは代替ノードがプロビジョニングされてデータベースに追加されるまで、クエリと更新を行うことはできません。Amazon Redshift では代替ノードが即座に利用可能となり、まず最も高い頻度でアクセスされるデータが S3 からロードされます。こうすることで、可能な限り速やかにクエリの実行が再開できるようになります。単一ノードのクラスターは、データのレプリケーションをサポートしません。ドライブに障害が発生した場合、S3 のスナップショットからクラスターを復元する必要があります。実稼働には少なくとも 2 つのノードを使用することをお勧めします。

Q: データウェアハウスクラスターのアベイラビリティーゾーン (AZ) が機能停止した場合に、データウェアハウスクラスターの可用性とデータ耐久性はどうなりますか?

Amazon Redshift データウェアハウスクラスターのアベイラビリティーゾーンが使用不能になった場合は、アベイラビリティーゾーンの電力供給とネットワークアクセスが回復するまではクラスターを利用できません。データウェアハウスクラスターのデータは維持されているので、アベイラビリティーゾーンが再び利用可能になり次第、Amazon Redshift データウェアハウスの使用を開始できます。さらに、同一リージョン内の新規アベイラビリティーゾーンに対して既存のスナップショットを復元することもできます。Amazon Redshift では、最も高い頻度でアクセスされるデータが最初に復元されるため、可能な限りすみやかにクエリの実行を再開できます。

Q: Amazon Redshift はマルチ AZ 配置をサポートしますか?

現在、Amazon Redshift はシングル AZ 配置のみをサポートしています。データウェアハウスクラスターを複数のアベイラビリティーゾーンで運用するには、2 つの Amazon Redshift データウェアハウスクラスターをそれぞれ別のアベイラビリティーゾーンに配置し、同じ Amazon S3 入力ファイルセットからデータをロードします。Redshift Spectrum を使用すると、アベイラビリティーゾーン全体で複数のクラスターを稼働させ、データをクラスターにロードすることなく Amazon S3 のデータにアクセスできます。さらに、データウェアハウスクラスターのスナップショットを使用して、データウェアハウスクラスターを違うアベイラビリティーゾーンに復元することもできます。

バックアップと復元

Q: Amazon Redshift ではデータをどのようにバックアップしますか? クラスターをバックアップから復元するにはどうすればよいのですか?

Amazon Redshift ではデータがロードされるとすべてのデータがデータウェアハウスクラスター内に複製され、データは常時 Amazon S3 にバックアップされます。Amazon Redshift では、少なくとも 3 つのデータコピー (コンピューティングノード上のオリジナルと複製、Amazon S3 内のバックアップ) が常に保持されます。Redshift は災害復旧用に、スナップショットを別リージョンの S3 に非同期でレプリケートできます。

Amazon Redshift では、データウェアハウスクラスターの自動バックアップを 1 日保持する自動バックアップがデフォルトで有効になっています。設定を 35 日まで延長できます。

無料のバックアップストレージは、データウェアハウスクラスターのノード上のストレージの総サイズまでに制限されており、アクティブなデータウェアハウスクラスターにのみ該当します。例えば、データウェアハウスストレージが合計で 8 TB の場合は、追加費用なしでは最大でも 8 TB のバックアップストレージしか使用できません。バックアップ保持期間を 1 日以上に延長する場合は、AWS マネジメントコンソールまたは Amazon Redshift API を使用して延長することができます。自動スナップショットの詳細については、Amazon Redshift 管理ガイドをご覧ください。Amazon Redshift では変更されたデータのみがバックアップされるため、ほとんどのスナップショットでは無料のバックアップストレージがほんのわずかしか消費されません。

バックアップを復元する必要がある場合、お使いのバックアップ保持ウィンドウ内にすべての自動バックアップへのアクセスをお持ちです。復元するバックアップを選択したら、新規データウェアハウスクラスターがプロビジョニングされ、そこにデータが復元されます。

Q: 自動バックアップと DB スナップショットの保持はどのように管理すればよいですか?

AWS マネジメントコンソールまたは ModifyCluster API を使用して RetentionPeriod パラメータを修正し、自動バックアップが保持される期間を管理できます。自動バックアップをすべて無効にしたい場合、保持期間を 0 に設定します (推奨されません)。

Q: データウェアハウスクラスターを削除した場合、バックアップはどうなりますか?

データウェアハウスクラスターを削除すると、削除と同時に最終スナップショットを作成するかどうかを指定できます。そのスナップショットを使用し、後日削除済みデータウェアハウスクラスターを復元できます。事前に手動で作成したすべてのデータウェアハウスクラスターのスナップショットは、そのスナップショットをユーザーが削除するまでは保持され、標準 Amazon S3 使用料で請求が行われます。

スケーラビリティ

Q: Amazon Redshift データウェアハウスクラスターのサイズとパフォーマンスはどのようにスケールすればよいですか?

クエリのパフォーマンスを向上させる、または CPU、メモリ、I/O の過度の使用率に対応する場合、AWS マネジメントコンソールから Elastic リサイズを使用して、または ModifyCluster API を使用してデータウェアハウスクラスター内のノード数を増やすことができます。データウェアハウスのクラスターを変更すると、すぐに変更が適用されます。コンピューティング使用率、ストレージ使用率、Amazon Redshift データウェアハウスクラスターの読み込み/書き込みトラフィックのメトリクスは、AWS マネジメントコンソールまたは Amazon CloudWatch API から無料で利用できます。ユーザー定義のメトリクスも、Amazon CloudWatch のカスタムメトリクス機能を使用して追加できます。

同時実行スケーリング機能の使用により、実質的に無制限の同時実行ユーザーと同時実行クエリをサポートし、安定した高速なクエリパフォーマンスを維持できます。同時実行スケーリングが有効になっている場合、Amazon Redshift では、同時実行読み取りクエリの増加を処理する必要がある際に自動的にクラスター容量が追加されます。

Redshift Spectrum では、Amazon S3 にある同じデータにアクセスする複数の Amazon Redshift クラスターを実行できます。異なるユースケースに対して異なるクラスターを使用できます。たとえば、1 つのクラスターを標準レポートの作成に使用し、別のクラスターをデータ分析クエリに使用できます。マーケティングチームは運用チームと異なる独自のクラスターを使用できます。Redshift Spectrum ではクエリの実行を、共有リソースプールの中から選んだ複数の Redshift Spectrum ワーカーに自動的に分散させて、Amazon S3 からのデータを読み取って処理し、残りの処理のために Amazon Redshift クラスターに結果を戻します。

Q: データウェアハウスクラスターはスケーリングの最中も使用できますか?

使用できるかどうかは状況により異なります。同時実行スケーリング機能を使用している場合、同時実行スケーリング中データウェアハウスクラスターでは読み取りおよび書き込みが完全に使用可能です。Elastic サイズ変更を使用している場合、4~8 分のサイズ変更期間中はクラスターを使用できません。マネージドストレージで Redshift RA3 のストレージ伸縮性を使用している場合、データウェアハウスクラスターは完全に使用可能であり、データはマネージドストレージとコンピューティングノードの間で自動的に移動されます。

同時実行

Q: 同時実行性が高い期間中に Redshift クラスターが一貫して高速のパフォーマンスを提供できるようにするには、リソースをどのように管理すればよいですか?

一般的なデータウェアハウスでは、1 日の中で同時実行クエリの使用状況が大きく異なります。ピーク需要にプロビジョニングするのではなく、必要とされる期間だけリソースを追加する方が費用対効果が高くなります。Amazon Redshift では、ユーザーに代わってこれを自動的に処理します。

同時実行スケーリングは Amazon Redshift の機能で、数千の同時実行クエリに対応する場合でも一貫して高速のクエリパフォーマンスを提供します。この機能を使用すると、Amazon Redshift によって必要に応じて一時的な容量が自動的に追加され、大量の需要を処理することができます。Amazon Redshift は、クエリを自動的にスケーリングクラスターにルーティングします。スケーリングクラスターは数秒でプロビジョニングされ、すぐにクエリの処理を開始します。

この機能は、ほとんどのお客様に無料でお使いいただけます。各 Amazon Redshift クラスターは、1 日あたり最大 1 時間の無料同時実行スケーリングクレジットを獲得します。これにより、分析需要が変動している期間でも、月ごとのコストを予測することができます。

Q: Elastic リサイズとは何ですか? また、同時実行スケーリングとの違いを教えてください。

Elastic リサイズは、数分以内に単一の Redshift クラスターにノードを追加または削除して、クエリのスループットを管理します。 例えば、1 日または月末のレポートで特定の時間の ETL ワークロードを完了するためには、追加の Redshift リソースが必要になる場合があります。同時実行スケーリングでは、全体的なクエリの同時実行性を高めるためにクラスターリソースが追加されます。

Q: 同時実行スケーリングクラスターに直接アクセスできますか?

いいえ。同時実行スケーリングは Redshift リソースのきわめてスケーラブルなプールであり、お客様はこれに直接アクセスすることはできません。

クエリと分析

Q: Amazon Redshift と Redshift Spectrum にはよく利用されるビジネスインテリジェンスソフトウェアパッケージや ETL ツールと互換性がありますか?

Amazon Redshift では業界標準の SQL が使用されており、標準の JDBC や ODBC ドライバを使用してアクセスされます。Redshift コンソールの [Connect Client] タブからは、Amazon Redshift のカスタムの JDBC および ODBC ドライバーをダウンロードできます。一般的な BI および ETL ベンダーと統合できることが確認できており、該当するベンダーの多くは、データのロードと分析を開始できるように、無料トライアルを提供しています。また、AWS Marketplace でも、Amazon Redshift と連携するように設計されたソリューションを数分でデプロイおよび設定できます。

Redshift Spectrum はすべての Amazon Redshift クライアントツールをサポートしています。クライアントツールは、引き続き ODBC または JDBC 接続を使用して Amazon Redshift クラスターエンドポイントに接続できます。変更の必要はありません。

Redshift Spectrum のテーブルにアクセスするために使用するクエリは、Redshift クラスターのローカルストレージにあるテーブルに対して使用するものと完全に同じ構文および機能を持ちます。外部テーブルは、それらが登録された CREATE EXTERNAL SCHEMA コマンドで定義されたスキーマ名を使用して参照されます。

Q: Redshift Spectrum ではどのデータフォーマットと圧縮フォーマットがサポートされていますか?

Redshift Spectrum では、Avro、CSV、Grok、Amazon Ion、JSON、ORC、Parquet、RCFile、RegexSerDe、Sequence、Text、TSV など多くのオープンソースデータフォーマットがサポートされています。

Redshift Spectrum では現在、Gzip と Snappy 圧縮がサポートされています。

Q: ローカルストレージ内のテーブルの名前が外部テーブルと同じ場合はどうなりますか?

ローカルテーブルの場合と同じように、クエリで schema_name.table_name を使用することで、スキーマ名を使用して、意図したテーブルを正確に選択できます。

Q: S3 データレイクに関するメタデータを保存するために Hive メタストアを使用しています。Redshift Spectrum を使用することはできますか?

はい。CREATE EXTERNAL SCHEMA コマンドは Hive メタストアをサポートしています。現在、Hive メタストアに対する DDL はサポートされていません。

Q: クラスターで作成されたすべての外部データベーステーブルのリストを取得するにはどうすればよいですか?

システムテーブル SVV_EXTERNAL_TABLES にクエリを実行して、その情報を取得することができます。

モニタリング

Q: Amazon Redshift データウェアハウスクラスターのパフォーマンスをどのようにモニタリングすればよいですか?

コンピューティング使用率、ストレージ使用率、Amazon Redshift データウェアハウスクラスターの読み込み/書き込みトラフィックのメトリクスは、AWS マネジメントコンソールまたは Amazon CloudWatch API から無料で利用できます。 Amazon CloudWatch のカスタムメトリクス機能を使用して、ユーザー定義メトリクスを追加することもできます。AWS マネジメントコンソールでは、すべてのクラスターの状態とパフォーマンスをモニタリングするのに役立つモニタリングダッシュボードを利用できます。Amazon Redshift では、AWS マネジメントコンソールからクエリとクラスターのパフォーマンス情報を取得することもできます。この情報を利用して、最もシステムリソースを消費しているユーザーとクエリを確認し、クエリプランと実行統計情報を参照することでパフォーマンスの問題を診断することができます。さらに、各コンピューティングノードのリソース使用率を確認し、すべてのノード間でデータとクエリのバランスが確実にとれるようにできます。

メンテナンス

Q: メンテナンスウィンドウとは何ですか? ソフトウェアメンテナンスの間もデータウェアハウスクラスターの利用は可能ですか?

Amazon Redshift では、クラスターに対して修正、機能強化、機能追加を適用するためのメンテナンスが定期的に実行されます。クラスターをプログラムまたは Redshift コンソールを使用して変更することで、スケジュールされたメンテナンスウィンドウを変更できます。メンテナンスウィンドウの間、Amazon Redshift クラスターで通常のオペレーションは実行できません。メンテナンスウィンドウおよびリージョン別のスケジュールの詳細については、Amazon Redshift 管理ガイドのメンテナンスウィンドウを参照してください。

Amazon Redshift 料金の詳細

料金ページを見る
構築を始めましょう。
Amazon Redshift の使用を開始する
ご不明な点がおありですか?
お問い合わせ