Amazon Redshift を無料でお試しください

無料トライアルを開始
詳細

DC2.Large を 1 か月あたり 750 時間、2 か月間無料でご利用いただけます。トライアルを開始する方法は次のとおりです。

1. AWS アカウントを作成し、Amazon Redshift コンソールにサインインします

2. Amazon Redshift クラスターを起動し、ノードタイプに合わせて DC2.Large を選択します

また、パートナー無料トライアルページで、無料でデータを取り込んでレポートする方法をご覧ください。

Amazon Redshift を無料でお試しください

まずは無料で始める »
またはコンソールにサインイン

DC1.Large を 1 か月あたり 750 時間、2 か月間無料でご利用いただけます。トライアルを開始する方法は次のとおりです。

AWS アカウントを作成し、Amazon Redshift コンソールにサインインします

Amazon Redshift クラスターを起動し、ノードタイプに合わせて DC1.Large を選択します

パートナー無料トライアルを使用して、無料でデータをレポートし、取り込みます。

日本担当チームへお問い合わせ »

Q: Amazon Redshift とは何ですか?

Amazon Redshift は高速で完全マネージド型のデータウェアハウスです。標準 SQL および既存のビジネスインテリジェンス (BI) ツールを使用して、すべてのデータをシンプルかつコスト効率よく分析できます。 洗練されたクエリ最適化、列指向ストレージ、高パフォーマンスのローカルディスク、および超並列クエリ実行を使用して、ペタバイト単位の構造化データに対して複雑な分析クエリを実行できます。 ほとんどの結果は数秒で返されます。 Redshift を使用して、1 時間あたりわずか 0.25 USD で、コミットメントなしの小規模から始めて、年間 1 テラバイトあたり 1,000 USD の費用でペタバイト規模にスケールアウトできます。コストは従来のソリューションの 1/10 未満です。 Amazon Redshift には、Amazon S3 のエクサバイト単位の非構造化データに対して SQL クエリを直接実行できる Amazon Redshift Spectrum も含まれています。ロードや変換は不要で、Avro、CSV、Grok、ORC、Parquet、RCFile、RegexSerDe、SequenceFile、TextFile、TSV などのオープンデータフォーマットを使用できます。Redshift Spectrum は、取得中のデータに基づいて自動的にクエリのコンピューティング性能をスケーリングし、Amazon S3 に対するクエリがデータセットのサイズに関係なく高速で実行されるようにします。

従来のデータウェアハウスの管理には(特に大型のデータセットへの対応に関して)、膨大な時間とリソースが必要でした。さらに、自己管理型のオンプレミスのデータウェアハウスの構築、メンテナンス、拡張に関連する費用は非常に高額です。データが増大するにつれ、コストを管理し、ETL の複雑さを低く抑え、優れたパフォーマンスを実現するために、データウェアハウスにロードするデータとストレージにアーカイブするデータのトレードオフを常に考慮する必要があります。 Amazon Redshift は、データウェアハウスのコストと運用上のオーバーヘッドを大幅に削減するだけでなく、Redshift Spectrum を使用して、データをロードすることなく大量のデータをネイティブフォーマットで簡単に分析できるようになります。

Amazon Redshift では、よく知られた SQL ベースのクライアントおよびビジネスインテリジェンス(BI)ツールで標準の ODBC や JDBC 接続を使用して、構造化データに高速でクエリを実行できます。クエリは複数の物理リソース間で分散され、並列化されます。AWS マネジメントコンソールでの数回のクリック、または 1 回の API 呼び出しだけで、Amazon Redshift データウェアハウスの規模を簡単に拡大縮小できます。データウェアハウスへのパッチの適用とバックアップは自動的に行われます。バックアップはユーザーが定義した保持期間の間格納されます。レプリケーションと常時バックアップにより可用性が向上し、データ耐久性が改善されます。これにより、自動的にコンポーネントとノードの障害から復旧できます。さらに、Amazon Redshift では Amazon Virtual Private Cloud(Amazon VPC)、SSL、AES-256 暗号化およびハードウェアセキュリティモジュール(HSM)がサポートされているので、データは移動中も保管中も保護されます。

アマゾン ウェブ サービスのすべてのサービスと同様に、初期投資が不要であり、お支払いいただくのは使用したリソースの分のみです。Amazon Redshift では、従量課金制が採用されています。Amazon Redshift を無料で試用することもできます。

Q: Amazon Redshift Spectrum とは何ですか?

Amazon Redshift Spectrum は、ロードや ETL を必要とすることなく Amazon S3 のエクサバイト単位の非構造化データに対してクエリを実行できる Amazon Redshift の機能です。クエリを発行すると、クエリはクエリ計画を生成および最適化する Amazon Redshift SQL エンドポイントに移動します。 Redshift はどのデータがローカルでどのデータが Amazon S3 にあるかを特定し、読み込む必要がある Amazon S3 データの量を最小化する計画を生成して、リソースプールから Amazon Redshift Spectrum の作業者に Amazon S3 からデータの読み込みと処理を要求します。

Redshift Spectrum は、必要に応じて何千ものインスタンスにスケールアウトされるため、データサイズに関係なくクエリが迅速に実行されます。 また、Amazon Redshift のクエリに対して現在行うのと同じように Amazon S3 データにも同じ SQL を使用し、同じ BI ツールを使用して同じ Amazon Redshift エンドポイントに接続することができます。 Redshift Spectrum により、ストレージとコンピューティングを分離して、個別にスケーリングすることができます。 Amazon S3 データレイクにクエリを実行するための Amazon Redshift クラスターを必要な数だけ設定して、高可用性と無制限の並行性を実現できます。 Redshift Spectrum により、任意の場所に任意の形式でデータを保存でき、必要なときに処理することができます。

Q: Amazon Redshift は何を管理しますか?

データウェアハウスのセットアップ、運用、スケーリングに必要な作業は、Amazon Redshift によって管理されます。たとえば、インフラストラクチャのキャパシティのプロビジョニングや、継続的な管理タスク(バックアップやパッチ適用など)の自動化です。Amazon Redshift はノードとドライブを自動的にモニタリングし、障害からの復旧を支援します。 Redshift Spectrum では、Amazon Redshift がコンピューティングインフラストラクチャ、負荷分散、計画、スケジューリング、および Amazon S3 に保存されているデータに対するクエリ実行をすべて管理します。

Q: 従来のデータウェアハウスや分析型のデータベースと比較し、Amazon Redshift ではどの程度のパフォーマンスが実現しますか?

Amazon Redshift はさまざまな革新的技術を駆使し、データウェアハウスや分析の処理において、従来のデータベースよりも最大で 10 倍のパフォーマンスを達成します。

  • 列指向データストレージ: Amazon Redshift はデータを一続きの行で保存せずに、データを列で整理します。行ベースのシステムはトランザクション処理には向いていますが、大型のデータセットに対する集計クエリが頻繁に実行されるデータウェアハウスや分析には、列ベースのシステムが最適です。クエリに含まれた列だけが処理され、列指向データはシーケンス方式でストレージメディアに格納されるため、列ベースのシステムに必要な I/O は非常に少なくなり、クエリのパフォーマンスが劇的に改善されます。
  • 高度な圧縮: 列指向のデータストアは類似データがシーケンス方式でディスクに格納されるため、行ベースのデータストアに比べてはるかに圧縮率が高くなります。Amazon Redshift には複数の圧縮技術が採用されており、多くの場合、従来のリレーショナルデータストアに比べて非常に効果的な圧縮が実現できます。さらに、Amazon Redshift ではインデックスやマテリアライズドビューが必要ないことから、使用するスペースは従来のリレーショナルデータベースシステムに比べて小さくなります。データを空のテーブルにロードすると、Amazon Redshift によりデータが自動的にサンプリングされ、最も適切な圧縮方式が選択されます。
  • 超並列処理(MPP): Amazon Redshift は、データとクエリの負荷をすべてのノードに自動的に分散します。データウェアハウスにノードを簡単に追加でき、データウェアハウスの増大に合わせて高速なクエリのパフォーマンスを維持できるようになります。
  • Redshift Spectrum: Redshift Spectrum により、Amazon S3 にあるエクサバイト単位のデータにクエリを実行できます。ロードや ETL は必要ありません。 Amazon Redshift にデータを保存しなくても、Redshift Spectrum を使用して Amazon S3 にあるエクサバイト単位のデータセットにクエリを実行できます。 クエリを発行すると、クエリはクエリ計画を生成する Amazon Redshift SQL エンドポイントに移動します。 Redshift はどのデータがローカルでどのデータが Amazon S3 にあるかを特定し、読み込む必要がある Amazon S3 データの量を最小化する計画を生成して、リソースプールから Amazon Redshift Spectrum の作業者に Amazon S3 からデータの読み込みと処理を要求し、その他の処理については Amazon Redshift クラスターに結果を戻します。

Q: Amazon Redshift の使用を開始するにはどのようにすればよいですか?

Amazon Redshift の詳細ページ、または AWS マネジメントコンソールからサインアップして、すぐに使用を開始できます。まだ AWS アカウントをお持ちでない場合は、画面の指示に従って作成してください。

Redshift Spectrum を使用するには、まずデータを Amazon S3 に保存する必要があります。 その後、Amazon Redshift クラスター内でそのデータに関するメタデータを定義するか、メタデータが Hive メタストアにすでにある場合はそのデータをクラスターに登録します。 Amazon Redshift クラスターで CREATE EXTERNAL SCHEMA SQL コマンドを発行して、カタログ内のデータベースを Amazon Redshift 内の外部スキーマとして定義または登録することができます。 その後、ローカルテーブルで使用しているのと同じ SQL と、Amazon Redshift を現在サポートしているいずれかの BI ツールを使用して、Amazon S3 に対してクエリを発行することができます。 Amazon Redshift SQL を使用して作成した外部データベース定義は、Amazon Athena が使用するのと同じデータカタログに登録されています。 オプションで、Amazon Athena Catalog から外部データベース定義を管理することもできます。

Amazon Redshift を無料で試用する方法については、使用開始 のページをご覧ください。

Q: Amazon Redshift はどの AWS リージョンで使用できますか?

Amazon Redshift の対象となるリージョンについては、AWS グローバルインフラストラクチャページのリージョン表を参照してください。

Q: Redshift Spectrum はどの AWS リージョンで使用できますか?

Amazon Redshift Spectrum は、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、欧州 (フランクフルト)、欧州 (アイルランド)、アジアパシフィック (ソウル)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京) の各 AWS リージョンで使用できます。

Q: Amazon Redshift データウェアハウスクラスターはどのように作成しますか?

AWS マネジメントコンソール、または Amazon Redshift API を使用して、Amazon Redshift データウェアハウスクラスターを簡単に作成できます。最初はノード 1 つのみで 160 GB のデータウェアハウスを作成し、ここからペタバイト規模までスケールするときも、AWS コンソールで数回クリックするか、API を 1 回呼び出すだけです。

単一ノード構成では Amazon Redshift を素早く、優れた費用対効果で開始でき、必要に応じて複数ノード構成にスケールアップすることができます。複数ノード構成にはリーダーノードが必要です。リーダーノードはクライアントの接続を管理し、クエリを受け取ります。またデータを保存してクエリとコンピューティングを実行する 2 つのコンピューティングノードも必要です。リーダーノードは自動的にプロビジョニングされ、これについて課金されることはありません。

アベイラビリティーゾーン(オプション)、ノード数、ノードタイプ、マスターの名前とパスワード、セキュリティグループ、バックアップ保持設定、その他のシステム設定を指定するだけです。構成の選択が完了すると、自動的に、必要なリソースがプロビジョニングされてデータウェアハウスクラスターがセットアップされます。

Q: リーダーノードとコンピューティングノードの役割を教えてください。

リーダーノードはクライアントアプリケーションからクエリを受け取り、クエリの解析と実行プランの策定を行います。実行プランとは、クエリの実行ステップを順番に並べたセットです。次に、コンピューティングノードに対するこれらのプランの並列実行を調整し、コンピューティングノードから得た中間結果を集計し、最終的にクライアントアプリケーションに結果を返します。

コンピューティングノードは実行プランに指定されたステップを実行し、これらのクエリを処理するためにデータをコンピューティングノード間で伝送します。集計の中間結果は、クライアントアプリケーションに送り返される前にリーダーノードに送り返されます。

Q: コンピューティングノードあたりの最大ストレージ容量はいくらですか? また最適なパフォーマンスのために推奨されるコンピューティングノードあたりのデータ量はどのくらいですか?

クラスターの作成に使用できるノードには、Dense Storage (DS) ノードタイプと Dense Compute (DC) ノードタイプがあります。Dense Storage ノードタイプでは、ハードディスクドライブ (HDD) を使用して、きわめて大規模なデータウェアハウスを低コストで作成できます。Dense Compute ノードタイプでは、高速 CPU、大容量 RAM、および SSD (Solid-State Disk) を使用して、きわめて高パフォーマンスのデータウェアハウスを作成できます。

Dense Compute (DS) ノードタイプは、エクストララージおよびエイトエクストララージの 2 つのサイズから選択できます。エクストララージ(XL)が HDD 3 台(磁気ストレージ合計 2 TB)を備えているのに対して、エイトエクストララージ(8XL)は HDD 24 台(磁気ストレージ合計 16 TB)を備えています。DS2.8XLarge は Intel Xeon E5-2676 v3 (Haswell) 仮想コア 36 個と RAM 244 GiB を備えており、DS2.XL は Intel Xeon E5-2676 v3 (Haswell) 仮想コア 4 個と RAM 31 GiB を備えています。詳細については、こちらの料金表ページをご覧ください。最初はエクストララージノード 1 つだけで 2 TB のデータウェアハウスを作成するのであれば、料金は 1 時間あたり 0.85 USD で、ここからペタバイト規模に拡張していくこともできます。時間単位での支払いもできますが、リザーブドインスタンス料金を利用すれば、テラバイトあたりの年間料金を 1,000 USD 以下に抑えることができます。

Dense Compute (DC) ノードタイプも、2 つのサイズから選択できます。ラージは、SSD ストレージ 160GB、Intel Xeon E5-2670v2(Ivy Bridge)仮想コア 2 個、RAM 15GiB を備えています。エイトエクストララージ(8XL)は大きさが 16 倍で、SSD ストレージ 2.56TB、Intel Xeon E5-2670v2 仮想コア 32 個、RAM 244GiB を備えています。最初は DC2.Large ノード 1 つだけであれば、料金は 1 時間あたり 0.25 USD で、最大では 8XL ノード 128 個、SSD ストレージ 326TB、仮想コア 3,200 個、RAM 24TiB までスケールできます。

Amazon Redshift では MPP アーキテクチャーが採用されているため、データウェアハウスクラスター内のノード数を増やすとパフォーマンスが向上します。コンピューティングノードごとの最適なデータ量は、アプリケーションの特性とクエリのパフォーマンスに対するニーズにより異なります。

Q: Amazon Redshift データウェアハウスクラスターごとに指定できるノード数はいくつですか?

Amazon Redshift のデータウェアハウスクラスターあたりのコンピューティングノードの数は、ノードのタイプに応じて 1~128 個となります。詳細については、ドキュメントをご覧ください。

Q: 実行中のデータウェアハウスクラスターにはどのようにアクセスすればよいですか?

データウェアハウスクラスターが利用可能になると、そのエンドポイントと JDBC および ODBC 接続文字列を、AWS マネジメントコンソールまたは Redshift API を使用して取得することができます。お好みのデータベースツール、プログラミング言語、ビジネスインテリジェンス(BI)ツールでこの接続文字列を使用できます。実行中のデータウェアハウスクラスターに対するネットワークリクエストの承認が必要になります。詳細な説明については、入門ガイドを参照してください。

Q: Amazon Redshift と Amazon RDS をどのように使い分ければよいですか?

Amazon Redshift でも Amazon RDS でも、データベース管理の負荷を軽減しながら、クラウド内で従来のリレーショナルデータベースを実行できます。ユーザーはオンライントランザクション処理(OLTP)、およびレポーティングと分析のどちらに対しても、Amazon RDS データベースを使用します。Amazon Redshift はスケーリングと複数ノードのリソースを利用し、さまざまな最適化を行うことで、非常に大型のデータセットに対する分析とレポーティングの処理において、従来のデータベースと比べて大幅なパフォーマンスの改善を提供します。データやクエリの複雑さの増大に対応するため、またはレポーティングおよび分析処理が OLTP 処理のパフォーマンスを妨げないようにするため、Amazon Redshift には優れたスケールアウトのオプションがあります。

Q: Amazon Redshift と Amazon EMR をどのように使い分ければよいですか?

Apache Spark、Hadoop、Presto、Hbase などのビッグデータ処理フレームワークを使って、きわめて大規模なデータセットを処理および分析するためにカスタムコードを使用する場合は、Amazon EMR を使用できます。 Amazon EMR では、クラスターの設定と、クラスターにインストールするソフトウェアを完全に制御できます。

Amazon Redshift のようなデータウェアハウスは、異なるタイプの分析用に設計されています。 データウェアハウスは、在庫、財務、小売販売システムなど、さまざまなソースからのデータを集めるように設計されています。 企業全体で一貫して正確なレポートを作成するために、データウェアハウスは高度に構造化された方法でデータを保存します。 この構造は、データ整合性ルールをデータベースのテーブルに直接構築します。

Amazon Redshift は、構造化されたデータの膨大な集合に対して複雑なクエリを実行し、超高速なパフォーマンスを得る必要がある場合に最適なサービスです。

Q: Redshift Spectrum は Amazon EMR を置き換えることができますか?

いいえ。 Redshift Spectrum は Amazon Redshift と S3 のデータに対するクエリを実行するのに最適ですが、企業が通常 Amazon EMR のような処理フレームワークに求めているタイプのユースケースにはあまり適していません。
Amazon EMR の機能は、単なる SQL クエリの実行を超えるものです。 Amazon EMR は、完全にカスタマイズ可能なクラスターで、Spark、Hadoop、Presto などの有名なビッグデータ処理フレームワークの最新バージョンを使用して、非常に大規模なデータセットを処理および分析できるマネージドサービスです。 Amazon EMR を使用すれば、機械学習、グラフ分析、データ変換、ストリーミングデータ、および実質的にコード可能なすべてのアプリケーション向けに、スケールアウトする幅広いデータ処理タスクを実行できます。 Redshift Spectrum を EMR と共に使用することもできます。 Amazon Redshift Spectrum は Amazon EMR と同じ方法でテーブル定義を保存します。 したがって、大規模なデータストアを処理するためにすでに EMR を使用している場合、Redshift Spectrum を使用して、Amazon EMR ジョブを妨げずにそのデータに対してクエリを同時に実行することができます。

クエリサービス、データウェアハウス、複雑なデータ処理フレームワークはすべてそれぞれの役割を持ち、異なる目的で使用されます。 その作業に適したツールを選択する必要があります。

Q: Amazon Athena と Redshift Spectrum をどのように使い分ければよいですか?

Amazon Athena は、従業員が Amazon S3 のデータに対してアドホッククエリを実行できるようにする最も簡単な方法です。Athena はサーバーが不要です。そのため、セットアップや管理のためのインフラストラクチャがなく、即座にデータ分析を開始できます。

頻繁にアクセスされるデータが存在し、そのデータを一貫性のある高度に構造化された形式で保存する必要がある場合は、Amazon Redshift のようなデータウェアハウスを使用します。 これにより柔軟性が増します。頻繁にアクセスされる構造化データを Amazon Redshift に保存し、Redshift Spectrum を使用して Amazon Redshift のクエリを Amazon S3 データレイク内のデータ全体に拡張することができます。これにより、任意の場所に任意の形式でデータを保存でき、必要なときに処理することができます。

Q: Amazon EMR を使用して処理するデータへのクエリに Redshift Spectrum を使用できますか?

はい、Redshift Spectrum は、Amazon EMR で使用されているのと同じ Apache Hive メタストアをサポートし、データとテーブルの定義を見つけることができます。Amazon EMR を使用していてすでに Hive メタストアを使用している場合、Amazon Redshift クラスターでそれを使用するように設定するだけで済みます。 Amazon EMR ジョブでそのデータをすぐに検索することができます。

Q: 独自の Amazon EC2 の MPP データウェアハウスクラスターを実行するのではなく、Amazon Redshift を使用する理由は何ですか?

Amazon Redshift は独自のデータウェアハウスの管理に関連する、以下のような時間のかかる多くのタスクを自動的に処理します。

  • セットアップ: Amazon Redshift では、データウェアハウスクラスターを作成してスキーマを定義すれば、データのロードとクエリを開始できるようになります。プロビジョニング、設定、パッチ適用はすべて自動的に行われます。
  • データの耐久性: Amazon Redshift では、データウェアハウスクラスターの中でデータが自動的に複製され、Amazon S3 へのバックアップも継続的に行われます。Amazon S3 は、耐久性が限りなく 100% に近い「イレブンナイン」となるように設計されています。各ドライブのデータは、クラスター内の他のノードに自動的にミラーリングされます。ドライブに障害が発生した場合、レイテンシーが少し増加するだけでクエリは続行され、Redshift は複製からドライブを再作成します。ノードに障害が発生した場合、Amazon Redshift は新規ノードを自動的にプロビジョニングし、クラスター内の他のドライブまたは Amazon S3 からデータを復元し始めます。最も高頻度のクエリ対象データが優先的に復元されるため、高頻度で実行されるクエリは速やかに利用可能になります。
  • スケーリング: 容量やパフォーマンスのニーズが変化したときも、API 呼び出しを 1 回実行するか AWS マネジメントコンソールで数回クリックするだけで、Amazon Redshift データウェアハウスクラスターのノードを追加または削除できます。
  • 自動更新とパッチ適用: Amazon Redshift によって自動的に更新やパッチがデータウェアハウスに適用されるので、お客様は管理作業ではなくアプリケーションそのものに集中することができます。
  • エクサバイト規模のクエリ実行機能: Redshift Spectrum により、Amazon S3 にあるエクサバイト単位のデータにクエリを実行できます。ロードや ETL は必要ありません。 Amazon Redshift にデータを保存しなくても、Redshift Spectrum を使用して Amazon S3 にあるエクサバイト単位のデータセットにクエリを実行できます。

先頭に戻る »

Q: Amazon Redshift の使用に対する課金と請求はどのように行われるのですか?

使用料金は従量課金制となっており、最低料金やセットアップ料金はありません。以下の内容に基づき、請求が行われます。

  • コンピューティングノード時間– コンピューティングノード時間は、その請求期間でのコンピューティングノード全体の総実行時間数です。毎時のノードあたりの料金を 1 単位として請求されます。そのため、3 ノードのデータウェアハウスクラスターを 1 ヶ月間常時実行すると、2,160 インスタンス時間の課金が発生します。リーダーノード時間については課金されません。コンピューティングノードにだけ課金が発生します。
  • バックアップストレージ–バックアップストレージはデータウェアハウスの自動スナップショットまたは手動スナップショットと関連するストレージです。データウェアハウスによるバックアップストレージの使用量は、バックアップ保持期間の延長やスナップショットの追加取得を行うと増加します。アクティブなデータウェアハウスクラスターについては、バックアップストレージの使用量がプロビジョニングしたストレージの 100% に達するまで、バックアップストレージ分の追加料金は発生しません。例えば、アクティブな 1 ノードの XL データウェアハウスクラスターの場合、ローカルインスタンスストレージが 2 TB なので、バックアップストレージは毎月 2 TB まで追加料金なしでご利用いただけます。プロビジョニングされたストレージサイズを超えるバックアップストレージと、クラスターが停止した後に格納されたバックアップについては、標準 Amazon S3 使用料で請求されます。
  • データ転送 – 同じ AWS リージョン内の Amazon Redshift と Amazon S3 の間で転送されたデータについては、データ転送料金が発生しません。これ以外の Amazon Redshift との間のデータ転送すべてには、通常の AWS データ転送料金が請求されます。
  • データスキャン – Redshift Spectrum では、クエリを実行するためにスキャンされた Amazon S3 データの量に応じて課金されます。クエリを実行していないときは、Redshift Spectrum の支払いは発生しません。 Parquet や RC などの列指向形式でデータを保存する場合、Redshift Spectrum は行全体を処理するのではなく、クエリで必要な列のみをスキャンするため、料金が安くなります。 同様に、Redshift Spectrum のサポートされている形式のいずれかを使用してデータを圧縮する場合も、料金が安くなります。 標準の Amazon S3 データストレージ料金および使用したクラスターに対する Amazon Redshift のインスタンス料金が課金されます。

Amazon Redshift の料金情報については、Amazon Redshift の料金表ページをご覧ください。

Q: Amazon Redshift データウェアハウスクラスターの請求開始と終了のタイミングはいつですか?

データウェアハウスクラスターが利用可能になると同時に、データウェアハウスクラスターに対する請求が開始されます。削除またはインスタンス障害によるデータウェアハウスクラスターの停止まで、請求が続きます。

Q: 請求可能な Amazon Redshift インスタンス時間はどのように定義されていますか?

データウェアハウスクラスターが利用可能な状態で実行されている時間が 1 時間単位で、ノードの使用時間として請求されます。データウェアハウスクラスターについて課金されないようにするには、データウェアハウスクラスターを停止してノード時間に対して新たに請求が行われないようにする必要があります。1 時間未満のノード使用時間は、1 時間分として請求されます。

Q: 料金は税込み価格ですか?

別途記載がない限り、表示される料金には VAT、売上税その他取引に対して適用される一切の税金等および関税は含まれません。日本の居住者であるお客様が AWS サービスをご利用になった場合には、料金とあわせて別途消費税をご請求させていただきます。詳細はこちらをご覧ください

先頭に戻る »


Q: Amazon Redshift データウェアハウスへのデータのロードはどのように行えばよいですか?

Amazon Redshift へのデータは、さまざまなデータソースから、例えば Amazon S3Amazon DynamoDBAmazon EMRAWS Data Pipeline からロードでき、他にも Amazon EC2 上またはオンプレミスの SSH 対応ホストからロードできます。Amazon Redshift は各コンピューティングノードへのデータの並列ロードを行い、データウェアハウスクラスターへのデータ取り込みを最速化します。Amazon Redshift へのデータロードの詳細については、入門ガイドを参照してください。

Q: SQL の INSERT 文を使用してデータをロードできますか?

はい。クライアントは ODBC または JDBC を使用して Amazon Redshift に接続し、SQL の「insert」コマンドを発行してデータを挿入できます。この処理は S3 または DynamoDB に比べて速度が劣ることに注意してください。S3 や DynamoDB は各コンピューティングノードに対してデータを並列ロードするのに対し、SQL の insert 文は 1 つのリーダーノードからデータをロードするためです。

Q: 既存の Amazon RDS、Amazon EMR、Amazon DynamoDB、Amazon EC2 データソースから Amazon Redshift へのデータロードはどのようにすればよいですか?

COPY コマンドを使用すると、Amazon EMR、Amazon DynamoDB、または任意の SSH 対応ホストからデータを並行して直接 Amazon Redshift にロードできます。 Redshift Spectrum では、単純な INSERT INTO コマンドを使用して、Amazon S3 からクラスターにデータをロードすることもできます。 これにより、Parquet や RC などのさまざまな形式のデータをクラスターにロードできます。 この方法を使用すると、Amazon S3 からスキャンされたデータに応じて Redshift Spectrum の料金が発生することに注意してください。

さらに、多数の ETL 企業から、各社のツールでの Amazon Redshift の使用が認定されており、データのロードを開始できるように多数の企業が無料トライアルを提供しています。さまざまな AWS データソースからデータをロードするための、高パフォーマンスかつ安全で耐障害性を備えたソリューションである AWS Data Pipeline が用意されています。AWS Data Pipeline を使用して、データソース、希望のデータ変換を指定した後に、事前に準備したインポートスクリプトを実行してデータを Amazon Redshift にロードできます。AWS Glue は抽出、変換、ロード (ETL) を行う完全マネージド型のサービスで、分析用データの準備とロードを簡単にします。AWS マネジメントコンソールで数回クリックするだけで、AWS Glue ETL ジョブを作成および実行できます。

Q: Amazon Redshift に最初にロードするデータが大量にあります。インターネットでの転送には時間がかかります。このデータをどのようにロードすればよいですか?

AWS Import/Export でポータブルストレージデバイスを使用し、Amazon S3 にデータを転送できます。さらに AWS Direct Connect を使用すると、お客様のネットワークまたはデータセンターと AWS 間にプライベートなネットワーク接続を確立することができます。1 秒あたり 1 ギガビットまたは 1 秒あたり 10 ギガビットの接続ポートを選択してデータを転送できます。

先頭に戻る »


Q: Amazon Redshift ではデータはどのように保護されますか?

Amazon Redshift では、業界標準の暗号化技術を用いて、通信中または保存されているデータを暗号化して保護します。通信中のデータを保護するため、クライアントアプリケーションと Redshift データウェアハウスクラスター間で SSL 対応接続がサポートされます。保存されているデータを保護するため、データがディスクに書き込まれるときに、ハードウェアアクセラレーションを利用した AES-256 で各ブロックが暗号化されます。この暗号化は I/O サブシステムの下位レベルで実行されるため、中間クエリ結果をはじめとするディスクに書き込まれるデータのすべてが暗号化されます。ブロックはそのままの状態でバックアップされるため、バックアップも同じく暗号化されます。デフォルトでは、キーの管理は Amazon Redshift によって行われますが、お客様が所有するハードウェアセキュリティモジュール(HSM)を使用してキーを管理したり、あるいはAWS Key Management Service でキーを管理したりすることもできます。

Redshift Spectrum は、AWS Key Management Service (KMS) によって管理されるアカウントのデフォルトキーを使用して、Amazon S3 のサーバー側の暗号化 (SSE) をサポートします。

Q: Amazon Redshift を Amazon Virtual Private Cloud (Amazon VPC) で使用できますか?

はい。Amazon Redshift を VPC 構成の一部として使用できます。Amazon VPC では、お客様のデータセンターで運用されている従来型のネットワークを正確に模倣して、仮想ネットワークのトポロジーを定義することができます。これにより、Amazon Redshift データウェアハウスクラスターにアクセスできるユーザーを完全に制御することができます。

Redshift Spectrum は、VPC の一部である Amazon Redshift クラスターで使用できます。 Redshift Spectrum は、拡張された VPC ルーティングを現在サポートしていません。

Q: Amazon Redshift コンピューティングノードに直接アクセスできますか?

いいえ。Amazon Redshift のコンピューティングノードはプライベートネットワーク空間に存在するため、データウェアハウスクラスターのリーダーノード以外からはアクセスできません。これにより、データに対するセキュリティが一層強化されます。

先頭に戻る »


Q: 1 つのノードのドライブに障害が発生した場合、データウェアハウスクラスターの可用性とデータ耐久性はどうなりますか?

Amazon Redshift データウェアハウスクラスターはドライブに障害が発生した場合でも継続して利用できますが、特定のクエリに対するパフォーマンスがわずかに低下します。ドライブに障害が発生すると、ノード内の他のドライブに格納されている障害ドライブのデータの複製が、透過的に使用されます。さらに、データを正常なドライブに移動させるか、移動できない場合はノードの交換が行われます。 単一ノードのクラスターは、データのレプリケーションをサポートしません。ドライブに障害が発生した場合、S3 のスナップショットからクラスターを復元する必要があります。実稼働には少なくとも 2 つのノードを使用することをお勧めします。

Q: 個々のノードに障害が発生した場合、データウェアハウスクラスターの可用性とデータ耐久性はどうなりますか?

Amazon Redshift ではデータウェアハウスクラスター内の障害ノードが自動的に検知され、障害ノードの交換が行われます。データウェアハウスクラスターは代替ノードがプロビジョニングされてデータベースに追加されるまで、クエリと更新を行うことはできません。Amazon Redshift では代替ノードが即座に利用可能となり、まず最も高い頻度でアクセスされるデータが S3 からロードされます。こうすることで、可能な限り速やかにクエリの実行が再開できるようになります。 単一ノードのクラスターは、データのレプリケーションをサポートしません。ドライブに障害が発生した場合、S3 のスナップショットからクラスターを復元する必要があります。実稼働には少なくとも 2 つのノードを使用することをお勧めします。

Q: データウェアハウスクラスターのアベイラビリティーゾーン (AZ) が機能停止した場合に、データウェアハウスクラスターの可用性とデータ耐久性はどうなりますか?

Amazon Redshift データウェアハウスクラスターのアベイラビリティーゾーンが使用不能になった場合は、アベイラビリティーゾーンの電力供給とネットワークアクセスが回復するまではクラスターを利用できません。データウェアハウスクラスターのデータは維持されているので、アベイラビリティーゾーンが再び利用可能になり次第、Amazon Redshift データウェアハウスの使用を開始できます。さらに、同一リージョン内の新規アベイラビリティーゾーンに対して既存のスナップショットを復元することもできます。最も高い頻度でアクセスされるデータが最初に復元されるため、可能な限り速やかにクエリの実行を再開できます。

Q: Amazon Redshift はマルチ AZ 配置をサポートしますか?

現在、Amazon Redshift はシングル AZ 配置のみをサポートしています。データウェアハウスクラスターを複数のアベイラビリティーゾーンで運用するには、2 つの Amazon Redshift データウェアハウスクラスターをそれぞれ別のアベイラビリティーゾーンに配置し、同じ Amazon S3 入力ファイルセットからデータをロードします。Redshift Spectrum を使用すると、アベイラビリティーゾーン全体で複数のクラスターを稼働させ、データをクラスターにロードすることなく Amazon S3 のデータにアクセスできます。 さらに、データウェアハウスクラスターのスナップショットを使用して、データウェアハウスクラスターを違うアベイラビリティーゾーンに復元することもできます。

先頭に戻る »


Q: Amazon Redshift ではデータはどのようにバックアップされますか?

Amazon Redshift ではデータがロードされるとすべてのデータがデータウェアハウスクラスター内に複製され、データは常時 S3 にバックアップされます。データのコピーは、少なくとも 3 つが常に保持されます (コンピューティングノードのオリジナルと複製、Amazon S3 内のバックアップ)。また、災害復旧用に、スナップショットを別リージョンの S3 に非同期でレプリケートできます。

Q: Amazon Redshift はどのくらいの期間バックアップを保持しますか? バックアップ期間は設定可能ですか?

デフォルトでは、Amazon Redshift はバックアップを 1 日保持します。設定を 35 日まで延長できます。

Q: Amazon Redshift データウェアハウスクラスターをバックアップから復元するにはどうすればよいですか?

バックアップ保持ウィンドウ内のすべての自動バックアップにアクセスできます。復元するバックアップを選択したら、新規データウェアハウスクラスターがプロビジョニングされ、そこにデータが復元されます。

Q: データウェアハウスクラスターのバックアップを有効にする必要がありますか? または有効化は自動的に行われますか?

Amazon Redshift では、データウェアハウスクラスターの自動バックアップを 1 日保持する自動バックアップがデフォルトで有効になっています。無料のバックアップストレージは、データウェアハウスクラスターのノード上のストレージの総サイズまでに制限されており、アクティブなデータウェアハウスクラスターにのみ該当します。例えば、データウェアハウスストレージが合計で 8 TB の場合は、追加費用なしでは最大でも 8 TB のバックアップストレージしか使用できません。バックアップ保持期間を 1 日以上に延長する場合は、AWS マネジメントコンソールまたは Amazon Redshift API を使用して延長することができます。自動スナップショットの詳細については、『Amazon Redshift管理ガイド』をご覧ください。Amazon Redshift では変更されたデータのみがバックアップされるため、ほとんどのスナップショットでは無料のバックアップストレージがほんのわずかしか消費されません。

Q: 自動バックアップと DB スナップショットの保持はどのように管理すればよいですか?

AWS マネジメントコンソールまたは ModifyCluster API を使用して RetentionPeriod パラメータを修正し、自動バックアップが保持される期間を管理することができます。自動バックアップをすべて無効にしたい場合、保持期間を 0 に設定します(お勧めしません)。

Q: データウェアハウスクラスターを削除した場合、バックアップはどうなりますか?

データウェアハウスクラスターを削除すると、削除と同時に最終スナップショットを作成するかどうかを指定できます。そのスナップショットを使用し、後日削除済みデータウェアハウスクラスターを復元できます。事前に手動で作成したすべてのデータウェアハウスクラスターのスナップショットは、そのスナップショットをユーザーが削除するまでは保持され、標準 Amazon S3 使用料で請求が行われます。

先頭に戻る »


Q: Amazon Redshift データウェアハウスクラスターのサイズとパフォーマンスはどのようにスケールすればよいですか?

クエリのパフォーマンスを向上させる、または CPU、メモリ、I/O の過度の使用率に対応する場合、AWS マネジメントコンソールまたは ModifyCluster API からデータウェアハウスクラスター内のノード数を増やすことができます。データウェアハウスのクラスターを変更すると、すぐに変更が適用されます。コンピューティング使用率、ストレージ使用率、Amazon Redshift データウェアハウスクラスターの読み込み/書き込みトラフィックのメトリクスは、AWS マネジメントコンソールまたは Amazon CloudWatch API から無料で利用できます。ユーザー定義のメトリクスも、Amazon CloudWatch のカスタムメトリクス機能を使用して追加できます。

Redshift Spectrum では、Amazon S3 にある同じデータにアクセスする複数の Amazon Redshift クラスターを実行できます。 異なるユースケースに対して異なるクラスターを使用できます。 たとえば、1 つのクラスターを標準レポートの作成に使用し、別のクラスターをデータ分析クエリに使用できます。 マーケティングチームは運用チームと異なる独自のクラスターを使用できます。 ローカルクラスター内のノードのタイプと数、およびクエリでの処理が必要なファイル数に応じて、Redshift Spectrum はクエリの実行を、共有リソースプールの中から選んだ複数の Redshift Spectrum の作業者に自動的に分散させて、Amazon S3 からのデータを読み取って処理し、残りの処理のために Amazon Redshift クラスターに結果を戻します。

Q: データウェアハウスクラスターはスケーリングの最中も使用できますか?

スケーリング処理中に新規データウェアハウスクラスターが作成されても、既存のデータウェアハウスクラスターは引き続き読み込み処理に使用できます。新規データウェアハウスクラスターの準備が整うと、既存のデータウェアハウスクラスターは一時的に使用不能になります。そして既存のデータウェアハウスクラスターの正規名レコードが、新規データウェアハウスクラスターを指すように切り替えられます。この使用不能時間は通常数分で終了します。また、修正をすぐに適用するように指定しない場合は、データウェアハウスクラスター用のメンテナンスウィンドウ中に使用不能になります。Amazon Redshift は既存のデータウェアハウスクラスターのコンピューティングノードから新規クラスターのコンピューティングノードに対し、データを並列移動させます。これにより、可能な限り速やかに処理を完了できるようになります。

先頭に戻る »


Q: Amazon Redshift にはよく利用されるビジネスインテリジェンスソフトウェアパッケージや ETL ツールと互換性がありますか?

Amazon Redshift では業界標準の SQL が使用されており、標準の JDBC や ODBC ドライバを使用してアクセスされます。コンソールの [Connect Client] タブからは、Amazon Redshift のカスタムの JDBC および ODBC ドライバをダウンロードできます。一般的な BI および ETL ベンダーと統合できることが確認できており、該当するベンダーの多くは、データのロードと分析を開始できるように、無料トライアルを提供しています。また、AWS Marketplace でも、Amazon Redshift と連携するように設計されたソリューションを数分でデプロイおよび設定できます。

Q: Redshift Spectrum ではどの種類のクエリがサポートされていますか?

Redshift Spectrum のテーブルにアクセスするために使用するクエリは、クラスターのローカルストレージにあるテーブルに対して使用するものと完全に同じ構文および機能を持ちます。 外部テーブルは、それらが登録された CREATE EXTERNAL SCHEMA コマンドで定義されたスキーマ名を使用して参照されます。

Q: ローカルストレージ内のテーブルの名前が外部テーブルと同じ場合はどうなりますか?

ローカルテーブルの場合と同じように、クエリで schema_name.table_name を使用することで、スキーマ名を使用して、意図したテーブルを正確に選択できます。

Q: Redshift Spectrum はどの BI ツールと SQL クライアントをサポートしていますか?

Redshift Spectrum はすべての Amazon Redshift クライアントツールをサポートしています。 クライアントツールは、引き続き ODBC または JDBC 接続を使用して Amazon Redshift クラスターエンドポイントに接続できます。 変更の必要はありません。

Q: Redshift Spectrum ではどのデータ形式がサポートされていますか?

Redshift Spectrum では、Avro、CSV、Grok、ORC、Parquet、RCFile、RegexSerDe、SequenceFile、TextFile、TSV などの幅広いオープンソースデータフォーマットがサポートされています。

Q: Redshift Spectrum はどの圧縮形式をサポートしていますか?

Redshift Spectrum は現在、Gzip と Snappy 圧縮をサポートしています。

Q: S3 データレイクに関するメタデータを保存するために Hive メタストアを使用しています。Redshift Spectrum を使用することはできますか?

はい。 CREATE EXTERNAL SCHEMA コマンドは Hive メタストアをサポートしています。 現在、Hive メタストアに対する DDL はサポートされていません。

Q: クラスターで作成されたすべての外部データベーステーブルのリストを取得するにはどうすればよいですか?

システムテーブル SVV_EXTERNAL_TABLES にクエリを実行して、その情報を取得することができます。


Q: Amazon Redshift データウェアハウスクラスターのパフォーマンスをどのようにモニタリングすればよいですか?

コンピューティング使用率、ストレージ使用率、Amazon Redshift データウェアハウスクラスターの読み込み/書き込みトラフィックのメトリクスは、AWS マネジメントコンソールまたは Amazon CloudWatch API から無料で利用できます。Amazon CloudWatch のカスタムメトリクス機能を使用して、ユーザー定義メトリクスを追加することもできます。CloudWatch のメトリクスに加え、AWS マネジメントコンソールからクエリとクラスターのパフォーマンス情報を取得することもできます。この情報を利用して、最もシステムリソースを消費しているユーザーとクエリを確認し、パフォーマンスの課題を診断することができます。さらに、各コンピューティングノードのリソース使用率を確認し、すべてのノード間でデータとクエリのバランスが確実にとれるようにできます。

Q: クラスター内のデータにアクセスするクエリの中に、Redshift Spectrum クエリよりも実行速度が遅いものがあります。何故ですか?

Amazon Redshift のクエリは、クラスターリソースでローカルディスクに対して実行されます。 Redshift Spectrum のクエリは、S3 のデータに対してクエリごとのスケールアウトリソースを使用して実行されます。 ほとんどのクエリでは、ローカルディスクの方が高速になりますが、大量のデータをスキャンして計算処理が最小限のクエリでは、多くの Redshift Spectrum の作業者を適用してクエリを迅速に完了できます。


Q: メンテナンスウィンドウとは何ですか?ソフトウェアメンテナンスの間もデータウェアハウスクラスターの利用は可能ですか?

Amazon Redshift では、クラスターに対して修正、機能強化、機能追加を適用するためのメンテナンスが定期的に実行されます。クラスターをプログラムまたは Amazon Redshift コンソールを使用して変更することで、スケジュールされたメンテナンスウィンドウを変更できます。メンテナンスウィンドウの間、Amazon Redshift クラスターで通常のオペレーションは実行できません。メンテナンスウィンドウおよびリージョン別のスケジュールの詳細については、Amazon Redshift 管理ガイドのメンテナンスウィンドウを参照してください。

先頭に戻る »