Amazon Web Services ブログ

[AWS Black Belt Online Seminar] Amazon Redshift 運用管理 資料及び QA 公開

先日 (2021/01/27) 開催しました AWS Black Belt Online Seminar「Amazon Redshift 運用管理」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。

20210127 AWS Black Belt Online Seminar Amazon Redshift 運用管理

AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます)

Q. redchift は S3 にある元データを変更しないことが保証されていますか?
A. 明示的にオプションを指定しない限り保証されます。Amazon Redshift が S3 にデータを書き出す機能のうち、Amazon Redshift Spectrum を利用した書き出し機能であるCREATE EXTERNAL TABLE AS SELECT 文では、指定された S3 の場所が空ではないと操作が失敗します。Amazon Redshift Spectrum テーブルに対するINSERT文では、ファイル名が必ず一意となるように書き出されます。UNLOAD コマンドでは、明示的に ALLOWOVERWRITE オプションを付けない限り、ファイルを上書きする恐れがある場合には操作が失敗します。

Q. クエリエディタ経由での予期せぬデータ漏洩を防ぐため、本機能を無効化したいです。どのような設定を行えばよいでしょうか?
A. クエリエディタそのものを無効にすることはできませんが、不要なユーザーには利用させない対応を取ることは可能です。IAM ポリシーの「AmazonRedshiftQueryEditor」および「AmazonRedshiftReadOnlyAccess」を利用するユーザーにアタッチすることでクエリエディタが利用可能になりますので、これらを付与しないことで、クエリエディタの利用ができなくなります。なお、拡張された VPC ルーティングを有効化したクラスタに対しては、クエリエディタは使用できません。

Q. DR のような構成は取れるのでしょうか?東京(本番)大阪(DR)など
A. マルチ AZ クラスターリカバリーを利用することで、AZ 間での DR 構成は可能になります。リージョンをまたぐ場合には、スナップショットを別リージョンへ自動的にコピーする設定にしておき、障害発生時にはスナップショットから復元する対応を行います。

Q. 高速化のソートはあらかじめ、ということですが、具体的にはどのような手法で準備しておくのでしょうか?
A. 空テーブルへの初回のデータロード時に、データがソートされてソート済み領域に格納されます。以後のデータロードでは、ロードするデータごとにソートされ、未ソート領域に格納されていきます。未ソート領域は、セミナーでご紹介した自動ソート機能でパフォーマンス改善に効果がある部分が随時ソートされるほか、VACUUM コマンド(FULL または SORT ONLY オプションを使用)を使うことで、テーブル全体をソートし直すこともできます。

Q. システムテーブル、ビューへのクエリも他のワークロードと同様に AutoWLM の管理対象となるのでしょうか?
A. Auto WLM の管理対象となります。

Q. Concurrency Scaling の上限を無料枠のみとすることは可能でしょうか?
A. 可能です。Concurrency Scaling は、実行時間の上限を設定することができます。例えば、1 日 1 時間を上限とすると、無料枠の範囲内で利用することができます。

Q. Amazon Redshift Spectrum には、SQL とユースケースにはどのような制限がありますか?
A. SQL についての主な制限として、Amazon Redshift Spectrum では UPDATE 文が実行できないというものがあります。そのほか、Amazon Redshift Spectrum に適したユースケースやベストプラクティスについては、2020 年 7 月の Black Belt 資料に詳しく記載がありますので、ぜひご活用ください。

Q. COPY コマンドを実行する際は定期実行が良いのか、ファイルが置かれるたびに COPY 実行するのが良いのでしょうか?
A. ファイルが置かれる頻度とデータ量、および業務要件次第で変わってきますが、COPY コマンドが終了する前に次の COPY コマンドが呼ばれるような状況は避けることをおすすめします。その場合はある程度間隔を空けた定期実行が良いでしょう。なお、AWS ではストリーミングデータをAmazon Redshift にロードするサービスとして、Amazon Kinesis Data Firehose というサービスを用意しておりますので、状況によってはこちらの利用もご検討ください。

Q. Redshift と Dynamo の連携について、お薦めのツールかサービスがありますでしょうか?
A. Amazon DynamoDB から Amazon Redshift へのデータ連携は、Amazon Kinesis Data Streams と Amazon Kinesis Data Firehose を組み合わせることで可能です。また、現在プレビュー中のサービスであるAWS Glue Elastic Views を使うことで、より手軽に両者のデータ連携が可能になります。

Q. COPY コマンドの実行はどこで行うのが良い(Lambda?Redshift 内で完結してできる?)?
A. COPY コマンドは、セミナーでご紹介したクエリを実行できる環境であればどこからでも実行可能です。クエリエディタからであれば Amazon Redshift のサービス内で完結可能ですし、AWS Glue から実行することもよく行われています。AWS Lambda からでも実行可能ですが、COPY コマンドは実行時間が長いことが多いため、Lambda の実行時間制限にかからないようご注意ください。制限については、「AWS Lambda のクォータ」ページの「関数タイムアウト」をご参照ください。

Q. 大量データという単語がよく出てきましたが、(場合によるとは思いますが)大量データというのはどれくらいのデータを想定していますでしょうか?
A. 主にノードタイプ選定の考え方のときに出てきた単語かと思います。ここでは、従来の DC2 ファミリーでは、データを格納するのにノード数が多くなり、予算超過する、またはクラスタが性能過剰となる結果を招くデータ量を想定しています。

—–

今後の AWS Webinar | イベントスケジュール

直近で以下を予定しています。各詳細およびお申し込み先は下記URLからご確認いただけます。皆様のご参加をお待ちしております。

——

AWS Innovate – AI/ML Edition

AI / 機械学習に特化したオンラインカンファレンス AWS Innovate – AI/ML Edition を日本で初めて開催します。AI および機械学習の最新のイノベーション、主要な概念、ビジネスのユースケース、アーキテクチャのベストプラクティスなど、機械学習を初めて学習する方からビジネスでの活用を検討される方まで、経験レベルや職務にあった 15 を超えるセッションをAWS のエキスパートがご紹介します。最小限の労力とコストでイノベーションを加速するためにご活用ください。

日時:2021 年 2 月 24 日(水)オンラインで開催
詳細・ご登録についてはこちら≫

——

AWSome Day Online Conference

「AWSome Day Online」は、AWSの主要サービスや基礎知識を約 3 時間という短い時間で、ポイントを押さえて紹介いたします。技術的な面だけではなく、AWS クラウドを学ぶために必要となる知識を身に付けたい方、エンジニアのみならず、営業職、プリセールス職、学生まで幅広い方々におすすめします。

※この回ではAWSエキスパートによる技術的な内容についてチャット形式でのQ&Aを実施します。
※AWS サービスの導入に関するご相談も同時にチャット形式にて対応します。
※2020年は毎月第一水曜日に開催します。

日時:2021 年 2 月 10 日(水) 15:00 – 18:00 終了予定 | 詳細・お申込みについてはこちら≫

——

AWS Black Belt Online Seminar

2021 年 2 月のアジェンダは以下になります。セミナー中は内容に関する疑問点を質問することができます。参加された方だけの特権ですので、ぜひこの機会にご視聴ください。

2 月分の詳細・お申込はこちら≫

  • 2/16 (火) 12:00-13:00 AWS Database Migration Service
  • 2/17 (水) 18:00-19:00 AWS Glue DataBrew