Amazon Web Services ブログ

[AWS Black Belt Online Seminar] Amazon Athena 資料及び QA 公開

先日 (2020/06/17) 開催しました AWS Black Belt Online Seminar「Amazon Athena」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。

20200617 AWS Black Belt Online Seminar Amazon Athena

AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます)

Q. スキャンしたデータサイズに関して従量課金とありますが、S3 の料金とは別途発生するのでしょうか?
A. Amazon Athena の料金はクエリでスキャンされたデータ量に基づき、5 USD/TB で課金されます。その他に、クエリ結果を保存するストレージ料金、S3 API リクエスト、データ転送に対する Amazon S3 利用料、AWS Glue データカタログの利用料が発生いたします。

Q. ファイルが分割可能というのはどのような状態をさすのでしょうか。いくつかのファイルが置いてある状態ではないのでしょうか?
A. 1つのファイルを分割することができるかどうか、をさします。Amazon Athena は単一ファイルのサイズが閾値を超えた場合に、対象のファイルを分散処理できるように複数のチャンクに分割します。その際、ファイルの圧縮形式・ファイルフォーマットによっては分割できない場合があり、この場合は分散処理できず期待したパフォーマンスが得られなくなります。主なファイルフォーマット・圧縮フォーマットの分割可否は以下の通りです:

  • gzip 圧縮ファイルは分割することができません。
  • bzip2 圧縮されたファイルは bzip2 がファイルを分割可能な単位で圧縮するアルゴリズムのため、分割することができます。
  • Snappy で圧縮されたデータそれ自体は分割することができませんが、Parquet ファイル形式が分割可能なブロックごとに Snappy 圧縮を実施しているため、分割可能となります。

Q. LazySimpleSerDe では TBLPROPERTIES (‘serialization.encoding’=’SJIS’) で SJIS ファイルも扱えるようでしたが、OpenCSVSerDe では文字化けしてしまいました。DDL 文実行時には特にエラーも出なかったのですが、対応していないのでしょうか。各 SerDe で対応している TBLPROPERTIES についてのドキュメントなどはありますでしょうか。
A. OpenCSVSerDe を利用することは可能となっております。Amazon Athena がサポートする SerDe については下記 URL (1.) をご確認ください。データの解釈は SerDe の実装に依存いたします。”serialization.encoding” はLazySimpleSerDe で利用可能なプロパティとなります。OpenCSVSerDe に関するプロパティについては
下記 URL (2.) をご確認ください。

  1. SerDe リファレンス
  2. OpenCSVSerde に関する URL

Q. Partition Projection 機能を使わない理由がない気がしましたが、使わないほうが良い場合はありますか?
A. Partition Projection は Amazon Athena が独自にパーティション情報を管理する機能のため、Amazon Redshift や Amazon EMR など、他サービスから利用することができません。AWS Glue データカタログをベースに S3 のデータを複数のサービスで分析するようなユースケースでは通常のパーティションメンテナンスを並行して実施する必要がございます。また、Partition Projection を利用すると、パーティションごとのスキーマを持つことができないため、スキーマが変化するようなユースケースでは変化に合わせて手動でテーブル定義アップデートする必要があり、利用に適しません。

Q. Redshiftとのユースケースの違いはなんでしょうか?
A. Amazon Redshift のようなデータウェアハウスは、在庫システム、金融システム、および小売販売システムなどのさまざまなソースからデータを一般的な形式で取得し、長期間保存して、履歴データから洗練されたビジネスレポートを構築する必要がある場合に適しています。こうした場合には、Amazon Redshift のようなデータウェアハウスは最適です。
これに対して、Amazon Athena のようなクエリサービスを使用すると、データの形式化やインフラストラクチャの管理について心配することなく、Amazon S3 のデータに対して直接インタラクティブにクエリを実行できます。アドホックな分析を迅速に開始することができますので、例えば、運用しているサイトの負荷状況を確認するために、ウェブサーバのログを素早く分析することが可能です。

Q. VPCエンドポイントを使用する際にはAtenaとVPCが同じリージョンにある必要がありますか?
A. VPC エンドポイントを設定する VPC は利用したい Amazon Athena と同じリージョンにある必要がございます。

今後の AWS Webinar | イベントスケジュール

直近で以下を予定しています。各詳細およびお申し込み先は下記URLからご確認いただけます。皆様のご参加をお待ちしております。

AWSome Day Online Conference

「AWSome Day Online」は、AWSの主要サービスや基礎知識を約 2.5 時間という短い時間で、ポイントを押さえて紹介いたします。技術的な面だけではなく、AWS クラウドを学ぶために必要となる知識を身に付けたい方、エンジニアのみならず、営業職、プリセールス職、学生まで幅広い方々におすすめします。

※2020年は毎月第一水曜日に開催します。

日時:2020 年 8 月 5 日(水) 15:00 – 17:40 終了予定 | 詳細・お申込みについてはこちら≫

Amazon WorkSpacesとChromebookで実現する Windowsデスクトップ仮想化
本セミナーでは、クラウド型デスクトップのAmazon WorkSpacesとChromebookデバイスの相性の良さ、またMS OfficeからG Suiteへの移行方法について解説します。

日時:2020 年 7 月 9 日(木)14:00 – 16:00 | 詳細・お申込みについてはこちら≫

AWS Black Belt Online Seminar

7 月の予定が新規公開されました。配信当日は Q&A ができます。参加された方だけの特権です。6 月のアジェンダとともにぜひご登録・ご視聴ください。

7 月分の詳細・お申込はこちら≫

  • 7/7(火)12:00-13:00 Amazon EC2 Deep Dive: AWS Graviton2 Arm CPU搭載インスタンス
  • 7/14(火)12:00-13:00 Amazon Neptune
  • 7/15(水)18:00-19:00 Amazon Detective
  • 7/21(火)12:00-13:00 AWS App Mesh
  • 7/22(水)18:00-19:00 AWSアカウント シングルサインオンの設計と運用
  • 7/28(火)12:00-13:00 What’s New in Serverless
  • 7/29(水)18:00-19:00 Amazon Redshift Advanced Guide −最新ベストプラクティスとアップデート