Amazon Athena の特徴

Athena を選ぶ理由は?

Amazon Athena は、標準 SQL を使用して Simple Storage Service (Amazon S3) 内のデータを直接、シンプルに分析できるようにするインタラクティブなクエリサービスです。Athena はサーバーレスなので、インフラストラクチャをセットアップしたり管理したりする必要がなく、実行するクエリやクエリに必要なコンピューティングに基づいて料金を支払うことができます。Athena を使用して、ログを処理し、データ分析やインタラクティブなクエリを実行します。Athena は自動的にスケールされ、並列して複数のクエリが実行されるため、データセットの容量が大きく、クエリが複雑でも、短時間で結果が表示されます。  

Page Topics

主な利点

主な利点

Amazon Athena はサーバーレスであるため、インフラストラクチャを管理する必要がありません。設定、ソフトウェアの更新、障害、またはデータセットやユーザー数の拡大によるインフラストラクチャのスケーリングについて心配する必要はありません。Athena では、これらはすべて自動で管理されるため、インフラストラクチャではなくデータに集中できます。

利用を開始するには、Athena コンソールにログインして、コンソールウィザードを使用するか DDL ステートメントを入力してスキーマを定義します。その後、組み込みのクエリエディタを使用して、すぐにクエリを開始できます。また、AWS Glue を利用すると、自動的にデータソースをクロールしてデータを解析し、データカタログに新規および修正したテーブル定義とパーティション定義を入力できます。結果は数秒以内にコンソールに表示され、S3 内の選択した場所に自動的に書き込まれます。結果をデスクトップにダウンロードすることもできます。Athena を使用すると、分析用データを準備するための複雑な ETL ジョブは不要になります。これによって、誰でも SQL のスキルを使って、大型データセットをすばやく、シンプルに分析できるようになります。

Amazon Athena では、低レイテンシーでインタラクティブなデータ分析に最適化されたオープンソースの分散 SQL エンジンである Trino と Presto をベースとしています。つまり、大規模な結合、Window 関数、配列を完全にサポートしている ANSI SQL を使用して、Simple Storage Service (Amazon S3) 内の大規模なデータセットに対してクエリを実行できます。Athena では、CSV、JSON、ORC、Avro、Parquet といったさまざまなデータ形式がサポートされています。Athena のフェデレーテッドデータソースコネクタを使用すると、追加のデータストアにクエリを行い、そのデータを Simple Storage Service (Amazon S3) に保存されているデータと結合することができます。Athena にアクセスし、Athena の JDBC および ODBC ドライバを通じて、Athena コンソール、API、CLI、AWS SDK、およびサポートされたビジネスインテリジェンスと SQL 開発アプリケーションからクエリを実行することができます。

Amazon Athena には 2 つの柔軟な料金モデルがあります。デフォルトでは、クエリはクエリごとにスキャンされたデータ (テラバイト (TB)) に基づいて請求されます。これにより、コンピューティングを事前に計画せずにクエリを送信できます。クエリが消費するコンピューティング量に基づいて支払いを行う場合や、同時実行を制御してワークロードに優先順位を付けたい場合は、プロビジョンド型キャパシティで利用できる容量ベースの料金を使用してください。柔軟性を高めるため、クエリ単位の請求と容量ベースの料金を同じアカウントで同時に使用できます。

Amazon Athena では、高速なパフォーマンスを得るために、クラスターの管理やチューニングについて心配する必要はありません。Athena は、Amazon S3 で高速なパフォーマンスが得られるように最適化されています。Athena ではクエリが自動的に並列で実行されるため、大規模なデータセットであってもクエリ結果が数秒で表示されます。 

Amazon Athena は可用性が高く、複数の施設間でコンピューティングリソースを使用してクエリを実行するため、特定の施設に到達できない場合は自動的に、クエリが適切にルーティングされます。Athena では Amazon S3 を基盤データストアとして使用しているため、データの高い可用性と耐久性が実現できます。Amazon S3 は重要なデータを保存するための耐久性のあるインフラストラクチャを提供し、オブジェクトの 99.999999999% の耐久性を実現するように設計されています。データは冗長化されて複数の施設に保存され、各施設で複数のデバイスに保存されます。

Amazon Athena では、AWS Identity and Access Management (IAM) ポリシー、アクセスコントロールリスト (ACL)、および Amazon S3 バケットポリシーを使用して、データへのアクセスを制御できます。IAM ポリシーにより、お客様は S3 バケットに対する制御をきめ細かに IAM ユーザーに付与できます。S3 内のデータへのアクセスを制御することで、Athena を使用してクエリを実行するユーザーを制限できます。Athena を使用することにより、Amazon S3 に保存された暗号化データをクエリし、S3 バケットに暗号化の結果を書き込むことができます。サーバー側の暗号化とクライアント側の暗号化の両方がサポートされています。

Amazon Athena は初期状態で AWS Glue と統合されています。Glue データカタログを使用すると、さまざまなサービスにわたってメタデータの統合リポジトリを作成し、データソースをクロールしてデータを検出できるようになり、新規および修正済みのテーブルやパーティションの定義をデータカタログに格納し、スキーマのバージョニングを維持できるようになります。また、Glue の完全マネージド型 ETL 機能を使用すると、データ変換や列指向の形式への変更を実行でき、クエリパフォーマンスを改善してコストを削減できます。AWS Glue の詳細はこちら。

Athena は、Amazon Redshift、Amazon DynamoDB、Google BigQuery、Google Cloud Storage、Azure Synapse、Azure データレイクストレージ、Redis、Snowflake、SAP Hana を始めとする 30 の一般的な AWS、オンプレミス、その他のクラウドデータストア向けの組み込みコネクタを提供します。Athena データソースコネクタを使用すると、データの移動や変換を行うことなく、Athena SQL 構文を使用して複数のデータソースからインサイトを生成できます。データコネクタは AWS Lambda 関数として実行され、SQL クエリを数百人のエンドユーザーにスケールできるクロスアカウントアクセスで有効にすることができます。サポートされるソースの一覧については、「使用可能なデータソースコネクタ」を参照してください。カスタムデータソースコネクタを構築する方法については、Athena Connector SDK を参照してください。

Athena SQL クエリで SageMaker 機械学習モデルを呼び出し、推論を実行できるようになりました。SQL クエリで ML モデルを使用する機能により、異常検出、カスタマーコホート分析、売上予想などの複雑なタスクは、SQL クエリを記述するのと同じくらい簡単になります。Athena により、SQL の使用経験がある人なら誰でも、Amazon SageMaker にデプロイされた機械学習モデルをシンプルに実行できます。