特徴 - Amazon Athena

サーバーレスで、インフラストラクチャや管理は不要

Amazon Athena はサーバーレスであるため、インフラストラクチャを管理する必要がありません。設定、ソフトウェアの更新、障害、またはデータセットやユーザー数の拡大によるインフラストラクチャのスケーリングについて心配する必要はありません。Athena では、これらはすべて自動で管理されるため、インフラストラクチャではなくデータに集中できます。

簡単に利用開始

利用を開始するには、Athena コンソールにログインして、コンソールウィザードを使用するか DDL ステートメントを入力してスキーマを定義します。その後、組み込みのクエリエディタを使用して、すぐにクエリを開始できます。また、AWS Glue を利用すると、自動的にデータソースをクロールしてデータを解析し、データカタログに新規および修正したテーブル定義とパーティション定義を入力できます。結果は数秒以内にコンソールに表示され、S3 内の選択した場所に自動的に書き込まれます。結果をデスクトップにダウンロードすることもできます。Athena を使用すると、分析用データを準備するための複雑な ETL ジョブは不要になります。これによって、誰でも SQL のスキルを使って、大型データセットをすばやく、シンプルに分析できるようになります。

標準 SQL を使用するだけで簡単にクエリを実行

Amazon Athena では、低レイテンシーでインタラクティブなデータ分析に最適化されたオープンソースの分散 SQL エンジンである Trino と Presto をベースとしています。つまり、大規模な結合、Window 関数、配列を完全にサポートしている ANSI SQL を使用して、Simple Storage Service (Amazon S3) 内の大規模なデータセットに対してクエリを実行できます。Athena では、CSV、JSON、ORC、Avro、Parquet といったさまざまなデータ形式がサポートされています。Athena のフェデレーテッドデータソースコネクタを使用すると、追加のデータストアにクエリを行い、そのデータを Simple Storage Service (Amazon S3) に保存されているデータと結合することができます。Athena にアクセスし、Athena の JDBC および ODBC ドライバを通じて、Athena コンソール、API、CLI、AWS SDK、およびサポートされたビジネスインテリジェンスと SQL 開発アプリケーションからクエリを実行することができます。

柔軟な料金体系

Amazon Athena には 2 つの柔軟な料金モデルがあります。デフォルトでは、クエリはクエリごとにスキャンされたデータ (テラバイト (TB)) に基づいて請求されます。これにより、コンピューティングを事前に計画せずにクエリを送信できます。クエリが消費するコンピューティング量に基づいて支払いを行う場合や、同時実行を制御してワークロードに優先順位を付けたい場合は、プロビジョンド型キャパシティで利用できる容量ベースの料金を使用してください。柔軟性を高めるため、クエリ単位の請求と容量ベースの料金を同じアカウントで同時に使用できます。

高速性能

Amazon Athena では、高速なパフォーマンスを得るために、クラスターの管理やチューニングについて心配する必要はありません。Athena は、Amazon S3 で高速なパフォーマンスが得られるように最適化されています。Athena ではクエリが自動的に並列で実行されるため、大規模なデータセットであってもクエリ結果が数秒で表示されます。

高い可用性と耐久性

Amazon Athena は可用性が高く、複数の施設間でコンピューティングリソースを使用してクエリを実行するため、特定の施設に到達できない場合は自動的に、クエリが適切にルーティングされます。Athena では Amazon S3 を基盤データストアとして使用しているため、データの高い可用性と耐久性が実現できます。Amazon S3 は重要なデータを保存するための耐久性のあるインフラストラクチャを提供し、オブジェクトの 99.999999999% の耐久性を実現するように設計されています。データは冗長化されて複数の施設に保存され、各施設で複数のデバイスに保存されます。

セキュア

Amazon Athena では、AWS Identity and Access Management (IAM) ポリシー、アクセスコントロールリスト (ACL)、および Amazon S3 バケットポリシーを使用して、データへのアクセスを制御できます。IAM ポリシーにより、お客様は S3 バケットに対する制御をきめ細かに IAM ユーザーに付与できます。S3 内のデータへのアクセスを制御することで、Athena を使用してクエリを実行するユーザーを制限できます。Athena を使用することにより、Amazon S3 に保存された暗号化データをクエリし、S3 バケットに暗号化の結果を書き込むことができます。サーバー側の暗号化とクライアント側の暗号化の両方がサポートされています。

統合

Amazon Athena は初期状態で AWS Glue と統合されています。Glue データカタログを使用すると、さまざまなサービスにわたってメタデータの統合リポジトリを作成し、データソースをクロールしてデータを検出できるようになり、新規および修正済みのテーブルやパーティションの定義をデータカタログに格納し、スキーマのバージョニングを維持できるようになります。また、Glue の完全マネージド型 ETL 機能を使用すると、データ変換や列指向の形式への変更を実行でき、クエリパフォーマンスを改善してコストを削減できます。詳細については、AWS Glue をご覧ください。

横串検索

Athena は、Amazon Redshift、Amazon DynamoDB、Google BigQuery、Google Cloud Storage、Azure Synapse、Azure データレイクストレージ、Redis、Snowflake、SAP Hana を始めとする 30 の一般的な AWS、オンプレミス、その他のクラウドデータストア向けの組み込みコネクタを提供します。Athena データソースコネクタを使用すると、データの移動や変換を行うことなく、Athena SQL 構文を使用して複数のデータソースからインサイトを生成できます。データコネクタは AWS Lambda 関数として実行され、SQL クエリを数百人のエンドユーザーにスケールできるクロスアカウントアクセスで有効にすることができます。サポートされるソースの一覧については、「使用可能なデータソースコネクタ」を参照してください。カスタムデータソースコネクタを構築する方法については、Athena Connector SDK を参照してください。

機械学習

Athena SQL クエリで SageMaker 機械学習モデルを呼び出し、推論を実行できるようになりました。SQL クエリで ML モデルを使用する機能により、異常検出、カスタマーコホート分析、売上予想などの複雑なタスクは、SQL クエリを記述するのと同じくらい簡単になります。Athena により、SQL の使用経験がある人なら誰でも、Amazon SageMaker にデプロイされた機械学習モデルをシンプルに実行できます。