Q: Amazon Athena란 무엇인가요?

Amazon Athena는 표준 SQL을 사용해 Amazon S3에 저장된 데이터를 간편하게 분석할 수 있는 대화식 쿼리 서비스입니다. Athena는 서버리스 서비스이므로 설정하거나 관리할 인프라가 없으며 데이터 분석을 즉시 시작할 수 있습니다. Athena로 데이터를 로드할 필요 없이 S3에 저장된 데이터를 직접 사용하면 됩니다. 시작하려면 Athena Management Console에 로그인하여 스키마를 정의한 후 쿼리를 시작하십시오. Amazon Athena는 표준 SQL을 완벽 지원하는 Presto를 사용하며, CSV, JSON, ORC, Apache Parquet, Avro 등 다양한 표준 데이터 형식과 호환됩니다. Amazon Athena는 무엇보다도 신속한 임의 쿼리 작업에 적합하며, Amazon QuickSight와 통합하여 손쉽게 시각화할 수 있을 뿐만 아니라 라지 조인, 창 함수 및 어레이를 포함해 복잡한 분석을 처리할 수도 있습니다.

Q: Amazon Athena로 무엇을 할 수 있나요?

Amazon Athena는 Amazon S3에 저장된 데이터를 분석하는 데 도움이 됩니다. Athena를 사용하면 데이터를 집계하거나 Athena로 로드할 필요 없이 ANSI SQL을 사용한 임의 쿼리를 실행할 수 있습니다. Amazon Athena는 비정형, 반정형 및 정형 데이터 세트를 처리할 수 있습니다. 예를 들면 CSV, JSON, Avro 또는 컬럼 방식 데이터 형식(예: Apache Parquet 및 Apache ORC)이 해당됩니다. Amazon Athena는 Amazon QuickSight와 통합되어 쉽게 시각화할 수 있습니다. 또한 Amazon Athena를 사용하면 보고서를 생성하거나 JDBC 드라이버를 통해 연결된 비즈니스 인텔리전스 도구 또는 SQL 클라이언트로 데이터를 탐색할 수도 있습니다.

Q: Amazon Athena를 사용하려면 어떻게 시작해야 하나요?

Amazon Athena를 시작하려면 Athena용 AWS Management Console에 로그인한 후 콘솔에 DDL 문을 작성하거나 테이블 만들기 마법사를 사용하여 스키마를 작성하십시오. 그러면 기본 제공된 쿼리 편집기를 사용하여 데이터 쿼리를 시작할 수 있습니다. Athena는 Amazon S3에서 직접 데이터를 쿼리하기 때문에 로드할 필요가 없습니다.  

Q: Amazon Athena에 어떻게 액세스하면 되나요?

Amazon Athena는 AWS Management Console, API 또는 JDBC 드라이버를 통해 액세스할 수 있습니다. JDBC 드라이버를 사용하면 프로그래밍 방식으로 쿼리를 실행하고 테이블 또는 파티션을 추가할 수 있습니다.  

Q: Amazon Athena와 관련된 서비스 한도로는 무엇이 있나요?

서비스 한도에 대해 자세히 알아보려면 여기를 클릭하십시오.

Q: Amazon Athena의 기본 기술은 무엇인가요?

Amazon Athena는 표준 SQL을 완벽 지원하는 Presto를 사용하며, CSV, JSON, ORC, Avro, Parquet 등 다양한 표준 데이터 형식과 호환됩니다. Athena는 라지 조인, 창 함수 및 어레이를 포함해 복잡한 분석을 처리할 수 있습니다. Amazon Athena는 Amazon S3를 기본 데이터 스토어로 사용하기 때문에 가용성과 내구성이 뛰어나며 여러 시설 및 각 시설 내 여러 디바이스에 걸쳐 데이터가 중복 저장됩니다.

Q: Amazon Athena는 테이블 정의와 스키마를 어떻게 저장하나요?

Amazon Athena는 Amazon S3에 저장된 데이터에 대해 사용자가 생성한 데이터베이스 및 테이블에 관한 정보와 스키마를 저장하기 위해 관리형 데이터 카탈로그를 사용합니다. AWS Glue가 제공되는 리전에서는 Amazon Athena에서 AWS Glue 데이터 카탈로그를 사용하도록 업그레이드할 수 있습니다. AWS Glue가 제공되지 않는 리전에서는 Athena가 내부 카탈로그를 사용합니다.

DDL 문을 사용하거나 AWS Management Console을 통해 카탈로그를 수정할 수 있습니다. 사용자가 정의하는 모든 스키마는 명시적으로 삭제하지 않는 한, 자동으로 저장됩니다. Athena는 스키마-온-리드(schema-on-read) 기술을 사용합니다. 즉, 쿼리가 실행될 때 사용자의 테이블 정의가 S3의 데이터에 적용됩니다. 데이터 로드 또는 변환을 할 필요가 없습니다. Amazon S3에 저장된 기본 데이터에 영향을 주지 않고도 테이블 정의 및 스키마를 삭제할 수 있습니다.

Q: AWS Glue 데이터 카탈로그를 사용하도록 업그레이드해야 하는 이유는 무엇입니까?

AWS Glue는 완전관리형 ETL 서비스입니다. Glue는 3가지 주요 요소가 구성됩니다. 바로 1) 자동으로 데이터 원본을 스캔하고, 데이터 형식을 파악하고 스키마를 추론하는 크롤러, 2) 데이터를 변환하고 다양한 대상으로 이동할 수 있는 완전관리형 ETL 서비스, 그리고 3) S3 또는 JDBC 호환 데이터 스토어에 저장된 데이터베이스 및 테이블에 관한 메타데이터 정보를 저장하는 데이터 카탈로그입니다. Glue를 충분히 활용하기 위해서는 Athena가 내부 데이터 카탈로그에서 Glue 데이터 카탈로그를 사용하도록 업그레이드해야 합니다.

Glue 데이터 카탈로그로 업그레이드할 때의 이점은 다음과 같습니다.

  1. 통합된 메타데이터 리포지토리: AWS Glue는 다양한 AWS 서비스와 통합됩니다. AWS Glue는 Amazon Aurora, Amazon RDS MySQL, Amazon RDS PostreSQL, Amazon Redshift 및 Amazon S3에 저장된 데이터와 Amazon EC2에서 실행되는 Amazon VPC(Virtual Private Cloud)의 MySQL 및 PostgreSQL 데이터베이스에 저장된 데이터를 지원합니다. AWS Glue는 Amazon Athena, Amazon EMR 및 Amazon Redshift Spectrum 및 모든 Apache Hive Metastore 호환 애플리케이션과 즉시 통합됩니다.
  2. 자동 스키마 및 파티션 인식: AWS Glue는 자동으로 데이터 원본을 크롤링하고, 데이터 형식을 파악하며, 스키마와 변환을 제안합니다. 크롤러는 테이블 생성과 파티션 로딩을 자동화하는 데 도움이 됩니다.
  3. 간편하게 파이프라인 구축: AWS Glue의 ETL 엔진은 사용자 지정 가능하고 재사용 가능하며 이동 가능한 Python 코드를 생성합니다. 선호하는 IDE 또는 노트북을 사용하여 코드를 편집하고 GitHub를 통해 이를 다른 사용자와 공유할 수 있습니다. ETL 작업이 준비되면, AWS Glue의 완전관리형 스케일 아웃 Spark 인프라에서 실행하도록 예약할 수 있습니다. AWS Glue는 서버리스이므로, ETL 작업을 실행하는 데 필요한 리소스의 프로비저닝, 구성 및 확장/축소를 처리합니다. 따라서 ETL을 워크플로에 긴밀하게 통합할 수 있습니다.

여기를 클릭하여 Glue 데이터 카탈로그에 대해 자세히 알아보십시오.

Q: AWS 데이터 카탈로그로 업그레이드할 수 있는 단계별 안내서가 있습니까?

예. 여기에서 단계별 안내서를 확인할 수 있습니다.

Q: Amazon Athena는 어떤 리전에서 사용할 수 있나요?

리전별 Amazon Athena 서비스 가용성에 대한 자세한 내용은 리전별 제품 및 서비스를 참조하십시오.

Q: Amazon Athena, Amazon EMR 및 Amazon Redshift의 차이점은 무엇인가요?

Amazon Athena 같은 쿼리 서비스, Amazon Redshift 같은 데이터웨어 하우스 및 Amazon EMR 같은 정교한 데이터 처리 프레임워크는 모두 서로 다른 요구와 사용 사례를 처리합니다. 작업에 적합한 도구를 선택하기만 하면 됩니다. Amazon Redshift는 엔터프라이즈 보고 및 비즈니스 인텔리전스 워크로드, 그 중에서도 특히 여러 조인 및 하위 쿼리가 포함된 매우 복잡한 SQL과 관련된 워크로드에 대해 가장 빠른 쿼리 성능을 제공합니다. Amazon EMR을 사용하면 하둡, Spark, Presto 등 고도로 분산된 처리 프레임워크를 온프레미스 배포 환경보다 더 간단하면서도 비용 효율적으로 실행할 수 있습니다. Amazon EMR은 유연합니다. 사용자 지정 애플리케이션 및 코드를 실행하고 특정 컴퓨팅, 메모리, 스토리지 및 애플리케이션 파라미터를 정의하여 분석 요구 사항을 최적화할 수 있습니다. Amazon Athena는 서버를 설정하거나 관리할 필요 없이 S3의 데이터에 대한 임의 쿼리를 가장 쉽게 실행할 수 있는 방법을 제공합니다.

Q: Amazon Redshift처럼 완벽한 기능을 제공하는 엔터프라이즈 데이터 웨어하우스와 Amazon Athena 같은 쿼리 서비스는 각각 언제 사용해야 하나요?

Amazon Redshift 같은 데이터 웨어하우스는 인벤토리 시스템, 금융 시스템, 소매 판매 시스템 등 다양한 소스의 데이터를 하나의 공통 형식으로 취합하여 장기간 보관하고 과거 데이터에서 정교한 비즈니스 보고서를 작성할 필요가 있을 때 사용하는 것이 가장 좋으며 그 다음으로는 Amazon Redshift 같은 데이터 웨어하우스를 사용하는 것이 좋습니다.

데이터 웨어하우스는 회사 내 전체 조직에서 데이터를 수집하고 보고서 생성 및 분석을 위한 "단일 출처"의 역할을 담당합니다. 데이터 웨어하우스는 여러 소스의 데이터를 가져와서 형식을 지정하고 구성 및 저장하며, 비즈니스 보고서를 생성하는 복잡한 고속 쿼리를 지원합니다. Amazon Redshift의 쿼리 엔진은 특히 이러한 사용 사례(많은 수의 대규모 데이터베이스 테이블을 조인하는 복잡한 쿼리를 실행해야 할 경우)에서 원활하게 작동하도록 최적화되었습니다. TPC-DS는 이러한 사용 사례를 복제하도록 설계된 표준 벤치마크이며 Redshift는 이러한 쿼리를 비정형 데이터에 최적화된 쿼리 서비스보다 최대 20배 더 빠르게 실행합니다. 매우 방대한 양의 테이블에서 수많은 조인을 사용하여 고도의 정형 데이터에 대한 쿼리를 실행해야 할 경우 Amazon Redshift를 선택하시기 바랍니다.

이에 비해 Amazon Athena 같은 쿼리 서비스를 사용하면 데이터 형식 지정 또는 인프라 관리에 대해 고민할 필요 없이 Amazon S3에서 데이터에 대한 대화형 쿼리를 직접 쉽게 실행할 수 있습니다. 예를 들면, Athena는 사이트에서 성능 문제를 해결하기 위해 일부 웹 로그에서 빠른 쿼리를 실행하기만 하면 될 경우에 안성맞춤입니다. 쿼리 서비스를 사용하면 신속하게 시작할 수 있습니다. 데이터에 대한 테이블을 정의하고 표준 SQL을 사용하여 쿼리를 시작하면 됩니다.

두 서비스를 함께 사용할 수도 있습니다. Amazon S3에서 데이터를 준비한 후 Amazon Redshift에 로드하면 해당 데이터를 Amazon Athena에 등록하여 쿼리할 수도 있습니다.

Q: Amazon EMR과 Amazon Athena를 사용해야 할 시기를 비교하면 어떤 차이가 있나요?

Amazon EMR은 SQL 쿼리를 실행하는 것 이상의 작업을 수행합니다. EMR을 사용하면 기계 학습, 그래프 분석, 데이터 변환, 스트리밍 데이터 및 코딩할 수 있는 거의 모든 작업 등 여러 가지 애플리케이션에서 다양한 확장 데이터 처리 작업들을 실행할 수 있습니다. 사용자 지정 코드를 사용하여 매우 방대한 양의 데이터 세트를 Spark, 하둡, Presto 또는 Hbase 같은 최신 빅 데이터 처리 프레임 워크로 처리 및 분석할 경우 Amazon EMR을 사용해야 합니다. Amazon EMR을 사용하면 클러스터 구성 및 클러스터에 설치된 소프트웨어를 완벽하게 제어할 수 있습니다.

인프라 또는 클러스터를 관리할 필요 없이 Amazon S3에서 데이터에 대해 대화형 임의 SQL 쿼리를 실행하려면 Amazon Athena를 사용해야 합니다.

Q: Amazon EMR을 사용하여 처리되는 데이터는 Amazon Athena를 사용하여 쿼리할 수 있나요?

예. Amazon Athena는 Amazon EMR과 동일한 데이터 형식들 중 상당 부분을 지원합니다. Athena의 데이터 카탈로그는 Hive 메타스토어와 호환됩니다. 현재 EMR을 사용하고 있으며 Hive 메타스토어가 이미 있을 경우 Amazon Athena에서 DDL 문을 실행하기만 하면 되며 그런 다음, Amazon EMR 작업에 영향을 주지 않고 데이터 쿼리를 즉시 시작할 수 있습니다.

Q: Amazon S3에서 내 데이터에 대한 테이블과 스키마는 어떻게 만들면 되나요?

Amazon Athena는 Apache Hive DDL을 사용하여 테이블을 정의합니다. Athena 콘솔, JDBC 드라이버, API 또는 Athena 테이블 만들기 마법사를 사용하면 DDL 문을 실행할 수 있습니다. Athena와 함께 AWS Glue 데이터 카탈로그를 사용하는 경우, Glue 크롤러를 사용하여 스키마와 파티션을 자동으로 추론할 수도 있습니다. AWS Glue 크롤러는 데이터 스토어에 연결하고, 우선순위가 지정된 분류자 목록을 거치면서 데이터 스키마 및 기타 통계를 추출한 후, 이러한 메타데이터로 Glue 데이터 카탈로그를 채웁니다. 크롤러는 주기적으로 실행되어 새로운 데이터의 가용성과 기존 데이터에 대한 변경 사항(데이터 정의 변경 등)을 감지할 수 있습니다. 크롤러는 새로운 테이블, 기존 테이블에 새로운 파티션, 새로운 테이블 정의 버전을 자동으로 추가합니다. 자체 파일 유형을 분류하도록 Glue 크롤러를 사용자 지정할 수 있습니다.

Amazon Athena에 새 테이블 스키마를 생성하면 이 스키마는 데이터 카탈로그에 저장되며 쿼리를 실행할 때 사용되지만 S3에 있는 사용자의 데이터를 수정하지는 않습니다. Athena는 스키마-온-리드(schema-on-read)라는 접근 방식을 사용하는데, 이 방식을 적용하면 하나의 쿼리를 실행할 때 스키마를 사용자의 데이터에 투영할 수 있습니다. 따라서 데이터를 로드하거나 변환할 필요가 없습니다. 테이블 만들기에 대해 자세히 알아보십시오.

Q: Amazon Athena가 지원하는 데이터 형식으로는 무엇이 있나요?

Amazon Athena는 CSV, TSV, JSON 또는 Textfiles 등 매우 다양한 데이터 형식들을 지원하며 Apache ORC 및 Apache Parquet 같은 오픈 소스 컬럼 형식도 지원합니다. Athena는 Snappy, Zlib, LZO 및 GZIP 형식으로 압축된 데이터도 지원합니다. 컬럼 형식을 압축하고 파티셔닝하거나 사용하면 성능을 향상시키면서 비용을 절감할 수 있습니다.

Q: Amazon Athena가 지원하는 데이터 유형으로는 어떤 종류가 있나요?

Amazon Athena는 INTEGER, DOUBLE, VARCHAR 등의 단순 데이터 유형과 MAPS, ARRAY, STRUCT 등의 복합 데이터 유형을 모두 지원합니다.  

Q: Athena에서 Hive 쿼리를 실행해도 되나요?

Amazon Athena는 DDL(Data Definition Language)과 테이블 및/또는 파티션을 작성/수정 및 삭제할 경우에만 Hive를 사용합니다. 지원되는 전체 명세서 목록을 보려면 여기를 클릭하십시오. Athena는 Amazon S3에서 SQL 쿼리를 실행할 때 Presto를 사용합니다. ANSI 호환 SQL SELECT 문을 실행하면 Amazon S3에서 데이터를 쿼리할 수 있습니다.

Q: SerDe는 무엇인가요?

SerDe는 데이터 형식을 해석하는 방법을 Hive에 알려주는 라이브러리인 Serializer/Deserializer를 나타냅니다. Hive DLL 문은 SerDe를 지정해야 하기 때문에 시스템은 사용자가 가리키고 있는 데이터를 해석하는 방법을 알고 있습니다. Amazon Athena는 SerDe를 사용하여 Amazon S3에서 읽은 데이터를 해석합니다. Athena에서 SerDe의 개념은 Hive에서 사용된 개념과 동일합니다. Amazon Athena에서 지원하는 SerDe를 열거하면 다음과 같습니다.

  1. Apache 웹 로그: "org.apache.hadoop.hive.serde2.RegexSerDe"
  2. CSV: "org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe"
  3. TSV: "org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe"
  4. 사용자 지정 구분 기호: "org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe"
  5. Parquet: "org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe"
  6. Orc: "org.apache.hadoop.hive.ql.io.orc.OrcSerde"
  7. JSON: “org.apache.hive.hcatalog.data.JsonSerDe” 또는 org.openx.data.jsonserde.JsonSerDe

Q: Amazon Athena에 나만의 SerDe(Serializer/Deserializer)를 추가해도 되나요?

현재로서는 사용자 본인의 SerDe를 Amazon Athena에 추가할 수 없습니다. 소중한 의견 감사드리며 추가된 SerDe를 확인하고 싶다면 저희 Athena 팀(Athena-feedback@amazon.com)에 문의하시기 바랍니다.

Q: Spark/Hive를 사용하여 Parquet/ORC 파일을 만들었습니다. Athena를 통해 이러한 파일을 쿼리할 수 있나요?

예. Spark를 통해 만든 Parquet 및 ORC 파일은 Athena에서 읽을 수 있습니다.

Q: Kinesis Firehose에서 받은 데이터가 있습니다. Athena를 사용하여 이 데이터를 쿼리하려면 어떻게 해야 하나요?

Kinesis Firehose 데이터가 Amazon S3에 저장된 경우 Amazon Athena를 사용하면 데이터를 쿼리할 수 있습니다. Athena에서 데이터에 대한 스키마를 만든 다음, 쿼리를 시작하기만 하면 됩니다. 성능을 최적화하려면 데이터를 파티션으로 구성하는 것이 좋습니다. ALTER TABLE DDL 문을 사용하면 Kinesis Firehose에서 만든 파티션을 추가할 수 있습니다. 파티션에 대해 자세히 알아보십시오.

Q: Amazon Athena는 데이터 파티셔닝을 지원하나요?

예. Amazon Athena를 사용하면 데이터를 모든 열에 파티셔닝할 수 있습니다. 파티션을 사용하면 각 쿼리에서 스캔하는 데이터의 양을 제한하여 비용을 절감하고 작업 시간을 단축할 수 있습니다. CREATE TABLE 문의 PARTITIONED BY 절을 사용하면 파티셔닝 체계를 지정할 수 있습니다. 데이터 파티셔닝에 대해 자세히 알아보십시오.

Q: Amazon Athena의 기존 테이블에 새 데이터를 추가하려면 어떻게 해야 하나요?

데이터가 파티셔닝될 경우 Amazon S3에서 새 데이터를 사용할 수 있을 때 파티션을 Athena에 추가하려면 메타데이터 쿼리(ALTER TABLE ADD PARTITION)를 실행해야 합니다. 데이터가 파티셔닝되지 않은 경우 기존 접두사에 새 데이터(또는 파일)를 추가하면 이 데이터가 Athena에 자동으로 추가됩니다. 데이터 파티셔닝에 대해 자세히 알아보십시오.

Q: Amazon S3에 이미 대량의 로그 데이터가 있습니다. 이 데이터를 쿼리하기 위해 Amazon Athena를 사용해도 되나요?

예. Amazon Athena를 사용하면 기존의 로그 데이터에서 표준 SQL 쿼리를 쉽게 실행할 수 있습니다. Athena는 Amazon S3에서 직접 데이터를 쿼리하기 때문에 데이터를 이동하거나 로드할 필요가 없습니다. DDL 문을 사용하여 스키마를 정의하고 데이터 쿼리를 즉시 시작하면 됩니다.

Q: Amazon Athena가 지원하는 쿼리는 어떤 종류가 있나요?

Amazon Athena는 ANSI SQL 쿼리를 지원합니다. Amazon Athena는 오픈 소스 인 메모리 분산 SQL 엔진인 Presto를 사용하며 라지 조인, 창 함수 및 어레이를 포함해 복잡한 분석을 처리할 수 있습니다.

Q: Amazon Athena에서 Amazon QuickSight를 사용해도 되나요?

예. Amazon Athena는 Amazon QuickSight와 통합되기 때문에 Amazon S3에 저장된 데이터를 쉽게 시각화할 수 있습니다.

Q: Athena는 그 외 BI 도구 및 SQL 클라이언트를 지원하나요?

예. Amazon Athena의 경우 여타 비즈니스 인텔리전스 도구 및 SQL 클라이언트와 함께 사용할 수 있는 JDBC 드라이버가 함께 제공됩니다. Athena에서 JDBC 드라이버 사용에 대해 자세히 알아보십시오.

Q: Athena는 사용자 정의 함수(UDF)를 지원하나요?

Athena는 현재 사용자 지정 UDF를 지원하지 않습니다. 사용자 지정 UDF 지원이 필요한 경우, 이메일 athena-feedback@amazon.com로 요구 사항에 대해 자세히 알려 주십시오.

Q: Amazon Athena에서 지원하는 함수는 어떻게 액세스하나요?

Amazon Athena에서 지원하는 함수에 대해 자세히 알아보려면 여기를 클릭하십시오.

Q: 내 쿼리의 성능을 향상시키려면 어떻게 해야 하나요?

데이터를 압축 및 파티셔닝하거나 컬럼 형식으로 변환하면 쿼리 성능을 향상시킬 수 있습니다. Amazon Athena는 Apache Parquet 및 Apache ORC와 같은 오픈 소스 컬럼 데이터 형식을 지원합니다. 데이터를 압축된 컬럼 형식으로 변환하면 Athena가 쿼리를 실행할 때 S3에서 비교적 작은 데이터를 스캔할 수 있기 때문에 비용이 절감되며 쿼리 성능은 향상됩니다.

Q: 내 데이터에 대한 액세스를 어떻게 제어합니까?

Amazon Athena를 사용하면 AWS Identity and Access Management(IAM) 정책, 액세스 통제 목록(ACL) 및 Amazon S3 버킷 정책을 사용하여 데이터에 대한 액세스를 제어할 수 있습니다. IAM 정책을 사용해 IAM 사용자에게 S3 버킷에 대한 세분화된 제어 권한을 부여할 수 있습니다. S3에서 데이터에 대한 액세스를 제어하면 사용자들이 Athena를 사용하여 데이터를 쿼리하지 못하도록 제한할 수 있습니다.

Athena가 Amazon S3에 있는 암호화된 데이터를 쿼리할 수 있습니까?

예, Amazon S3 관리형 암호화 키를 사용한 서버 측 암호화, AWS 키 관리 서비스(KMS)를 사용한 서버 측 암호화, KMS로 관리되는 키를 사용한 클라이언트 측 암호화를 사용하여 암호화된 데이터를 쿼리할 수 있습니다. Amazon Athena는 또한 KMS와 함께 통합되어 결과 집합을 암호화하는 옵션도 제공합니다.

Q: Athena는 가용성이 높은가요?

예. Amazon Athena는 가용성이 뛰어난 데다 여러 시설에서 컴퓨팅 리소스를 사용하여 쿼리를 실행하며, 특정 시설에 도달할 수 없는 경우에는 쿼리를 자동으로 라우팅합니다. Athena는 Amazon S3를 기본 데이터 스토어로 사용하여 데이터 가용성과 내구성을 높입니다. Amazon S3는 중요한 데이터를 저장할 수 있고 99.999999999%의 객체 내구성을 보장하도록 설계된 내구성이 뛰어난 인프라를 제공합니다. 데이터가 여러 시설과 각 시설의 여러 디바이스에 중복 저장됩니다.

Q: 다른 사용자의 S3 버킷에 대한 교차 계정 액세스를 제공해도 되나요?

예. Amazon S3에 대한 교차 계정 액세스를 제공할 수 있습니다.

Q: Amazon Athena의 요금은 어떻게 부과되나요?

Amazon Athena는 쿼리당 요금이 부과되며 쿼리로 스캔한 데이터의 양을 기준으로 요금이 청구됩니다. Amazon S3에서 데이터를 다양한 형식으로 저장할 수 있습니다. 데이터를 압축 및 파티셔닝하거나 컬럼 저장 형식으로 변환하면 스캔되는 데이터의 양이 줄어들어 비용이 절감됩니다. 데이터를 컬럼 형식으로 변환하면 Athena는 쿼리를 처리하는 데 필요한 열만 읽을 수 있습니다. 자세한 내용은 Athena 요금 페이지를 참조하십시오.

Q: 컬럼 형식을 사용할 때 요금이 적게 부과되는 이유는 무엇인가요?

Amazon Athena는 쿼리당 스캔된 데이터의 양만큼 요금이 청구됩니다. 데이터를 압축하면 Amazon Athena가 스캔하는 데이터의 양을 줄일 수 있습니다. 데이터를 컬럼 형식으로 변환하면 Athena가 필요한 컬럼만 선택적으로 읽어 데이터를 처리할 수 있습니다. 또한 데이터를 파티셔닝하면 Athena는 스캔된 데이터의 양을 제한할 수도 있습니다. 그 결과, 비용은 절감되고 성능은 향상됩니다. 자세한 내용은 요금 예를 참조하십시오.

Q: 비용을 줄이려면 어떻게 해야 하나요?

데이터를 압축 및 파티셔닝하여 컬럼 형식으로 변환하면 쿼리 비용을 30%~90%만큼 절약하고 성능을 향상시킬 수 있습니다. 이러한 각각의 작업은 Amazon Athena가 쿼리를 실행하기 위해 스캔해야 할 데이터의 양을 줄여줍니다. Amazon Athena는 가장 널리 쓰이는 오픈 소스 컬럼 형식 중 2가지인 Apache Parquet과 ORC를 지원합니다. Athena 콘솔에서는 쿼리당 스캔되는 데이터의 양을 확인할 수 있습니다.  

Q: Amazon Athena는 실패한 쿼리에 대한 요금을 청구하나요?

아니요. 실패한 쿼리에 대해서는 요금이 청구되지 않습니다.

Q: Amazon Athena는 취소된 쿼리에 대한 요금을 청구하나요?

예. 어떤 쿼리를 수동으로 취소하면 이 쿼리를 취소한 시점까지 스캔된 데이터의 양에 대한 요금이 부과됩니다.

Q: Amazon Athena와 관련된 추가 요금이 있나요?

Amazon Athena는 Amazon S3에서 직접 데이터를 쿼리하기 때문에 사용자의 소스 데이터는 S3 요금으로 청구됩니다. Amazon Athena가 하나의 쿼리를 실행하면 그 결과는 사용자가 선택한 S3 버킷에 저장되며 이러한 결과 집합에 대해서는 표준 S3 요금이 청구됩니다. 보관되는 데이터의 양을 제어하려면 이러한 버킷들을 모니터링하고 수명 주기 정책을 사용할 것을 권장합니다.

Q: AWS Glue 데이터 카탈로그를 사용하면 요금이 부과됩니까?

예. AWS Glue 데이터 카탈로그 사용 요금이 별도로 부과됩니다. 여기를 클릭하여 Glue 데이터 카탈로그 요금에 대해 자세히 알아보십시오.