一般問題
- 一致的中繼資料儲存庫:AWS Glue 與各式各樣的 AWS 服務整合。AWS Glue 支援存放在 Amazon Aurora、Amazon RDS MySQL、Amazon RDS PostreSQL、Amazon Redshift 與 Amazon S3 中的資料,也支援在 Amazon EC2 上執行的 Virtual Private Cloud (Amazon VPC) 中的 MySQL 和 PostgreSQL 資料庫。AWS Glue 提供立即可用的 Amazon Athena、Amazon EMR、Amazon Redshift Spectrum 和所有 Apache Hive 中繼存放區相容應用程式的整合。
- 自動辨識結構描述和分區:AWS Glue 可自動網路爬取資料來源、識別資料格式,以及建議結構描述和轉換。網路爬取程式可協助自動建立表格和自動載入分區。
- 輕鬆建立管道:AWS Glue 的 ETL 引擎會產生可自訂、可重複使用的可攜式 Python 程式碼。您可以使用自己偏好的 IDE 或筆記本編輯程式碼,並透過 GitHub 與其他人共享。ETL 任務準備就緒之後,就可以排程在 AWS Glue 全受管、可擴展的 Spark 基礎設施上執行。AWS Glue 是無伺服器服務,所以可處理執行 ETL 任務所需資源的佈建、組態和擴展,讓您將 ETL 緊密整合在工作流程中。
什麼情況下該選擇 Athena 而不是其他大數據服務
建立表格、資料格式和分區
- Apache Web 記錄:"org.apache.hadoop.hive.serde2.RegexSerDe"
- CSV:"org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe"
- TSV:"org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe"
- 自訂分隔符號:"org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe"
- Parquet:"org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe"
- Orc:"org.apache.hadoop.hive.ql.io.orc.OrcSerde"
- JSON:"org.apache.hive.hcatalog.data.JsonSerDe" 或 org.openx.data.jsonserde.JsonSerDe
查詢與資料格式
問:Amazon QuickSight 是否可以搭配 Amazon Athena 使用?
問:Athena 是否支援其他 BI 工具和 SQL 用戶端?
問:如何存取 Amazon Athena 所支援的功能?
您可以使用 Athena Query Federation 開發套件以 Java 撰寫 UDF。提交至 Athena 的 SQL 查詢使用 UDF 時,會在 AWS Lambda 上叫用 UDF 並執行。UDF 可用於 SQL 查詢的 SELECT 與 FILTER 子句。您可以在相同查詢中叫用多個 UDF。
聯合查詢
問:什麼是聯合查詢?
如果您在 Amazon S3 以外的來源中擁有資料,可以使用 Athena 來就地查詢資料,或者建置管道以從多個資料來源擷取資料並將其存放在 Amazon S3 中。使用 Athena 聯合查詢,您可以針對存放在關聯式、非關聯式、物件和自訂資料來源中的資料執行 SQL 查詢。
問:為何應該在 Athena 中使用聯合查詢?
組織通常將資料存放在滿足應用程式或業務流程需求的資料來源中。除了將資料存放在 S3 資料湖中之外,其中可能包含關聯式資料庫、鍵值資料庫、文件資料庫、記憶體內資料庫、搜尋資料庫、圖形資料庫、時間序列資料庫和總帳資料庫。對如此多樣化的來源執行分析可能既複雜又耗時,因為通常需要學習新的程式設計語言或資料庫結構,並建置複雜的管道來擷取、轉換和複製資料,然後才能將其用於分析。Athena 可讓您對資料所在的位置執行 SQL 查詢,從而消除了這種複雜性。您可用熟悉的 SQL 建構跨多個資料來源查詢資料,快速進行分析,或使用排程的 SQL 查詢擷取及轉換多個資料來源的資料,然後再存放到 S3 供日後分析。
問:支援哪些資料來源?
Athena 為包括 Amazon Redshift 和 Amazon DynamoDB 在內的多個熱門資料存放區提供內建連接器。您可以使用這些連接器在結構化、半結構化、物件、圖形、時間序列和其他資料儲存類型上啟用 SQL 分析使用案例。如需支援的來源清單,請參閱使用 Athena 資料來源連接器。
您還可以使用 Athena 的資料連接器 SDK 建立自訂資料來源連接器並使用 Athena 進行查詢。透過檢閱我們的文件和範例連接器實作開始。
問:聯合查詢支援哪些使用案例?
使用 Athena,您可以利用現有的 SQL 知識從各種資料來源中擷取洞察,而無需學習新語言、開發指令碼來擷取 (和複製) 資料或管理基礎設施。使用 Amazon Athena,您可以:
- 使用單一工具和 SQL 方言對分佈在多個資料存放區中的資料進行隨需分析
- 視覺化商業智慧應用程式中的資料,這些應用程式透過 JDBC 和 ODBC 介面將復雜的多來源聯結向下推送至 Athena 的分散式運算引擎
- 透過 Athena 與 AWS Step Functions 的整合,設計自助式 ETL 管道和事件型資料處理工作流程
- 統一多種資料來源,為機器學習模型訓練工作流程產生豐富的輸入功能
- 開發面向使用者的資料即產品應用程式,以深入了解資料網格架構
- 在您的組織將內部部署來源遷移至 AWS 雲端時支援分析使用案例
問:是否可以對 ETL (擷取、轉換、載入) 使用聯合查詢?
Athena 將查詢結果儲存至 Amazon S3 中的檔案。這意味著您可以使用 Athena 將聯合資料提供給其他使用者和應用程式。如果您想使用 Athena 對資料執行分析而不重複查詢基礎來源,請使用 Athena 的 CREATE TABLE AS 函數。您還可以使用 Athena 的 UNLOAD 函數來查詢資料並將結果以特定檔案格式儲存在 Amazon S3 上。
問:資料來源連接器的運作方式?
資料來源連接器是在 AWS Lambda 上執行的一段程式碼,可在您的目標資料來源與 Athena 之間進行轉換。使用資料來源連接器向 Athena 註冊資料存放區後,您可以在聯合資料存放區上執行 SQL 查詢。查詢在聯合來源上執行時,Athena 會呼叫 Lambda 函數並為其執行任務,以執行特定於聯合來源的查詢部分。若要進一步了解,請參閱使用 Amazon Athena 聯合查詢。