開始使用專案

5 個步驟  |  60 分鐘

Analyze_Big_Data_HERO-ART_SM

問:什麼是 Amazon EMR?

Amazon EMR 是一項受管的 Hadoop 服務,可讓您在完全可自訂的叢集上執行最新版的熱門大數據框架,如 Apache Spark、Presto、Hbase、Hive 等等。Amazon EMR 讓您完全控制叢集的組態以及在叢集上安裝的軟體。

問:Amazon EMR 可以用來做什麼?

您可以使用 Amazon EMR 立即佈建熱門的開放原始碼架構,例如 Hadoop 和 Spark,依您的需要使用很多或很少的容量,來執行資料密集型任務。常用案例包括:Web 索引、資料探勘、日誌檔案分析、extract-transform-load (ETL)、機器學習、財務分析、科學模擬及生物資訊學研究。Amazon EMR 讓您可以專注於處理或分析資料,無須擔心費時的 Hadoop 叢集設定、管理或調校,也無須擔心所需要的運算容量。

Amazon EMR 很適合用來解決需要快速、高效率處理大量資料的問題。Web 服務界面可讓您建置處理工作流程,並以程式設計方式監控叢集的執行進度。此外,您還可以使用 AWS 管理主控台的簡單 Web 界面,啟動叢集和監控處理密集型運算。

問:是否可以使用這個專案分析自己的日誌?

是。您可將自己的資料日誌上傳到 Amazon S3 儲存貯體,然後使用類似的叢集對自己的資料執行查詢。不過,要注意的是這個專案不是針對生產環境而設計的。

問:如何將我的資料匯入 Amazon S3?
使用 AWS 管理主控台,您可以輕鬆、安全地建立儲存貯體、上傳物件及設定存取控制。Amazon S3 Getting Started Guide 說明如何利用 AWS 管理主控台開始使用 Amazon S3。

Amazon S3 也已經與各種其他的 AWS 服務和第三方連接器整合,協助您將資料傳入和傳出雲端。進一步了解雲端資料遷移工具

問:我的資料的安全性如何?

Amazon S3 預設是非常安全的。只有儲存貯體和物件的擁有者能夠存取他們建立的 Amazon S3 資源。Amazon S3 支援使用者身份驗證,以控制對資料的存取。您可以使用 HTTPS 通訊協定,透過 SSL 終端節點,安全地向 Amazon S3 上傳資料或從 Amazon S3 下載資料。您可以使用 AWS Identity and Access Management (IAM) 工具 (如 IAM 使用者和角色) 控制存取和許可。例如,您可以為某些使用者提供叢集的讀取存取,但不提供寫入存取。另外,您可以使用 Amazon EMR 安全組態設定各種加密靜態和傳輸中資料選項,包含 Amazon S3 加密支援。進一步了解叢集的存取控制Amazon EMR 加密

開始使用專案