AWS 上的資料湖和分析

用於建立資料湖和分析解決方案的最全面、安全、可擴展且經濟實惠的產品組合

AWS 交付整合的服務套件,提供各種所需的項目以輕鬆快速地建立和管理用於分析的資料湖。採用 AWS 技術的資料湖可處理必要的可擴展性、靈活性和彈性,以結合不同類型的資料和分析方法,採用傳統資料區塊和資料倉儲無法提供的方式獲取更深入的見解。AWS 為客戶提供最廣泛的分析和機器學習服務,以便輕鬆存取所有相關資料,而且不會影響安全或管控。

在 AWS 上擁有資料湖和分析的組織比其他任何地方都還要多。NASDAQ、Zillow、Yelp、iRobot 和 FINRA 等客戶信任 AWS 來執行其關鍵業務分析工作負載。

AWS 上的資料湖和分析

AWS 上的資料湖和分析

為了建立資料湖和分析解決方案,AWS 提供最全面的各式服務來移動、存放和分析您的資料。

aws-datalake-diagram-simplified

資料移動

從現場部署即時匯入您的資料。

資料湖

安全地存放從 GB 到 EB 的任何類型資料。

分析

使用各式各樣的分析服務來分析您的資料。

機器學習

預測未來成果,並指定快速回應的動作。

資料移動

在 AWS 上建立資料湖的第一步是將資料移到雲端。頻寬和傳輸速度的物理限制會侷限資料的移動性,但不會造成重大破壞、產生高昂費用以及浪費大量時間。為了讓資料傳輸變得簡單靈活,AWS 提供最廣泛的選項來將資料傳輸到雲端。

要為您的資料湖建立 ETL 任務和 ML 轉換,請了解 AWS Lake Formation

現場部署資料移動

AWS 提供多種方法來將資料從資料中心移到 AWS。要在網路和 AWS 之間建立專用網路連線,您可以使用 AWS Direct Connect。要使用實體設備將數 PB 到數 EB 的資料移到 AWS,您可以使用 AWS SnowballAWS Snowmobile。 要讓現場部署應用程式將資料直接存放到 AWS,您可以使用 AWS Storage Gateway。 

即時資料移動

AWS 提供多種方法來擷取新來源 (如網站、行動應用程式和網際網路連接裝置) 所產生的即時資料。要想輕鬆擷取和載入串流資料或 IoT 裝置資料,您可以使用 Amazon Kinesis Data FirehoseAmazon Kinesis Video StreamsAWS IoT Core。 

資料湖

為雲端準備好資料後,AWS 便可以透過 Amazon S3 和 Amazon Glacier,以安全且大規模的方式輕鬆地存放任何格式的資料。為了讓最終使用者能夠輕鬆探索在其分析中要使用的相關資料,AWS Glue 會自動建立可供使用者搜尋和查詢的單一型錄。

若要更快地建立安全的資料湖,請進一步了解 AWS Lake Formation

物件儲存

Amazon S3

Amazon S3 是安全、可高度擴展、耐久的物件儲存體,資料存取延遲只有 1 毫秒。S3 可存放來自任何地方的任何類型資料 – 網站和行動應用程式、公司應用程式,以及來自 IoT 感應器或裝置的資料。它可以存放和擷取任何數量的資料,具有無與倫比的可用性,而且在設計之初就能提供 99.999999999% (11 個 9) 的耐久性。S3 Select 專注於資料讀取和擷取,最多可將回應時間縮短至 400%。S3 提供完整的安全與合規功能,甚至可符合最嚴格的法規需求。 

備份和存檔

Amazon Glacier

Amazon Glacier 是適用於長期備份和存檔的安全、耐久且費用極其低廉的儲存體,能在幾分鐘內存取資料,同樣地,Glacier Select 只會讀取和擷取所需的資料。它旨在交付 99.999999999% 的耐久性 (11 個 9),並提供全面的安全性和合規功能,有助於滿足最嚴格的監管要求。客戶存放資料的費用每月每 GB 只要 0.004 USD,與現場部署解決方案相比,顯著降低了成本。

資料型錄

AWS Glue

AWS Glue 是一種全受管服務,提供資料型錄讓資料湖中的資料可供探索,而且能夠執行擷取、轉換和載入 (ETL),為分析備齊資料。資料型錄會自動建立做為所有資料資產的持久性中繼資料存放區,讓所有資料可在單一檢視中搜尋和查詢。

分析

AWS 提供一組最廣泛、最經濟實惠而且在資料湖上執行的分析服務。每個分析服務都是專為各種分析使用案例而建立,例如互動式分析、使用 Apache Spark 和 Hadoop 的大數據處理、資料倉儲、即時分析、營運分析,儀表板和視覺化。

要針對分析服務管理資料湖中資料的安全、自助式存取,請進一步了解 AWS Lake Formation

互動式分析

Amazon Athena

針對互動式分析,Amazon Athena 透過標準 SQL 查詢,讓您輕鬆地直接在 S3 和 Glacier 中分析資料。Athena 是無伺服器服務,所以無須設定或管理基礎設施。您可以立即開始查詢資料並在幾秒鐘內獲得結果,而且只需針對執行的查詢支付相關費用。只需指向 Amazon S3 中的資料、定義結構描述,然後使用標準 SQL 開始查詢即可。大部分結果會在幾秒鐘內交付。 

大數據處理

Amazon EMR

針對使用 Spark 和 Hadoop 架構的大數據處理,Amazon EMR 提供可輕鬆快速且經濟實惠處理大量資料的受管服務。Amazon EMR 支援 19 種不同的開放原始碼專案,包括 HadoopSparkHBasePresto,搭配用於資料工程、資料科學開發和協作的受管 EMR 筆記本。每個專案都會在版本發布後的 30 天內在 EMR 中進行更新,確保您能夠輕鬆地從社群獲得最新和最好的專案。

資料倉儲

Amazon Redshift

對於資料倉儲,Amazon Redshift 讓您能夠針對數 PB 的結構化資料執行複雜的分析查詢,另外還有 Redshift Spectrum,可直接針對 S3 中數 EB 的結構化或非結構化資料執行 SQL 查詢,無須進行不必要的資料移動。Amazon Redshift 的費用不到傳統解決方案的十分之一。從每小時 0.25 USD 小規模開始,然後以每年每 TB 1,000 USD 的價格擴展到數 PB 的資料。

即時分析

Amazon Kinesis

針對即時分析,Amazon Kinesis 可以輕鬆收集、處理和分析串流資料,例如 IoT 遙測資料、應用程式日誌和網站點擊流。這可讓您在資料到達資料湖時進行處理和分析,並即時回應,無須等待收集所有資料之後再開始處理。

營運分析

Amazon Elasticsearch Service

針對營運分析 (如應用程式監控、日誌分析和點擊流分析),Amazon Elasticsearch Service 讓您能夠以近乎即時的速度搜尋、瀏覽、篩選、彙總以及視覺化資料。Amazon Elasticsearch Service 提供 Elasticsearch 易於使用的 API 和即時分析功能,同時也提供生產工作負載所需的可用性、可擴展性及安全性。

 

儀表板和視覺化

Amazon QuickSight

針對儀表板和視覺化,Amazon QuickSight 為您提供快速、採用雲端技術的商業分析服務,讓您可以輕鬆建立各種可以從任何瀏覽器或行動裝置存取的一流視覺化功能和內容豐富的儀表板。

 

機器學習

針對預測分析使用案例,AWS 提供一系列廣泛的機器學習服務,以及在 AWS 資料湖上執行的工具。我們的服務優勢來自於在 Amazon 累積的知識和能力,其中 ML 為 Amazon.com 的推薦引擎、供應鏈、預測、物流中心和容量規劃提供支援。 

架構和界面

針對專業機器學習從業人員和資料科學家,AWS 提供 AWS Deep Learning AMIs,可以輕鬆建立深度學習模型,並使用 ML 和 DL 優化 GPU 執行個體來建立叢集。AWS 支援所有主要的機器學習架構,其中包括 Apache MXNet、TensorFlow 和 Caffe2,讓您使用自有模型或開發任何自選的模型。這些功能提供深度學習和機器學習工作負載所需的一流功能、速度和效率。

平台服務

對想深入了解 ML 的開發人員來說,Amazon SageMaker 是讓建立、訓練和部署 ML 模型整個過程變簡單的平台服務,為您提供連接訓練資料、選擇和優化最佳演算法及架構,以及在 Amazon EC2 的自動調整規模叢集上部署模型時所需的一切。SageMaker 也包含託管型 Jupyter 筆記本,方便您探索及視覺化存放在 Amazon S3 的訓練資料。

應用程式服務

開發人員如果想在其應用程式插入預先建立的 AI 功能,AWS 針對電腦視覺和自然語言處理提供解決方案導向的 API。這些應用程式服務讓開發人員為其應用程式新增智慧,無須開發和訓練自己的模型。

在 AWS 上建立的資料湖和分析比其他任何地方都還要多

為何選擇 AWS 上的資料湖和分析?

彈性和選擇

AWS 提供一組最廣泛的分析工具和引擎,使用開放格式和開放標準來分析資料。您可以用自己選擇的標準資料格式存放資料,例如 CSV、ORC、Grok、Avro 和 Parquet,還可以彈性地用各種方式分析日期,例如資料倉儲、互動式 SQL 查詢、即時分析和大數據處理。可與 AWS 中資料搭配使用的分析服務廣度,有助於確保能滿足現有和未來的分析使用案例需求。

一流的可擴展性和可用性

Amazon S3 可以存放和擷取任何數量的資料,具有無與倫比的可用性,而且在設計之初就能提供 99.999999999% (11 個 9) 的耐久性。只有這個儲存體可以將資料存放在單一 AWS 區域內三個可用區域的多個資料中心,當其中一個資料中心發生問題時可提供極好的恢復能力,而且只有這個儲存體能在任何區域之間無縫地複寫資料。

高度安全

S3 是唯一允許您在帳戶和物件層級套用存取、日誌和稽核政策的雲端儲存平台。S3 提供自動伺服器端加密、由 AWS Key Management Service (KMS) 管理的金鑰加密,以及您管理的金鑰加密。S3 在跨區域複寫時會對傳輸中的資料進行加密,並讓您針對來源和目地的區域使用個別帳戶,以防止惡意的内部刪除。為了主動偵測早期攻擊階段,Amazon Macie (一種採用 ML 技術的安全服務) 會監控異常的資料存取活動,並在偵測到未經授權存取或非刻意資料洩漏風險時,發出詳細的警示。

經濟實惠

在 AWS 上建立資料湖十分經濟實惠。不常使用的資料可以移到 Amazon Glacier,它以極低的費用提供長期備份和存檔。Amazon S3 管理功能可以分析物件存取模式,透過生命週期政策,以隨需或自動方式將不常用的資料移到 Glacier。您可以開始使用 Amazon Athena 查詢資料,每查詢 1 GB 的資料收費只需 0.005 USD。 其他分析和機器學習服務採用按使用量付費的方式,針對您消耗的資源收取費用。

效能飛快

Amazon Redshift 和 Amazon Athena 等 AWS 分析服務是專為快速互動式查詢效能而設計的,可支援大量並行互動式查詢。使用 Amazon S3 Select 執行 AWS 廣泛的分析和機器學習服務組合時,只會傳回物件中所需資料的子集,因此查詢速度提高 400%,而且成本大幅降低。Glacier Select 提供類似的功能,讓您更快地擷取存檔資料,並允許您擴展資料湖的分析功能,以便納入存檔儲存。 

 

最大的合作夥伴網路

AWS 合作夥伴網路 (APN) 擁有的合作夥伴整合數量是其他任何企業的兩倍,擁有來自全球各地的數萬個合作夥伴,包括諮詢和獨立軟體廠商。這可讓您輕鬆地與目前慣用的同類工具搭配使用和整合。由 AWS 解決方案架構師和合作夥伴開發的資料湖快速入門透過幾個簡單的步驟,以 AWS 最佳實務為基礎,協助您建立、測試和部署資料湖解決方案,以實現安全和高可用性。 

 

開始使用 AWS

Step 1 - Sign up for an AWS account

註冊 AWS 帳戶

立即存取 AWS 免費方案
 
icon2

只要幾天的時間就能建立安全的資料湖

了解 AWS Lake Formation

 
icon3

開始使用 AWS 進行建置

開始使用 AWS 上的資料湖

透過 AWS 快速入門部署資料湖
還有其他問題嗎?
聯絡我們