AWS 上的資料湖和分析

以最快的速度從所有資料中為所有使用者獲得解答

AWS 交付整合的服務套件,提供各種所需的項目以輕鬆快速地建立和管理用於分析的資料湖。採用 AWS 技術的資料湖可處理必要的可擴展性、靈活性和彈性,以結合不同類型的資料和分析方法,採用傳統資料區塊和資料倉儲無法提供的方式獲取更深入的見解。AWS 為客戶提供最廣泛的分析和機器學習服務,以便輕鬆存取所有相關資料,而且不會影響安全或管控。

在 AWS 上擁有資料湖和分析的組織比其他任何地方都還要多。NASDAQ、Zillow、Yelp、iRobot 和 FINRA 等客戶信任 AWS 來執行其關鍵業務分析工作負載。

AWS 上的資料湖和分析

AWS 上的資料湖和分析

為了建立資料湖和分析解決方案,AWS 提供最全面的各式服務來移動、存放和分析您的資料。

aws-datalake-diagram-simplified

資料移動

從現場部署即時匯入您的資料。

資料湖

安全地存放從 GB 到 EB 的任何類型資料。

分析

使用各式各樣的分析服務來分析您的資料。

機器學習

預測未來成果,並指定快速回應的動作。

為何選擇 AWS 上的資料湖和分析?

構建資料湖最容易

只要幾天的時間就能建立安全的資料湖,而非數個月的時間。我們與數以萬計的客戶合作建置高效資料湖的經驗使我們能夠更輕鬆地分析雲端資料中的各個方面。例如,AWS Lake Formation 自動化了建置資料湖所需的手動步驟,並在所有資料中提供單一安全機制,因此在建置資料湖所需的無差別繁重工作上所花費的時間減少了,並將更多時間用於探索資料,以為最重要的問題獲得解答。

以最低的成本獲得最佳效能

AWS 是存放和分析資料最快並最具成本效益的地方。例如,Amazon S3 提供了五個儲存類別和自動資料生命週期管理,因此您僅根據資料的使用方式支付所需費用。Amazon Redshift 的速度比任何其他雲端資料倉儲快 3 倍,並且每年都變得更快。Amazon EMR 提供了在雲端中執行 Apache Spark 和 Apache HIVE 工作負載的最快位置。EMR 與 AWS 其餘部分的深度整合使得利用 EC2 Spot 執行個體等節省成本的功能變得容易,從而降低高達 90% 的成本。

最全面與開放

將所有資料鎖定在單一單獨分析服務中不再有效。現代分析需要一系列不同的工具和方法,包括 SQL、R、Scala、Jupyter 和 Python,以便使用多種語言獲得正確的洞見和解答。AWS 提供一組成熟且全面的分析服務,這些服務可針對開放資料湖執行,因此您可以使用正確的工具執行正確的任務,而無需為每個不同的分析方法移動或轉換資料。我們所有的服務都支援使用開放 API 存取儲存在單一物件存放區 (S3) 中的資料,採用開放格式 (例如:Apache Paquet、Apache ORC、Apache Avro),並使用同時專屬 (用於資料倉儲的 Redshift) 且開放的引擎 (例如:Spark、Hive)。 

最安全

保護資料安全並遵守相關法規至關重要。AWS 對主動監控和統一管理安全性政策,提供了一套超越如加密和存取控制等標準安全功能的全面工具集。例如,Amazon Macie 可協助監控您的資料湖,以確保不會意外洩露登入資料或個人身份資訊 (PII)。Amazon Inspector 可協助實施最佳實務並識別可能被利用的組態問題,AWS Lake Formation 允許您在各個分析服務中一致地控制對資料湖中資料的存取。 

資料移動

在 AWS 上建立資料湖的第一步是將資料移到雲端。頻寬和傳輸速度的物理限制會侷限資料的移動性,但不會造成重大破壞、產生高昂費用以及浪費大量時間。為了讓資料傳輸變得簡單靈活,AWS 提供最廣泛的選項來將資料傳輸到雲端。

要為您的資料湖建立 ETL 任務和 ML 轉換,請了解 AWS Lake Formation

現場部署資料移動

AWS 提供多種方法來將資料從資料中心移到 AWS。要在網路和 AWS 之間建立專用網路連線,您可以使用 AWS Direct Connect。要使用實體設備將數 PB 到數 EB 的資料移到 AWS,您可以使用 AWS SnowballAWS Snowmobile。 要讓現場部署應用程式將資料直接存放到 AWS,您可以使用 AWS Storage Gateway。 

即時資料移動

AWS 提供多種方法來擷取新來源 (如網站、行動應用程式和網際網路連接裝置) 所產生的即時資料。要想輕鬆擷取和載入串流資料或 IoT 裝置資料,您可以使用 Amazon Kinesis Data FirehoseAmazon Kinesis Video StreamsAWS IoT Core。 

資料湖

為雲端準備好資料後,AWS 便可以透過 Amazon S3 和 Amazon Glacier,以安全且大規模的方式輕鬆地存放任何格式的資料。為了讓最終使用者能夠輕鬆探索在其分析中要使用的相關資料,AWS Glue 自動建立可供使用者搜尋和查詢的單一型錄。

若要更快地建立安全的資料湖,請進一步了解 AWS Lake Formation

物件儲存

Amazon S3

Amazon S3 是安全、可高度擴展、耐久的物件儲存體,資料存取延遲只有 1 毫秒。S3 可存放來自任何地方的任何類型資料 – 網站和行動應用程式、公司應用程式,以及來自 IoT 感應器或裝置的資料。它可以存放和擷取任何數量的資料,具有無與倫比的可用性,而且在設計之初就能提供 99.999999999% (11 個 9) 的耐久性。S3 Select 專注於資料讀取和擷取,最多可將回應時間縮短至 400%。S3 提供完整的安全與合規功能,甚至可符合最嚴格的法規需求。 

備份和存檔

Amazon Glacier

Amazon Glacier 是適用於長期備份和存檔的安全、耐久且費用極其低廉的儲存體,能在幾分鐘內存取資料,同樣地,Glacier Select 只會讀取和擷取所需的資料。它旨在交付 99.999999999% 的耐久性 (11 個 9),並提供全面的安全性和合規功能,有助於滿足最嚴格的監管要求。客戶存放資料的費用每月每 GB 只要 0.004 USD,與現場部署解決方案相比,顯著降低了成本。

資料型錄

AWS Glue

AWS Glue 是一種全受管服務,提供資料型錄讓資料湖中的資料可供探索,而且能夠執行擷取、轉換和載入 (ETL),為分析備齊資料。資料型錄會自動建立做為所有資料資產的持久性中繼資料存放區,讓所有資料可在單一檢視中搜尋和查詢。

分析

AWS 提供一組最廣泛、最經濟實惠而且在資料湖上執行的分析服務。每個分析服務都是專為各種分析使用案例而建立,例如互動式分析、使用 Apache Spark 和 Hadoop 的大數據處理、資料倉儲、即時分析、營運分析,儀表板和視覺化。

要針對分析服務管理資料湖中資料的安全、自助式存取,請進一步了解 AWS Lake Formation

互動式分析

Amazon Athena

針對互動式分析,Amazon Athena 透過標準 SQL 查詢,讓您輕鬆地直接在 S3 和 Glacier 中分析資料。Athena 是無伺服器服務,所以無須設定或管理基礎設施。您可以立即開始查詢資料並在幾秒鐘內獲得結果,而且只需針對執行的查詢支付相關費用。只需指向 Amazon S3 中的資料、定義結構描述,然後使用標準 SQL 開始查詢即可。大部分結果會在幾秒鐘內交付。 

大數據處理

Amazon EMR

針對使用 Spark 和 Hadoop 架構的大數據處理,Amazon EMR 提供可輕鬆快速且經濟實惠處理大量資料的受管服務。Amazon EMR 支援 19 種不同的開放原始碼專案,包括 HadoopSparkHBasePresto,搭配用於資料工程、資料科學開發和協作的受管 EMR 筆記本。每個專案都會在版本發布後的 30 天內在 EMR 中進行更新,確保您能夠輕鬆地從社群獲得最新和最好的專案。

資料倉儲

Amazon Redshift

對於資料倉儲,Amazon Redshift 讓您能夠針對數 PB 的結構化資料執行複雜的分析查詢,另外還有 Redshift Spectrum,可直接針對 S3 中數 EB 的結構化或非結構化資料執行 SQL 查詢,無須進行不必要的資料移動。Amazon Redshift 的費用不到傳統解決方案的十分之一。從每小時 0.25 USD 小規模開始,然後以每年每 TB 1,000 USD 的價格擴展到數 PB 的資料。

即時分析

Amazon Kinesis

針對即時分析,Amazon Kinesis 可以輕鬆收集、處理和分析串流資料,例如 IoT 遙測資料、應用程式日誌和網站點擊流。這可讓您在資料到達資料湖時進行處理和分析,並即時回應,無須等待收集所有資料之後再開始處理。

營運分析

Amazon Elasticsearch Service

針對營運分析 (如應用程式監控、日誌分析和點擊流分析),Amazon Elasticsearch Service 讓您能夠以近乎即時的速度搜尋、瀏覽、篩選、彙總以及視覺化資料。Amazon Elasticsearch Service 提供 Elasticsearch 易於使用的 API 和即時分析功能,同時也提供生產工作負載所需的可用性、可擴展性及安全性。

 

儀表板和視覺化

Amazon QuickSight

針對儀表板和視覺化,Amazon QuickSight 為您提供快速、採用雲端技術的商業分析服務,讓您可以輕鬆建立各種可以從任何瀏覽器或行動裝置存取的一流視覺化功能和內容豐富的儀表板。

 

機器學習

針對預測分析使用案例,AWS 提供一系列廣泛的機器學習服務,以及在 AWS 資料湖上執行的工具。我們的服務優勢來自於在 Amazon 累積的知識和能力,其中 ML 為 Amazon.com 的推薦引擎、供應鏈、預測、物流中心和容量規劃提供支援。 

架構和界面

針對專業機器學習從業人員和資料科學家,AWS 提供 AWS Deep Learning AMIs,可以輕鬆建立深度學習模型,並使用 ML 和 DL 優化 GPU 執行個體來建立叢集。AWS 支援所有主要的機器學習架構,其中包括 Apache MXNet、TensorFlow 和 Caffe2,讓您使用自有模型或開發任何自選的模型。這些功能提供深度學習和機器學習工作負載所需的一流功能、速度和效率。

平台服務

對想深入了解 ML 的開發人員來說,Amazon SageMaker 是讓建立、訓練和部署 ML 模型整個過程變簡單的平台服務,為您提供連接訓練資料、選擇和優化最佳演算法及架構,以及在 Amazon EC2 的自動調整規模叢集上部署模型時所需的一切。SageMaker 也包含託管型 Jupyter 筆記本,方便您探索及視覺化存放在 Amazon S3 的訓練資料。

應用程式服務

開發人員如果想在其應用程式插入預先建立的 AI 功能,AWS 針對電腦視覺和自然語言處理提供解決方案導向的 API。這些應用程式服務讓開發人員為其應用程式新增智慧,無須開發和訓練自己的模型。

在 AWS 上建立的資料湖和分析比其他任何地方都還要多

開始使用 AWS

Step 1 - Sign up for an AWS account

註冊 AWS 帳戶

立即存取 AWS 免費方案
 
icon2

只要幾天的時間就能建立安全的資料湖

了解 AWS Lake Formation

 
icon3

開始使用 AWS 進行建置

開始使用 AWS 上的資料湖

透過 AWS Lake Formation 部署資料湖
還有其他問題嗎?
聯絡我們