AWS 上的資料湖儲存體

最安全、最耐用、最具儲存擴展性,用於建置您的資料湖

Amazon Simple Storage Service (S3) 是最大和最具效能的物件儲存服務,用於結構化和非結構化資料,也是建置資料湖的儲存服務選擇。使用 Amazon S3,您可以在安全的環境中以經濟實惠的方式建置和擴展任何大小的資料湖,而資料會受 99.999999999% (11 9s) 耐用性的保護。

在 Amazon S3 上建置資料湖之後,您可以使用原生 AWS 服務執行大數據分析、人工智慧 (AI)、機器學習 (ML)、高效能運算 (HPC) 和媒體資料處理應用程式,從非結構化資料集獲得洞見。使用 Amazon FSx for Lustre,您可以為 HPC 和 ML 應用程式啟動檔案系統,並直接從您的資料湖處理大型媒體工作負載。您還可以靈活使用來自 Amazon 合作夥伴網 (APN) 的偏好分析、AI、ML 和 HPC 應用程式。因為 Amazon S3 支援大量功能,所以 IT 經理、儲存管理員和資料科學家便有權強制執行存取政策、大規模管理物件,並跨其 S3 資料湖稽核活動。

Amazon S3 為知名品牌 Netflix、Airbnb、Sysco、Expedia、GE 和 FINRA 等託管上萬個資料湖,他們會根據需求安全地擴展資料湖,且每分鐘都在探索商業洞見。

用 S3 資料湖存放和分析非結構化資料 (1:43)

為什麼在 Amazon S3 上建置資料湖?

Amazon S3 設計用於保證 99.999999999% (11 9s) 的資料耐用性。鑒於該層級的耐用性,您可能會預期是否可以在 Amazon S3 中存放 10,000,000 個物件,您應該只預期每 10,000 年會丟失一個物件! 服務自動建立並存放多個系統中全部上傳 S3 物件的複本。這表示您的資料隨需可用,還能防止故障、錯誤和威脅。

資料湖儲存體基礎設施
始於安全的設計
使用專為最具資料敏感性組織設計的基礎設施保護資料

按需擴展性
即時擴展儲存體容量,無需費時的資源採購週期

針對整個 AWS 可用區域故障的耐用性
最少跨三個可用區域 (AZ) 自動存放資料的複本。 為提供容錯性,可用區域分隔數英里,但為確保低延遲,不會超過一百英里。

用於分析、HPC、AI、ML 和媒體資料處理的 AWS 服務
使用 AWS 原生服務在資料湖上執行應用程式

與第三方服務供應商整合
APN 為您的 S3 資料湖帶來偏好的分析平台。

各式各樣的資料管理功能
大規模管理、設定存取、啟用成本效用,以及跨 S3 資料湖稽核資料時,具有在物件層級操作的全面靈活性。

透過資料湖解決大數據方面的難題

各產業中各種大小的組織正在使用資料湖進行資料轉型,從必須管理的成本轉為有價值的商業資產。資料湖對於組織層級的資料分析和挖掘非常重要。資料湖會移除資料簡倉,在保護資料安全、結合機器學習時,使分析多種多樣的資料集變得更輕鬆。

在文章中,「Amazon 如何透過資料湖解決大數據方面的難題」,AWS 技術長 Werner Vogels 解釋說,「公司選擇建立資料湖的主要原因是分解資料簡倉。在不同的地方放置資料包,由不同群組控制,在本質上遮掩資料。」

Amazon S3 允許您以不受限的規模遷移、存放、管理和保護所有結構化和非結構化資料,分解資料簡倉。

閱讀完整文章 »

資料湖的重要元件

將資料移入雲端

AWS 提供各種資料傳輸服務組合,可為任何資料遷移專案提供適當的解決方案。連線級別是資料遷移的主要因素,AWS 提供的產品可以滿足您的混合雲端儲存、線上資料傳輸和離線資料傳輸需求。

混合雲端儲存

AWS Storage Gateway 是混合雲端儲存服務,讓您能夠無縫連線內部部署應用程式,並將其擴展至 AWS Storage。客戶使用 Storage Gateway 將磁帶庫無縫取代為雲端儲存,提供雲端儲存支援的檔案共用,或建立低延遲快取,以存取 AWS 中的內部部署應用程式資料。您可以使用 AWS Direct Connect 建立私有連線,將 AWS 與資料中心、辦公室或主機代管環境相互連接,這樣可以降低網路成本、提高輸送量,並提供一個比公用網際網路連線更穩定的網路體驗。

線上資料傳輸

AWS DataSync 可以輕鬆高效地將數百 TB 的資料和數百萬個檔案傳輸至 Amazon S3、Amazon EFS 或 Amazon FSx for Windows File Server,其速度比開放原始碼工具快 10 倍。DataSync 可自動處理或免除許多手動任務,包括編寫複製作業的指令碼、排程與監控傳輸作業、驗證資料,以及優化網路使用情形。Amazon S3 Transfer Acceleration 可在用戶端與 Amazon S3 儲存貯體之間提供快速的長距離檔案傳輸。藉助 Amazon KinesisAWS IoT Core,從 IoT 裝置擷取串流資料並將其載入 Amazon S3 變得簡單又安全。

離線資料傳輸

AWS Snow Family 專為在網路容量受限或不存在的節點使用而設計,並且可在惡劣的環境中提供儲存和運算功能。AWS Snowball 服務使用兼顧耐用性和可攜式的儲存和邊緣運算裝置進行資料收集、處理和遷移。客戶可以運送實體 Snowball 裝置,以將資料離線遷移至 AWS。AWS Snowmobile 是 EB 級資料傳輸服務,讓大量資料移動到雲端變得更加輕鬆,包含影片資料庫、圖片儲存庫,甚至是整個的資料中心移轉也一樣輕鬆。

進一步了解有關 AWS 雲端資料遷移服務的資訊 »

跨資料湖使用 AWS 服務

S3 資料湖客戶可以存取大量 AWS 分析應用程式,AI/ML 服務和高效能檔案系統。這表示您可以跨資料湖執行大量工作負載,無需其他資料處理或傳輸至其他存放區。您還可以將偏好的第三方分析和機器學習工具帶入 S3 資料湖。 

用 AWS Lake Formation 在幾天內建置資料湖,而非幾個月內

AWS Lake Formation 可讓您在幾天內建立安全的資料湖,而非幾個月內,如定義資料存放位置以及適用的資料存取權和安全政策一樣簡單。然後,Lake Formation 會收集不同來源的資料,並將資料遷移至 Amazon S3 的新資料湖。服務可以使用機器學習演算法清理、編目和分類資料,讓您定義存取控制政策。使用者可以存取集中式資料目錄,該目錄列出了可用的資料集及其用量條款。

進一步了解有關 AWS Lake Formation 和註冊的資訊 »

宣布 AWS Lake Formation (2:44)

執行 AWS 分析應用程式,無需資料遷移

資料存放於 S3 資料湖後,您可以使用針對大量使用案例而為特定目的建置的以下分析服務,從分析 PB 級資料集到查詢單個物件的中繼資料。有了 S3 資料湖,無需資源和時間密集型擷取、轉換和載入 (ETL) 任務,便可完成這些操作。您還可以將偏好的分析平台帶入 S3 資料湖。

技術趨勢:資料湖和分析 (9:00)
product-icon_Amazon_Athena_icon_squid_ink
Amazon Athena

使用簡單的 SQL 運算式快速查詢 S3 資料湖中的資料集,在幾秒鐘內取得結果。Athena 非常適合臨機操作查詢,而無需叢集管理,不過它也可處理複雜的分析,包括大規模加入、視窗函數和陣列。

product-icon_Amazon_EMR_icon_squid_ink
Amazon EMR

使用您選擇的開放原始碼分散式架構,如 Spark 和 Hadoop,分析 S3 資料。在幾分鐘內加速和擴展 EMR 叢集 – 無需節點佈建、叢集設定和調校,以及 Hadoop 設定 – 並在相同資料集中並行執行多個叢集。

product-icon_AWS_Glue_icon_squid_ink
AWS Glue

跨 S3 資料湖簡化 ETL 任務,使資料可搜尋和可查詢。在 AWS 主控台上按幾下,註冊您的資料來源,之後 AWS Glue 會對其進行編目,以使用中繼資料 (對於資料表定義和結構描述) 建構資料目錄。

REDSHIFT SPECTRUM
Amazon Redshift Spectrum

使用 SQL 運算式跨 EB 級 S3 資料執行快速、複雜的查詢,無需遷移至 Redshift。您可以跨相同資料集並行執行多個叢集。現有 Redshift 客戶可以使用此功能將分析延伸至其 Amazon S3 中的非結構化資料。

進一步了解有關上述 AWS 資料湖分析服務的資訊 »


使用存放在 S3 中的資料啟動 AI 和機器學習任務

您可以快速啟動 Amazon Comprehend、Amazon Forecast、Amazon Personalize 和 Amazon Rekognition 等 AWS AI 服務,從非結構化資料集探索洞見、取得準確的預測、建立推薦機器,以及分析存放在 S3 中的圖片和影片。您還可以部署 Amazon Sagemaker,以使用存放在 S3 中的資料集快速建置、培訓和部署 ML 模型。


使用 S3 Select 快速查詢適當的資料

S3 Select 讓應用程式能夠將篩選和存取物件內資料的繁重作業,轉移至 S3。使用 S3 Select,您可以查詢物件中繼資料,而無需將物件遷移至另一個資料存放區。S3 Select 藉由減少應用程式載入並處理的資料量,可將頻繁從 S3 存取資料的多數應用程式的效能提升,最高達 400%,並使查詢成本下降最多 80%。

您可以在 Amazon EMR、Amazon Athena、Amazon Redshift 以及 APN 合作夥伴中搭配 Spark、Hive 和 Presto 使用 S3 Select。

進一步了解 S3 Select »

使用 S3 Select 查詢適當的資料 (3:51)

將資料連線至檔案系統,以用於高效能工作負載

Amazon FSx for Lustre 提供以原生方式使用 S3 資料湖的高效能檔案系統,並且針對快速處理以下工作負載進行優化:機器學習、高效能運算 (HPC)、影片處理、建立財務模型和電子設計自動化 (EDA) 等。 您可以在幾分鐘內啟動為 S3 資料提供低於毫秒之存取延遲的檔案系統,讓您以每秒高達數百 GB (GBps) 輸送量以及每秒數百萬 IO (IOPS) 的速度讀取和寫入資料。 連結至 S3 儲存貯體時,FSx for Lustre 檔案系統會以透明的方式以檔案呈現 S3 物件,讓您將結果寫回 S3。

進一步了解 Amazon FSx for Lustre »

Amazon FSx for Lustre 簡介 (45:48)

經濟實惠地使用 S3 功能管理您的資料湖

藉由大量功能,Amazon S3 是建置 (重組平台) 和管理任何大小和用途之資料湖的理想服務。僅僅是雲端儲存服務便可讓您:以物件、儲存貯體和帳戶層級管理資料;按幾下對數百億物件進行變更;設定細微資料存取政策;透過在大量儲存類別中存放物件節省成本;以及跨 S3 資源稽核所有活動。

跨資料湖在每個層級管理資料

Amazon S3 讓您以物件層級、儲存貯體層級和帳戶層級的資料粒度管理資料。您可以將中繼資料標籤附加至物件,以對您業務有用的方式使用其整理資料。您還可以依前綴和儲存貯體整理物件。藉由這些功能,快速指向一個物件或一組物件以在其他任務之間跨區域複寫、限制存取、傳輸至更便宜的儲存類別。

只需按幾下便可操作數十億物件

藉由 S3 批次操作,以單個 API 請求或者在 S3 管理主控台按幾下,您就可以操作數十億物件,並稽核請求進度。修改物件屬性和中繼資料、在儲存貯體之間複製物件、取代標籤集、設定存取控制、還原 S3 Glacier 的封存、叫用 AWS Lambda 函數,幾分鐘內便可完成,而非幾個月內。

為敏感資料設定精細調整的存取政策

使用儲存貯體政策、物件標籤和存取控制清單 (ACL) 限制對特定儲存貯體和物件的存取。您還可以使用 AWS Identity and Access Management 在 AWS 帳戶內定義使用者存取。需要封鎖所有針對其資料之存取請求的組織可以將 S3 封鎖公開存取設定為對特定物件的儲存貯體或整個 AWS 帳戶強制執行「無公開存取」政策。

以經濟實惠的方式跨 S3 儲存類別存放物件

所有 S3 客戶可將資料存放在 6 個不同的儲存類別中,每種儲存類別各有對應的成本,可符合不同的存取需求。使用 S3 儲存類別分析學習資料的存取模式。然後,設定生命週期政策用於將以更少頻率訪問的物件傳輸至更便宜的類別,或將其封存在 S3 Glacier 或 S3 Glacier Deep Archive,可最大程度節省成本。

稽核對 S3 資源和其他活動的所有存取請求

使用 S3 報告工具,在與 S3 資源相關的其他活動中,快速探索誰正在從哪裡請求存取哪種資料,稽核物件中繼資料 (例如,儲存類別、保留日期、業務單位和加密狀態),監控用量和成本,學習存取模式。有了這些洞見,可以進行變更以優化資料湖及其依賴的應用程式,並降低成本。

在 AWS 上建置的資料湖比其他任何地方還要多

準備好開始使用了嗎?

進一步了解 Amazon S3
開始使用 Amazon S3

進一步了解 Amazon S3 »

註冊 AWS 帳戶
註冊 AWS 帳戶
立即存取 AWS 免費方案 »
閱讀資料湖部署指南
部署 AWS 資料湖

開始在 Amazon S3 上建置您的資料湖

建置資料湖
還有其他問題嗎?
聯絡我們