頁面主題
- S3 一般常見問答集
20
- AWS 區域
6
- 計費
10
- S3 Tables
18
- S3 Vectors
12
- Amazon S3 和 IPv6
4
- S3 事件通知
5
- Amazon S3 Transfer Acceleration
12
- 安全性
14
- S3 Access Grants
19
- S3 Access Points
13
- 耐用性和資料保護
23
- 儲存類別
2
- S3 Intelligent-Tiering
15
- S3 標準
2
- S3 Express One Zone
16
- S3 Standard-Infrequent Access (S3 Standard-IA)
8
- S3 One Zone-Infrequent Access (S3 One Zone-IA)
6
- Amazon S3 Glacier Instant Retrieval 儲存類別
8
- Amazon S3 Glacier Flexible Retrieval 儲存類別
10
- Amazon S3 Glacier Deep Archive
10
- S3 on Outposts
1
- 儲存管理
46
- 儲存分析和洞見
12
- 就地查詢
4
- 複寫
32
- 資料處理
9
- 資料存取
20
- Amazon S3 儲存瀏覽器
9
S3 一般常見問答集
全部開啟資料表儲存貯體專用於儲存使用 Apache Iceberg 格式的資料表。使用 Amazon S3 Tables 只需幾個步驟即可建立資料表儲存貯體,並設定資料表層級許可。S3 資料表儲存貯體特別針對分析和機器學習工作負載進行最佳化。有了 Apache Iceberg 的內建支援,您可以使用流行的查詢引擎,包括 Amazon Athena、Amazon Redshift 和 Apache Spark 在 S3 中查詢表格式資料。使用 S3 資料表儲存貯體將表格式資料 (例如每日購買交易、串流感測器資料或廣告曝光) 作為 Iceberg 資料表儲存在 Amazon S3 中,然後使用分析功能與這些資料互動。
向量儲存貯體專為儲存和查詢向量而建置。在向量儲存貯體中,不使用 S3 物件 API ,而是使用專用向量 API 來編寫向量資料,並根據語義含義與相似度執行查詢操作。您可以藉助 Amazon S3 中現有的存取控制機制 (包括儲存貯體和 IAM 政策) 來控制向量資料的存取權。對向量儲存貯體的所有寫入操作都具有強一致性,這意味著您可以立即存取最近新增的向量。在一段時間內編寫、更新和刪除向量時,S3 向量儲存貯體會自動最佳化儲存在其中的向量資料,即使資料集不斷擴展和演變,也能實現最佳的價格/效能。
儲存貯體是儲存在 Amazon S3 中之物件和資料表的容器,您可以將任意數量的物件儲存在儲存貯體中。一般用途儲存貯體是原始 S3 儲存貯體類型,單個一般用途儲存貯體可以包含儲存在 S3 Express One Zone 以外之所有儲存類別之間的物件。針對大多數使用案例和存取模式建議使用此類儲存貯體。S3 目錄儲存貯體僅允許儲存在 S3 Express One Zone 儲存類別中的物件,這可在單一可用區域內提供更快的資料處理。針對低延遲使用案例建議使用此類儲存貯體。 每個 S3 目錄儲存貯體都可以支援每秒高達 200 萬筆交易 (TPS),無論儲存貯體內的目錄數目為何。 S3 資料表儲存貯體專用於在 S3 中儲存表格式資料,例如每日購買交易、串流感測器資料或廣告曝光率。使用資料表儲存貯體時,您的資料會在 S3 中儲存為 Iceberg 資料表,然後您可以使用資料列層級交易、可查詢資料表快照等分析功能與該資料進行互動,這些功能全部都由 S3 管理。此外,資料表儲存貯體也會執行持續的資料表維護,以隨時間推移自動最佳化查詢效率,即使資料湖在擴展和發展。 S3 向量儲存貯體專為儲存和查詢向量而建置。在向量儲存貯體中,您可透過專用向量 API 來編寫向量資料,並根據語義含義與相似度執行查詢操作。您可以使用 Amazon S3 中現有的存取控制機制 (包括儲存貯體和 IAM 政策) 來控制向量資料的存取權。在一段時間內編寫、更新和刪除向量時,S3 向量儲存貯體會自動最佳化儲存在其中的向量資料,即使資料集不斷擴展和演變,也能實現最佳的價格/效能。
AWS 區域
全部開啟Amazon S3 單區域 – IA 儲存類別會在單一可用區內複寫資料。存放在 S3 單區域 – IA 中的資料在碰到可用區域因地震、火災和水災等災害而導致實體損失時無法恢復。
計費
全部開啟2) 當月第 16 天:您對同一儲存貯體中的 5 GB (5,368,709,120 個位元組) 資料執行了 PUT 操作,使用與第 1 天的原始 PUT 操作相同的金鑰。
分析上述操作的儲存費用時,請注意,在第 15 天寫入 5 GB 物件時,第 1天的 4 GB 物件並未從儲存貯體刪除。相反,這 4 GB 物件作為舊版本保留,5 GB 物件成為儲存貯體中的最近寫入的物件版本。月底時:總位元組小時使用量
= [4,294,967,296 個位元組 x 31 天 x (24 小時/天)] + [5,368,709,120 個位元組 x 16 天 x (24 小時/天)] = 5,257,039,970,304 位元組小時。轉換為 GB 月:
5,257,039,970,304 位元組小時 x (1 GB/1,073,741,824 個位元組) x (1 月/744 小時) = 每月 6.581 GB 成本是根據 Amazon S3 定價頁面上您區域的目前費率來計算。
S3 Tables
全部開啟S3 Tables 提供專用 S3 儲存,用於以 Apache Parquet、Avro 和 ORC 格式儲存結構化資料。在資料表儲存貯體中,您可以直接在 S3 中建立資料表作為一級資源。這些資料表可以使用以身分或資源為基礎的政策中定義的資料表層級許可來進行保護,並且可以透過支援 Apache Iceberg 標準的應用程式或工具來存取。當您在資料表儲存貯體中建立資料表時,S3 中的基礎資料會儲存為 Parquet、Avro 或 ORC 檔案。然後,S3 會使用 Apache Iceberg 標準來儲存所需的中繼資料,以便您的應用程式可查詢該資料。S3 Tables 包括用戶端資料庫,而查詢引擎會使用該資料庫來導覽和更新資料表儲存貯體中資料表的 Iceberg 中繼資料。此程式庫與用於資料表操作的更新的 S3 API 結合,可讓多個用戶端安全地讀取和寫入資料表。隨著時間的推移,S3 會透過重寫或「壓縮」物件來自動最佳化基礎 Parquet、Avro 或 ORC 資料。壓縮可最佳化 S3 上的資料,以提高查詢效能。
只需幾個簡單步驟即可開始使用 S3 Tables,而無需在 S3 以外建立任何基礎設施。首先,在 S3 主控台中建立資料表儲存貯體。作為透過主控台建立第一個資料表儲存貯體的環節,與 AWS Analytics 服務的整合會自動進行,這就使 S3 能夠將帳戶和區域中的所有資料表儲存貯體和資料表自動填入 AWS Glue Data Catalog。之後,各種 AWS 查詢引擎 (例如 Amazon Athena、EMR 和 Redshift) 目前就可以存取 S3 Tables。接下來,您可以按一下以從 S3 主控台使用 Amazon Athena 建立資料表。位於 Athena 中之後,您可以快速開始填入新資料表並查詢它們。
或者,您也可以透過 AWS Glue Data Catalog 使用 Iceberg REST Catalog 端點來存取 S3 Tables,這可讓您探索整個資料資產,包括所有資料表資源。您也可以直接連線至個別資料表儲存貯體端點,以探索該儲存貯體內的所有 S3 Tables 資源。這可讓您與支援 Apache Iceberg REST Catalog 規格的任何應用程式或查詢引擎一起使用 S3 Tables。
與在一般用途 Amazon S3 儲存貯體中儲存 Iceberg 資料表相比,查詢效能提高 3 倍,每秒交易量 (TPS) 提高 10 倍。這是因為資料表儲存貯體會自動壓縮資料表的基礎 Parquet、Avro 或 ORC 資料,以最佳化查詢效能,而且專門建置的儲存空間預設支援高達 10 倍的 TPS。
資料表儲存貯體可讓您將資源政策套用至整個儲存貯體或單個資料表。可以使用 PutTablePolicy 和 PutTableBucketPolicy API 來套用資料表儲存貯體政策。資料表層級政策可讓您根據與之關聯的邏輯資料表來管理資料表儲存貯體中的資料表許可,而不必了解個別 Parquet、Avro 或 ORC 檔案的實體位置。此外,S3 封鎖公開存取始終會套用到您的資料表儲存貯體。
資料表儲存貯體支援具有 Parquet、Avro 或 ORC 資料的 Apache Iceberg 資料表格式。
S3 Vectors
全部開啟您可以透過四個簡單步驟開始使用 S3 Vectors,而無需在 Amazon S3 以外設定任何基礎設施。首先,透過 CreateVectorBucket API 或在 S3 主控台中於特定 AWS 區域建立向量儲存貯體。其次,為了在向量儲存貯體中組織向量資料,您可以使用 CreateIndex API 或在 S3 主控台中建立向量索引。建立向量索引時,您可以指定距離指標 (餘弦或歐氏距離),以及向量應具有的維度數目 (最多 4092)。若要取得最準確的結果,請選取嵌入模型建議的距離指標。第三,使用 PutVectors API 將向量資料新增至向量索引。您可以選擇性地將中繼資料作為索引鍵值對連接至每個向量以篩選查詢。第四,使用 QueryVectors API 執行相似性查詢,並且指定要搜尋的向量以及要傳回最類似結果的數量。
您可以使用 S3 主控台或 CreateIndex API 建立向量索引。在建立索引期間,您可以指定向量儲存貯體、索引、距離指標、維度,以及選擇性地指定要在相似性查詢期間從篩選中排除的中繼資料欄位清單。例如,如果您想要完全出於參考目的儲存與向量關聯的資料,則可以將這些資料指定為非可篩選的中繼資料欄位。建立期間,會為每個索引指派唯一的 Amazon Resource Name (ARN)。隨後進行寫入或查詢請求時,您將其導向至向量儲存貯體內的向量索引。
您可以使用 PutVectors API 將向量新增至向量索引。每個向量都包含索引鍵,它唯一識別向量索引中的每個向量 (例如,您可以採用編程方式產生 UUID)。為最大程度地提高寫入輸送量,建議您以大批次 (最高為請求大小上限) 插入向量。此外,您可以將中繼資料 (例如年份、作者、類型和位置) 作為索引鍵值配對連接至每個向量。包含中繼資料時,依預設,所有欄位都可以用作相似性查詢中的篩選條件,除非在建立向量索引時指定為非可篩選中繼資料。若要產生非結構化資料的新向量嵌入,您可以使用 Amazon Bedrock 的 InvokeModel API,並且指定要使用之嵌入模型的模型 ID。
您可以使用 GetVectors API 透過向量索引鍵查詢和傳回向量與相關聯的中繼資料。
您可以使用 QueryVectors API 執行相似性查詢,並且指定查詢向量、要傳回的相關結果數目 (最近 k 芳鄰) 以及索引 ARN。產生查詢向量時,您應該使用與用於產生向量索引中所儲存初始向量相同的嵌入模型。例如,如果您在 Amazon Bedrock 中使用 Amazon Titan Text Embeddings v2 來產生文件的嵌入,則建議您使用相同的模型將問題轉換為向量。此外,您可以在查詢中使用中繼資料篩選條件來搜尋符合該篩選條件的向量。執行相似性查詢時,依預設會傳回向量索引鍵。您可以選擇性地在回應中包括距離和中繼資料。
S3 Vectors 提供高度耐用且可用的向量儲存。寫入 S3 Vectors 的資料儲存在 S3 上,後者專為實現 99.999999999% 資料耐用性而設計。S3 Vectors 旨在提供 99.99% 的可用性以及 99.9% 的可用性 SLA。
S3 Vectors 提供低於 1 秒的查詢延遲時間。它使用 Amazon S3 的彈性輸送量來處理跨數百萬向量的搜尋,非常適合不常查詢的工作負載。
若要針對向量嵌入執行相似性查詢,幾點因素可能會影響平均召回率,包括嵌入模型、向量資料集的大小 (向量和維度數量) 以及查詢的分佈。S3 Vectors 可為大多數資料集提供 90% 以上的平均召回率。平均召回率衡量查詢結果的品質 — 90% 表示回應結果包含索引中與查詢向量最接近的真實向量的 90%。然而,實際效能可能因您的具體使用案例而異,因此我們建議您使用代表性資料和查詢進行自己的測試,以驗證 S3 向量索引是否滿足您的召回率要求。
您可以使用 ListVectors API 查看向量索引中的向量清單,該 API 一次傳回最多 1,000 個向量,並帶有表明回應是否被截斷的指標。回應包括上次修改日期、向量索引鍵、向量資料和中繼資料。您也可以使用 ListVectors API 從指定的向量索引輕鬆匯出向量資料。ListVectors 操作具有強一致性。因此,在寫入後,您可以立即列出向量並反映任何變更。
使用 S3 Vectors 時,您需要支付儲存和任何適用寫入和讀取請求 (例如,插入向量和對向量索引中的向量執行查詢操作) 的費用。若要查看定價詳細資訊,請參閱 S3 定價頁面。
是。透過 Bedrock 主控台或 API 建立 Bedrock 知識庫時,您可以將現有的 S3 向量索引設定為向量存放區,以節省 RAG 使用案例的向量儲存成本。如果您希望讓 Bedrock 為您建立和管理向量索引,請使用 Bedrock 主控台中的「快速建立」工作流程。此外,您可以將新的 S3 向量索引設定為 Amazon SageMaker Unified Studio 中 RAG 工作流程的向量存放區。
是。可採用兩種方式將 S3 Vectors 與 Amazon OpenSearch Service 搭配使用。首先,S3 客戶可以使用 S3 或 OpenSearch 主控台,將所有向量作為新的無伺服器集合從 S3 向量索引匯出到 OpenSearch Serverless。如果您在 S3 Vectors 上原生建置,則可以受益於能夠選擇性地使用 OpenSearch Serverless 來處理具有即時查詢需求的工作負載。其次,如果您是受管 OpenSearch 客戶,則現在可以選擇 S3 Vectors 作為可以低於 1 秒延遲查詢之向量資料的引擎。然後,OpenSearch 將自動使用 S3 Vectors 作為向量的基礎引擎,並且您可以使用 OpenSearch API 更新和搜尋向量資料。您可以取得 S3 Vectors 的成本效益,而無需對應用程式執行變更。
Amazon S3 和 IPv6
全部開啟S3 事件通知
全部開啟Amazon S3 Transfer Acceleration
全部開啟要進一步了解 AWS 實作,請參閱 Storage Gateway 常見問答集的「檔案」部分。
安全性
全部開啟如需 AWS 安全的詳細資訊,請參閱 AWS 安全頁面;如需 S3 安全資訊,請造訪 S3 安全頁面和 S3 安全最佳實務指南。
依預設,您的物件資料和物件中繼資料會保留在您放置物件的單一 Dedicated Local Zone 內。儲存貯體管理和遙測資料 (包括儲存貯體名稱、容量指標、CloudTrail 日誌、CloudWatch 指標、來自 AWS Key Management Service (KMS) 的客戶管理金鑰,以及 Identity and Access Management (IAM) 政策) 都會儲存回父 AWS 區域中。或者,其他儲存貯體管理功能 (例如 S3 批次操作) 可將包含儲存貯體名稱和物件名稱的管理中繼資料儲存在父 AWS 區域中。
您可以使用 AWS VPC 管理主控台、AWS Command Line Interface (AWS CLI)、AWS SDK 或 API 建立介面 VPC 端點。若要進一步了解,請瀏覽文件。
如需詳細資訊,請瀏覽 IAM Access Analyzer 文件。
S3 Access Grants
全部開啟S3 Access Points
全部開啟Amazon S3 Access Points 是端點,這些端點可簡化任何與 S3 搭配使用的應用程式或 AWS 服務的資料存取管理。S3 Access Points 可搭配 S3 儲存貯體和 Amazon FSx for OpenZFS 檔案系統使用。您可以透過建立存取點來控制和簡化不同應用程式或使用者的資料存取方式,這些存取點具有針對每個應用程式或使用者量身打造的名稱和許可。
結合使用 S3 Access Points 和 S3 儲存貯體,您不再需要透過上百個不同許可規則,每個都需要撰寫、閱讀、追踪、稽核,才能管理單一複雜的儲存貯體政策。相反,您可以針對每個儲存貯體建立數百個存取點,每個存取點提供通往儲存貯體的自訂路徑,並有獨特的主機名稱,以及針對透過存取點發出的任何請求強制執行特定許可和網路控制的存取政策。
將 S3 Access Points 與 FSx for OpenZFS 搭配使用,您可以透過 S3 API 存取 FSX 資料,就像資料位於 S3 中一樣。藉助此功能,您可以存取位於 FSx for OpenZFS 中的檔案資料,以便與支援 S3 的各種人工智慧、機器學習和分析服務和應用程式搭配使用,而且檔案資料將繼續存放在 FSx for OpenZFS 檔案系統上。
藉助 S3 存取點,您可以使用 S3 API 存取 Amazon FSx for OpenZFS 中的檔案資料,而無需將資料移至 S3。連接至 FSx for OpenZFS 檔案系統的 S3 存取點的運作方式與連接至 S3 儲存貯體的 S3 存取點的工作方式相似,即透過 S3 提供資料存取,並由存取政策控制存取權,而資料繼續儲存在 FSx for OpenZFS 檔案系統或 S3 儲存貯體中。例如,一旦 S3 存取點連接至 FSx for OpenZFS 檔案系統,客戶就可以將存取點與生成式 AI、機器學習、分析服務和處理 S3 的應用程式搭配使用來存取其 FSx for OpenZFS 資料。
耐用性和資料保護
全部開啟Amazon S3 結合使用 Content-MD5 檢查總和、安全雜湊演算法 (SHA) 及循環冗餘檢查 (CRC) 來驗證資料完整性。Amazon S3 會對靜態資料執行這些檢查總和,並使用冗餘資料修復任何差異。此外,最新的 AWS SDK 會自動計算所有上傳的高效率 CRC 型檢查總和。 S3 會獨立驗證這些檢查總和,並且只有在確認資料完整性在公用網際網路傳輸中依然得到維持後才接受物件。如果使用不提供預先計算的檢查總和的 SDK 版本來上傳物件,則 S3 會計算整個物件的 CRC 型檢查總和,即使是分段上傳。檢查總和儲存在物件中繼資料中,因此可隨時用於驗證資料完整性。您可以從五種受支援的檢查總和演算法中進行選擇,以對上傳和下載請求進行資料完整性檢查。可以根據應用程式需求選擇 SHA-1、SHA-256、CRC32、CRC32C 或 CRC64NVME 檢查總和演算法。您可以在從 S3 存放或擷取資料時自動計算和驗證檢查總和,並且可以隨時使用 HeadObject S3 API、GetObjectAttributes S3 API 或 S3 Inventory 報告來存取檢查總和資訊。在將資料串流到 S3 時計算檢查總和可節省您的時間,因為可以一次驗證和傳輸資料,而不是執行兩個連續操作。使用檢查總和進行資料驗證是資料持久性的最佳實務,這些功能提高了效能並降低了執行此作業的成本。
2) 當月第 16 天:您對同一儲存貯體中的 5 GB (5,368,709,120 個位元組) 資料執行了 PUT 操作,使用與第 1 天的原始 PUT 操作相同的金鑰。
分析上述操作的儲存費用時,請注意,在第 15 天寫入 5 GB 物件時,第 1天的 4 GB 物件並未從儲存貯體刪除。相反,這 4 GB 物件作為舊版本保留,5 GB 物件成為儲存貯體中的最近寫入的物件版本。月底時:總位元組小時使用量
= [4,294,967,296 個位元組 x 31 天 x (24 小時/天)] + [5,368,709,120 個位元組 x 16 天 x (24 小時/天)] = 5,257,039,970,304 位元組小時。轉換為 GB 月:
5,257,039,970,304 位元組小時 x (1 GB/1,073,741,824 個位元組) x (1 月/744 小時) = 每月 6.581 GB 成本是根據 Amazon S3 定價頁面上您區域的目前費率來計算。
如需進一步了解,請瀏覽 S3 Object Lock 使用者指南。
S3 Object Lock 有兩種設定模式。在控制模式下部署時,具有特定 IAM 許可的 AWS 帳戶能夠移除物件版本的 WORM 保護。如果需要更強的不變性才能符合法規,您可以使用「合規模式」。在合規模式下,任何使用者 (包含根帳戶) 都無法移除 WORM 保護。
否,一旦啟用 S3 Object Lock,就無法停用儲存貯體的 S3 Object Lock 或 S3 版本控制。
若要開始在啟用 S3 Object Lock 時使用 S3 複寫從儲存貯體複寫物件,您可以在相同或不同 AWS 區域中以及在相同或不同 AWS 帳戶中指定目的地儲存貯體,在來源儲存貯體中新增複寫組態。您可以選擇複寫 S3 儲存貯體層級的所有物件,或是使用 S3 物件標籤篩選共用前綴層級或物件層級上的物件。您還需要指定具有執行複寫作業所需許可的 AWS Identity and Access Management (IAM) 角色。您可以使用 S3 主控台、AWS API、AWS CLI、AWS SDK 或 AWS CloudFormation 來啟用複寫,並且必須針對來源和目的地儲存貯體啟用 S3 版本控制。此外,若要從啟用 S3 Object Lock 的儲存貯體複寫物件,您的目的地儲存貯體也必須啟用 S3 Object Lock。如需詳細資訊,請參閱設定 S3 複寫和使用 S3 Object Lock 與 S3 複寫的文件。
是,若要從啟用 S3 Object Lock 的儲存貯體複寫物件,您需要在用來設定複寫之 IAM 角色中的來源儲存貯體上授予兩個新許可:s3:GetObjectRetention 和 s3:GetObjectLegalHold。或者,如果 IAM 角色具有 s3:Get* 許可,則滿足要求。如需詳細資訊,請參閱使用 S3 Object Lock 與 S3 複寫的文件。
否,從 S3 Object Lock 儲存貯體複寫時支援 S3 複寫的所有功能,例如 S3 相同區域複寫 (S3 SRR)、S3 跨區域複寫 (S3 CRR)、用來追蹤進度的 S3 複寫指標、S3 複寫時間控制 (S3 RTC) 和 S3 批次複寫。
您可以使用 S3 批次複寫從啟用 S3 Object Lock 的儲存貯體複寫現有物件。如需複寫現有物件的詳細資訊,請參閱 S3 批次複寫的文件。
儲存類別
全部開啟在決定哪個 S3 儲存類別最適合您的工作負載時,請考慮資料的存取模式和保留時間,以進行優化,為資料的整個生命週期取得最低的總成本。許多工作負載擁有變化 (使用者產生的內容)、不可預測 (分析、資料湖) 或未知 (新應用程式) 的存取模式,這也是 S3 Intelligent-Tiering 應作為預設儲存類別以自動節省儲存成本的原因。如果您了解資料的存取模式,則可以遵循以下指引。S3 Standard 儲存類別是經常存取資料的理想之選,如果您每月存取資料超過一次,這就是最佳選項。S3 Standard-Infrequent Access 是最少保留一個月且每月僅存取一兩次之資料的理想之選。Amazon S3 Glacier 儲存類別類專為資料封存而設,為您提供最高的效能、最大的擷取靈活性和最低成本的雲端封存儲存。您現在可以從針對不同存取模式和儲存持續時間最佳化的三種封存儲存類別中進行選擇。針對需要立即存取的封存資料,例如醫學映像、新聞媒體資產或基因體資料,請選擇 S3 Glacier Instant Retrieval 儲存類別,這是一種封存儲存類別,可提供最低成本的儲存和毫秒級擷取。針對不需要立即存取但需要靈活且免費擷取大型資料集的封存資料,例如備份或災難復原使用案例,請選擇 S3 Glacier Flexible Retrieval,幾分鐘內即可擷取,或在 5-12 小時內免費大量擷取。若要在長效封存存儲 (如合規封存和數位媒體保存) 節省更多費用,請選擇 S3 Glacier Deep Archive,這是雲端中成本最低的儲存,資料擷取時間為 12 小時內。透過在多個裝置上和在 AWS 區域中物理隔離的 AWS 可用區域中重複存放資料,所有這些儲存類別可以提供多可用區域 (AZ) 彈性。
對於彈性要求較低的資源,可以選取單一可用區域儲存類別,例如 S3 One Zone-Infrequent Access,以降低成本。如果您擁有現有 AWS 區域無法滿足的資料落地或隔離需求,可以使用適用於 AWS Dedicated Local Zones 的 S3 儲存類別或 S3 on Outposts 機架,將資料儲存在特定周邊設施中。
S3 Intelligent-Tiering
全部開啟S3 Intelligent-Tiering 沒有最小物件大小,但是小於 128 KB 的物件不符合自動方案分類的資格。這些較小的物件可以存放在 S3 Intelligent-Tiering 中,但是永遠使用經常存取方案的費率收費,且無需監控和自動化費用。如果想要在 S3 Intelligent-Tiering 上標準化為新建資料的預設儲存類別,則您可以透過在 S3 PUT API 請求標頭上指定 INTELLIGENT-TIERING,來修改應用程式。S3 Intelligent-Tiering 是針對 99.9% 的可用性和 99.999999999% 的耐用性設計的,並自動提供相同的低延遲時間和 S3 Standard 高輸送量效能。您可以使用 AWS Cost Explorer 衡量封存即時存取方案的其他節省金額。
只需支付低廉的監控和自動化費用,S3 Intelligent-Tiering 便會監控存取模式並自動將物件移至低延遲和高輸送量的存取方案,以及兩個選擇加入的非同步封存存取方案 (客戶可以由此為非同步存取資料取得最低的雲端儲存成本)。
S3 Intelligent-Tiering 沒有最小應計費物件大小,但是小於 128KB 的物件不符合自動方案分類的資格。 這些小物件不會受到監控,且永遠使用經常存取方案的費率收費,但不需要監控和自動化費用。對於在 S3 Intelligent-Tiering 中封存至封存存取方案或深度封存存取方案的每個物件,Amazon S3 使用 8 KB 的儲存空間儲存物件名稱和其他中繼資料 (以 S3 Standard 儲存費率計費),並使用 32 KB 的儲存空間儲存索引和相關中繼資料 (以 S3 Glacier Instant Retrieval 和 S3 Glacier Deep Archive 的儲存費率計費)。
S3 標準
全部開啟S3 Express One Zone
全部開啟建立目錄儲存貯體後,您可以透過 S3 主控台使用「匯入」選項,從相同 AWS 區域內將資料匯入 S3 Express One Zone 儲存類別。匯入可讓您選擇要從中匯入資料的字首或儲存貯體,簡化複製資料到 S3 目錄儲存貯體,而無需個別指定要複製的所有物件。S3 Batch Operations 會複製所選取字首或一般用途儲存貯體中的物件,您可以透過 S3 Batch Operations 工作詳細資訊頁面監控匯入複製工作的進度。
在至少 3 個月的期間內未請求活動的 S3 目錄儲存貯體將轉換為非作用中狀態。處於非作用中狀態時,目錄儲存貯體暫時無法存取讀取和寫入。非作用中儲存貯體會保留所有儲存、物件中繼資料和儲存貯體中繼資料。現有的儲存費用將適用於非作用中儲存貯體。在對非作用中儲存貯體發出存取請求時,該儲存貯體會在幾分鐘內轉換為作用中狀態。在此過渡期間,讀取和寫入將傳回 503 SlowDown 錯誤代碼。
假設您在 S3 Express One Zone 中儲存 10 GB 的資料 30 天,總共進行 1,000,000 次寫入和 9,000,000 次讀取,並以請求大小 10 KB 使用 Athena 進行存取。然後,您在 30 天結束前刪除 1,000,000 個檔案。假設您的儲存貯體位於美國東部 (維吉尼亞北部) 區域,則儲存和請求費用按以下方式計算:儲存費用
總位元組小時使用量 = 每月 10 GB
儲存成本總計 = 10 GB-月 x 0.11 USD = 1.10 USD 請求費用
1,000,000 個 PUT 請求:1,000,000 個請求 x 0.00113 USD/1,000 = 1.13 USD
9,000,000 個 GET 請求:9,000,000 個請求 x 0.00003 USD/1,000 = 0.27 USD
1,000,000 個 DELETE 請求 = 1,000,000 個請求 x 0.00 USD (無費用) = 0 USD 資料上傳費用:10 KB/1,048,576 x 1,000,000 x 0.0032 USD = 0.03 USD
資料擷取費用:10 KB/1,048,576 x 9,000,000 x 0.0006 USD = 0.05 USD
總費用 = 1.10 USD + 1.13 USD + 0.27 USD + 0.03 USD + 0.05 USD = 2.58 USD 範例 2:
假設您每天儲存 8 小時工作負載 10 TB 的資料進行機器學習訓練,然後將其刪除。在 8 小時工作負載中,您執行 5,242,880 次寫入和 10,485,760 次讀取,達到 2 MB 的請求大小。假設您執行此操作 30 天 (一個月)。儲存費用
總位元組-小時使用量 = [10,995,116,277,760 位元組 x 30 天 x (8 小時/天)] = 2,638,827,906,662,400 位元組-小時 = 每月 3303.77 GB
儲存成本總計 = 3303.77 GB x 0.11 USD = 363.41 USD 請求費用
5,242,880 PUT 請求/天:5,242,880 請求 x 30 x 0.00113 USD/1,000 = 177.73 USD
10,485,760 GET 請求/天:10,485,760 請求 x 30 x 0.00003 USD/1,000 = 9.44 USD
5,242,880 DELETE 請求/天:5,242,880 請求 x 0.00 USD (無費用) = 0 USD 資料上傳費用:2MB /1024 x 5,242,880 x 30 x 0.0032 USD = 983.04 USD
資料擷取費用:2MB/1024 x 10,485,760 x 30 x 0.0006 USD = 368.64 USD
總費用 = 363.41 USD + 177.73 USD + 9.44 USD + 983.04 USD + 368.64 USD = 1,902.26 USD
S3 Standard-Infrequent Access (S3 Standard-IA)
全部開啟S3 One Zone-Infrequent Access (S3 One Zone-IA)
全部開啟Amazon S3 Glacier Instant Retrieval 儲存類別
全部開啟Amazon S3 Glacier Flexible Retrieval 儲存類別
全部開啟注意:S3 Glacier Flexible Retrieval 還可透過原始的直接 Glacier API 和 Amazon S3 Glacier 管理主控台使用。為了透過存取完整的 S3 功能集 (包括生命週期管理、S3 複寫、S3 Storage Lens 等) 獲得增強的體驗,我們建議使用 S3 API 和 S3 管理主控台來使用 S3 Glacier 功能。
使用 S3 Glacier 儲存類別佈建容量單位,您可以支付指定月份的固定預付費用,以確保從 S3 Glacier Flexible Retrieval 快速擷取的擷取容量可用性。您可以每月購買兩個佈建容量單位,以增加可以擷取的資料量。每個容量單位確保每五分鐘至少可執行三次快速擷取,且提供最高每秒 150 MB/s 的擷取輸送量。如果您的工作負載需要在幾分鐘內高度可靠且可預測地存取您的資料子集,您應購買佈建的擷取容量。若沒有佈建容量,在高需求期間可能不會接受快速擷取。如果您在任何情況下都需要存取快速擷取,建議您購買佈建的擷取容量。
您可以使用 Amazon S3 主控台、購買佈建容量 REST API、AWS 開發工具包或 AWS CLI 購買佈建容量。佈建容量單位從購買日期和時間 (即開始日期) 起持續一個月。該容量單位在過期日期到期,即開始日期後一個月至最近的秒。如需佈建容量定價資訊,請參閱 Amazon S3 定價。
每個物件 1.000032 GB x 100,000 個物件 = 100,003.2 GB S3 Glacier 儲存。
每個物件 0.000008 GB x 100,000 個物件 = 0.8 GB S3 Standard 儲存。
費用是根據 Amazon S3 定價頁面上 AWS 區域的目前費率來計算。如需其他 Amazon S3 定價範例,請前往 S3 計費常見問答集,或使用 AWS 定價計算工具。
針對每個儲存物件,S3 Glacier Flexible Retrieval 還需要 40 KB 的額外中繼資料。這包括按識別和擷取資料所需的 S3 Glacier Flexible Retrieval 費率對 32 KB 中繼資料計費。並且,額外的 8 KB 資料按 S3 Standard 費率收費,這是針對封存至 S3 Glacier Flexible Retrieval 的物件,保留使用者定義名稱和中繼資料所需的費率。這讓您能夠使用 S3 LIST API 或 S3 庫存報告,取得所有 S3 物件的即時清單。請檢視 Amazon S3 定價頁面,以取得 Amazon S3 Glacier Flexible Retrieval 定價的相關資訊。
Amazon S3 Glacier Deep Archive
全部開啟您也可以使用 AWS Snowball 遷移資料。Snowball 使用專為安全傳輸設計的實體儲存裝置,加快將數 TB 甚至數 PB 的資料移入和移出 AWS 的速度。使用 Snowball 可協助克服大規模資料傳輸時會遭遇的挑戰,包括昂貴的網路費用、冗長的傳輸時間以及安全方面的考量。最後,您可以使用 AWS Direct Connect 建立從內部部署到 AWS 的專用網路連線。在許多情況下,Direct Connect 可以降低網路成本、提高頻寬輸送量,還有提供比網際網路連接更為一致的網路體驗。
S3 on Outposts
全部開啟儲存管理
全部開啟如需進一步了解,請瀏覽 S3 物件標籤使用者指南。
如果您想要使用 SQL 查詢關於 S3 物件的資訊以快速識別生成式 AI、分析和其他使用案例的特定資料集,則應該使用 Amazon S3 Metadata。S3 Metadata 可以近乎即時地保持中繼資料更新,因此您可以使用任何與 Iceberg 相容的用戶端執行 SQL 查詢,透過物件中繼資料尋找物件。例如,您可以使用 SQL 查詢傳回符合特定篩選條件的物件清單,如過去 30 天內在任何儲存貯體中新增的物件。
S3 Metadata 旨在自動產生中繼資料,提供有關上傳到儲存貯體中的物件的附加資訊,並讓您得以在唯讀資料表中查詢這些中繼資料。這些中繼資料表儲存在 Amazon S3 Tables 中,後者在 Apache Iceberg 上建置,並提供在 S3 內儲存和查詢資料表式資料的受管方式。S3 Metadata 建立和維護系統層級中繼資料,例如物件大小、自訂中繼資料 (例如標籤和物件上傳期間使用者定義的中繼資料) 以及事件中繼資料 (例如傳送請求的 IP 位址)。儲存貯體中的資料出現變更時,S3 Metadata 會近乎即時地更新以反映最新變更。然後,您可以使用與 Iceberg 相容的各種 AWS 分析服務和開放原始碼工具查詢中繼資料表,包括 Amazon Athena、Amazon QuickSight 和 Apache Spark。
只需在 S3 主控台中按幾下即可開始使用 S3 Metadata。只需選取您要在其上啟用 S3 Metadata 的一般用途 S3 儲存貯體,S3 就會分析儲存貯體中的資料,並建置一個完全受管的 Apache Iceberg 資料表,其中包含所有物件的中繼資料。在幾分鐘內,您就可以使用任何支援 Apache Iceberg 的查詢引擎或工具開始查詢中繼資料。
您的 S3 Metadata 資料表會儲存在 AWS 帳戶中名為 aws-s3 的 AWS 受管資料表內。您的資料表將是唯讀的,僅 S3 具有寫入、更新或刪除中繼資料的許可。
S3 Metadata 將中繼資料儲存在帳戶中的兩個受管資料表內:日誌資料表和即時庫存資料表。
S3 Metadata 日誌資料表提供儲存貯體內所執行變更的檢視。向您的一般用途 S3 儲存貯體新增、更新和移除物件時,對應的變更將近乎即時地反映在日誌資料表中。日誌資料表有助於了解應用程式的行為以及識別對資料集執行的任何變更非。例如,您可以為日誌資料表編寫 SQL 查詢,以尋找與篩選條件相符的 S3 物件,如過去 30 天內新增的物件、作用中請求者新增的物件或過去一週內存在中繼資料變更的物件。
S3 Metadata 即時庫存資料表包含儲存貯體中所有物件的完整清單。即時庫存資料表每小時更新,並包含 S3 所知的所有物件相關資訊。即時庫存資料表有助於根據物件中繼資料中產生的特性來探索或識別儲存貯體的資料集。例如,您可以使用即時庫存資料表來識別用於機器學習的訓練資料集,將其用於儲存成本最佳化練習,或協助強制執行管控控制。
將新物件新增至儲存貯體時,您會在幾分鐘內看到日誌資料表中的響應項目,而在下一個每小時重新整理時,您將看到即時庫存資料表中的響應項目。在現有儲存貯體上啟用 S3 Metadata 時,S3 將自動啟動回填操作,為所有現存物件產生中繼資料。此回填操作通常會在幾分鐘內完成,但如果您現有的資料集包含數百萬或數十億個 S3 物件,則可能需要幾個小時。
S3 庫存報告可針對 Amazon S3 同步清單 API 提供已排程的替代方案。您可以設定 S3 庫存,針對 S3 儲存貯體或字首,每日或每週提供物件及其對應中繼資料的 CSV、ORC 或 Parquet 檔案輸出。使用 S3 庫存可簡化並加速商業工作流程和大數據任務。您也可以使用 S3 庫存驗證物件的加密和複寫狀態,以滿足商業、合規和法規需求。 進一步了解 Amazon S3 庫存使用者指南。
S3 Tables 提供專用 S3 儲存,用於以 Apache Parquet、Avro 和 ORC 格式儲存結構化資料。在資料表儲存貯體中,您可以直接在 S3 中建立資料表作為一級資源。這些資料表可以使用以身分或資源為基礎的政策中定義的資料表層級許可來進行保護,並且可以透過支援 Apache Iceberg 標準的應用程式或工具來存取。當您在資料表儲存貯體中建立資料表時,S3 中的基礎資料會儲存為 Parquet、Avro 或 ORC 檔案。然後,S3 會使用 Apache Iceberg 標準來儲存所需的中繼資料,以便您的應用程式可查詢該資料。S3 Tables 包括用戶端資料庫,而查詢引擎會使用該資料庫來導覽和更新資料表儲存貯體中資料表的 Iceberg 中繼資料。此程式庫與用於資料表操作的更新的 S3 API 結合,可讓多個用戶端安全地讀取和寫入資料表。隨著時間的推移,S3 會透過重寫或「壓縮」物件來自動最佳化基礎 Parquet、Avro 或 ORC 資料。壓縮可最佳化 S3 上的資料,以提高查詢效能。
只需幾個簡單步驟即可開始使用 S3 Tables,而無需在 S3 以外建立任何基礎設施。首先,在 S3 主控台中建立資料表儲存貯體。作為透過主控台建立第一個資料表儲存貯體的環節,與 AWS Analytics 服務的整合會自動進行,這就使 S3 能夠將帳戶和區域中的所有資料表儲存貯體和資料表自動填入 AWS Glue Data Catalog。之後,各種 AWS 查詢引擎 (例如 Amazon Athena、EMR 和 Redshift) 目前就可以存取 S3 Tables。接下來,您可以按一下以從 S3 主控台使用 Amazon Athena 建立資料表。位於 Athena 中之後,您可以快速開始填入新資料表並查詢它們。
或者,您也可以透過 AWS Glue Data Catalog 使用 Iceberg REST Catalog 端點來存取 S3 Tables,這可讓您探索整個資料資產,包括所有資料表資源。您也可以直接連線至個別資料表儲存貯體端點,以探索該儲存貯體內的所有 S3 Tables 資源。這可讓您與支援 Apache Iceberg REST Catalog 規格的任何應用程式或查詢引擎一起使用 S3 Tables。
與在一般用途 Amazon S3 儲存貯體中儲存 Iceberg 資料表相比,查詢效能提高 3 倍,每秒交易量 (TPS) 提高 10 倍。這是因為資料表儲存貯體會自動壓縮資料表的基礎 Parquet、Avro 或 ORC 資料,以最佳化查詢效能,而且專門建置的儲存空間預設支援高達 10 倍的 TPS。
資料表儲存貯體可讓您將資源政策套用至整個儲存貯體或單個資料表。可以使用 PutTablePolicy 和 PutTableBucketPolicy API 來套用資料表儲存貯體政策。資料表層級政策可讓您根據與之關聯的邏輯資料表來管理資料表儲存貯體中的資料表許可,而不必了解個別 Parquet、Avro 或 ORC 檔案的實體位置。此外,S3 封鎖公開存取始終會套用到您的資料表儲存貯體。
資料表儲存貯體支援具有 Parquet、Avro 或 ORC 資料的 Apache Iceberg 資料表格式。
如果您有興趣進一步了解 S3 批次操作,請觀看教學課程視訊和瀏覽文件。
您也可以指定一個 S3 生命週期政策,在一段特定時間過後刪除物件。您可以利用此政策驅動的自動化操作來輕鬆快速地降低儲存成本和節省時間。在每個規則中,您都可以指定字首、時間期間、轉移至 S3 標準 – IA、S3 單區域 – IA、S3 Glacier Instant Retrieval、S3 Glacier Flexible Retrieval、S3 Glacier Deep Archive 和/或過期。例如,您可以建立一個規則,規定將帶有常見字首 "logs/" 且已建立 30 天的所有物件封存到 S3 Glacier Flexible Retrieval,而且這些物件將於建立日起的 365 天後到期。
您還可以建立單獨的規則,規定僅帶有前綴 "backups/" 且自建立後已有 90 天的所有物件開始失效。S3 生命週期政策同時適用於現有物件和新的 S3 物件,進而協助您能針對所有目前資料和 S3 中儲存的任何新資料優化儲存、最大限度地節省成本,且無須耗時手動檢查和移轉資料。
在生命週期規則內,前綴欄位用於識別要遵守規則的物件。若要將規則套用於個別物件,請指定鍵值名稱。若要將規則套用於一組物件,請指定它們的共同前綴 (例如 "logs/")。您可以指定轉換動作和過期動作以存檔或刪除物件。關於時間期限,您可以指定一個建立日期 (如 2015 年 1 月 31 日) 或自建立之日算起的天數 (如 30 天),以便在此日期或超過此天數後將物件存檔或刪除。您可為不同前綴建立多條規則。
儲存分析和洞見
全部開啟S3 Storage Lens 儀表板圍繞四種主要類型的問題進行組織,可以針對您的儲存回答這些問題。在 Summary (摘要) 篩選條件中,可以探究與整體儲存用量和活動趨勢有關的頂層問題。例如,「我的總位元組計數和請求計數可以隨時間增長多快?」 在 Cost Optimization (成本最佳化) 篩選條件中,您可以探究與降低儲存成本有關的問題,例如,「我是否可以透過保留較少的非當前版本來節省資金?」 透過「資料保護和存取管理」(Data Protection and Access Management) 篩選條件,您可以回答有關保護資料安全的問題,例如:「可否保護我的儲存裝置免受意外或故意刪除?」 最後,使用效能和事件篩選器,您可以探索改善工作流程效能的方法。上述每道問題都代表淺層次的查詢,這些查詢有可能引發深入的分析。
系統會自動為整個帳戶提供一個預設的儀表板,而您可以選擇建立適用於所在 AWS 組織、特定區域或帳戶中儲存貯體的其他自訂儀表板。您可以設定多個自訂儀表板,如果需要在存儲分析中進行某些邏輯區隔 (例如在儲存貯體上進行區隔以代表各種內部團隊),這些自訂儀表板將發揮作用。預設情況下,您的儀表板會取得 S3 Storage Lens 免費指標,但您可以選擇升級,以取得 S3 Storage Lens 進階指標和建議 (需額外付費)。S3 Storage Lens 進階指標有 7 個不同的選項:活動指標、進階成本最佳化指標、進階資料保護指標、詳細狀態碼指標、前綴彙總、CloudWatch 發佈和 Storage Lens 群組彙總。此外,對於每個儀表板,您可以啟用指標匯出,並可透過其他選項指定目標儲存貯體和加密類型。
S3 Storage Lens 提供了兩種指標方案。免費指標預設為啟用,所有 S3 客戶無需額外付費即可使用。S3 Storage Lens 的進階指標和建議定價詳細資訊可在 S3 定價頁面上找到。使用 S3 Storage Lens 免費指標,您可以在儲存貯體層級取得 28 個指標,而且可以在儀表板中存取 14 天的歷史資料。使用 S3 Storage Lens 進階指標和建議,您可以取得 35 個額外指標、前綴層級彙總、CloudWatch 指標支援,自訂物件中繼資料篩選附 S3 Storage Lens 群組,並且可以在儀表板中存取 15 個月的歷史資料。
就地查詢
全部開啟複寫
全部開啟您可以在 S3 複寫文件中進一步了解生命週期組態和複寫。
可以。S3 複寫可讓客戶將其資料複寫到相同或不同 AWS 區域中的多個目標儲存貯體。進行設定時,您只需在現有複寫組態中指定新的目標儲存貯體,或使用多個目標儲存貯體建立新的複寫組態。對於指定的每個新目標,您可以靈活地選擇目標儲存貯體的儲存類別、加密類型、複寫指標和通知、複寫時間控制 (RTC) 以及其他屬性。
問:我可以使用 S3 複寫設定 S3 儲存貯體之間的雙向複寫嗎?
請造訪 Amazon S3 定價頁面以取得有關 S3 複寫定價的更多詳細資訊。
在主動到主動組態中,S3 多區域存取點可以考量網路壅塞和請求應用程式的位置等因素,透過 AWS 網路,將您的請求動態路由至最接近的資料副本。S3 多區域存取點將您的請求路由至離您的用戶端最近的 AWS 位置,然後透過全球私有 AWS 網路路由至 S3。在任一組態中,S3 多區域存取點都允許您利用 AWS 的全球基礎設施,同時保持簡單的應用程式架構。
S3 CRR 和 S3 多區域存取點是互補的功能,能夠彼此合作複寫跨 AWS 區域的資料,然後自動將請求路由至延遲最低的複寫副本。S3 多區域存取點可幫助您管理跨 AWS 區域的請求,而 CRR 允許您跨 AWS 區域移動資料以建立獨立的副本。您可以結合使用 S3 多區域存取點和 CRR,來建立可由單個全球端點尋址的複寫多區域資料集。
使用 S3 多區域存取點在 AWS 之內路由請求時,只須為處理的每個 GB 支付低廉的每 GB 資料路由費用,以及支付 S3 請求、儲存、資料傳輸和複寫的標準費用。如果您的應用程式在 AWS 之外執行,並透過網際網路存取 S3,S3 多區域存取點會自動路由您的請求,使其經過 AWS 節點,透過全球私有 AWS 網路,依據存取延遲路由到距離最近的資料副本,藉此提高效能。在您將透過網際網路提出的請求加速時,必須支付資料路由費用和網際網路加速費用。S3 多區域存取點網際網路加速定價,會隨著來源用戶端和目的地 AWS 區域是在同一位置或不同位置而異,而且是在標準 S3 資料傳輸定價以外額外收費。 使用 S3 多區域存取點容錯移轉控制,您只需支付標準 S3 API 費用即可檢視每個區域目前的路由控制狀態,並提交任何路由控制變更以啟動容錯移轉。瀏覽 Amazon S3 定價頁面和資料傳輸標籤以進一步了解定價資訊。
是,您可將 S3 多區域存取點的基礎儲存貯體設定為「請求者付費」儲存貯體。使用「請求者付費」時,請求者會支付與端點用量關聯的所有費用,包括與儲存貯體和多區域存取點關聯的請求費用和資料傳輸費用。通常,如果您想要共用資料,但不產生與他人存取資料關聯的費用,則會將儲存貯體設定為「請求者付費」儲存貯體。 一般而言,儲存貯體擁有者會支付與其儲存貯體關聯的所有 Amazon S3 儲存費用。若要進一步了解,請瀏覽 S3 請求者付費。
S3 主控台提供了一個簡單的引導式工作流程,只需三個簡單的步驟即可快速設定在 S3 上執行多區域儲存所需的一切。首先,建立一個 Amazon S3 多區域存取端點,並指定您要在其間進行複寫和容錯移轉的 AWS 區域。您可在建立時輸入擁有儲存貯體的帳戶 ID,將多個 AWS 帳戶中的儲存貯體新增至新的 S3 多區域存取點。其次,針對 S3 多區域存取端點後面的每個 AWS 區域和 S3 儲存貯體,指定它們的路由狀態是主動還是被動,其中主動 AWS 區域接受 S3 資料請求流量,且在您啟動容錯移轉時,被動區域才會被路由。最後,設定 S3 跨區域複寫規則,在區域及/或帳戶之間同步 S3 中的資料。然後,您可以在幾分鐘內隨時在 AWS 區域之間啟動容錯移轉,以轉移您的 S3 資料請求,並在 Amazon CloudWatch 中監控 S3 流量轉移至新的作用中 AWS 區域的過程。或者,您也可以使用 AWS CloudFormation,將多區域儲存的設定自動化。在 S3 上設定多區域儲存時所有必要的建構區塊,包括 S3 多區域存取點,都受到 CloudFormation 支援,可讓您在 S3 主控台以外,將可重複的設定程序自動化。