发布于: Nov 22, 2022
Amazon EMR Serverless 宣布支持使用 Spark 和 Hive 工作流程读写 Amazon DynamoDB 中的数据。您现在可以直接从 EMR Serverless Spark 和/或 Hive 应用程序中导出、导入、查询和连接 Amazon DynamoDB 中的表。Amazon DynamoDB 是一个全面管理的 NoSQL 数据库,可提供个位数毫秒级延迟和可预测的性能,以及无缝的吞吐量和存储扩展性,满足高要求应用程序的延迟和吞吐量需求。
AWS 用户通常需要有效地大规模处理存储在 Amazon DynamoDB 中的数据,用于下游分析。Amazon EMR 团队构建了 emr-dynamodb-connector 并开放了其源代码,以帮助客户简化使用 Apache Spark 和 Apache Hive 应用程序对 Amazon DynamoDB 进行的访问和配置。该连接器支持多种使用案例分析,包括高效处理 Amazon DynamoDB 中的数据,或将 Amazon DynamoDB 中的表与 Amazon S3、Amazon RDS 或其他可由 Amazon EMR Serverless 访问的数据存储中的外部表进行连接。借助 Amazon EMR 版本 6.9,您可以通过 Amazon EMR Serverless 应用程序获得 Amazon DynamoDB 连接器的所有好处。您可以使用跨区域和跨账户功能访问 Amazon DynamoDB 表。
此外,我们很高兴地宣布,EMR Serverless 支持从其他 AWS 账户访问特定的 Amazon S3 桶,以处理来自 Spark 和 Hive 应用程序的数据。AWS 客户可以使用多个 AWS 账户来更好地分离不同的项目或业务线。借助跨账户功能,客户可以通过一种集中的方式来简化跨多个账户的分布式数据湖的保护和管理。借助对 Amazon S3 的跨账户访问,您可以在一个 AWS 账户中使用 EMR Serverless Spark 或 Hive 应用程序,并从其他 AWS 账户访问存储在特定桶中的数据以进行处理。
这些功能现在可以在所有提供 EMR Serverless 的区域使用。要了解更多信息,请参阅 Amazon EMR Serverless 文档。