概览
工作原理
这些技术细节包含一张架构图,用于说明如何有效使用本解决方案。该架构图展示了关键组件及其相互作用,并逐步概述了架构的结构和功能。
自信地进行部署
Well-Architected 支柱
上面的架构图是按照 Well-Architected 最佳实践创建的解决方案示例。要做到完全的良好架构,您应该遵循尽可能多的 Well-Architected 最佳实践。
Lambda 函数、 Step Fun ctions 状态机和 AWS G lue 任务输出日志在 A mazon Cloud Watch 日志中整理诊断和状态信息。存储在 DynamoDB 中的数据谱系、作业审计数据和数据质量结果允许将指标和审计数据发布到操作仪表板。使用 CodePipeline 自动部署数据湖环境以及跨堆栈对基础设施和 ETL 资源进行一致标记,有助于在 AWS 云开发套件 (AWS CDK) 中进行集中定制。CloudWatch 中针对步进函数、 Lambda 和 AWS G lue 的诊断日志和指标为有效监控数据管道任务进度和性能提供了近乎实时的透明度。
对 S3 存储桶的公开访问被阻止,需要对传输中的数据进行加密,使用 AWS 密钥管理服务 (AWS KMS) 的服务器端加密可保护静态数据。对所有 S3 存储桶的访问记录在专用的访问日志存储桶中,以进行权限审查和维护。AWS Glue 任务中的内置数据屏蔽和哈希转换可保护敏感数据,定期自动执行数据管道可减少手动错误或未经授权的访问风险。
跨多个可用区存储数据的 Amazon S3 和自动跨三个可用区复制数据的 DynamoDB 固有的耐久性和可用性增强了可靠性。Amazon S3 版本控制可保存、检索和恢复对象的每个版本,而 DynamoDB 删除保护则保护生产环境。此外,CodePipeline 和基础设施即代码支持在多个区域和账户之间轻松复制资源。
经过优化的 AWS Gl ue 任务最大限度地减少了消耗的数据处理单元 (DPU) 时间,用于清理和消费层的高效 Amazon S3 存储可加快数据扫描和查询速度。DynamoDB 可高效存储数据沿袭、数据质量结果、任务审计数据、查找转换数据和代币化源数据,并提供可扩展性和低延迟性能。A thena 和 AWS G lue 的无服务器特性可在不移动数据的情况下提供高效的数据访问。
Amazon S3 生命周期策略会自动将数据传输到 Amazon S3 Glacier 存储,DynamoDB 表可以根据需要使用按需容量模式和不频繁访问存储类别。DynamoDB 生存时间 (TTL) 会自动删除过期的项目,而 AWS G lue DPU 会自动扩展和弹性容量调整计算资源的大小。A mazon S3 、 AWS G lue 和 DynamoDB 等完全托管的无服务器服务仅对消耗的资源收费,无需基础设施维护开销,从而优化成本。
用于在 “清理和消费 S3 存储桶” 中存储数据的高效 Parquet 文件格式可减少查询数据的能源影响。与本地或预置的数据库服务器相比,DynamoDB 的无服务器设计和按需容量模式最大限度地减少了碳足迹。使用 AWS Graviton 处理器的 Lambda 函数比传统的计算机工作负载更节能。完全托管的无服务器服务有助于确保数据湖仅在需要时消耗资源,从而最大限度地减少对环境的影响。
免责声明
找到今天要查找的内容了吗?
请提供您的意见,以便帮助我们提高页面内容的质量