- AWS 解决方案库›
- 有关如何使用 Earth on AWS 扩展地理空间数据湖的指导
有关如何使用 Earth on AWS 扩展地理空间数据湖的指导
概览
本指南将介绍如何在 AWS 上构建可扩展的地理空间数据存储库,并简化数据管道的设计以及帮助更快地访问原始数据。通过整合 AWS 开放数据注册表中的 Earth on AWS 数据集,无需将这些数据存储在自己的数据湖中,从而降低成本和复杂性。本指南还提供了与多种分发机制的集成,并支持从基本空间查询到复杂分析的各种处理需求。使用这些功能,您可以简化地理空间工作流并提高数据的可访问性。
工作原理
这些技术细节包含一张架构图,用于说明如何有效使用本解决方案。该架构图展示了关键组件及其相互作用,并逐步概述了架构的结构和功能。
Well-Architected 支柱
上面的架构图是按照 Well-Architected 最佳实践创建的解决方案示例。要做到完全的良好架构,您应该遵循尽可能多的 Well-Architected 最佳实践。
CloudWatch 为您的应用程序提供全面的监控和可观察性。它能够捕获和分析事件、日志和指标,以使您实时了解系统的运行状况和性能。通过使用 CloudWatch,您可以主动检测问题、更有效地排除问题并更快地响应事件。这样的持续监控有助于确保更高的应用程序可靠性,同时使您能够在整个 AWS 基础设施中保持最佳性能。
AWS 提供了一整套安全服务和功能,以保护您的数据和资源。AWS 身份和访问管理 (IAM) 支持精细的访问控制,允许您设置权限策略,限制谁可以访问和管理 AWS 资源。数据保护通过多种方式进行:A mazon S3 对静态数据采用服务器端加密和存储桶策略,而 AWS密钥管理服务 (AWS KMS) 提供客户管理的密钥,用于加密亚马逊S3、亚马逊关系数据库服务 (Amazon RDS) 和DynamoDB中的数据。
本指南使用连接到容器任务网络接口的安全组来提高网络安全性,从而保护虚拟私有云(VPC)资源。本指南还将配置用来限制子网级访问权限的网络访问控制列表,并利用 VPC 端点将流量保持在 AWS 环境内,从而保护传输中数据。此外,使用亚马逊 ECS 、 Lambda 和 SageMaker 等托管服务可减轻您在责任分担模式下的安全维护负担。
为本指南选择的服务可以为您的应用程序提供高可用性、持久性和可扩展性。Lambda 通过在多个可用区 (AZ) 上运行函数来增强可靠性,这样,即使一个可用区出现故障,事件处理也能继续。Aurora PostgreSQL 提供强大的高可用性选项,可跨三个可用区以六种方式复制数据,从而提高容错能力,即使使用单个数据库实例也是如此。
为了控制扩展和弹性,Step Fun ctions 允许您管理处理速率,防止下游服务过载并避开速率限制。它还协调无状态组件,这些组件本质上更具可扩展性、更强大、更易于管理。Amazon S3 支持数据耐久性,提供自动跨区域复制,而 DynamoDB 和 Aurora 都为时间点恢复提供灵活的备份功能。
本指南使用 AWS 托管式服务,这些服务可针对工作负载需求自动进行调整。例如,Lambda 会根据传入的事件量自动扩展以处理查询和数据处理。Step Function s 管理工作流程编排,通过并行处理或排队任务来动态调整以适应增加的负载。
对于数据存储和访问,本指南使用了三项关键服务:
- Amazon S3 无需预置即可容纳高吞吐量和大量请求,针对各种访问模式进行了优化。
- DynamoDB 提供灵活的查询功能,可自动扩展。
- Aurora 会自动调整计算和内存资源以满足工作负载需求。
这些服务共同提供了一个能够高效地处理不同工作负载的可扩展基础设施,因此,您的应用程序可以在需求波动时保持性能和响应能力,而无需手动干预或执行复杂的容量规划。
本指南通过多种策略优化成本:
- 存储:使用来自 Registry of Open Data on AWS 的数据集,建议将原始文件下载到您的数据湖,以进行多次处理迭代。
- 计算:使用无服务器服务进行自动扩展,使用竞价型实例进行批处理和按需故障转移,并建议为适用于 PostgreSQL 的 Amazon RDS 预留实例。
- 数据传输:使用 VPC 端点、在单个 VPC 内包含处理、消除对于在组件之间使用额外传输服务的需求。
这些方法最大限度地减少了存储、计算和联网方面的开支,同时保持了地理空间处理工作负载的性能。
通过使用托管式无服务器服务,本指南对后端资源进行纵向扩展和横向扩展以满足需求,从而最大限度地减少后端资源对环境的影响。此外,您可以监控 CloudWatch 指标,确保扩展环境不会过度配置,从而进一步减少对环境的影响。
免责声明
找到今天要查找的内容了吗?
请提供您的意见,以便我们改进网页内容的质量。