亚马逊AWS官方博客
Tag: Data Lake
Data Analytics Foundations数据分析基座总览
亚马逊云科技大中华区专业服务团队(AWS Professional Services)发布了第一版数据分析基座快速部署解决方案(Data Analytics Foundations, DAF),提供一套解耦封装的功能模块,基于AWS的云原生服务进行了基础设施即代码IaC化的开发,功能面包括:数据整合、数据存储、数据处理、流程编排、目录和发现、资源监控、数据服务、数据管理和访问安全控制等,可以按需一键部署到AWS账号环境中。
Amazon Glue集成Delta Lake构建事务型数据湖上的流式处理
本篇博客会使用开源Delta Lake结合Amazon Glue, 简化构建数据湖的方式去解决上述问题。会带您一步一步地在Amazon上部署近实时的流式数据入湖的方案,最终在数据湖上实现海量数据upsert以及事务的管理能力,即事务型的数据湖。
自动驾驶数据湖(四):可视化
云上自动驾驶数据湖参考架构和落地实践。
使用 Amazon MSK、Apache Flink 和 Apache Hudi 实现流批一体的数据湖架构
这篇文章中,我们使用 Lambda 架构,介绍如何分析业务,以及如何以数据湖为本来形成流批一体的架构。
自动驾驶数据湖(三):图像处理流程管道
云上自动驾驶数据湖参考架构和落地实践。
自动驾驶数据湖(二):图像处理和模型训练
云上自动驾驶数据湖参考架构和落地实践。
使用 Debezium 将 MySQL 数据导出到 Amazon S3
在这篇文章中,我们来梳理下如何结合开源工具 Debezium 和 Amazon S3 Sink Connector,把 MySQL 数据库中的数据导出为 Parquet 格式,并存到 Amazon S3 桶中。
PB 级 HDFS 格式数据迁移到 Amazon S3 数据湖最佳实践
随着数据源和数据量的增加,存储新连接数据的需求也在增长。企业客户使用 Hadoop 分布式文件系统 (HDFS) 作为本地 Hadoop 应用程序的数据湖存储库。客户正在将他们的PB级数据迁移到 AWS,以获得更安全、可扩展、敏捷且经济高效的解决方案。
基于无服务器架构和事件驱动的 Data Lake 数据移动
本文探讨一种基于亚马逊云科技无服务器架构和事件驱动的数据移动方案(Replication Kit, Replikit),以满足数据在数据湖上特定场景下的数据发布需求。Replikit可以帮助实现:数据文件的多路定向输出、可跨AWS Partition分区的数据移动、数据移动同时的数据格式转换、多种网络环境以及长期或短期凭证授权下的数据移动。
在 AWS 上构建自动驾驶和 ADAS 数据湖
本博客介绍了如何使用此参考架构构建自动驾驶数据湖。我们讨论的工作流范围从如何提取数据、为机器学习准备数据、将 ADAS 系统和车辆传感器的输出进行编目、对其进行标注、自动检测场景,到管理那些将其移动到有组织的数据湖构造所需的各种工作流。开发 AWS 自动驾驶和 ADAS 数据湖参考架构之前,我们曾与众多客户合作应对实现这一目标所面临的挑战。