亚马逊AWS官方博客
Category: Analytics
Amazon EMR实战心得浅谈
EMR实战心得浅谈
利用Apache Iceberg在亚马逊云上构建准实时数仓
大数据处理技术现今已广泛应用于各个行业,为业务解决海量存储和海量分析的需求,在构建数据湖的过程中遇到的 1.T+0 的数据落地和处理问题 2.数据修正的成本问题,aws 的emr s3+iceberg能够很好解决。
通过 Amazon Connect 与医生轻松沟通并简化患者的计费
借助 Amazon Connect,公司可以轻松实现与其联络中心的自定义集成,并能够构建针对其使用场景量身定制的远程医疗解决方案。
使用Athena (Presto) 分析本地 Oracle 数据库导出的数据
在企业环境下,混合云架构是一种常见的架构,理想环境下摄取本地Oracle数据库的数据是通过Apache Sqoop或DMS使用网络专线将数据迁移到s3存储桶,进行数据分析。但受本地条件限制,很多用户是用Oracle Datapump或者Exp/Imp将数据导出后,再将本地数据传输到s3存储桶。本文通过阐述使用上述两种不同的工具,介绍如何将数据导入s3存储桶,使用Athena做数据分析。
通过 AWS Managed Microsoft Active Directory 运行混合 Active Directory 服务
企业客户通常需要构建混合 Active Directory 解决方案,以支持在现有本地企业数据中心和 AWS Cloud 中运行的应用程序。这样做的理由有很多,例如,保持与本地旧版应用程序的集成、保持对基础设施资源的控制以及满足特定的行业合规性要求。
Alluxio on Amazon EMR 集成实践
本文档介绍了Alluxio及在Amazon EMR上部署的整体架构,并修正了Alluxio社区与Amazon EMR上集成的方案,新增加了对EMR task实例组及多主的支持
多库多表场景下使用Amazon EMR CDC实时入湖最佳实践
多库多表场景下使用Amazon EMR CDC实时入湖最佳实践
使用 AWS Step Functions 和 Amazon Athena 实现简易大数据编排
本文介绍了如何使用 AWS Step Functions 和 Amazon Athena 实现简易的大数据编排。
使用 Amazon Athena、Amazon EMR 和 AWS Glue 构建 Apache Iceberg 数据湖
大多数企业将其关键数据存储在数据湖中,您可以将来自各种来源的数据存储到集中存储中。数据由专门的大数据计算引擎处理,例如用于交互式查询的 Amazon Athena、用于 Apache Spark 应用程序的 Amazon EMR、用于机器学习的 Amazon SageMaker 和用于数据可视化的 Amazon QuickSight。
在 Amazon Athena 中使用 EXPLAIN 和 EXPLAIN ANALYZE 优化联合查询性能
Amazon Athena 是一种交互式查询服务,可使用标准 SQL 轻松分析 Amazon Simple Storage Service(Amazon S3)中的数据。Athena 是一种无服务器服务,因此您无需管理任何基础设施,而且只需为所运行的查询付费。2019 年,Athena 增加了对联合查询的支持,以便跨存储在关系、非关系、对象和自定义数据来源中的数据运行 SQL 查询。