亚马逊AWS官方博客
Category: AWS Big Data
AWS 教您手把手玩转 Apache Superset 可视化 Amazon S3 里的数据
本篇博客会带您一步一步地在AWS上部署Apache Superset并在Superset上创建一个展示新冠肺炎情况的Dashboard(示例如下)。新冠肺炎数据存储于Amazon S3上并通过Amazon Athena来直接查询。
使用 Amazon Athena 的联合查询和由用户定义的函数简化 ETL 数据管道
Amazon Athena 最近在预览版中增加了对联合查询及由用户定义的函数 (UDF) 的支持。请参阅使用 Amazon Athena 的全新联合查询对任何数据源进行查询,以了解更多详细信息。Jornaya 帮助营销人员智能的与市场中购买大型生活用品(如房屋、抵押贷款、汽车、保险和教育等)的消费者建立联结。
使用 Amazon EMR、Amazon SageMaker 和 AWS Service Catalog 设置 Intuit 数据湖
我们将讨论在较高层面构建 Intuit 数据湖所包含的技术和过程,包括设置账户和资源所使用的整体结构与自动化等。请关注我们这个空间的未来动态,阅读由其他合作构建 Intuit 数据湖的团队和工程师发布的关于该系统特定方面的更详细博文。
通过迁移实现架构和应用的现代化
企业需要快速创建数字化服务体系,通过向云迁移,敏捷地实现创新转型,以加速业务发展和提高客户满意度。企业的IT管理人员和信息架构师的首要任务就是了解和把握信息技术的发展趋势,提升企业的技术水平,为企业发展提供一流的构建能力。
通过 AWS Lake Formation FindMatches 转换匹配患者记录
患者匹配是实现医疗护理互通性的主要障碍之一。不匹配的患者记录和无法检索患者历史信息可能严重阻碍做出正确的临床决定,并导致漏诊或治疗延误。另外,医疗护理提供者经常会花精力去处理患者重复数据的删除,尤其当他们的数据库中的患者记录数量急速增加时。电子健康记录 (EHR) 近年来大幅优化了患者的安全和护理协调,但准确的患者匹配对很多医疗护理组织来说仍然是一项挑战。
利用 AWS Lake Formation 探索元数据:第 1 部分
数据湖是一种用于创建单个存储库以存储和分析结构化和非结构化数据的日益流行的方法。AWS Lake Formation 使您可以轻松设置、保护和管理数据湖。本博文将引导您使用 Lake Formation 来创建和探索数据湖
EMR 上的 Spark 作业优化实践
在当今数据驱动业务的时代,大数据已经成为企业业务驱动的利器之一,Amazon EMR 是一个托管集群平台,可简化在 AWS 上运行大数据框架的过程,使组织能够在几分钟内启动具有多个实例的集群,让您能够轻松经济的通过并行处理来处理各种数据工程和商业智能工作负载。在Amazon EMR中,我们经常会用到Apache Hadoop,Apache Spark等大数据框架运行我们的海量数据处理作业,而基于内存计算的Apache Spark框架,毫无疑问在批处理或是流处理领域都是EMR中最热门的点选组件之一。面向企业数据工程师,我们可能需要一两天学习并编写完我们的第一个Spark作业,而针对Spark的作业进行调整和优化则拥有不断完善的空间。
在生产中结合使用 Amazon Redshift Spectrum、Amazon Athena 和 AWS Glue 与 Node.js
在此博文中,我们解释了将带 Redshift Spectrum 的 Amazon Redshift 扩展为现代数据仓库的原因。我将介绍我们的数据增长及平衡成本和性能的需求如何促使我们采用 Redshift Spectrum。我还将分享我们的环境中的关键性能指标,并讨论提供可扩展和快速环境的额外 AWS 服务,并提供数据供我们日益增长的用户群进行立即查询。
使用 API Gateway 监管客户端与 Apache Kafka 之间的交互
在本文中,我们将演示 Amazon API Gateway 如何作为 Amazon MSK 集群和客户端之间的一个组件来解决这些问题。
Amazon MSK 是一款适用于 Apache Kafka 的完全托管的服务,借助它只需几次点击即可轻松预置 Kafka 集群,不再需要手动预置服务器、管理存储或者配置 Apache Zookeeper。Apache Kafka 是 一个开源平台,可用于构建实时的流式处理数据管道和应用程序。
使用 Amazon Athena 访问跨账户 AWS Glue 数据目录
很多 AWS 客户采用多账户策略。集中式的 AWS Glue 数据目录对于在最大程度上减少与不同账户之间元数据共享相关的管理工作来说非常重要。本文介绍了基于 Amazon Athena 在不同 AWS 账户之间查询集中式数据目录的功能。