亚马逊AWS官方博客
EMR 上的 Spark 作业优化实践
在当今数据驱动业务的时代,大数据已经成为企业业务驱动的利器之一,Amazon EMR 是一个托管集群平台,可简化在 AWS 上运行大数据框架的过程,使组织能够在几分钟内启动具有多个实例的集群,让您能够轻松经济的通过并行处理来处理各种数据工程和商业智能工作负载。在Amazon EMR中,我们经常会用到Apache Hadoop,Apache Spark等大数据框架运行我们的海量数据处理作业,而基于内存计算的Apache Spark框架,毫无疑问在批处理或是流处理领域都是EMR中最热门的点选组件之一。面向企业数据工程师,我们可能需要一两天学习并编写完我们的第一个Spark作业,而针对Spark的作业进行调整和优化则拥有不断完善的空间。
BuildforCOVID19 全球在线骇客马拉松
AWS 诚邀全世界的构建者参加 #BuildforCOVID19,使用您专长的技术来解决一系列建议的主题和挑战领域,其中部分主题和领域由世界卫生组织等卫生合作伙伴提供。本骇客马拉松欢迎各种关注本地和全球的解决方案,对所有开发者开放。
在生产中结合使用 Amazon Redshift Spectrum、Amazon Athena 和 AWS Glue 与 Node.js
在此博文中,我们解释了将带 Redshift Spectrum 的 Amazon Redshift 扩展为现代数据仓库的原因。我将介绍我们的数据增长及平衡成本和性能的需求如何促使我们采用 Redshift Spectrum。我还将分享我们的环境中的关键性能指标,并讨论提供可扩展和快速环境的额外 AWS 服务,并提供数据供我们日益增长的用户群进行立即查询。
初创公司如何通过 Huntr(一个漏洞悬赏平台)来帮助保护开源生态系统
本文为 418sec 联合创始人 Adam Nygate、Jake Mimoni 和 Jamie Slome 的客座博文,主要介绍初创公司如何通过 Huntr来帮助保护开源生态系统。
使用 API Gateway 监管客户端与 Apache Kafka 之间的交互
在本文中,我们将演示 Amazon API Gateway 如何作为 Amazon MSK 集群和客户端之间的一个组件来解决这些问题。
Amazon MSK 是一款适用于 Apache Kafka 的完全托管的服务,借助它只需几次点击即可轻松预置 Kafka 集群,不再需要手动预置服务器、管理存储或者配置 Apache Zookeeper。Apache Kafka 是 一个开源平台,可用于构建实时的流式处理数据管道和应用程序。
使用 Amazon Athena 访问跨账户 AWS Glue 数据目录
很多 AWS 客户采用多账户策略。集中式的 AWS Glue 数据目录对于在最大程度上减少与不同账户之间元数据共享相关的管理工作来说非常重要。本文介绍了基于 Amazon Athena 在不同 AWS 账户之间查询集中式数据目录的功能。
玩转GPU实例 – 我的Linux 工具箱
本文主要讨论如何使用脚本创建GPU指令集。
使用 AWS Glue 和 Amazon Redshift 分析您的 Amazon S3 支出
AWS 成本和使用情况报告 (CUR) 会追踪您的 AWS 使用情况,并提供与之相关联的预计费用。您可以配置此报告为以小时或日为间隔显示数据;在账单收费期最后结束前,它至少每天会更新一次。成本和使用情况报告会自动发送到由您指定的 Amazon S3 存储桶,可以在那里直接下载。您还可以将该报告整合到 Amazon Redshift,也可以通过 Amazon Athena 进行查询,或者把它上传到 Amazon QuickSight。
在 Amazon EMR 中使用 Apache Knox 实现边界安全
边界安全可帮助提升Apache Hadoop 集群的安全性,防止用户从集群外访问过程中带来的威胁。它与 Apache Hadoop 集群的 REST 和 HTTP 交互启用了单个的访问点的方式,简化了客户端与集群的交互。例如,在与启用 Kerberos 的集群上的服务进行交互之前,客户端应用程序必须先使用 Kinit 或 SPNEGO 获取 Kerberos tickets。在本文中,我们将逐步介绍如何设置 Apache Knox 以帮助 Amazon EMR 实现边界安全。
使用 Apache Atlas on Amazon EMR 进行元数据分类、沿袭和发现
随着数据在当今世界中的作用不断发展演变,数据治理已然成为有效数据管理的重要环节。许多组织使用数据湖作为单个存储库,存储属于组织中某个业务实体的各种格式的数据。使用元数据、分类和数据沿袭是有效利用数据湖的关键。
这篇文章将指导您了解安装在 Amazon EMR 上的 Apache Atlas 如何提供此功能。您可以使用此设置来动态分类数据并查看数据在各种过程中移动期间的数据沿袭。在此过程中,您可以在 Atlas 中使用领域专用语言 (DSL) 来搜索元数据。