亚马逊AWS官方博客

使用 Apache Airflow、Genie 和 Amazon EMR 编排大数据工作流:第 2 部分

在 AWS 上运行大数据 ETL 工作流的大型企业的运营规模很大,它们为很多内部终端用户提供服务,并且同时运行数千个管道。再加上需要持续更新和扩展大数据平台以第一时间掌握新框架和最新版本的大数据处理框架,这便需要高效的架构和组织结构,既能简化大数据平台的管理,又能方便对大数据应用进行访问。
在此博文系列的第 1 部分中,您已经学习了如何使用 Apache Airflow、Genie 和 Amazon EMR 管理大数据工作流。
本博文将指导您部署 AWS CloudFormation 模板、配置 Genie 以及运行在 Apache Airflow 中创作的示例工作流。

Read More

使用 Apache Airflow、Genie 和 Amazon EMR 编排大数据工作流:第 1 部分

在 AWS 上运行大数据 ETL 工作流的大型企业的运营规模很大,从而为很多内部终端用户提供服务,并且同时运行数千个管道。再加上需要持续更新和扩展大数据平台以第一时间掌握新框架和最新版本的大数据处理框架,这便需要高效的架构和组织结构,既能简化大数据平台的管理,又能方便对大数据应用进行访问。
此博文介绍了可帮助集中平台团队维护大数据平台以同时服务数千个 ETL 工作流的架构,并且简化了实现该目的所需的操作任务。

Read More

数据魔方 – 快速在 Amazon EMR 上部署 Apache Kylin 进行大数据分析

Amazon EMR是业界领先的原生云大数据平台,它极大地简化了在AWS上运行各种大数据框架进行大数据的处理和分析工作。通过使用这些框架和相关的开源项目(如Apache Spark、Apache Hive和Apache HBase等),并结合 Amazon EC2 的Auto Scaling动态弹性和 Amazon S3 的可扩展高可靠存储,您可以轻松、快速、经济高效地处理大规模海量数据。通过EMR ,您可以在数分钟内启动大数据集群,并且无需担心基础设施管理的任务,EMR会帮助完成这些工作,您只需要集中精力进行数据分析即可。

Read More

AWS 被评为 Gartner’s 云人工智能开发人员服务魔力象限的领导者

上周,我与 AWS 的一位大客户高管进行了交谈,并且有幸能够与他们分享 Amazon 文化的各个方面。我与他们讨论了我们的领导原则和逆向工作法模型。像客户经常问到的一样,他们也询问了我们对这个行业未来 5 年或 10 年的看法。这个问题确实难以回答,因为我们 90% 的产品路线图是由客户需求驱动的。坦白来说,我确实不知道未来会是什么样的,但是我知道,它肯定会帮助我们的客户实现目标并完成其愿景。

Read More

Amazon EMR 推出适用于 Apache Spark 的 EMR Runtime

Amazon EMR宣布推出了适用于 Apache Spark 的 Amazon EMR Runtime,这是一种针对 Apache Spark 进行了性能优化的环境,此runtime在 Amazon EMR 集群上默认处于活动状态。适用于 Spark 的 EMR runtime速度最快可达 EMR 5.16 的 32 倍,并且与开源 Spark API实现了 100% 的兼容性。这使得工作负载运行速度更快,无需对应用程序进行任何更改即可节省计算成本。

Read More

快速构建基于 AWS Glue 的抽取跨区域 MySQL 8 的数据管道

AWS Glue 是一种完全托管的数据目录和 ETL工具,如果您是首次使用AWS Glue详细演示和概念讲解可参照此博客。当前AWS Glue原生的JDBC连接库不支持MySQL 8,本文展示如何利用自定义的JDBC库连接外部数据源。本文以MySQL 8 举例,但任何支持JDBC连接的数据源都适用于此方法。由于目前国内宁夏区域的成本更经济,所以生产系统的数据库在北京,但数据处理系统在宁夏的情况并不少见。

Read More

了解最新的 AWS 精英,包括首批物联网精英!

AWS 精英计划旨在致敬和表彰当地社区中以分享 AWS 知识和以多种方式促进对等学习而闻名的杰出领导人。AWS 精英计划随着全球社区中对 AWS 所有产品的热情而发展,现在,AWS 精英遍布 35 个国家/地区。今天,我们很高兴地介绍最新的 AWS 精英,包括波斯尼亚、印度尼西亚、尼日利亚和瑞典的首批精英,以及首批物联网精英!

Read More

Amazon Transcribe 现已推出自动对个人身份信息进行密文标记的功能

我们在 AWS re:Invent 2017 上推出了 Amazon Transcribe,这是一项自动语音识别 (ASR) 服务,可让 AWS 客户轻松地为其应用程序添加语音转文本功能。截止到撰写本文之时,Transcribe 支持 31 种语言,其中 6 种可以实现实时转录。客户呼叫(呼叫中心、电话销售等)的自动转录是 Transcribe 使用最广的使用案例,有助于为下游分析和自然语言处理任务(例如情感分析)构建数据集。因此,应删除任何个人身份信息 (PII),保护客户隐私并遵守当地法律和法规。可以想象,手动执行这项操作非常繁琐、耗时而且容易出错,因此 Amazon Transcribe 现在推出了支持对 PII 进行密文标记的功能。

Read More

适用于 AWS Lambda 的 Dart 运行时简介

Dart 是一种发展迅速的开源编程语言,并且能为一些快速发展的开源项目提供支持,如 Flutter。借助自定义 AWS Lambda 运行时,您可以在 AWS Lambda 中运行 Dart。以 Dart 编写函数有助于让您使用自己的技能开发移动应用程序,从而建立无服务器后端。您也可以在应用程序和后端之间共享代码,并且使用静态类型语言的强大功能。本篇博文将阐释我们如何通过自定义 Lambda 运行时来提供语言支持,以及如何以 Dart 创建 Lambda 函数。文章还将分享一些诀窍,在您的构建过程中助您一臂之力。

Read More