亚马逊AWS官方博客

AWS 发布 AWS Glue DataBrew,让数据可视化准备工作提速达80%

AWS Glue全新的可视化数据准备工具,让数据科学家和数据分析师能够更快地清理和规范化数据,与传统数据准备方法相比,速度可提高80%。

日前,亚马逊云服务(AWS)宣布AWS Glue DataBrew正式可用。AWS Glue DataBrew是一款全新的可视化数据准备工具,客户无需编写代码就可以清洗和规范数据。自2016年以来,数据工程师一直使用AWS Glue来创建、运行和监控数据提取、转换和加载(ETL)作业。AWS Glue同时提供基于代码和可视化界面,大大简化了客户在云中提取、转换和加载数据的过程。数据科学家一直想要一种更简单的方法来清洗和转换这些数据,而这正是DataBrew所能提供的。通过AWS Glue DataBrew,客户可以直接从AWS数据湖、数据仓库和数据库中开展数据探索和实验,而无需编写代码。AWS Glue DataBrew为客户提供了超过250个预先构建的转换,以自动化数据准备任务(如过滤异常、标准化格式和纠正无效值)。而没有这些预先构建的转换,往往需要几天或几周的时间编写手工编码。一旦数据准备完毕,客户可以立即开始使用AWS和第三方的分析和机器学习服务来查询数据和训练机器学习模型。使用AWS Glue DataBrew不需要预付协议或费用,客户只需要为数据集的创建和运行转换付费。如欲开始使用AWS Glue DataBrew,请访问:https://aws.amazon.com/glue/features/DataBrew

为分析和机器学习准备数据涉及多个必要且耗时的任务,包括数据提取、清洗、标准化、加载和大规模ETL工作流的编排。为了大规模地提取、编排和加载数据,精通SQL或Python、Scala等编程语言的数据工程师和ETL开发者可以使用AWS Glue。ETL开发者通常更喜欢现代ETL工具中常见的可视化接口,而不是编写SQL、Python或Scala,所以AWS最近推出了AWS Glue Studio,这是一个新的可视化接口,可以帮助编写、运行和监视ETL作业,无需编写任何代码。一旦数据被可靠地移动,业务线中理解数据上下文的数据分析人员和数据科学家仍然需要对底层数据进行清洗和规范化。要清洗和规范化数据,数据分析师和数据科学家们不得不在Excel或Jupyter Notebooks中处理小批量的数据,无法适应大型数据集。或者,需要依靠稀缺的数据工程师和ETL开发者编写定制代码,执行清洗和标准化转换。为了发现数据中的异常,技术精湛的数据工程师和ETL开发者需要花费数天或数周时间编写定制工作流,将数据从不同的源中提取出来,然后透视、转置,多次切分数据,才能由数据分析师和数据科学家迭代,识别并解决数据的质量问题。在开发了这些转换之后,数据工程师和ETL开发者仍然需要安排自定义工作流,持续运行,以便能够自动地清洗和规范化新传入的数据。每次数据分析师或数据科学家想要更改或添加转换时,数据工程师和ETL开发者就需要再次提取、加载、清洗、规范化和协调数据准备任务,这个迭代过程可能需要数周到数个月的时间才能完成。结果是,客户多达80%的时间都花费在清洗和标准化数据上,而非真正地分析数据并从中提取价值。

AWS Glue DataBrew是一个AWS Glue的可视化数据准备工具,允许数据分析师和数据科学家无需编写任何代码,即可通过一个交互式、单击的可视化界面来清洗和转换数据。使用AWS Glue DataBrew,终端用户可以直接从他们的Amazon Simple Storage Service (Amazon S3)数据湖、Amazon Redshift数据仓库、Amazon Aurora和Amazon Relational Database Service ( Amazon RDS)数据库中轻松地访问、可视化地探索组织内任意数量的数据。客户无需编写代码,可以从超过250个内置函数中选择组合、透视和转置数据。AWS Glue DataBrew推荐诸如过滤异常、将数据标准化为标准日期和时间值、生成用于分析的聚合,以及纠正无效、错误分类或重复的数据等数据清洗和标准化步骤。对于复杂的任务,如将单词转换为通用的基本单词或根单词(如将“yearly”和“yearlong”转换为“year”),AWS Glue DataBrew还提供了使用高级机器学习技术,如自然语言处理(NLP)的转换。然后,用户可以将这些清洗和标准化步骤保存到工作流(称为配方)中,并将它们自动应用到未来传入的数据中。如果需要对工作流进行更改,数据分析师和数据科学家只需更新配方中的清洗和标准化步骤,并在新数据到达时自动应用它们。AWS Glue DataBrew将准备好的数据发布到Amazon S3,让客户可以很便捷地立即用于分析和机器学习。AWS Glue DataBrew是无服务器和全托管的服务,客户不需要配置、供应或管理任何计算资源。

“AWS客户正以前所未有的速度使用数据,进行分析和机器学习。然而,这些客户经常告诉我们,他们的团队在无差异的、重复的、单调的数据准备工作上花费了太多时间。” AWS数据库和分析副总裁Raju Gulabani表示,“客户喜欢像AWS Glue这样基于代码的数据准备服务的可扩展性和灵活性,同时允许业务用户、数据分析师和数据科学家无需编写代码,就可以独立地可视化地探索和试验数据,从而让客户从中受益。AWS Glue DataBrew具有一个易于使用的可视化界面,可帮助所有技术水平的数据分析师和数据科学家理解、合并、清洗和转换数据。”

AWS Glue DataBrew现已在美国东部(弗吉尼亚北部)、美国东部(俄亥俄)、美国西部(俄勒冈)、欧洲(爱尔兰)、欧洲(法兰克福)、亚太地区(悉尼)区域和亚太地区(东京)区域正式推出,其它区域也将很快推出。