亚马逊AWS官方博客
回顾第一部分 – 2019 年 re:Invent 大会上的开源
又一次的 re:Invent 大会闭幕了,一切都已尘埃落定,我想要对本年度的 re:Invent 的大会和本周发布的所有开源相关公告进行一个快速汇总。如果您对移动 Web 开发、开发运营、容器、安全性、大数据和数据分析、机器学习、数据库、新兴技术等的开源代码感兴趣,您可以阅读所有的公告并补上 re:Invent 的会议,如果您想用自己舒适的键盘来试试它们,请看一看研讨会。
这是三个部分的第一个部分,在这个部分,我们将讨论有关数据、分析和机器学习的所有东西。第二部分将涵盖移动 Web 开发和开发运营,第三部分将包含计算技术和新兴技术,如机器人和区块链,以及包括 Java 在内的所有其他开源领域。
大数据、数据分析和数据库
公告
我们在 re:Invent 期间发布的重要公告之一是新的 Amazon 托管 Apache Cassandra 服务。上面的公告是 Andy 的主旨演讲期间发布的公告。您也可以阅读 Matt Assay 有关如何为 Apache Cassandra 社区做贡献的博文。
同时,在 re:Invent 之前,也曾发布一些重大公告:
- Athena 联合查询(使用 Amazon Athenas 新联合查询来查询任何数据源)– 我们对很多连接器进行了开源(您可以在 https://github.com/awslabs/aws–athena–query–federation 查看 GitHub 存储库),因此客户可以贡献并创建自己的连接器。另外还可以在 Amazon Athena 联合查询上查看深入探究视频。
- 我们在 Amazon EMR 中推出了对 Apache Hudi 的支持。Hudi 是一个常见开源项目,可帮助解决需要进行插入、更新或删除等增量数据处理的使用案例(例如,符合数据隐私规定时,在该规定下,用户可调用其被遗忘的权利)。在使用 Amazon EMR 和 Apache HUDI 新增、插入、更新、删除 S3 上的数据中阅读更多内容。
- 还发布了几个与 Apache Kafka 相关的有趣公告。首先,您现在可以使用 Apache Kafka 运行完全托管的 Apache Flink 应用程序。您还可以使用 Prometheus,用于时间序列指标数据的一种开源监控系统,监控您的 MSK 集群。同时,您还可以使用兼容 Prometheus 格式指标的工具或与 Datadog、Lenses、New Relic 和 Sumo Logic 等 Amazon MSK 开放监控集成的工具。在 Amazon MSK 文档的使用 Prometheus 进行开放监控中阅读更多内容。
会议
下面的相关会议精选:
- ANT206–Andi Gutmans 主持的有关分析和数据湖的领导力会议,其中介绍了客户可以使用的很多开源技术,包括 pre:Invent 期间发布的一些新服务和功能。从这里开始非常值得!
- OPN207 – 适用于您所有数据的一种查询语言,介绍了 PartiQL 以及如何将其用于 Amazon Redshift、Amazon S3 Select 和 Amazon QLDB 等多个 AWS 服务中。此会议还介绍了开源 PartiQL 项目及您可以如何参与该项目。
- 随着最近在 EMR 中增加了 Apache Hudi 后,ANT239 – 使用 Amazon EMR 在 Amazon S3 中插入、更新和删除数据介绍了一些常见的使用案例,这些使用案例推动了此项目的创建及您如何开始使用它们。
- 如果您想要了解地更深入,您可以查看 ANT308 – 在 Amazon EMR 上运行 Apache Spark 的深入探究。
- 还有很多关于 Open Distro for Elasticsearch 的会议和研讨会。既然安全是首要任务,那么何不从 OPN204 – 保护您的 Open Distro for Elasticsearch 集群安全开始,然后再查看下面的研讨会。
- 在 ANT309 – 使用 Amazon MSK 实时回应客户需求中,了解实时分析的基础,并查出 Adobe 如何在其 Adobe 体验平台中使用 Amazon MSK。
- 还召开了涉及开源数据库技术的一些重要会议。在 DAT209 – 领导力会议:AWS 专门构建数据库中,会议的第二部分对 Amazon 托管的 Apache Cassandra 进行了更深入的探究和演示。
- 如果您想要了解有关 AWS Aurora 中的 MySQL 的更多信息,此会议可为您解惑:DAT316 – MySQL;自行管理、托管和无服务器。如果您更喜欢 PostgresSQL,则可以在下面这个听起来很熟悉的会议:DAT317 – PostgresSQL;自行管理、托管和无服务器中了解开源数据库的更多优点。如果您想更深入的了解它,请查看 DAT328 – 深入探究兼容 PostgreSQL 的 Amazon Aurora。
研讨会
- OPN302 – Open Distro for Elasticsearch
- ARC316 – 部署并监控无服务器应用程序
- ANT346 – 在 Open Distro for Elasticsearch 中通过机器学习了解您的数据
- ANT303 – 将它置于前端并对其进行监控
Machine Learning
公告
AWS 机器学习堆栈是您可以为数据科学家和 Web 开发人员提供的最具广度和深度的工具包,我们在 re:Invent 期间发布了很多公告。下面我将讨论与开源相关的
公告:
- 首先是 Kubernetes 的 Amazon Sagemaker 操作人员,可使您在 Kubernetes 上开始机器学习工作负载,将 Amazon SageMaker 添加为自定义资源。在介绍 Kubernetes 的 Amazon Sagemaker 操作人员中阅读更多内容,包括一些具体示例,然后在 GitHub 存储库 https://github.com/aws/amazon–sagemaker–operator–for–k8s 中查看代码
- Netflix 还宣布对一个新项目进行开源,即 Metaflow,一个用于数据科学的以人为中心的框架(Python 库),该项目在 Netflix 内部与数百个数据科学项目进行了较量。在此博文中,Netflix 说明了他们如何与 AWS 合作在 Metaflow 与各种 AWS 服务之间提供无缝集成。
- 我们推出了 Deep Java Library (DJL),一种在 Java 中开发 Deep Learning 模型的开源库。Deep Java Library 主页上包含至 GitHub 存储库的链接,您可以在其中找到演示代码和示例。在此公告后,很快便发布了 Deep Graph Library (DGL),该库是为了轻松实施图形神经网络模型系列而在现有深度学习框架(如 PyTorch、MXNet、Gluon 等)上构建的 Python 包。
- 最后,Deep Learning AMI、Deep Learning 容器和 Amazon SageMaker 还推出对 TensorFlow 1.15 的支持,TensorFlow 2.0 已提供在 Deep Learning AMI 上(注意此空间,它也将出现在容器和 Amazon SageMaker 上)
会议
从机器学习框架到在容器上运行机器学习和使用开源工具,我们精选了如下内容:
- 超越简单的“Hello world”示例,ADM302 – 使用 Spark 和 Amazon Sagemaker 的端到端机器学习会议继续讨论如何为机器学习工程师创建环境,以便他们可以使用 TensorFlow 构建原型和探索,然后使用 Spark 和 Amazon SageMaker 在分布式系统中进行执行。该会议详细讨论了如何生产化模型和部署。
- 如果您对 TensorFlow 感兴趣,您将希望看到有关扩展 TensorFlow 和 Sagemaker 工作负载的会议:AIM410 – 采用 Tensorflow 的深度学习应用程序,由 Mobileye 主演,以及 AIM410 – 采用 Tensorflow 的深度学习应用程序,由 Fanny Mae 主演中对另一位客户重复的此内容。
- 在 AIM412 – 使用 PyTorch 的深度学习应用程序,由 Freshworks 主演或者与另一位客户重复的会议 AIM412 – 使用 PyTorch 的深度学习应用程序,由 Autodesk 主演中从 PyTorch 团队处了解最新功能和库发布情况。
- 还有一些有关使用容器运行机器学习工作负载的重要会议。请查看 CON306 – 使用 kubeflow 在 Amazon EKS 上构建机器学习基础设施以及 AIM326 – 使用 Amazon Sagemaker 在 Kubernetes 上实施 ML 工作负载。
研讨会
AIM403 – 使用 Apache MXNet 的深度学习
在 AWS 上了解开源最新动态
希望此汇总对您有帮助。我查找了所有已上传的会议视频,但如果我有遗漏,请联系我,我将更新此汇总。记得去查看开源主页,在 Twitter 上关注我们 @AWSOpen,了解我们所有开源活动的最新动态。