回顾第一部分 – 2019 年 re:Invent 大会上的开源

Andy Jassy 在 2019 年 re:Invent 大会上发表了主旨演讲。

又一次的 re:Invent 大会闭幕了，一切都已尘埃落定，我想要对本年度的 re:Invent 的大会和本周发布的所有开源相关公告进行一个快速汇总。如果您对移动 Web 开发、开发运营、容器、安全性、大数据和数据分析、机器学习、数据库、新兴技术等的开源代码感兴趣，您可以阅读所有的公告并补上 re:Invent 的会议，如果您想用自己舒适的键盘来试试它们，请看一看研讨会。

这是三个部分的第一个部分，在这个部分，我们将讨论有关数据、分析和机器学习的所有东西。第二部分将涵盖移动 Web 开发和开发运营，第三部分将包含计算技术和新兴技术，如机器人和区块链，以及包括 Java 在内的所有其他开源领域。

大数据、数据分析和数据库

公告

我们在 re:Invent 期间发布的重要公告之一是新的 Amazon 托管 Apache Cassandra 服务。上面的公告是 Andy 的主旨演讲期间发布的公告。您也可以阅读 Matt Assay 有关如何为 Apache Cassandra 社区做贡献的博文。

同时，在 re:Invent 之前，也曾发布一些重大公告：

Athena 联合查询（使用 Amazon Athenas 新联合查询来查询任何数据源）– 我们对很多连接器进行了开源（您可以在 https://github.com/awslabs/aws–athena–query–federation 查看 GitHub 存储库），因此客户可以贡献并创建自己的连接器。另外还可以在 Amazon Athena 联合查询上查看深入探究视频。
我们在 Amazon EMR 中推出了对 Apache Hudi 的支持。Hudi 是一个常见开源项目，可帮助解决需要进行插入、更新或删除等增量数据处理的使用案例（例如，符合数据隐私规定时，在该规定下，用户可调用其被遗忘的权利）。在使用 Amazon EMR 和 Apache HUDI 新增、插入、更新、删除 S3 上的数据中阅读更多内容。
还发布了几个与 Apache Kafka 相关的有趣公告。首先，您现在可以使用 Apache Kafka 运行完全托管的 Apache Flink 应用程序。您还可以使用 Prometheus，用于时间序列指标数据的一种开源监控系统，监控您的 MSK 集群。同时，您还可以使用兼容 Prometheus 格式指标的工具或与 Datadog、Lenses、New Relic 和 Sumo Logic 等 Amazon MSK 开放监控集成的工具。在 Amazon MSK 文档的使用 Prometheus 进行开放监控中阅读更多内容。

会议

下面的相关会议精选：

ANT206–Andi Gutmans 主持的有关分析和数据湖的领导力会议，其中介绍了客户可以使用的很多开源技术，包括 pre:Invent 期间发布的一些新服务和功能。从这里开始非常值得！
OPN207 – 适用于您所有数据的一种查询语言，介绍了 PartiQL 以及如何将其用于 Amazon Redshift、Amazon S3 Select 和 Amazon QLDB 等多个 AWS 服务中。此会议还介绍了开源 PartiQL 项目及您可以如何参与该项目。
随着最近在 EMR 中增加了 Apache Hudi 后，ANT239 – 使用 Amazon EMR 在 Amazon S3 中插入、更新和删除数据介绍了一些常见的使用案例，这些使用案例推动了此项目的创建及您如何开始使用它们。
如果您想要了解地更深入，您可以查看 ANT308 – 在 Amazon EMR 上运行 Apache Spark 的深入探究。
还有很多关于 Open Distro for Elasticsearch 的会议和研讨会。既然安全是首要任务，那么何不从 OPN204 – 保护您的 Open Distro for Elasticsearch 集群安全开始，然后再查看下面的研讨会。
在 ANT309 – 使用 Amazon MSK 实时回应客户需求中，了解实时分析的基础，并查出 Adobe 如何在其 Adobe 体验平台中使用 Amazon MSK。
还召开了涉及开源数据库技术的一些重要会议。在 DAT209 – 领导力会议：AWS 专门构建数据库中，会议的第二部分对 Amazon 托管的 Apache Cassandra 进行了更深入的探究和演示。
如果您想要了解有关 AWS Aurora 中的 MySQL 的更多信息，此会议可为您解惑：DAT316 – MySQL；自行管理、托管和无服务器。如果您更喜欢 PostgresSQL，则可以在下面这个听起来很熟悉的会议：DAT317 – PostgresSQL；自行管理、托管和无服务器中了解开源数据库的更多优点。如果您想更深入的了解它，请查看 DAT328 – 深入探究兼容 PostgreSQL 的 Amazon Aurora。

研讨会

Machine Learning

公告

AWS 机器学习堆栈是您可以为数据科学家和 Web 开发人员提供的最具广度和深度的工具包，我们在 re:Invent 期间发布了很多公告。下面我将讨论与开源相关的
公告：

首先是 Kubernetes 的 Amazon Sagemaker 操作人员，可使您在 Kubernetes 上开始机器学习工作负载，将 Amazon SageMaker 添加为自定义资源。在介绍 Kubernetes 的 Amazon Sagemaker 操作人员中阅读更多内容，包括一些具体示例，然后在 GitHub 存储库 https://github.com/aws/amazon–sagemaker–operator–for–k8s 中查看代码
Netflix 还宣布对一个新项目进行开源，即 Metaflow，一个用于数据科学的以人为中心的框架（Python 库），该项目在 Netflix 内部与数百个数据科学项目进行了较量。在此博文中，Netflix 说明了他们如何与 AWS 合作在 Metaflow 与各种 AWS 服务之间提供无缝集成。
我们推出了 Deep Java Library (DJL)，一种在 Java 中开发 Deep Learning 模型的开源库。Deep Java Library 主页上包含至 GitHub 存储库的链接，您可以在其中找到演示代码和示例。在此公告后，很快便发布了 Deep Graph Library (DGL)，该库是为了轻松实施图形神经网络模型系列而在现有深度学习框架（如 PyTorch、MXNet、Gluon 等）上构建的 Python 包。
最后，Deep Learning AMI、Deep Learning 容器和 Amazon SageMaker 还推出对 TensorFlow 1.15 的支持，TensorFlow 2.0 已提供在 Deep Learning AMI 上（注意此空间，它也将出现在容器和 Amazon SageMaker 上）

会议

从机器学习框架到在容器上运行机器学习和使用开源工具，我们精选了如下内容：

超越简单的“Hello world”示例，ADM302 – 使用 Spark 和 Amazon Sagemaker 的端到端机器学习会议继续讨论如何为机器学习工程师创建环境，以便他们可以使用 TensorFlow 构建原型和探索，然后使用 Spark 和 Amazon SageMaker 在分布式系统中进行执行。该会议详细讨论了如何生产化模型和部署。
如果您对 TensorFlow 感兴趣，您将希望看到有关扩展 TensorFlow 和 Sagemaker 工作负载的会议：AIM410 – 采用 Tensorflow 的深度学习应用程序，由 Mobileye 主演，以及 AIM410 – 采用 Tensorflow 的深度学习应用程序，由 Fanny Mae 主演中对另一位客户重复的此内容。

在 AIM412 – 使用 PyTorch 的深度学习应用程序，由 Freshworks 主演或者与另一位客户重复的会议 AIM412 – 使用 PyTorch 的深度学习应用程序，由 Autodesk 主演中从 PyTorch 团队处了解最新功能和库发布情况。
还有一些有关使用容器运行机器学习工作负载的重要会议。请查看 CON306 – 使用 kubeflow 在 Amazon EKS 上构建机器学习基础设施以及 AIM326 – 使用 Amazon Sagemaker 在 Kubernetes 上实施 ML 工作负载。

研讨会

AIM403 – 使用 Apache MXNet 的深度学习

在 AWS 上了解开源最新动态

希望此汇总对您有帮助。我查找了所有已上传的会议视频，但如果我有遗漏，请联系我，我将更新此汇总。记得去查看开源主页，在 Twitter 上关注我们 @AWSOpen，了解我们所有开源活动的最新动态。

亚马逊AWS官方博客

回顾第一部分 – 2019 年 re:Invent 大会上的开源

大数据、数据分析和数据库

公告

会议

研讨会

Machine Learning

公告

会议

研讨会

在 AWS 上了解开源最新动态

了解

资源

开发人员

帮助