亚马逊AWS官方博客

Category: SageMaker

Amazon SageMaker 现已推出 DeepAR 算法,用于实现更精确的时间序列预测

今天,我们推出了 Amazon SageMaker 的最新内置算法 Amazon SageMaker DeepAR。DeepAR 是一种适用于时间序列预测的监督学习算法,该算法使用递归神经网络 (RNN) 生成点预测和概率预测。我们很高兴能为开发人员提供这种可扩展的高精度预测算法,协助 Amazon 制定任务关键型决策。正如其他 Amazon SageMaker 内置算法一样,DeepAR 算法同样无需建立和维护基础设施进行训练和推理即可使用。 预测无处不在 预测是跨众多行业应用机器学习的切入点。无论是通过更好的产品需求预测优化供应链,通过预测 Web 服务器流量更有效地分配计算资源,还是通过为医院配置人员以满足患者需要进而挽救生命,几乎进行精确预测投资的所有领域都会很快得到回报。 在 Amazon,我们利用预测协助制定各个应用领域的业务决策。其中一些应用领域包括预测我们订单履行中心的产品和劳动力需求 (尤其是在“会员日”、“黑色星期五”和“网络星期一”这类重要日期),或者确保我们可以灵活扩展所有 AWS 客户的 AWS 计算和存储容量。Amazon 的科学家们开发了诸如 DeepAR 这样的算法,以高度准确地解决 Amazon 同等规模的这类实际商业应用的问题。 DeepAR 算法的亮点 与自回归移动平均模型 (ARIMA) 或指数平滑法 (ES) (许多开源和商用软件包中都采用这两种技术进行预测) 等传统预测技术相比,DeepAR 预测算法可以提供更高的预测精度。而且,DeepAR 算法还支持其他功能和场景,特别适合实际应用。 冷启动预测 当我们想要为一个历史数据很少或无任何历史数据的时间序列生成预测时,会出现冷启动情况。这种情况在实践中常有发生,比如在引入新产品或推出新的 AWS 区域服务时。ARIMA 或 ES 等传统方法完全依赖于单个时间序列的历史数据,因此在冷启动情况下通常不太准确。我们以服装类商品 (例如运动鞋) 预测为例。 基于神经网络的算法 (例如 DeepAR) 可以根据其他类型运动鞋首次发布时的销售模式,学习新款运动鞋销售的典型行为。 通过学习训练数据中多个相关时间序列的关系,DeepAR 可以提供比现有算法更精确的预测。 概率预测 […]

Read More

在 Amazon EMR 中构建由 Spark 支持的 Amazon SageMaker Notebook

在 2017 年 AWS re:Invent 上介绍的 Amazon SageMaker 可以为数据科学和机器学习工作流程提供完全托管服务。Amazon SageMaker 的其中一个重要组成部分是功能强大的 Jupyter Notebook 接口,该接口可用来构建模型。通过将 Notebook 实例连接到 Amazon EMR 上运行的 Apache Spark 集群,可以增强 Amazon SageMaker 的功能。Amazon EMR 是一个用于处理大量数据的托管框架。通过将二者结合,可以基于大量数据构建模型。 Spark 是一个可以快速处理大数据的开源集群计算框架,并且包含适用于机器学习工作负载的 MLlib。为了方便在 Amazon SageMaker Notebook 与 Spark EMR 集群之间建立连接,需要使用 Livy。Livy 是一个开源 REST 接口,无需 Spark 客户端便可从任何位置与 Spark 集群交互。 本博文将向您介绍如何运行 Spark EMR 集群,如何配置必要的安全组以便在 Amazon SageMaker 与 EMR 之间进行通信,以及如何打开 Amazon […]

Read More

Amazon SageMaker – 加快机器学习进程

机器学习是许多初创公司和企业的关键技术。尽管经历了数十年的投入和改进,开发、训练和维护机器学习模型的过程仍然繁琐且欠缺通用性。将机器学习技术集成到应用程序中的过程往往需要一个专家团队进行为期数月的调整和修补,而且设置还不一致。企业和开发人员需要一个端到端、开发到生产的机器学习管道。 Amazon SageMaker 简介 Amazon SageMaker 是一种完全托管的端到端机器学习服务,数据科研人员、开发人员和机器学习专家可以快速、大规模地构建、训练和托管机器学习模型。这极大地推进了您所有的机器学习工作,让您能够将机器学习技术迅速融入生产应用程序。 Amazon SageMaker 包含三个主要组件: 编写:零设置托管式 Jupyter 笔记本 IDE,可进行数据探索、清理和预处理。您可以在一般实例类型或 GPU 驱动实例上运行上述功能。 模型训练:分布式模型构建、训练和验证服务。您可以使用内置的通用监督式和非监督式学习算法和框架,也可以借助 Docker 容器创建自己的训练。训练可以扩展到数十个实例以支持更快的模型构建。从 S3 读取训练数据,并将模型构件存放到 S3。模型构件是数据相关的模型参数,而不是允许您从模型进行推理的代码。这种问题隔离策略简化了将经过 Amazon SageMaker 培训的模型部署到物联网设备等其他平台的过程。 模型托管:一种模型托管服务,可通过 HTTPS 终端节点调用模型获取实时推理。这些终端节点能够扩展以支持流量,允许您同时对多个模型进行 A/B 测试。同样,您可以使用内置软件开发工具包构建这些终端节点,也可以利用 Docker 镜像提供自定义配置。 这些组件中的每一个都可以独立使用,这使得使用 Amazon SageMaker 填补现有管道中的空白变得极其简单。也就是说,在端到端管道中使用此服务时,您可以获得一些非常强大的功能。 使用 SageMaker 我打算构建、训练和部署一个基于 Apache MXNet 的图像分类器。我将使用 Gluon 语言、CIFAR-10 数据集和 ResNet V2 模型架构。 使用 Jupyter 笔记本编写 创建笔记本实例时,它会启动一个 ML 计算实例,其中包含深度学习应用中常见的 Anaconda […]

Read More

AWS DeepLens 扩展:自建项目

AWS DeepLens 提供了极好的机会来学习新技术,例如深度学习和物联网 (IoT),以及构建可以解决实际问题的创新系统。该设备和服务附带有一组预定义的项目,使得从头开始运行非常简单。它设计作为开放平台,使得新手和有经验的开发人员都能构建 (和分享) 新的激动人心的项目。 在本博客文章中,您将逐步完成构建自己项目的过程,包括以下步骤: 训练深度学习模型 (使用 Amazon SageMaker) 优化经过训练的模型以在 AWS DeepLens 边缘设备上运行 开发 AWS Lambda 函数以加载模型并用于在视频流上运行推理 使用 AWS Greengrass 将 AWS Lambda 函数部署到 AWS DeepLens 设备 将边缘 AWS Lambda 函数传递到云中,用于发送命令和接收推理输出 营利 训练深度学习模型 (使用 Amazon SageMaker) Amazon SageMaker 是面向繁重的数据科学的另一项新服务。它汲取了 Amazon 数据科学家在 Amazon.com 众多业务领域的多年经验,从建议引擎到 Alexa、Amazon Go、Amazon Robotics 乃至其他无穷的基于机器学习的系统。 虽然本篇博客帖子所涵盖的内容极为有趣,不过设计和构建良好机器学习模型的完整过程远不止这些。实际上,通过将深度学习模型部署到 DeepLens 设备,然后传输回来并从输出中获益,一旦通过这个流程实现生产,您就会发现自己会有越来越多的时间构建模型,来解决真实世界的新问题。 对于机器学习新手以及数据科学专家而言,当您在 Amazon SageMaker […]

Read More