亚马逊AWS官方博客

Category: SageMaker

机器学习的三月也疯狂!

在美国,三月中旬是上亿人观看、投注大学篮球联赛的季节。NCAA 大学篮球联赛鑫战正酣,Randall想借此机会简单介绍一下 Wesley Pasfield 的工作,他是我们的专业服务机器学习专家之一。Wesley 可以从 kenpom.com 和 College Basketball Reference 提取数据以创建模型,使用 Amazon SageMaker 嵌入的 XGBoost 算法来预测疯狂三月的结果。

Read More

如何宅在家里构建一个分图利器? – 利用 Amazon SageMaker 快速构建一个基于深度学习端到端的图像分类器

基于深度学习 (Deep Learning) 的图像分类的研究与应用已经进行的如火如荼,对大部分的业务场景来说,更是有着深刻的现实意义 – 基于图片的互联网分享社交应用,如何借助 Deep Learning 在第一时间对用户分享的图片进行实时监测,分类是一个比较典型的应用场景;又例如,电商运营可能希望对所有的产品照片按照产品属性进行自动化分类,减少人工分类的工作;另外,在工业生产线的良品率基于产品图片的自动筛检,以及辅助医疗领域对病理图片的分类等等场景都有着十分广泛的应用前景和实用价值。

当然,利用神经网络 (Neural Networks)构建的深度学习,因为其非线性的特性以及堆叠网络架构使其具备了数以百万计的模型参数在图片分类利用越来越成熟。但是,对于不具备深度学习研发能力的用户,从零构建这样的应用无疑是一种挑战。Amazon SageMaker 是一个完全托管的机器学习服务,它使一般的开发人员和数据科学家可以快速轻松地构建以任何规模的机器学习训练任务,并且提供基于API的端到端的模型部署方案以及 10 多类 Amazon 自带的典型算法,让用户无障碍地轻松构建各种典型的机器学习应用。

好了,我们今天给大家准备了一个有趣的任务 – 构建一个猫狗图片的分类器。

Read More

让神经网络触手可及 – AWS 风格

Amazon AI 的目标是通过开发 Amazon SageMaker 之类的平台来让机器学习变得大众化,而 fast.ai 的目标正好与其相同:提供平等教育机会,以便每个人都可以掌握机器学习并提高工作效率。fast.ai 的宣传语是“让神经网络触手可及。”这不是一场降低深度神经网络热门度的比赛,而是要让其吸引力和可访问性不仅仅局限于主导该领域研究的学术精英。

随着深度学习用例 (例如,计算机视觉、自然语言处理和机器翻译) 的激增,我们还发现,开发人员社区对了解机器学习及其在众多问题上的应用产生了浓厚的兴趣。在实际应用方面,“深度学习纳米学位”开发公司 Udacity 在全球的用户数量已超过 800 万。其中,5 万多名用户志在获得纳米学位,获得这些学位的很大一部分用户专注于深度学习。我们开始注意到,机器学习掀起热潮,但这方面的教育仍旧沿袭一般教育方式,从研究开始,然后才是应用。进入 fast.ai 世界,感受大规模开放在线课程 (MOOC) 无与伦比的魅力,与 10 万余名学生共同利用 AWS 云的全球网络办公环境在线学习深度学习。

Read More

Amazon SageMaker 现在推出了 AWS CloudTrail 集成

AWS 客户请求提供一种方法用来在 Amazon SageMaker 中记录活动,从而帮助满足管治及合规性要求。我很高兴地宣布,Amazon SageMaker 现在与 AWS CloudTrail 进行了集成,这项服务可用来记录、持续监控以及保留与 Amazon SageMaker API 活动相关的账户信息。无论是通过 Amazon SageMaker SDK、AWS SDK、Apache Spark SDK for Amazon SageMaker,还是通过 Amazon SageMaker 控制台进行的 Amazon SageMaker API 调用,都可以被捕获并发送到 Amazon S3 存储桶,从而提供 AWS 账户活动的事件历史记录。记录的信息包括源 IP 地址、发出请求的日期和时间、与请求关联的用户身份以及请求的参数。

Read More

基于 AWS KMS 的加密现已可用于 Amazon SageMaker 中的训练和托管

Amazon SageMaker 使用一次性密钥 (也称为瞬态密钥) 加密所连接的 ML 通用型存储卷,用以训练和托管 EC2 实例。由于这些密钥均用于加密 ML 存储卷,并且在用后立即丢弃,因此可用卷来安全地存储机密数据。卷仅可通过相关联的实例访问,而这些实例会对访问权限加以控制。在实例终止之后,ML 卷将被删除,卷中的数据将无法再访问。 对于使用通过 AWS Key Management Service (KMS) 管理的密钥的功能 – 类似于指定 KMS 主密钥 ID 时,对于附加到笔记本电脑实例的存储的加密方式,客户呼声甚高。 即日起,您就可以选择使用 KMS 主密钥加密您的训练和托管数据了。这让您可以为分布式训练和模型托管利用多种 AWS KMS 功能,例如集中密钥管理、密钥使用情况审核日志记录、主实例密钥轮换等等。 为加密训练数据,可在对 CreateTrainingJob API 的调用中指定一个 KMS 主密钥。对于托管,可在对 CreateEndpointConfig API 的调用中指定密钥。 有关 Amazon SageMaker 和 KMS 的更多信息,请参阅 Amazon SageMaker 开发人员指南。 作者简介 Kumar Venkateswar 是 AWS ML 平台团队的产品经理,该团队开发的产品包括 […]

Read More

Amazon SageMaker BlazingText:在多个 CPU 或 GPU 上并行处理 Word2Vec

今天,我们推出了 Amazon SageMaker 的最新内置算法 Amazon SageMaker BlazingText。BlazingText 是一种无监督学习算法,用于生成 Word2Vec 嵌入,即单词在大型语料库中的密集向量表示。我们很高兴构建了 BlazingText,它可以最快的速度实现 Word2Vec,供 Amazon SageMaker 用户在以下实例上使用:

单一 CPU 实例 (Mikolov 和 fastText 的原始 C 实现)
使用多个 GPU、P2 或 P3 的单一实例
多个 CPU 实例 (分布式 CPU 训练)

Read More

Amazon SageMaker 现已推出 DeepAR 算法,用于实现更精确的时间序列预测

今天,我们推出了 Amazon SageMaker 的最新内置算法 Amazon SageMaker DeepAR。DeepAR 是一种适用于时间序列预测的监督学习算法,该算法使用递归神经网络 (RNN) 生成点预测和概率预测。我们很高兴能为开发人员提供这种可扩展的高精度预测算法,协助 Amazon 制定任务关键型决策。正如其他 Amazon SageMaker 内置算法一样,DeepAR 算法同样无需建立和维护基础设施进行训练和推理即可使用。 预测无处不在 预测是跨众多行业应用机器学习的切入点。无论是通过更好的产品需求预测优化供应链,通过预测 Web 服务器流量更有效地分配计算资源,还是通过为医院配置人员以满足患者需要进而挽救生命,几乎进行精确预测投资的所有领域都会很快得到回报。 在 Amazon,我们利用预测协助制定各个应用领域的业务决策。其中一些应用领域包括预测我们订单履行中心的产品和劳动力需求 (尤其是在“会员日”、“黑色星期五”和“网络星期一”这类重要日期),或者确保我们可以灵活扩展所有 AWS 客户的 AWS 计算和存储容量。Amazon 的科学家们开发了诸如 DeepAR 这样的算法,以高度准确地解决 Amazon 同等规模的这类实际商业应用的问题。 DeepAR 算法的亮点 与自回归移动平均模型 (ARIMA) 或指数平滑法 (ES) (许多开源和商用软件包中都采用这两种技术进行预测) 等传统预测技术相比,DeepAR 预测算法可以提供更高的预测精度。而且,DeepAR 算法还支持其他功能和场景,特别适合实际应用。 冷启动预测 当我们想要为一个历史数据很少或无任何历史数据的时间序列生成预测时,会出现冷启动情况。这种情况在实践中常有发生,比如在引入新产品或推出新的 AWS 区域服务时。ARIMA 或 ES 等传统方法完全依赖于单个时间序列的历史数据,因此在冷启动情况下通常不太准确。我们以服装类商品 (例如运动鞋) 预测为例。 基于神经网络的算法 (例如 DeepAR) 可以根据其他类型运动鞋首次发布时的销售模式,学习新款运动鞋销售的典型行为。 通过学习训练数据中多个相关时间序列的关系,DeepAR 可以提供比现有算法更精确的预测。 概率预测 […]

Read More

在 Amazon EMR 中构建由 Spark 支持的 Amazon SageMaker Notebook

在 2017 年 AWS re:Invent 上介绍的 Amazon SageMaker 可以为数据科学和机器学习工作流程提供完全托管服务。Amazon SageMaker 的其中一个重要组成部分是功能强大的 Jupyter Notebook 接口,该接口可用来构建模型。通过将 Notebook 实例连接到 Amazon EMR 上运行的 Apache Spark 集群,可以增强 Amazon SageMaker 的功能。Amazon EMR 是一个用于处理大量数据的托管框架。通过将二者结合,可以基于大量数据构建模型。 Spark 是一个可以快速处理大数据的开源集群计算框架,并且包含适用于机器学习工作负载的 MLlib。为了方便在 Amazon SageMaker Notebook 与 Spark EMR 集群之间建立连接,需要使用 Livy。Livy 是一个开源 REST 接口,无需 Spark 客户端便可从任何位置与 Spark 集群交互。 本博文将向您介绍如何运行 Spark EMR 集群,如何配置必要的安全组以便在 Amazon SageMaker 与 EMR 之间进行通信,以及如何打开 Amazon […]

Read More