亚马逊AWS官方博客
Category: Artificial Intelligence
托管 Spot 训练:最高可节省 90% 的 Amazon SageMaker 训练作业成本
Amazon SageMaker 是一种完全托管的模块化机器学习 (ML) 服务,它可帮助开发人员和数据科学家轻松构建、训练和部署任意规模的模型。您可以使用内置的算法,也可以自带算法,或者使用来自 AWS Marketplace 的算法,让 ML 模型从试验走向大规模生产从未变得如此简单、快速。
Read MoreAmazon SageMaker Ground Truth 不断简化标记工作流
在 AWS re:Invent 2018 上推出的 Amazon SageMaker Ground Truth 是 Amazon SageMaker 中的一项功能,可方便客户高效准确地为机器学习训练系统所需的数据集添加标签。
Read More使用AWS Sagemaker部署的终端节点进行推荐预测的常用场景
上次我们初步介绍了使用 SageMaker 快速训练和部署 Factorization Machines 模型,接下来我们利用Endpoint进行预测模拟的实际用例。
Read More使用AWS Sagemaker训练因子分解机模型并应用于推荐系统
本博客中的实验采用国内用户对大量国内外电影的评论作为训练数据集,利用AWS SageMaker自带的因子分解机算法构建模型,通过SageMaker的超参调优服务观察参数调整对模型表现的影响。最后,以实际应用中经常会遇到的用法演示模型的预测结果。本次实验全部使用Python3.6完成,在SageMaker中选用conda_python3的Kernel。
Read More使用 EC2 C5 实例和 BigDL 来利用低精度和量化进行深度学习
在本博客中,我们将演示 BigDL,适用于 Apache Spark 的开源分布式深度学习框架,它可以利用 AWS C5 实例中提供的新功能,这些功能可以显着改善大型深度学习工作负载。具体来说,我们将展示 BigDL 如何使用 C5 实例来利用低精度和量化,以便最多将模型大小缩小 4 倍,使推理速度提升近 2 倍。
Read MoreAmazon EC2 R5实例更新 – 更快的处理器,更多内存
最近,AWS 发布了基于最新一代 Intel Xeon Scalable Platinum 处理器的全新计算密集型 Amazon EC2 C5 实例。这些实例专为计算量大的应用程序设计,并且与 C4 实例相比,性能明显改进。它们还为每个 vCPU 提供更多内存,是矢量和浮点工作负载的两倍。
在本博客中,我们将演示 BigDL,适用于 Apache Spark 的开源分布式深度学习框架,它可以利用 AWS C5 实例中提供的新功能,这些功能可以显着改善大型深度学习工作负载。具体来说,我们将展示 BigDL 如何使用 C5 实例来利用低精度和量化,以便最多将模型大小缩小 4 倍,使推理速度提升近 2 倍。
使用 Amazon SageMaker 通过自定义数据集训练模型
对于刚上手机器学习的从业人员而言,业务需求所需要呈现的结果,往往不仅是用公开数据集就能够训练出合适的模型。我们往往只有少量的业务相关数据,甚至这些数据也需要从零开始收集整合,而这之后还需要进行数据清洗、数据打标签、特定数据格式转化等复杂的制作特定数据集的步骤,这些工作会阻塞住我们前进的脚步。除了容易在数据集上举步不前外,对于所需要数据量的误解也是另外一大阻碍因素。我们总认为进行机器学习需要“大量”的数据,究竟需要多少数据?在仅有少量数据时就不能训练出准确率较高的模型?本文试图从零开始,从制作自己的数据集开始,来探讨上面提出的问题。
Read MoreAmazon SageMaker RL – Amazon SageMaker 提供的托管式强化学习
在 AWS re:Invent 2017 大会上发布的 Amazon SageMaker 旨在帮助客户快速构建、训练和部署 ML 模型。今天,随着 Amazon SageMaker RL 的推出,我们很高兴地将 Amazon SageMaker 的优势延伸到强化学习,让所有开发者和数据科学家都能更轻松地实现强化学习 – 不论其在 ML 领域的专业知识水平如何。
Read MoreAmazon Elastic Inference — GPU 支持的深度学习推理加速
最近人工智能和深度学习的发展迅速,其中一个原因是图形处理单元 (GPU) 神奇的计算能力。大约十年前,研究人员学会了如何利用大规模硬件并行架构来进行机器学习和高性能计算:爱好探索的人将对 2009 年斯坦福大学发表的半年度报告 (PDF) 趋之若鹜。
Read MoreAmazon SageMaker Ground Truth — 构建高度准确的数据集并将添加标签的成本最高降低 70%
今天,大部分机器学习任务都使用一种被称为监管学习的方法:通过一种算法从带标签的数据集中学习模式或行为。带标签的数据集包含数据样本以及每个样本的准确答案,也就是“地面实况”。根据所拥有的问题不同,人们可以使用带标签的图像(“这是一只狗”、“这是一只猫”)、带标签的文本(“这是垃圾邮件”、“这不是”)等等。
Read More