亚马逊AWS官方博客

Category: Artificial Intelligence

使用自定义词汇表与 Amazon Augmented AI,提升 Amazon Transcribe 的语音到文本转录效能

在本文中,我们介绍了如何使用Amazon A2I人工审核工作流与Amazon Transcribe自定义词汇表改善自动视频的转录效果。通过本轮演练,您可以快速识别出特定领域的术语,并使用这些术语构建自定义词汇表,以便后续更准确地对其他视频中的相同术语实现转录。对于SEO、针对性文本查询以及按技术术语对批量视频或音频文件进行分组等应用场景,这种对关键技术术语的正确转录都是一项至关重要的能力与前提性保证

在Amazon SageMaker中正确设计资源规划、避免非必要成本

本文向大家介绍了Amazon SageMaker的计费标准,根据机器学习项目内各个阶段正确调整Amazon SageMaker计算资源大小的最佳实践,以及如何通过自动停止闲置的按需notebook实例以避免产生非必要运营成本的具体方法。最后,我们还分享了如何自动检测Amazon SageMaker端点以保证不致发生误删情况。

谈金融服务领域的机器学习最佳实践

《金融服务中的机器学习最佳实践》白皮书旨在帮助大家了解如何建立起安全且具有良好治理水平的机器学习工作流,大家也可以结合实际疑问与作者取得联系。在您的机器学习探索之旅中,不妨随时参阅另一份白皮书以了解适用于机器学习工作负载的AWS架构设计原则。

Amazon Personalize 现将快速变化的新产品与全新内容目录的个性化推荐效果提升达50%

Amazon Personalize提供的全新aws-user-personalization recipe能够在推荐结果中引入交互量较少的新项目,并在重新训练期间通过用户反馈学习项目属性,有效地缓解了项目冷启动问题。关于使用Amazon Personalize优化用户体验的更多详细信息,请参阅Amazon Personalize文档。

深度解析 TalkingData 使用 DJL 进行大规模深度学习打分应用

TalkingData发现了AWS基于Java开发的深度学习框架DJL(Deep Java Library)可以很好解决Spark在深度学习运算中的一些困境。在这个博客中,我们将带领大家了解TalkingData部署的模型,以及他们是如何利用DJL在Apache Spark上实现生产环境部署深度学习模型。这个解决方案最终将之前的生产架构简化,一切任务都可以在Apache Spark轻松运行,总时间也减少了66%。从长远角度上,这显著节省了维护成本。

利用 AWS SageMaker BlazingText 对不均衡文本进行多分类

本文使用了 SageMaker BlazingText 实现了文本多分类。在样本不均衡问题上,使用了回译和 EDA 两个方法对少类别样本进行了过采样处理,其中回译方法调用了 AWS Translate 服务进行了翻译再翻译,而 EDA 方法主要使用同义词替换、随机插入、随机交换、随机删除对文本数据进行处理。 本文也使用了AWS SageMaker 的自动超参数优化来为 BlazingText 的文本分类算法找到最优超参数。

在 Amazon SageMaker 管道模式下使用 Horovod 实现多 GPU 分布式训练

在Amazon SageMaker上以管道模式使用Horovod的多GPU或分布式训练方法,能够为数据集的各个分片创建独立的训练通道并在数据通道内访问对应分片,借此实现大规模模型训练。这种方式能够缩短在实际训练开始之前将数据集传输至训练实例所占用的时间,因此特别适用于具有大规模训练数据集的Amazon SageMaker训练场景。