亚马逊AWS官方博客

Category: Artificial Intelligence*

Amazon Polly 增加 9 个 AWS 区域、Korean 语音支持和新的印度英语语音

Amazon Polly 是一种可将文本转换为逼真语音的 AWS 服务。今天,我们非常激动地宣布 Amazon Polly 的可用区域又增加了九个,现在 Polly 可用区域的总数已增加到 14 个。我们还非常激动地宣布推出韩语支持,并且我们向文本转语音产品组合中新增了印度英语语音。我们很高兴地推出了新的韩语女声 Seoyeon 和新的印度英语女声 Aditi。 Amazon Polly 现已在以下 14 个 AWS 区域推出,致力于为全球所有客户带来最高稳定性和最低延迟:亚太地区 (孟买)、亚太地区 (首尔)、亚太地区 (新加坡)、亚太地区 (悉尼)、亚太地区 (东京)、加拿大 (中部)、欧洲 (法兰克福)、欧洲 (爱尔兰)、欧洲 (伦敦)、南美洲 (圣保罗)、美国东部 (弗吉尼亚北部)、美国东部 (俄亥俄)、美国西部 (加利福尼亚北部) 和美国西部 (俄勒冈)。 自从 Amazon Polly 在 2016 年 re:Invent 大会上推出后,我们收到的其中一个最常见的要求是提供更多语言支持。在客户请求的众多语言中,韩语是请求频率最高的语言之一。为了响应客户的需求,我们非常高兴地宣布推出第一套韩语语音 Seoyeon。

Read More

使用新的声道 SSML 功能修改 Amazon Polly 语音的音品

今天,Amazon Polly 团队很高兴地宣布推出一项新的语音合成标记语言 (SSML) 功能,该功能使得开发人员可以修改任意文本到语音转换 (TTS) 声音的音品。这是一项极具吸引力的功能,适合希望在 Amazon Polly 产品组合中自定义现有语音的客户,使得声音更加贴近在其使用案例中所塑造的特定角色。客户在场景中需要使用多个不同的声音时,该功能尤为有用,因为音品功能使得客户可以轻松地从可用的各个 Amazon Polly 语音自定义多个声音形象。 什么是音品? 音品 描述了人们所感受到的音色或音质,这与音高或音量无关。它经常用于音乐中,例如用于区分铜管乐器和弦乐器,或者用于描述中提琴与小提琴的细微差别。音品是一种可用于区分各种乐器的感知属性,即使这些乐器都在以相同的音量演奏相同的调子。与此类似,在具体的语音场景中,音品是一个声音与另一个声音的区别,即使这些声音具有相同的音高 (即其基本频率) 和音量 (振幅)。 每个人的声音都是独一无二的,这是由于多种因素造成的,包括人的生理机能以及发出声音的方式。每个人的声带、声道的大小和形状甚至整个身体的大小和形状,在决定其正常的语音品质方面都起到了重要的作用。有一些方法,例如个人控制舌头的位置、收紧或松弛肌肉或者施加气压,都可以改变语音的音高、音量和音品。经过专业训练的演员可以学习控制这些动作,甚至能够改变自己的声音来模仿他人的声音。 声道与音高 影响到语音音品的一项重要生理特征是声道,这是从声带顶部直到嘴唇边缘的一个空气腔体。有多块肌肉可以用于改变声道腔体的形状,可以让它变长、变短、变宽或变窄。这些改变的效果是导致放大或过滤掉语音。 音高 是一项听觉属性,影响感受到的声音是高还是低。在发出语音的具体过程中,音高由声带振动的频率决定。相比男性,女性通常具有较短的声带,振动频率较高 (每秒约 180 到 200 个周期)。平均而言,男性具有较长的声带,振动更慢 (每秒约 110 个周期)。与此类似,女性的平均声道长度比男性要短 (分别为约 14 厘米与约 17 厘米)。 声带长度和声道长度具有内在的关联,也就是说,其中一个更长,另一个也倾向于随之更长。利用音品功能,开发人员可以在保留控制音高能力的同时更改声道的大小。 声道和语音合成 使用 vocal-tract-length SSML 标记,您可以通过更改发言者的声道来控制输入语音的音品。这听上去像是更改了发言者的身体大小。当您增加 vocal-tract-length 时,发言者的声音听上去像是他们的个子更大。减小时,听上去像是个子更小。此标记可用于 Amazon Polly 文本到语音转换产品组合中的任何语音。 下面说明了如何修改发言者声道的长度: +n% 或 -n%:按当前语音的相对百分比进行更改,来调整声道长度。例如,+4% 或 -2%。 n%:按当前语音的绝对百分比值来调整声道长度。例如,104% 或 […]

Read More

Apache MXNet 版本 0.12 扩展了 Gluon 功能以支持前沿的研究

上周,Apache MXNet 社区发布了 MXNet 版本 0.12。主要功能是支持 NVIDIA Volta GPU 和 sparse tensor。该版本还包括一些新的 Gluon 编程接口功能。特别是,可以通过这些功能在您的深度学习模型中轻松开展前沿的研究: 变分丢弃;可用于有效地应用丢弃技术以减轻递归神经网络 (RNN) 中的过拟合问题 卷积 RNN、长短期记忆 (LSTM) 和门控循环单元 (GRU) 单元;可用于对具有基于时间的序列和空间维度的数据集进行建模 七个新的损失函数、导出功能和训练器函数增强功能 变分丢弃 (VariationalDropoutCell) 根据最新的研究提供一种新的工具以减轻 RNN 中的过拟合问题。本文参考了“A Theoretically Grounded Application of Recurrent Neural Networks”和“RNNDrop: A Novel Approach for RNNs in ASR”。过拟合是一种建模错误,其中拟合的模型与训练数据集非常接近,以至于在查看新数据或测试数据集时,将会降低其预测精度。丢弃是一种建模技术,它随机地将模型参数归零,以便模型在训练过程中不会过度依赖于任何单个输入或参数。不过,这种技术尚未成功应用于 RNN。迄今为止的研究侧重于仅将丢弃完全随机地应用于输入和输出,即,在 RNN 的所有时间步长中将其归零。变分丢弃消除了这种涵盖所有时间步长的随机性,并在每个时间步长将相同的随机丢弃数组 (或掩码) 应用于 RNN 的输入、输出和隐藏状态。

Read More

利用 Amazon CloudWatch 监控 GPU 利用率

深度学习需要进行大量的矩阵相乘和向量运算,而 GPU (图形处理单元) 可以并行处理这些运算,因为 GPU 拥有数以千计的核心。Amazon Web Services 为您提供的 P2 或 P3 实例非常适用于运行深度学习框架,如 MXNet,该框架强调加速部署大型深度神经网络。 数据科学家和开发人员在微调网络时,希望优化其 GPU 的利用率,以使用最适当的批处理大小。在这篇博文中,我将向您展示如何使用 Amazon CloudWatch 指标监控 GPU 和内存的使用情况。至于 Amazon 系统映像 (AMI),我们建议您的实例使用 Amazon Deep Learning AMI。 要监控和管理已启用 GPU 的实例,目前常见的有益做法是使用 NVIDIA 系统管理接口 (nvidia-smi),这是一个命令行实用程序。用户可以利用 nvidia-smi 查询 NVIDIA GPU 设备的 GPU 利用率、内存消耗情况、风扇使用情况、功耗以及温度信息。 由于 nvidia-smi 的基础是 NVIDIA Management Library (NVML),所以我们可以使用这个基于 C 的 API 库捕捉相同的数据点,并作为自定义指标发送给 Amazon CloudWatch。如需了解有关此库的更多信息,请转至参考手册。在这篇博文中,我们将使用此库的 Python […]

Read More

Apache MXNet 版本添加了对新的 NVIDIA Volta GPU 和 Sparse Tensor 的支持

我们对 Apache MXNet 版本 0.12 的发布感到很兴奋。MXNet 社区的参与者密切合作,为用户带来了新的增强功能。在此版本中,MXNet 添加了两项新的重要功能: 对 NVIDIA Volta GPU 的支持,这使用户能够大大减少神经网络模型的训练和推理时间。 对 Sparse Tensor 的支持,这使用户能够以最有利于存储和计算的方式使用稀疏矩阵训练模型。 对 NVIDIA Volta GPU 架构的支持 MXNet v0.12 版本添加了对 NVIDIA Volta V100 GPU 的支持,这使客户训练卷积神经网络的速度比 Pascal GPU 的速度快 3.5 倍。训练神经网络涉及数万亿次的浮点数 (FP) 乘法与加法运算。这些计算通常已使用单精度 (FP32) 完成以实现较高的准确度。但是,最近的研究表明,用户可以通过使用半精度 (FP16) 数据类型的训练获得与使用 FP32 数据类型的训练相同的准确度。 Volta GPU 架构引入了 Tensor Core。每个 Tensor Core 每个时钟周期可执行 64 次乘法和加法混合运算,约为每个 CUDA 核心在每个时钟周期内执行的 […]

Read More

研究热点:基于 Apache MXNet 的开源 BNN (二值神经网络) 库 – BMXNet

这是一篇由德国波茨坦 Hasso Plattner 研究所的 Haojin Yang、Martin Fritzsche、Christian Bartz 和 Christoph Meinel 发布的客座文章。我们很高兴看到研究工作促进了深度学习在低功耗设备上的实际实施。这项工作在将强大的智能功能拓展到我们日常生活的过程中发挥着举足轻重的作用。 近年来,深度学习技术在学术界和行业里取得了良好的业绩和众多突破。但是,最先进的深度模型计算成本高昂、占用大量存储空间。移动平台、可穿戴设备、自主机器人、IoT 设备等领域的众多应用也对深度学习有着强烈的需求。如何在这样的低功耗设备上有效实施深度模型成了一大难题。 最近提出的二值神经网络 (BNN) 使用位运算代替标准算术运算,大大降低了存储器大小和访问要求。通过显著提高运行时效率和降低能耗,我们得以在低功耗设备上实施最先进的深度学习模型。这项技术与对开发人员友好 (相比 VHDL/Verilog 而言) 的 OpenCL 相结合,也使 FPGA 成为了深度学习的可行选择。 在这篇文章中,我们将为大家介绍一种基于 Apache MXNet 的开源 BNN (二值神经网络) 库 – BMXNet。开发完成的 BNN 层可以无缝应用于其他标准库组件,并且在 GPU 和 CPU 模式下均可工作。BMXNet 由 Hasso Plattner 研究所的多媒体研究小组维护和开发,在 Apache 许可证下发布。https://github.com/hpi-xnor 提供了该程序库以及一些示例项目和预训练二值模型等下载资源。 框架 BMXNet 提供支持输入数据和权重二值化的激活、卷积和全连接层。这些层称作 QActivation、QConvolution 和 QFullyConnected,经过专门设计,可直接替换相应的 MXNet 变体。它们提供了一个附加参数 […]

Read More

使用 Astro 如何构建 Astrobot Voice —— 电子邮件语音辅助工具

这是 Astro Technology, Inc. 首席技术官 Roland Schemers 撰写的一篇客座文章。用他们自己的话说,Astro “在人工智能的支持下,为人员和团队创建适用于 Mac、iOS 和 Android 的现代电子邮件应用程序。现在,使用应用内电子邮件语音辅助工具 Astrobot Voice,您不用离开 Astro 的应用程序即可阅读、管理和回复电子邮件。” 最近,Astro 发布了 Astrobot Voice,这是第一款应用内电子邮件语音辅助工具。这意味着,现在,您不用离开 Astro 的 iOS 或 Android 应用程序即可阅读、管理和回复电子邮件。 在 6 月份 Astro 发布 Amazon Alexa 技能后,我们期待让更多人能够通过语音管理电子邮件。在这篇文章中,我们从技术角度详细介绍了我们为何选择这条路、我们如何完成目标以及我们所使用的技术。 为何要构建应用内语音? 我们是 Amazon Echo 的所有者和粉丝,为了表示欢迎和对我们自己的 Alexa 技能进行 dogfood 测试,我们实际上为每位 Astro 新员工提供了 Echo Dot。我们看到技能获得了成功,并想出了多种与更多人在更多场合进行互动的方法。因此,我们决定探索构建应用内语音的可行性。 选择软件 在确定如何构建应用内语音时,我们考虑了一些选项,但同时谨记以下几点目标: 尽可能重复使用我们基于文本的辅助功能 (在 api.ai 上运行) 或 […]

Read More

使用 Amazon Rekognition 快速构建智能照片库

简介 在数据爆炸式增长的今天,数据在给生活的方方面面提供了便利的同时,也造成了一些困扰。以照片为例,过去以胶卷相框存储的形式被大量电子设备存储逐渐取代,现代虽然提供了更大容量的存储性能,却更难在短时间内找到指定的照片,我们不得不一页页的翻动照片库寻找某一张特定的照片。 AWS 提供了丰富的人工智能服务,在文本处理、语音、图像等方面解决了这些困扰。对于照片的例子而言,Amazon Rekognition 能快速有效的解决这样的问题。 Amazon Rekognition 是一种让您能够轻松为应用程序添加图像分析功能的服务。利用 Rekognition,您可以检测对象、场景和面孔;识别名人;还可以识别图像中的不当内容。您还可以搜索和比较面孔。借助 Rekognition 的 API,您可以快速为应用程序添加基于深度学习的复杂视觉搜索和图像分类功能。 应用场景 图像审核。在部分场景下,需要鉴定图片是否包含明显和暗示性的内容。例如自动审核提供给幼儿的读物,自动审核影片镜头的合规性。 对象场景检测。Rekognition 可识别数千种对象 (如车辆、宠物或家具) 并提供置信度。Rekognition 还可以检测出图像内的场景,如日落或沙滩。这可以应用在以图搜图、关键字搜图、图片自动分类等场景中。 其余图像处理场景。Rekognition 面部分析功能可以定位到图像中的面孔并分析面孔特征;Rekognition 面孔比较功能可以衡量两张图像中的面孔是否属于同一个人;Rekognition 面部识别功能可以在海量图像中找出相似的面部;Rekognition 名人识别功能可以识别出图像中名人的面孔并显示他们的名字。上述四个场景主要涉及到图像中面部元素的识别处理,可以应用在智能家居主客识别、人脸密码、酒店快捷入住等场景中。 效果展示 上传图片。 图一 显示图片,标签均自动生成。 图二 搜索标签。 图三 整体架构 您将使用到 Amazon S3, Amazon Cognito, Amazon Elasticsearch Service, Amazon Rekognition 以及用于生成以上资源的 AWS CloudFormation 来构建智能照片库。整体架构为无服务(Serverless)架构,简要工作流程如下: 终端用户使用 S3 静态网站功能运行前端静态网站。 使用 Cognito Federated Identities Pool […]

Read More