网站导航

导航

News

中欧体育

分类

亚马逊首席科学家：揭秘Alexa语音识别技术｜AINEXT_zoty中欧体育时间：2024-12-09 16:29:01

本文摘要：按：本月 18 日，由美中技术与创意协会（Association of Technology and Innovation，ATI）主办的第一届“AI NEXT”大会在西雅图开会。

按：本月 18 日，由美中技术与创意协会（Association of Technology and Innovation，ATI）主办的第一届“AI NEXT”大会在西雅图开会。本次会议的主要嘉宾还包括：微软公司首席 AI 科学家邓力，微软公司院士黄学东，Uber 深度自学负责人 Luming Wang 等。

华人之外，还有亚马逊 Alexa 首席科学家 Nikko Strom，微软公司小娜架构师 Savas Parastatidis 等业内著名专家。大会主题是“探寻 AI 的潜力，把 AI 技术应用于简单项目和服务”，对 CV、NLP、智能助手、深度自学框架皆做到了专题报告。

其中，亚马逊首席科学家 Nikko Strom 再度以“Alexa是怎样炼金术师的”为主题描写了 Alexa 的深度自学基本架构、声学模型、语音合成等内容，整理如下：Nikko Strom，现任亚马逊首席科学家，是 Echo 和 Alexa 项目的创立成员，在语音辨识技术涉及领域具有资深的研究及从业经验：1997 年于瑞典皇家理工学院语音通信实验室取得博士学位，后兼任MIT计算机科学实验室研究员；2000 年重新加入语音技术初创公司 Tellme Networks；2007 年随着Tellme Networks 被微软公司并购，重新加入微软公司，前进商业语音辨识技术的前沿研究；2011 年重新加入亚马逊，兼任首席科学家，领导语音辨识及涉及领域的深度自学项目。以下是 Nikko Strom 在本次大会上的演说，(公众号：)在不转变不愿的基础上有删改和补足。

再行非常简单讲解下我们的产品。如果你买了 Amazon Echo，意味著你可以通过 Alexa 语音辨识系统控制它，并与它对话，而且不必须拿遥控器。左边（右图）是 Holiday Season，是我们新的重新加入的白色Echo和Dot，坚信都说应当有很多人较为喜好白色的电子产品。

Echo 还可以与没内置 Alexa 系统的家电展开相连，如灯具、咖啡机、恒温器等，只必须苏醒Alexa，就可以让这些家电设备继续执行一些命令。此外，开发者还可以通过工具包 Alexa Skills Kit，打造出个性化的功能。

现如今，Echo早已转入了数百万用户的家中，每天它都在被大量地用于着，也让我们获得了无法想象的数据量。｜深度自学基础框架事实上，人耳并非每时每刻都在收集语音信息，确实在“听得”的时间约只占到 10%，所以一个人茁壮到 16岁时，他/她所听见的语音训练时间大约有 14016 个小时。返回 Alexa，我们把数千个小时的现实语音训练数据存储到 S3 中，用于 EC2 云上的分布式 GPU 集群来训练深度自学模型。

训练模型的过程中找到，用 MapReduce 的方法效果并不理想，因为节点之间必须频密地维持实时改版，无法再行通过减少更好的节点来加快运算。也可以这样解读，就是GPU集群改版模型的计算速度十分之慢，每秒都会改版几次，每次的改版约是模型本身的大小。也就是说，每一个线程（Worker）都要跟其它线程实时改版几百兆的量，而这在一秒钟的时间里要再次发生很多次。所以，MapReduce的方法效果并不是很好。

我们在 Alexa 里的解决问题方法就是，用于几个迫近算法（Approximations）来增加改版规模，将其传输 3个量级。这里是我们一篇 2015 年论文里的图表，可以看见，随着GPU线程的减少，训练速度减缓。

到 40 个 GUP 线程时，完全成直线下降，然后增长速度有点上升。80 GPU 线程对应着约 55 万帧/秒的速度，每一秒的语音约包括 100 帧，也就是说这时的一秒钟可以处置约90分钟的语音。前面我提及一个人要花上 16 年的时间来自学 1.4 万小时的语音，而用我们的系统，约 3 个小时就可以自学已完成。

这就是Alexa 大体的深度自学基础架构。｜声学模型大家都告诉，语音识别系统框架主要还包括四大块：信号处理、声学模型、解码器和后处理。首先我们不会将从麦克风搜集来的声音，展开一些信号处理，将语音信号转化成到频域，从每 10 毫秒的语音中明确提出一个特征向量，获取给后面的声学模型。

声学模型负责管理把音频分类成有所不同的音素。接下来就是解码器，可以得出结论概率最低一串词串，最后一步是后处理，就是把单词组合成更容易加载的文本。在这几个步骤中，某种程度都会中用机器学习和深度自学的方法。

我今天主要谈一下声学模型的部分。声学模型就是一个分类器（classifier），输出的是向量，输入的是语音类别的概率。这是一个典型的神经网络。

底部是输出的信息，隐蔽层将向量转化成到最后一层里的音素概率。这里是一个美式英语的 Alexa 语音识别系统，所以就不会输入美式英语中的各个音素。在 Echo 初始公布的时候，我们记了几千个小时的美式英语语音来训练神经网络模型，这个成本是很高的。

当然，世界上还有很多其它的语言，比如我们在2016年9月发售了德语版的Echo，如果再行重头来一遍用几千个小时的德语语音来训练，成本是很高的。所以，这个神经网络模型一个有意思的地方就是可以“迁入自学”，你可以维持原先网络中其它层恒定，只把最后的一层替换成德语。

两种有所不同的语言，音素有很多是不一样的，但依然有很多完全相同的部分。所以，你可以只用于少量的德语的训练数据，在稍加转变的模型上就可以最后获得不俗的德语结果。｜“锚定映射”在一个充满著很多人的空间里，Alexa 必须弄清楚究竟谁在说出。开始的部分比较简单，用户说一句苏醒词“Alexa”，Echo上的对应方向的麦克风就不会打开，但接下来的部分就较为艰难了。

比如，在一个鸡尾酒舞会中，一个人说道“Alexa，来一点爵士乐”，但如果他/她的旁边凸挨着同伴一起聊天，在很短的时间里都说出，那么要弄清楚究竟是谁在收到指令就较为艰难了。这个问题的解决方案来自于2016年的一份论文《锚定语音检测》（Anchored Speech Detection）。一开始，我们获得苏醒词“Alexa”，我们用于一个RNN借此萃取一个“锚定映射”（Anchor embedding），这代表了苏醒词里包括语音特征。

接下来，我们用了另一个有所不同的RNN，从先前的催促语句中萃取语音特征，基于此得出结论一个端点决策。这就是我们解决问题鸡尾酒舞会难题的方法。｜“双连音片段”Alexa里的语音合成技术，也用在了Polly里。

语音合成的步骤一般还包括：第一步，将文本规范化。如果你还忘记的话，这一步骤恰是对“语音辨识”里的最后一个步骤的逆向操作者。

第二步，把字素转换成音素，由此获得音素串。第三步是关键的一步，也是最好的一步，就是将音素分解波形，也就是确实的声音。最后，就可以把音频播出出来了。Alexa享有倒数的语音合成。

我们录音了数小时人的大自然发音的音频，然后将其切割成十分小的片段，由此构成一个数据库。这些被切割成的片段被称作“双连音片段”（Di-phone segment），双连音由一个音素的后半段和另一个音素的前半段构成，当最后把语音统合一起时，声音听得一起的效果就较为好。

创立这个数据库时，要高度精细，确保整个数据库里片段的一致性。另外一个重要环节是算法方面的，如何自由选择最佳片段序列融合在一起构成最后的波形。

首先要弄清楚目标函数是什么，来保证获得合适的“双连音片段”，以及如何从可观的数据库里搜寻到这些片段。比如，我们不会把这些片段标签上属性，我今天会晤到三个属性，分别是音高（pitch）、时长（duration）和密度（intensity），我们也要用RNN为这些特征寻找目标值。之后，我们在数据库中，搜寻到最佳片段人组序列，然后播出出来。

本文为独家编译器，予以容许不能刊登。版权文章，予以许可禁令刊登。下文闻刊登须知。

本文关键词：中欧体育,中欧体育(zoty),zoty中欧体育

本文来源：中欧体育-www.mjs-9.com

分享到：