人工智能的深度学习提高了我们的效率,使虚拟个人助理更加实用。了解如何使用它们来改善 Siri 的声音。
如果你是 iOS 用户,你每天与 Siri 对话几次?你会注意到,iOS 11 中的 Siri 声音比以前更加人性化。这是因为 Apple 正在深入探索人工智能、机器学习和深度学习技术,以便为用户提供最佳的个人助理体验。
自从 Siri 在 iPhone 4S 上推出并在 iOS 11 中延续以来,个人助理已经不断发展,能够与人们建立联系并建立更好的关系。 Siri 使用语音合成结合深度学习来响应用户的语音命令。
语音合成:Siri 功能不可或缺的一部分
语音合成基本上是人类语音的人工产生。这项技 德国 whatsapp 号码数据 术是虚拟个人助理、游戏和娱乐等多个领域的基础。虽然在基本单元选择和参数综合模型方面取得了一些成功,但深度学习对其渗透得更为深入。
该技术与语音合成的结合导致了一种称为直接波建模的新模型的兴起。利用该模型,现在可以处理高质量的单元选择综合,并实现参数综合的灵活性优势。
苹果利用混合单元选择系统中深度学习的强大功能,为 Siri 实现最高质量的语音输出。
文本转语音系统 (TTS) 如何工作?
TTS 系统的工作原理是利用人声录音来应对可能的情况、语音分割和机器学习。
录制人的声音以应对可能发生的事件
为虚拟个人助理创建文本转语音系统的首要任务是录制人的声音。这种声音不仅要听起来悦耳,而且要让每个人都能理解。
要掌握人类语音的多样性,需要在专业录音室录制大约20个小时的语音。这包括几乎所有类型的反应,包括叙述指令、口述天气报告、讲笑话等等。由于用户向私人助理提出的问题类型没有任何限制,因此无法按原样使用这些音频片段。这些记录的响应经过处理,以便虚拟助手可以了解有关它们的信息。
语音单位加倍
录制的人类语音被分解成几个部分,然后根据收到的文本进行组合,以创建完整的响应。针对特定设备优化语音组件或确保它们在任何设备阵列上的兼容性需要分析每部手机的声学特性和语音韵律分析。
使用机器学习
对于开发人员来说,实现完美的重音和 —家禽养殖场的家禽养殖场的工作员工的关键任务和职责 语调(韵律)模型是相当困难的。此外,使用这种方法手机也会很难工作。
引入机器学习在一定程度上解决了这些挑战。通过收集数据进行训练,文本转语音系统可以学习模式以及如何分离音频的不同元素以产生自然的人声。
苹果为改善 Siri 语音所做的努力
在决定致力于完善 Siri 的声音后,苹果工 武汉手机号码列表 程师与一位女性配音演员合作录制了 20 小时的美式英语对话。然后使用这 100 到 200 万个音频片段录音来训练深度学习系统。
然后,他们测试输出结果,从 Siri 之前和新的声音中选择主题。大多数人更喜欢新的自然、类似人类的 Siri 声音。当 Siri 回答简单问题、确认“请求完成”消息以及提供其他导航指令时,他们注意到机器人声音和自然声音之间的明显差异。
而且,测试对象认为,这个声音与 Siri 的“个性”完美契合。 iOS 应用程序开发服务提供商正在研究这项技术,以了解如何使用相同的材料来创建更具创新性的应用程序。
苹果从未停止尝试技术来探索新的可能性。如今,Siri 的语音已经得到改进,苹果正处于观察阶段,以了解最终用户的反应。
人工智能和深度学习正在虚拟个人助理中不断巩固其根基,并在其他应用领域的应用方面不断发展。由于人们对此反应积极,因此这些技术的前景看起来非常光明。