深思睿解读现在的语音识别技术可能存在问题

语音识别技术近些年的飞速发展，可以轻松应对各种诸如口音，信噪比(signal to noise ratios)的挑战，但是通过在模型中引入深度学习技术(deep learned approaches to modeling)，我们可以获得超过90%的识别率。

当你在语音识别引擎中加入自然语言理解(Natural Language Understanding, NLU)后，可以帮助解决语音混淆问题(speech confusion problems)。比如，当我们询问”what time is it”的时候，系统有可能会把”time”，识别成“dime”，但是通过静态统计模型(statistical modeling)或NLU技术，系统可以轻松判定用户询问的是时间。

现在语音交互所出现的问题大多数不在语音识别引擎，而在NLU侧。NLU所覆盖的领域(domain)越多，其就越有可能产生领域混淆(domain confusion)。这也是为什么Sensory嵌入式语音识别引擎其性能可以超越（outperform)很多云端语音解决方案的原因。

真正一直以来难以解决的问题，存在于语法(morphology)，句法(snytax)，或音韵(phonology)，或深度学习，或统计分析(statistics)，或其他各种各样语音识别相关的问题(various things associated with speech recognition)。

其问题在于，大多数情况下语音识别引擎可以识别到用户的语音和语义，但是却没有办法与设备通信并控制设备。随着语音识别系统变得越来越复杂，我们已经习惯了通过语音与设备交互，但是设备并不总是做出恰当的反应。

VII（亚马逊语音互操作倡议, Amazon Voice Interoperability Initiative)，可以通过在不同语音助理平台(across voice assistants)中创建通用协议(common protocals)，可以解决部分问题，但却不能解决全部的问题。

这些问题不在于设备是否可以识别和理解我们的语音信息，其是一个设备到系统间通信的系统性问题(systematic issue)。

深思睿解读现在的语音识别技术可能存在问题

相关推荐

狄耐克荣获“2025年度中国精工品牌”荣誉称号

涂鸦智能 Investor Day: AI Agent开发平台锚定AI商业化时代

HDL与海康威视达成战略合作，共拓海外全屋智能市场

云智易打造AI+智慧新园区，再造番禺先进智造新引擎

三翼鸟川渝双店开业，推动智慧生活应用落地

扫描二维码安装智能头条手机APP

扫描二维码安装智能头条手机APP