依图科技宣布进军语音领域 联合微软华为发布语音开放平台

今天,依图科技宣布在中文开源数据库AISHELL-2中,短语音听写的字错率(CER)仅为3.71%,还联合微软、华为发布了语音开放平台。

yitu2018121101

依图首席创新官吕昊

据悉,在基于全球最大中文开源数据库的AISHELL-2的测试中,依图短语音听写的字错率为3.71%,官方称领先原业内领先者科大讯飞约20%。在若干近场、混响、噪声等公开测试集上,依图平均字错率 6.39%,领先讯飞 11%。加入电话、口音、语音节目、远场演讲等依图内部暂无法公开的测试集后(全部测试集共 50小时、60万汉字),依图平均字错率 8.27%,讯飞是9.30%,依图仍然领先讯飞 11% 左右。

yitu2018121102

此外,依图与微软宣布进一步深化合作,联合推出依图语音开放平台。该平台将基于微软Azure云,将语音识别技术能力开放给第三方应用开发者,共建AI生态。与此同时,依图还和华为联合发布了“智能语音联合解决方案”,该方案基于依图语音开放平台及华为全栈全场景昇腾(Ascend)系列芯片和面向数据中心侧的Atlas 300 AI加速卡。

yitu2018121103

在发布会现场,依图方面预计,未来6个月到12个月,语音识别技术的算法性能将呈指数级增长,更多的场景将被解锁。

确实,这个时间点进入语音行业挑战重重,一则先发优势不再,二则市场拥挤,科大讯飞、BAT大厂纷纷入局,从技术上升到平台生态,市场空间看似余地不多。

对此,依图科技首席创新官吕昊博士表示:依图团队对国内现有的语音识别技术都做了调研,发现在不少场景下,语音识别效果并不理想,例如通话过程中的声音转写准确率低、远距离的声音采集识别效果差、语料数据积累不足等。因此,依图会从这些可优化空间入手,对模型算法进行打磨,提升识别率,降低字错率。

其实,如果想实现真正意义上的语音交互,语音只是一部分,更重要的则是对语义的理解。

吕昊表示:虽然此次是从语音切入,但是团队一直是语音、语义两线并行。2017年时,依图就曾将自然语言处理(NLP)技术用于AI+医疗解决方案,结合自建的临床中文知识图谱,对医学文本等多模态数据进行解析和信息提取。今年,依图的论文更入选NLP顶会EMNLP 2018,针对计算机语言学核心问题之一的指代理解提出全新数据集PreCo并对外开放。

此前,在视觉领域,依图已经在安防、医疗、金融、零售等领域有了产品化、商业化积累。对于是否会将语音技术迁移于这些领域,吕昊回应:这一阶段仍旧以技术积累为主,依图在开放平台上提供了自有的API和模型算法,一方面可以经由市场验证算法质量,另一方面可以由此接近不同行业和场景。

在未来,依图计划陆续开放长语音转写API、实时语音转写API等。正如吕昊所说:希望为第三方应用开发者在语音领域提供多一个语音技术选择。

未经允许不得转载:数智网 » 依图科技宣布进军语音领域 联合微软华为发布语音开放平台

分享到: