智能语音识别趋势

近期,亚马逊发布了几款全新的Echo,新Echo可以更快地处理Alexa请求,同时还有一款配备了10.1英寸的显示屏。

从当下智能音箱上市的趋势来看,消费者对智能音箱“语音识别的响应速度”、“强外噪、超大功率音乐播放环境下的唤醒率”,“隐私”,“语音、视觉识别、触屏、SLAM多模态交互”的要求,都在日益提升。

未来,在智能语音处理器中,如何具备:实时的精准语音识别、多模态交互、更出色的高级音效与差异化,是该领域的关键发展点。

1 全志预研,与发展趋势不谋而合

两年前,全志预判到了智能语音趋势的发展,提前规划了专为“语音识别深度学习算法”而打造的全新处理器 —— R329。R329提供了一种全新的语音识别硬件加速神经网络,支持int8、int16混合精度流式处理,从而可以在更快地处理请求,语音识别体验更快,平均响应时间从2秒左右减少到200毫秒以内,这是一个不容小觑的提升。R329同时具有同类优秀的能源效率,能源消耗减少了25倍,语音处理速度提高了30倍。

核心客户体验R329

得益于R329本地端侧语音识别深度学习算力几十倍级的提升,R329的核心品牌客户正逐步建立起以语音识别为核心的安全系统解决方案。比如在智能家居场景,R329可以检测各种声音做出智能反应;比如听到婴儿的哭声时智能开灯并提醒宝妈;比如主人设定外出期间在室内检测到开关门声、脚步声自动发出报警声和信息提醒等等。

2 带屏智能语音处理器R818

与此同时,全志也规划了一颗可带屏的智能语音处理器R818。

核心客户体验R818

得益于R818本地端侧深度学习算力,相较于CortexA35高达七成的提升的同时,功耗、温升还出现了明显的降低。R818的核心品牌客户可以获得持续、稳定的高算力输出,从而逐步建立起更具人性化的语音识别、视觉识别、触屏多模态的智能感知交互。比如在智能家居场景,R818可以在小神兽在线观看超清动画片的同时,通过人脸检测自动进入儿童模式,过滤成人内容,通过童声语音,识别图文并茂的回答宝宝们所提出的十万个为什么,通过摄像头深度学习的坐姿检测培养小神兽良好的坐姿习惯等等。

3 非云端,本地实现

关于亚马逊此颗新处理器其能源消耗大大减少、语音速度大幅提升,这些改进,都得益于处理本身是在设备上完成的,从而消除了将查询发送到云的需求。

而目前智能语音识别趋势来看,不上传云端,本地实现语音识别是更有效的解决方案。R329/R818不仅也能大幅提升设备端的语音识别能力,同时还能实现本地的语音识别,不需要上传云端、在本地即可实现各种方言命令的识别,响应时间从2秒降低到200毫秒以内。

同时,R329/R818处理器还可实现离线IOT控制,比如控制空调、灯、扫地机、油烟机、加湿器、窗帘等,且同时支持多种方言的交互,讲粤语的丈母娘和讲四川话的老妈都可以自然语言交互。

目前,R329与R818都已成功导入到部分中国Top3的智能音箱客户,未来,全志科技将在智能语音识别领域持续发力,为用户带来更高效率的高准确率的语音识别体验。

R329芯片规格介绍

集成双路AUDIO DSP HIFI4,硬件支持32位浮点的高精度前端、后端数字信号处理算力;

集成AUDIO专用NPU,支持160 MACs,语音识别专用深度学习算力超过200GOPS;

集成双核CortexA53 1.5GHZ,提供生态配套成熟、完善的用于系统、应用和网络连接开发的高效算力;

集成高达2MB的SRAM,搭配HIFI4实现50毫瓦双麦远场格可唤醒的超低功耗;

集成高达256MB的DDR3,为LOCAL ASR、LOCAL NLP、LOCAL TTS等语音识别深度学习算法提供充裕的高容量、高带宽的内存支持。

R818芯片规格介绍

32位、64位浮点运算单元相较于CortexA35提升一倍,传统信号处理算力提升60%以上;

8位、16位定点、整数运算单元相较于CortexA35提升一倍,深度学习算法算力提升70%以上;

HPC+制程工艺相较于同级别SOC的LP制程工艺CPU电压下降20%,CPU峰值运行功耗降低40%;

出众的视频编解码能力 (4KP30 H.265Decoder,1080P60 H.264 Encoder) ,完美满足客户的视听盛宴需求;

集成丰富外设计口(2路同步并发MIPI CSI、IR、EMAC、6路uART、LEDC、4路I2S/TDM等),完美匹配各类行业方案需求。

免责声明:凡注明为其它来源的信息均转自其它平台,目的在于传递更多信息,并不代表本站观点及立场。若有侵权或异议请联系我们处理。

相关推荐