带你了解语音技能开发的前世今生

yuyin2018103101

在今年 9 月,亚马逊宣布 Alexa 平台上的技能已经超过 5 万个。这是一件令语音 AI 从业者欢欣鼓舞的事。越来越多的人注意到语音交互的潜力,开始制作语音交互技能。在国内,在百度 DuerOS 等语音平台的教育和推动下,有超过 2 万名开发者参与了技能开发的开发实践。

本文的作者是一名产品经理,曾经参与了小雅 AI 音箱、小豹 AI 音箱的技能打造,以个人开发者的身份为 DuerOS 平台开发过一些技能。借着参与小度技能开发大赛的机会,他对技能开发的经验做了总结,分享给大家。全文授权深圳湾编辑整理并发布。

yuyin2018103102

前世

语音交互技能,也叫“技能”,这是个新鲜事物。在两年前,它还只有英文名 skill,而定义语音 skill 的,就是亚马逊的现象级语音交互产品 Echo 智能音箱。

时间回到 2015 年,当时虽然已有不少厂商发布了智能音箱,但是大家还只是用来听听歌,查查天气,虽然这两个最常用的技能,在当时也没有很完善。

2015 年 7 月,亚马逊宣布向第三方开放部分语音交互能力,正是这个尝试,让 Alexa 平台诞生了最早的一批第三方技能,如:Crystal Ball(水晶球),Math Puzzles(猜数字),StubHub(今晚干啥)。

yuyin2018103103

△ Alexa 技能:Crystal Ball 水晶球、Math Puzzles 猜数字、StubHub 今晚干啥

现在看来,这三个技能都很基础,甚至有点简陋。比如,Crystal Ball 水晶球这个技能,简单到任何问题,Alexa 的回答都是 Yes 或 No,而且还是随机的,作用就是协助用户在面对纠结的问题时做出选择。你问设备:Alexa,我该减肥吗?设备回答:Yes。第二次你问设备:Alexa,我该减肥吗?设备回答的可能就是 No。你问什么问题设备不管,设备只管回答 Yes 和 No。我猜这个技能也许实现起来只用了 3~4 行代码吧。

Math Puzzles,猜数字,这个技能实现起来也不难。设备会播报一串数字,这串数字有一定逻辑,你说出下一个数字就可以了。比如,设备会问 2,4,6,8 的下个数字是多少?你对 Alexa 说 10,就算答对了。

StubHub,今晚干啥,稍微复杂些。Alexa 会把设备的地理位置给到开发者,所以当你问 Alexa 今晚干啥的时候,Alexa 可以根据地理位置,向你推荐附近的电影、沙龙、活动和派对。对话示例如下:

用户提问:Alexa,今晚干点啥?

设备回答:附近的科技馆,有一场最新上映的球幕电影,时间是晚上 8 点。

但是,如果用户追问:Alexa,演讲人是谁?设备就回答不上了。是的,Alexa 开放出来的技能,最早并没有多轮对话。

yuyin2018103104

△ 一款针对儿童的 Bamboo Music 音乐教学技能,在 2018 年 7 月份上线亚马逊 Alexa 技能平台,旨在以寓教于乐的方式给儿童传授一整套的基础音乐理论课程。已获得 Alexa Fund 投资。

进化

2016 年 1 月,Alexa 的 skill 数量达到了 130 个。Alexa 团队兴高采烈的发布了一个 infographic来向公众介绍成果。

这一行为,把亚马逊的老大贝索斯搞炸了,趁着开会,把 Alexa 团队教育一番:130?Wtf,怎么这么少…(据美国媒体 The information 报道,但亚马逊官方不予置评。)贝索斯要求技能开发的速度要加快、加快、再加快。

2016 年 11 月,也就是 10 个月之后,Alexa 的 skill 数量达到了惊人的 5000 个!这个时候,美国人民已经可以用 Alexa 叫 Uber、听 Twitter 的内容了,智能音箱终于摆脱了只能听歌、查天气的窘境。回过头来看,这是不是还要部分感谢贝索斯开会时拍桌子啊。

等冬天过完,到了 2017 年上半年,对硅谷随时保持敏感的国内互联网大佬们,顺利把国内智能音箱的大战点燃,做智能音箱设备的厂商多到上百家,BATJM 等一线互联网公司和语音 AI 公司,纷纷上线语音智能开放平台。在深圳,三个月内,更是连续上演了两场影响深远的语音智能峰会。

yuyin2018103105

定义

伴随着行业热潮,平台推动,开发 skill 的人逐渐多了起来。也正是在这个时候,skill 开始有了中文名,而翻译为“技能”是再合适不过了。

根据《辞海》的词条说明,技能是运用知识和经验执行一定活动的能力。放到语音 AI 的场景里,语音交互技能就是运用自然语言对话的交互方式,实现影音娱乐、信息查询、生活服务等的功能,简称「技能」。

yuyin2018103106

△ 早期的 Alexa 技能宣传海报

技能有哪些分类?

有了名称,就要把技能再做一下归类。

目前,不管是亚马逊 Alexa 平台,还是国内的各家语音 AI 平台。技能的分类标准都很像,基本是把技能分成三大类:自定义技能、智能家居技能、内容播报技能。

自定义技能主要有两类,生活服务类、娱乐游戏类。比如上文介绍的几个技能,都属于自定义技能。

yuyin2018103107

△ 美国 Sensible Object 公司宣布将推出全球首款语音棋盘游戏——when in Rome,时间,2018 年 7 月。

智能家居技能主要是用来对其他智能设备进行语音控制,接口的完善性和语音交互已经趋于成熟,我听说有的团队把硬件接入 Alexa 可能一天时间都用不到(审核时间不算)。这方面,对 Alexa 智能设备做过大量报道的深圳湾,给到我的解释是,Echo 的热销带动了大批的智能设备厂商涌入,这背后少不了 IoT 方案商的推动,他们提供的 Alexa 接入方案,可以大大提高设备智能化的速度。

而内容播报技能则是对新闻和信息所做的语音传递。Alexa 平台在很早的时候,就集合了几乎所有美国的主流媒体:NYT、WSJ、NPR、CNN 等等,而当时,媒体机构对于语音这个新兴的平台,还是处于卡位阶段。

有媒体称,在和 CNN 的受众发展部副总裁艾伦·西格尔交流时,就发现他们暂时还是把 Alexa 这个媒体投放渠道放在了战略圈的最外层,和 Apple Watch 等渠道平级。但他依然看好这种形式的潜力,毕竟,美国已经有五分之一的家庭拥有了智能音箱。

yuyin2018103108

△ CNN 媒体战略,红圈的内容是 Alexa。图片来源:CNN Digital Adventures in Multiplatform Storytelling

而在国内,腾讯新闻和新华社等媒体机构,都已经开始尝试把新闻 feed 流接入到语音智能平台,并且在小雅 AI 音箱、小豹 AI 音箱、小度音箱等设备上落地。

yuyin2018103109

△ 亚马逊 Alexa 语音购物技能,已上线手机 App。关于语音购物的趋势解读,请移步深圳湾的专题报道。

技能开发的核心:VUI

以上这三种技能分类,在开发上侧重点也会不同。比如,自定义技能,它的核心就是是语音交互(voice interactive)。

语音交互就是将人的语言转换成应用的 request(面向系统的请求)的模式,也就是 VUI(Voice UI),而我们之前谈论的 UI 更多意义上是 GUI(Graphic UI)。要做好 VUI 的交互和 GUI 一样,都需要对细节提出更多更高的要求。

亚马逊的 VUI 设计师 Amdrew Ku 就曾经说过:”人类对于声音的敏感是超出很多人的想象的。”

过去很长一段时间,VUI 方面积累的理论远远少于 GUI。市面上相对经典的一本书是今年刚刚出版的《语音用户界面设计》。

yuyin2018103110

当然,对于 VUI 这样的新鲜事物,虽然著作出版物并不多,网络信息还是比较的丰富,亚马逊 Alexa 平台和国内各家语音 AI 平台也积累了不少经验,大家感兴趣的话,平时可以多多关注。

技能开发有哪些 Know How?

1、起个好名字

技能开发和 App 开发有很多相同点,首先一点,名字非常重要。

在语音交互中,技能名字不仅影响到用户的打开意愿,更会影响到识别率。如果技能的名字太长,或者不好识别,用户是根本无法进入技能的,如果这样的情况发生,即便体验再优良的技能也无法被用户使用。

yuyin2018103111

△ 小度技能商店的部分技能

另外,技能最好不要用生僻字。因为据我观察,目前 DuerOS 和其他语音 AI 平台有很多的用户可能是小朋友~

总结起来,一个好的名字应该考虑到以下几点:

清晰易读。发布技能前,可以自己一口气读三遍技能的名字,看看是否能顺利的读出来。另外一定要用真机测试功能,确保可以识别,不然等上线再去改,可是会影响到线上用户的体验。

体现技能功能。让用户知道这个技能是做什么的。如果能做的事情比较多,就要拆分成几个技能。基本原则是 Do one thing and do it well。

技能名称不会产生混淆,能让用户记住。技能商店的技能会越来越多,很多相似名称的技能也会出现。这时,可以借鉴 App 起名字的方法,采用一些关联实体物品的起名方法。比如,笑话类的技能,就可以叫香蕉笑话、大象笑话。

2、看数据

同样可以借鉴 App 的做法,在设计技能的初期,可以采用 MVP(Minimum Viable Product 最简化可实行产品)的原则,先发布一个简化的技能,技能上线后再分析语音交互数据,根据潜在需求对技能进行迭代和完善,逐步增加功能和优化体验。

数据能完整的呈现用户使用路径。通过分析语音交互数据,你可以很容易的发现用户卡在什么地方,或者语音识别哪里出错。

举例来说,朋友开发了“周公解梦”这个技能,在查看设备交互数据时,他发现用户会说到一些设备无法识别的语句,比如“我们的悬崖”。很明显,用户想表达的意思是“我梦到悬崖”,所以需要在常用语句识别模型中提供“我们到XX”的语句。这样,以后再识别成“我们到XX”,设备就可以成功解析了。

3、关注外表

技能的外表很重要。技能开发者应该多花时间做个漂亮的 logo,这个点容易被忽视,毕竟,打开技能是通过语音识别,而不是视觉发现。但这不能想当然,要知道,用户发现和安装技能,主要还是通过 App 端的操作。

除了 logo,技能的文字介绍也要好好优化。还要选择一个技能分类,这样用户可以更方快捷的找到技能。

yuyin2018103112

△ 亚马逊技能商店的 TOP skills

4、听取用户反馈

还可以做的是,通过各种渠道接触用户,听取反馈。比如,把联系方式放到技能简介中,发动亲朋好友帮你测试技能,追着他们多提意见反馈。这样,技能的迭代和优化才有了方向。我会在技能介绍里留下我的 QQ 邮箱,当技能的策划开发遇到迷茫时,用户的反馈往往能起到拨云见日的效果。

结语

小结一下,这篇文章主要分享介绍了语音技能(skill)的前世和进化,技能的定义,技能的分类,语音界面交互(VUI),以及开发技能的经验总结。全文授权深圳湾编辑整理并发布。

是的,人类对于声音的敏感是超出很多人的想象的。亚马逊的 VUI 设计师 Amdrew Ku 列举了一个技能开发的案例:

在过去,当你与 Alexa 设备对话喊出“turn on my lights”的时候,它的回复是“OK”。当我们把“OK”改成一个“叮”的声音后,收到上万名用户抱怨,反馈说我们把设备变成了一个机器人。我们就又把它改回“OK”。产品经理要设计和开发一个优秀的语音技能,要对体验中的每一个细节都做持续优化。

本文作者:毛川,语音 AI 产品经理,原小雅 AI 音箱、小豹 AI 音箱技能及软件产品经理,在尝试了一段时间的独立开发者之后,现任喜马拉雅小雅智能产品总监和高级产品经理。

未经允许不得转载:数智网 » 带你了解语音技能开发的前世今生

分享到: