
会说方言不算本事
“支付宝到账1亿元。”
这不知道是多少人做梦都想听到的一句话,然而现实中,顶多也就个几块钱、几百块到账的消息。
近日,支付宝还贴心的推出了方言版,分别有武汉话、上海话、广东话、东北话以及成都话5个版本,让网友直呼亲切,其他地区的网友也纷纷催促:河南话呢?长沙话呢?温州话啊通通安排起来!

从让机器说话,到让机器说方言,语音包的花样是越来越多了。
说到语音包玩花样,高德地图可以说是互联网行业第一个吃螃蟹的人,2013年,志玲姐姐的娃娃音台湾腔在高德地图一上线,立刻引爆市场。而后,高德地图又推出了郭德纲、小岳岳、高晓松、罗振宇、罗永浩等各个领域的名人的语音包,意在满足不同人群的喜好。
作为人类,可以轻而易举识别出机器发出的声音,并且理解他们所说的内容,难的是,如何让机器人听懂、理解人类说话?
前文中所提到的一个个语音包,无论如何变换音色、口音都只是小学生阶段,语音交互这门学问才是大学生研究的内容。
目前,人们可以通过文字,以触屏、键盘、鼠标等工具向机器发号施令,这种技术已经十分成熟,语音交互则尝试通过说话与机器交流。
近几年,天猫精灵、小度智能音箱、小米的小爱同学相继出现在大家的视野。人们可以与其进行对话,例如询问天气,问一些“魔镜魔镜你觉得世界上谁是最漂亮的女人”之类的无聊问题,打发时间。

当然,这些智能音箱还可以播放音乐、与家中的电器连接,并且控制他们的活动。
类似情节在古代的神话故事中多次出现过,例如《西游记》中,孙悟空在平顶山大战金角大王和银角大王。
“我叫你一声,你敢答应吗?”
只要一答应,就会立刻被吸入宝葫芦中,化为浓水。这个宝葫芦不仅能听懂人话,还能分清楚声音出自何人之口。
遗憾的是,宝葫芦不会说话,智能音箱们可能还会礼貌地通知你一句:“金角大王已经化成浓水,请放心。”

人工智能or人工智障
早在1962年,IBM就发明了第一台可以用语音进行简单数学计算的机器Shoebox。
2011年,苹果发布手机助力Siri,语音交互由此翻开了新的篇章。
走到今天,语音交互已经付出了非常多的努力,但还是远远不够。
语音交互其实与人的信息处理过程差不多,先要识别语音,再进行理解,最后做出反馈。虽然就只有简简单单的三个步骤,但每一步,都行之不易。
首先,在识别语音的过程中,可能因为场景噪音、说话习惯等影响语音质量。
当我们使用手机的录音功能时,也可以发现,如果手机距离声源较近,就能保证录到质量较高的语音信息。而一旦距离变远,再加上汽车鸣笛等环境噪音、回声、混响,就很难说了。
其次,机器人对语音的理解效果,受到多种因素的影响。
正如微信可以将普通话语音转化为文字,一旦涉及到方言,就知识超纲了。机器人难以识别有口音、普通话不标准或者吐词不清的信息,对于此类信息,要么是答非所问,要么就是无意义地重复:“请再说一遍。”
这也就导致,普通话不太标准的雷军在发布会上展示小爱同学时,场面一度尴尬。当雷军问小爱同学,三个木叫什么时,得到的回答却是“你是电,你是光,你是唯一的神话”,引得全场爆笑,“人工智障”这个绰号也由此而来。

另外,中国文字,博大精深。人们表达的习惯本就多种多样,不同的对话场景中,所用词汇的含义和情绪也会不同。而且随着对话轮数的增加,人们在对话时会把之前提到过的信息省略,人脑自然可以理解,机器就不明就里了。
例如,你问:明天的天气怎么样?
“晴,32摄氏度。”
“后天呢?”
机器还能明白这里的后天,是指后天的天气吗?
语音交互是一项非常复杂的工程,当前技术的发展还不足以理解所有场景,但能完成特定场景、特定任务中的对话要求,也开始在某些内容标准、重复度高的行业开展了服务,例如客服行业。不难发现,各大商场的每个楼层都放置了导购机器人,方便为人们引路。
未来,语音交互技术一定会在更多行业和场景落地。


语音交互鸡肋吗?
对于用惯了鼠标键盘、习惯了打字输入信息的人来说,与机器说话有种说不出的诡异和不自在。有人认为语音交互很“鸡肋”,食之无用,弃之可惜。
但不得不承认的是,语音交互让很多被隔绝于互联网、智能化之外的人,接触到这个高速发展的现代社会。
我们向来是先学说话,再学认字、写字,有很多人学习语言的过程,就只是停留在学习说话,一个大字都不识,特别是农村的中老年人群。与语音交互相比,鼠标键盘也好,触屏手机也好,丰富的应用软件也好,对他们来说都需要极高的学习成本。
我国三线以下城市及农村乡镇地区人口多达10亿,60岁以上老人占比18%,就算只针对这些老人,依然还有2亿左右的语音交互的潜在用户。
另外,盲人也是被隔绝在互联网世界之外的群体,根据世界卫生组织2010年的统计数据显示,中国的盲人群体共有824.8万,十年过去了,这个数字只增不减。
老人也好,盲人也好,谁也不愿意被时代丢下,他们希望了解这个日新月异的互联网世界。
语音交互为他们打开了新鲜世界的大门,光搜索资讯这一项功能,对于他们来说就已经足够前卫,另外还有智能点播、语音购物、生活服务等功能。
这样一扇大门的打开,对于各大互联网公司而言,是一笔巨大的流量接入,其背后所蕴含的商业价值绝对不可忽视。
对于那些已经接入互联网的人群来说,由于技术限制,车载和家务这样文字输入困难的情况,是语音交互的主要使用场景。
试想,技术成熟之时,只要对着手机说一句“帮我叫辆车”,十分钟后出租车便等在楼下,这样的便利,还能被称为“鸡肋”吗?
整个人类的工具进化史,就是一部低学习成本战胜高学习成本,便利战胜非便利的历史。
而人类面对新技术的态度,则是一个从“嫌弃”到“真香”的打脸过程。
作者:周文君
评论留言