下班后嘈杂的办公室,当月底‘穷困潦倒’的你还在纠结外卖是吃套餐A还是套餐B的时候,突然十米开外的同事大喊一声“发工资啦”。你果断地在原本就已经选好的套餐上又加了一个鸡腿。
同样的,在嘈杂的餐厅,我们总能清晰地听到有人叫自己的名字,并根据声音判断发声的方位。而相比目前市面上的智能语音系统,除了识别精度之外,甚至常常无法收音,其核心原因是什么呢?
为什么人的听觉会有选择性?
相信大家都会有这样的经历。睡着后,一夜的暴风闪电、大雨倾盆,并不能影响到我们。反而吵醒我们的可能只是轻微的手机铃声。而我们常把这种情况称为“鸡尾酒会效应”。“鸡尾酒会效应”在声学中是指人耳的掩蔽效应。在鸡尾酒会嘈杂的人群中尽管周围噪声很大,两人依旧可以顺利交谈,仿佛听不到谈话内容以外的各种噪音,因为自身已经把各自的关注重点(这就是注意的选择性)放在谈话主题上了。
因为当人的注意力集中于某一事物时,意识会将一些无关的声音刺激排除在外,而无意识却在始终监察着外界的刺激,一旦有一些与自己有关的特殊刺激,就能立即引起注意。该效应实际上是听觉系统的一种适应能力。
简单来说,在听任何声音时,大脑都会提前进行某种程度的判断,然后再决定听或者不听。
智能语音设备如何精准收音?
而说到智能语音识别技术,最早还要追溯到上世纪50年代。彼时的AT&T贝尔实验室开发的Audrey语音识别系统已经能够识别10个英文数字,但实际使用效果并不好。
随着时代的发展,直到近些年,在引入深度学习之后语音识别准确率才得以快速提升。如今,语音识别的正确率已经接近甚至部分超过了人类。比如,2017年,IBM、微软相继宣称自家产品的语音识别错误率接近了人类,人类的语音识别错误率大约为5.1%,而百度更是通过像百度大脑中语音语义一体化这样的技术,把语音识别错误率控制在了3%左右。
此时现代汽车找上了行业大佬“百度”,强强联合打造了智能网联平台,便于提升用户的用车体验。而当下,第十代索纳塔双12.3英寸超大智慧连体双屏显示系统中搭载的第三代智能网联平台就是现代汽车与百度两大技术公司深度合作后的最新产物。
这款全新的第三代智能网联平台将根据使用场景将语音识别分为“封闭域识别”和“开放域识别”两大类。
封闭域识别,特定情况下的固定语境。顾名思义,系统将识别范围圈定为预先确定的词/句。可以理解为强化版的听觉敏感。当乘客说到“你好,北京现代”或“小度小度”时,系统将及时捕捉,并同步开启系统与乘客语言对话。除了系统开启语言外,系统中还加入了“我困了”、“抽根烟”等常用词汇。当收到特定词汇时,系统将根据指令智能进行天窗、车窗及音乐系统的相关操作,更好的帮助乘客解决当下问题。
开放域识别,乘客放开了说,啥都接得住。得益于百度的智能加持,第十代索纳塔搭载的第三代智能网联平台,拥有了更加平顺的智能语言交互系统。无论是让系统帮助操作车内、家里的智能设备,还是聊天段子日常交流,系统全都不在话下。同时智能AI的加入,也让系统不仅能听懂话,更能听懂你。
无处不在的小心机 隐藏在车内12.6°的哲学
除了高智能的系统加持外,第十代索纳塔也将物理领域中人机工程学原理发挥到了极致。相较于行业内漂亮的“大直屏”,第十代索纳塔引以为傲的双12.3英寸超大智慧连体双屏显示系统竟然是“弯”的。
所以,是因为厂家做工失误导致的屏幕折叠?又或是技术限制,车内空间利用率不够?当然不是,这12.6°的折叠屏里折叠着北京现代不少的小心思。
一定的偏折角,让语音对话更好“听”。虽说是有了百度智能语音的加持,但为了进一步提高系统的收声率,一定角度的折角将发挥出它的最大功效。通过多次实际场景的实验,12.6°的折角将使收声效率和使用舒适度达到极佳的平衡状态。
一定的偏折角,让智慧双屏更好用。可能有些较真的读者会纠结,是不是再将偏折率提高一些,效果会更加明显呢。答案是肯定的。但是更大的折角意味着将会牺牲副驾驶者的使用好感度,使整体评分下降。同时大屏偏向驾驶者一定的角度,将在减少右侧阳光直射大屏带来的反光的同时,让驾驶者更好地使用。
看似稀松平常的设计,却饱含着北京现代不寻常的“小心机”。这些极力贴合人机工程学的设计,正是北京现代“以客户为中心”的品牌理念落地。而这款“有温度”的第十代索纳塔,也将带着全村人的希望,在本就竞争激烈的B级车市场上开辟出新的天地。