苹果吃饱,Siri跌倒,这是不争的事实。
自2011年在iPhone 4S上惊艳亮相,Siri就成了苹果的又一符号。毕竟,在那个人工智能刚刚进入深度学习的年代,不是每一个普通人都有机会与机器智能主体对话,相比于一款新功能,Siri更像一个未来文明的使者,让AI的概念得以具象。
但随着新鲜感褪去,很多问题开始接连浮出水面:开放对话环境中答非所问,对使用者的口音语调设置门槛,仅能完成iOS生态内app的唤醒,十几年来功能迭代缓慢,智能、语音、助手,定位打出的三个层次,无论是拆开还是组合,Siri都没有达成使命。
作为苹果的产品序列,它就像个异类,如同私生子一般,只有创新的色彩,却失去了品牌下其他产品共有的实用基因。也正因如此,在苹果连年增长的同时,人们对Siri的热情渐渐黯淡,以至于悄悄关掉了“Hey Siri”的选项,不再唤醒。难道说,Siri的命运,仅仅是一个满足猎奇的新欢?
问题的答案,可以用数学中的三个点来寻找。
01 零点
“零点不是点。”
这是数学中最常听到的概念。作为函数图像与轴的交点,零点更多强调了一种重合的状态,而非数量上的增减。如果把苹果的业务布局看成一条函数图像,那么Siri就是其中的零点:它是电子产品与高层次机器智能的交点,代表了向上探索的状态,却不具备庞大的体量。
在被苹果收购前,Siri就已经独立发展了2年,背靠官方科研项目,以第三方app的身份出现在苹果应用市场。看中了语音助手背后的广阔前景,乔布斯以2亿美元的价格拿下了Siri公司,由此,苹果有了自己的AI。
乔布斯对Siri的欣赏显而易见。遗憾的是,发布后第二天,乔布斯病逝。在接下来频繁的人员变动中,没有坚决果断的引领者出现,Siri开始迷失了自己的方向。投入不足、定位不清、系统封闭,让Siri的下坡路成为必然。
坦白来说,Siri在发布时就算不上成功。推出是草率的,初代功能十分局限。当时的Siri只能响应设置闹钟、打开app等简单的操作指令;而面对发送短信、拨打电话、信息检索等涵盖更多语言元素、更为灵活的语音指令,却存在明显的识别漏洞。
从人工智能深度学习的特性来看,这一问题并不难解决,只需要加大训练量就可以逐渐优化。问题在于,Siri并不是苹果的全部,与之同期进行的项目太多,既有地图、iBook等应用,又有iPad Air、iPad Pro、Apple Watch等新产品线。资源被分割,让本就没有多少经验可供参考的Siri举步维艰,“进化”被一推再推;再加上项目负责人威廉姆森的一意孤行,本该持续更新的Siri只能跟随iOS系统一年一更,使得进步的空间进一步压缩。
除了投入不够,定位不清也是一大问题。按照Siri创始人的假设,语音助手应当是“执行引擎”(do engine),而非简单的“搜索引擎”。这就意味着Siri要像一个生活中的朋友,不仅能够响应程式化的指令,还要具备应对开放性对话场景的能力,前者对应自然语言处理(NLP),后者对应了更高难度的自然语言理解(NLU)。
然而,苹果内部支持Siri的高管因为内斗相继离职、原始技术团队出走,让“最初的梦想”被涂抹了底色。搜索的功能被放大。除了简单的日常用语外,大部分语句都会被转化为搜索指令,哪怕文本中包含了“Apple”“Siri”“you”等指向性很强的词语,它也无法识别到用户的对话请求,依然会跳转到web search界面。另外,在部分用户恶意引导下出现的人群歧视、政治倾向等敏感问题,也促使了技术团队做出“一刀切”的决定,让简单的搜索成为挡箭牌。
至于系统封闭,就是众所周知的毛病了。身处iOS围墙内,外部开发人员无法介入,对于依靠海量数据触发学习的人工智能来说,这个弱点无疑是致命的。虽然后来亡羊补牢地推出了SiriKit接入第三方,但是为时已晚,智能语音助手的市场已经有了第三方功能更为丰富的Amazon Alexa和Google Assistant,苹果也因此丢掉了先发优势。
02 奇点
奇点,在数学中指那些无法定义的点。如Siri一样的智能语音助手们,正是一个个奇点。
作为后起之秀,它们并不是老牌科技公司的主营业务,得不到百分百的关注;在技术领域仍存在的诸多未知,也让发展有了阶段性的天花板,怎样安排智能语音助手在业务板块中的位次,答案有些模棱两可。
从苹果目前的表现来看,很显然,Siri只被当作一个微不足道的功能模块。耗尽了发布之初新鲜感带来的红利,如今沦为标配,仿佛约定俗成,每一款新产品都会搭载Siri,却不见多少提升;难以成为拉高硬件销量的卖点,甚至于在HomePod中“倒戈一击”,间接导致了产品的下线。
实际上,模块化并不是唯一的选择,在奇点中,趋向无穷的点被定义为极点。与之相似,语音助手也可以成长为庞大的“极”。
发布于2014年的Amazon Alexa就是很好的例子。
在发布时间上未能抢得先机,不代表产品本身技不如人。迟到的三年,反而让Alexa得以充分进化算法。与智能音箱Echo一同问世,也表明了对产品的设想绝不仅仅是辅助性的功能模块,而是一个具备巨大增长空间的业务版块,围绕着Alexa,又会衍生出诸多触手,覆盖更广的应用场景。在产品功能上,与苹果生态的封闭性截然相反,开放的环境让Alexa拥有上万功能,包括但不限于外卖订餐、每日一问、关注球队赛况更新等。
独立的产品形态提供了“沉浸式”语音交互体验,但这并不是成功的关键。Alexa能够达到Siri难以企及的高度,更主要的原因是技术在场景中的下沉。智能音箱的形态,对应着家庭日常生活的应用场景;反过来,家庭场景就要求产品具备特定的属性,比如对不同年龄的匹配性、娱乐性、陪伴性等等,上升至功能,又对应着强语言理解能力、丰富的指令选项、自然语义联想。通过场景完善产品,再由产品锁定更加精确的市场,进一步打磨技术,这样就形成了闭环,智能语音交互才得以顺利落地。
Siri与Alexa的区别,也映射了目前涉足AI产业的企业表现的模式。如苹果一样,只把AI当作已有产品系列的附加功能,就会局限在产品本身的应用场景,结果“文不对题”,闭环无法形成;只有把场景和AI当成两个独立端点,拿产品当作衔接的纽带,才能得到螺旋上升的良性循环。
03 原点
“我们究竟需要怎样的语音交互?”
或许这才是“Siri跌倒”的真正原点,也是“Siri们”共同的问题。至于答案,可以从两个视野来寻找:现在,未来。
从现在的视野看,语音交互并不是大多数人的刚需。既有的工作、生活方式中,个人的问题自己解决,团体的问题沟通解决,只要信息是畅通的,不存在使用人工智能充当媒介的必要。
然而,以“信息畅通”作为前提,已经划出了存在痛点的受众:信息不畅通的特殊人群。
小孩、老人、残障人士,都是信息受阻的一方,在处理问题时存在障碍。克服这种障碍,人们通常会想到一个职业:保姆。而智能语音交互,恰恰是保姆的最佳替代。充分利用AI的信息处理能力,搭配特定机械结构,为存在重度需求的用户提供生活辅助;或者仅仅以音箱的形式出现,陪伴需求较轻的受众,提供陪伴、解答、硬件远控等服务。在与特殊人群相关的应用场景中,智能语音交互的出现无异于一场变革。
将视野转向未来,也许会看到一片迷茫,但参考过去发生过的种种巨变,也可以猜想到智能交互带来的震荡。从信息流通的角度出发,智能语音交互代表了更快的传播速度。这和由牍到纸、由马到车、由2G到5G是一样的道理。
电影《Her》描绘了一个语音交互高度成熟的时代。片中人物的办公完全脱离了纸笔,也脱离了我们目前使用的键鼠,只需要人坐在电脑屏幕前,口述自己的想法就可以了。不同于简单的语音转文字,智能语音助手会通过使用者的语气、神情、语言内容等,判断一个语句是内容的一部分还是一条指令。当你说“帮我删掉上一句”,上一句文本就会清除;当你说“存个草稿”,文本就会进入草稿箱。
如果有一天,智能语音交互技术真的发展到了如此高度,那么可想而知,工作的效率将会提高不止百倍;甚至连工作场景这一概念都会消失不见,只要我们正通过耳机或是更先进的设备与语音助手保持联系,哪怕是躺在床上,我们也能轻松地处理文件、撰写策划。
Siri的创始人,诺曼.威纳尔斯基曾认为,改变人类未来的三大要素是虚拟助理、人工智能机器人助理、增强现实,它们分别对应着信息世界、物理世界和二者之间的接口。很显然,智能语音交互同时具备这三个要素。在看不到的地方,语音助手进行信息处理;在看得见的地方,它呈现处理的结果并收集反馈;而它本身,正是那个接口。
眼下的Siri虽已落后,但在大势所趋下,也绝不会成为弃子。最近几年,苹果大肆收购AI公司,也表现出了重心转移的信号。不难想象,接下来的几个十年里,智能语音交互将成为几家互联网科技巨头鏖战之地,这种竞争带来的正反馈,让语音交互开始三点成面。
本文来自微信公众号“新眸”(ID:xinmouls),作者:刘思璇,编辑:桑明强 ,36氪经授权发布。