Facebook语音助理发展慢背后:急功近利干扰开发进程
新浪科技讯 北京时间11月1日早间消息,据美国《福布斯》杂志网站报道,Facebook本月早些时候发布的智能音箱产品Portal背后问题不少,除了数据与隐私争议,这款智能音箱还有个明显的缺陷——缺少Facebook自己的语音助理,而是搭载亚马逊的Alexa。
这样就出现一个很尴尬的局面:花350美元购买Portal的Facebook用户实际上接入的是亚马逊系统,而亚马逊的同类产品Echo Show比Portal至少便宜100美元。而且Facebook无法收集任何语音数据,使其语音技术得到进一步训练。
Facebook从2013年开始大力投资语音技术。然而,尽管起步较早,作为拥有30275名员工、2017年利润近160亿美元的世界最大高科技企业之一,该公司尚未在语音领域赢得一席之地,而该技术被广泛认为是下一代人机沟通的媒介。
这凸显出Facebook在将新技术转化为产品方面存在巨大困难。过去五年,Facebook收购了多家语音公司,并聘请了很多语音技术专家, 但两名知情人士表示,上述投资难以转化为有用的服务。原因很大程度上在于Facebook内部的意见分歧——在研发进度上产生混乱,以及开发者无法决定集 中的领域。
直到大约两年前,公司内部人员才一致同意开发Portal,但已经太迟。“Facebook想在Portal上使用自己的语音转文本技术,但还 没有准备好,”一位不愿意透露姓名的资深工程师对媒体说。使用Alexa是一个“重大劣势”,“如果无法获取数据,就很难进步和学习,并做出改进。”
Facebook的一位发言人在回应中指出,Portal用户可以通过说“嘿,Portal”来激活设备,以启动呼叫和访问设备控制,但该发言 人承认,公司必须与亚马逊合作,“提供人们期望从家用设备中获得的各种工具”。Facebook没有回答关于语音技术开发的问题。在2016 年,Facebook当时的Messenger主管大卫·马库斯(David Marcus)说,该公司对语音技术的开发“不够积极”。
产品经理与工程师矛盾干扰开发
事实上,Facebook一直致力于语音技术的开发,但产品经理和语音研发者之间的意见分歧干扰了努力方向。由于产品经理的开发进度要求快于技术本身发展的水平,这让工程师倍感压力。
一位资深工程人士说,产品经理经常希望语音技术研究能在“半年内”转化为产品。问题在于,由于语音技术的复杂性,构建语音技术需要半年以上时 间。语音数据在不断变化,麦克风的类型不同,还有不同的口音和麦克风之间不同的处理硬件。要构建识别语音的软件,还需要首先在语音数据库上进行训练,然后 将其投入实际应用,然后进一步在真实语音上进行训练。
比如苹果Siri 的这一过程持续两年多。当苹果在2011年10月推出Siri时,它将语音识别软件外包给了Nuance,一个语音识别领域的老牌企业。但苹果不喜欢在战 略产品方面依靠第三方,因此开始着手建立自己的软件。2013年,苹果在波士顿(距离Nuance几英里)设立了语音技术办公室,2015年,苹果公司悄 悄放弃了Nuance这一合作伙伴。
就语音识别技术总体而言,谷歌处于领先地位。爱尔兰语音技术初创公司Voysis创始人皮特·卡希尔(Peter Cahill)对硅谷语音领域的描述是:“Google在顶部,然后是亚马逊和苹果,然后是Facebook。”他补充说,“最后一家正在努力冒出来。”
当时在Facebook高管团队中,有人希望使用语音技术研发Siri之类的数字助理,但这些项目需要长期付出大量时间和人力。由于研究者和产品经理之间缺乏合作,最终都不了了之。
消息人士称,很多参与开发Facebook语音项目的产品经理对其中所涉及的技术缺乏清醒的认识。经理们也往往每三到六个月一换,核心人员被吸 引到大名鼎鼎的内部研究部门——FAIR和AML。这就相当于不断栽树,却不给它生根成长的机会。说到底,Facebook的问题在于缺少“一个有凝聚力 的团队”。
比如,Facebook每六个月举行一次小组产品评审,通常会使研发方向发生变化,从基于语音的搜索,到新闻转录,再到Messenger语音助理——所有这些内部项目均未转化为产品。
收购初创企业获得技术被浪费
值得称道的是,Facebook在语音技术方面起步较早。2013年收购了移动科技(Mobile Technologies)——一家由卡内基梅隆大学(Carnegie Mellon University)推出的初创公司。他们开发了一款早期的翻译应用程序Jibbigo,可以听一种语言的语音,然后用另一种语言播放。当 Facebook以未公开金额收购这家初创公司及其几十名研究人员时,引发了令人兴奋的猜测,即Facebook将开始与苹果Siri或者更多竞争对手合 作。
“语音技术已经成为人们导航移动设备和网络的方式,其重要性日益显现,”当时领导这项交易的Facebook的汤姆·斯托基(Tom Stocky)写道。“这项技术将帮助我们更新我们的产品以适应进化需要。”
然而,即使Facebook将Jibbigo的团队规模扩充到原来的两倍,后者的语音识别技术最终也没派上用场。据参与交易的人士透露,Facebook主要想利用Jibbigo的技术来翻译用户帖子中的文本,这样就不必依赖微软的必应(Bing)。而Jibbigo研发的语音识别技术在一年后“下马”,此人补充说,这一收购基本上就是一场浪费。“它没有产生足够的点击……(人们)没有那么多说另一种语言的朋友。”
语音技术由两个关键组成部分组成。第一个是语音识别,还有一个是自然语言理解,也被称为语音AI。
2014年,Facebook收购了Wit.ai——一家专门从事自然语言理解的公司,向开发者授权使用软件,把文本的混乱结构变成可用软件查 询的数据。然而,Facebook并没有将该公司的技术和语音识别技术结合起来,而是使用它来帮助企业建立Facebook Messenger聊天机器人,这是在2016年4月发起的一项变现计划。
“Facebook从来没有明确的语音识别策略,”另一位高级工程人员说。“从来不清楚为什么要买下(Jibbigo)。这在内部是个大问题。我们知道有这样一支团队,但没人知道他们为什么出现在这里。”
内部研究机构成“鸡肋”
据消息人士透露,Facebook的语音努力最终体现在2015年到2017年的两个领域:一个是转录Facebook视频的音频,以制作实时字幕,另一个是发布Facebook人工智能部门FAIR(即Facebook人工智能研究)的尖端研究成果。
Facebook在2013年12月启动FAIR项目,该部门常被比作DeepMind——2014年谷歌花费4亿美元并购的AI研究公司。这 个部门由50名研究人员组成,在AI研究“大咖”Yann LeCun的带领下解决人工智能中的长期问题。公司内部还有一个类似部门称为AML(即应用机器学习),有大约100名工作人员,负责人工智能研究的商业 化。
根据Facebook一位资深人士透露,这些部门的所扮演的角色很复杂——聚集一堆研究者,但对产品开发毫无贡献,还引诱技术熟练的工程师脱离产品开发。“它创造了一个平行的研究世界,”消息人士说。
最终,Facebook之所以没有更多投入于语音技术的开发,原因正如知情者所言:“没有客户,没有人对Facebook说‘我需要这种技术。’”
这正是那些想在更广泛竞争中胜出的高科技公司所面临的挑战。不断创新意味着在一个尚未被证实的技术上投下决定性赌注,即使缺少明显的客户。Facebook之前没有在语音技术上及时发力,等他们出手时,早已时不我待。(斯眉)