近年来,人工智能迅速发展,语音类人工智能作为人工智能领域中一个重要的行业赛道也备受关注。其中,“智能语音助手”是该赛道的一个重要应用领域。
大多数老百姓是请不起秘书的,但实际上我们每个人都有被关注的需求,我们希望未来智能语音助手可以做到这一点,就像《Her》中的Samantha那样。
从2010年起,互联网巨头们纷纷通过参股、并购或自主研发的方式探索和布局智能语音产业,其中,智能语音助手是其重点布局对象。
智能语音助手的兴起,离不开背后的NLP技术服务提供方的支持。NLP(自然语言处理)通过研究人机语言的交互,理解人类语言并将其转换为机器语言,从而为智能语音助手提供技术支持。
近日,猎云网接触到的北京轮子科技有限公司,是一家人性化NLP语音秘书服务提供商,该公司自主开发的产品“玩秘”,主要为智能手机及其他智能终端提供生活消费领域的语音秘书服务。
据玩秘CEO&创始人余轲介绍,“玩秘”可以帮助用户在看电影、订外卖、找餐厅等多个生活消费场景下获得个性化推荐的活动和行程。
公司创立伊始,余轲在NLP自然语言理解与深度学习领域,已有10年的研究和行业经验。
从牛津本科毕业后,余轲在斯坦福和普林斯顿分别拿到了超高维统计学习与深度学习方向的硕士和博士学位,曾在摩根大通担任全球人工智能算法交易总负责人(能源与资源)。
玩秘正式开始运营,是在2017年。余轲称,玩秘团队一开始的方向就很明确,就是要做吃喝玩乐/生活消费领域的人性化NLP语音秘书。
余轲在接受猎云网采访时表示,公司的长期愿景,是让玩秘成为用户在全生活场景下的人工智能助理,“就像电影《Her》中的Samantha 、《钢铁侠》中的 JARVIS那样”。
发力手机语音助手,助力华为手机提供订电影票服务
玩秘是一款ToB-ToC的产品,通过接入智能手机等终端设备,为C端用户提供生活消费领域的NLP语音秘书服务。
玩秘最早布局的终端是智能音箱。早在2018年,玩秘的服务就已经在小米小爱同学、阿里天猫精灵等智能音箱上线。
随着近两年手机语音助手兴起,玩秘的布局重点也有所调整。余轲称,玩秘每一段时间都会有一个“战略侧重点”,今年的重点是手机语音助手。
“在智能手机开始普及的时候,人机交互最主要的形式是界面触屏、点击这种类型的交互,我们认为,未来这种交互会慢慢转移向语音交互,效率是其中一个原因,但更重要的是,语音交互方式的人性化程度很高。”当猎云网问及为何选择做手机语音秘书产品时,玩秘创始人余轲如是说。
中国通信院2020年公布的2019年国内智能手机市场报告显示,2019年全年国内手机市场总出货量已达到了3.89亿部;而其2019年发布的《手机人工智能技术与应用白皮书》显示,在语音领域中,手机智能助手是目前使用最为广泛的功能。
余轲表示,在中国,手机的销量巨大,加上近两年中国的手机语音助手势头正起,他判断,相较于智能音箱,在中国的生活消费场景中,手机会成为语音交互市场的一个“更大的爆发点”。
余轲表示,公司近期的业态,是“帮助手机厂商实现它们语音助理的一部分服务和功能”,主要是针对吃喝玩乐和生活消费场景的服务,比如助力手机厂商实现看电影、订外卖、找餐厅等服务,“这是我们目前主要的发力方向”,余轲称。
目前,玩秘已经在华为手机和小米手机上线了语音购买电影票服务,据介绍,用户在华为手机上唤醒语音助手“小艺”后,只需说“电影票助手”;在小米手机上唤醒语音助手“小爱同学”后说“电影助手”,就能在对应品牌手机上进行语音选影院、选场次、选座及购票,完成这一系列消费行为的闭环。
余轲称,未来玩秘将会和手机厂商推出免唤醒词机制,届时用户将不再需要说类似“电影票助手”这样的唤醒词,在手机上唤醒语音助手后,可直接说出“我想看《误杀》“、”最近上了什么火爆的电影“等院线观影相关的句子,即可轻松享受语音订票服务。
除了语音购买电影票功能外,玩秘的其他服务功能如订外卖、订酒店等,也在研发当中。
努力达到用户“临界满意点”,做老百姓的生活秘书
随着最近两年国内各手机厂商开始主打AI手机的概念,给用户提供“更智能、更便捷、更生活化的服务”,手机语音助理也迎来了“服务场景化”的全新阶段,由最初的“闲聊机器人”定位走向了“面向任务型(Task-Oriented)”服务的形态。
余轲介绍,与闲聊、机器翻译等采用“黑箱式深度学习”的标准化技术有所不同,玩秘作为一种面向任务型(Task-Oriented)的 NLP服务产品,需要把深度学习与大量的数理统计方法论以及大数据分析方法论进行深层次的结合,“这在整个NLP中是难度最大的领域之一”,余轲称。
猎云网了解到,虽然目前市面上已经出现多款语音交互产品,但用户体验并不理想,国内大部分用户仍旧选择通过手机APP点击搜索方式满足生活消费需求。
在用户的使用习惯上,余轲坦言,受到来自时代和一些客观因素的影响,用户目前还是以点击手机APP的搜索形式为主。要培养用户使用语音交互产品的习惯,时间是一方面,更重要的是语音交互相关技术要足够成熟,能够支撑其产品和服务的质量达到用户的“临界满意点”。
“比如用户已经长时间在猫眼电影或者淘票票这样的APP上购买电影票,习惯已经非常充分了,如果不能给用户一个非常有说服力的理由,用户是不会主动使用语音交互产品的,因为没必要。”余轲表示。
在余轲看来,对于愿意使用玩秘的用户来说,这个“非常有说服力的原因”,应该是它能够让用户在语音交互过程中,得到“像被一个真人秘书所关注、所关怀”一样的人性化体验。
与Siri等语音助手的简单机械式的问答不同,玩秘强调语义深层次理解、思考和分析能力,模仿人类复杂的决策过程,做出基于众多数据和因素的智能决策和推荐。
余轲称,玩秘是一款“你越用它,它就越懂你”的产品。
“就像安排了一个秘书。大多数老百姓是请不起秘书的,但实际上我们每个人都有被关注的需求,我们希望未来智能语音助手可以做到这一点,就像《Her》中的Samantha那样”。
余轲表示,未来,当NLP技术能够支撑语音交互产品服务质量达到用户的“临界满意点”时,语音交互所具备的人性化优势,会让用户出现批量迁徙,到语音交互模式中来。届时,NLP领域将会进入一个高速爆发期。
在NLP语音服务质量的评估中,“语言多样性覆盖度”是一个很重要的指标。余轲向猎云网解释,通俗来讲,用户在表达同一需求时,可能会有多种不同的表达方式,强大的NLP技术则能够做到理解用户的不同表达并准确地识别到用户的真实需求。
据了解,玩秘的团队来自于摩根大通、平安集团陆金所、阿里巴巴、思必驰、快手等企业,玩秘的所有NLP技术模块均由公司内部团队自行研发,并经过了多次重大技术迭代和NLP算法模型升级。
余轲称,目前,玩秘已经上线3.0代的NLP的算法模型,语言多样性覆盖度接近80%,而行业上平均水平只有30%左右。目前,玩秘正着力研发4.0代基于深度学习与Retokenization的NLP算法模型,届时,玩秘的服务水平和人性化程度,预计会有一个很大的提升。