Neuseeland
Deutsch
Teilen

华为投资深思考,多模态语义理解的时代来了?

转载Autor: 时氪分享
华为投资深思考,多模态语义理解的时代来了?
Zusammenfassung近日,获悉,深思考人工智能机器人科技(北京)有限公司(以下简称“深思考”)获得华为旗下全资……

近日,获悉,深思考人工智能机器人科技(北京)有限公司(以下简称“深思考”)获得华为旗下全资子公司哈勃科技投资有限公司(以下简称“哈勃投资”)的数千万人民币的战略投资。

从深思考官网可以了解到,其最突出的技术是“多模态深度语义理解引擎(iDeepwise.ai)与人机交互技术”。官网显示,该引擎技术可同时理解文本、视觉图像等多模态非结构化数据背后的深度语义,其中,对长文本的机器阅读理解技术、自由跨域的多轮人机对话技术、对多种模态信息的语义理解技术是其非常突出的优势。

让人好奇的核心是两个问题,第一,深思考的核心技术,即多模态深度语义理解与人机交互技术究竟是什么,又面向着怎样的落地场景?第二,华为,或者说华为的子公司为什么要投资深思考,这其中存在着怎样的商业考量与生态布局?

从接下来的文章中,我们或许可以一窥一二。

在8月结束的“2019机器阅读理解竞赛”中,在两项核心技术指标中,深思考均位列第一,从全球2000多支队伍中脱颖而出,取得冠军。当时,曾对深思考人工智能CEO兼AI算法科学家杨志明博士进行过采访。

hougarden

“人类说话的时候,往往是口语化的、不连续的、支离破碎的,甚至语序颠倒的。语音识别只停留在语音指令,不能理解用户语言及背后的逻辑,实际无法解决用户在很多场景中的刚需。”杨志明举例,人类在看电影时,不仅看画面、听声音,也会看字幕,甚至还会根据电影主题进行联想。

每一种信息的来源或者形式,就可以称为一种模态,例如,人的视觉、触觉、听觉、嗅觉、味觉,信息媒介包括语音、图片、视频、文字等,而传感器则有红外线、雷达、电磁等。

多模态的人工智能就是通过不同的信息维度和信息来源,帮助人工智能以更像人类的方式进行思考和学习。

随着算法、算力、云及芯片等技术的不断成熟,人工智能,尤其是强人工智能在过去几年快速发展。据WIPOP2019年人工智能趋势报告显示,50%的AI专利在过去5年内发表,这意味着从2014年-2018年这五年内,AI产业进入了快速发展的阶段。

当然,相比单一模态的人工智能技术,多模态的人工智能技术无论对算法,还是算力的要求,都复杂不少,甚至可能可以说是指数级的复杂程度,而最终呈现的效果,也会更接近人类思考的效果。

以智能家居场景为例,语音识别技术实现的效果,是听到语音指令,并执行指令,一旦有复杂的语音表述,就会进入,“我没有听懂您说的是什么?”,或是“您的意思是这样吗?”等操作指令的进一步确认和细化。

真正能够帮助机器解决“听懂”和“看懂”的问题是语义理解,而其中的机器阅读理解一直被认为是语义理解和自然语言处理(NLP)的标志性临界点。

据2018年年底腾讯研究院统计,在中国人工智能企业中,融资占比排名前三的领域分别是计算机视觉与图像,自然语言处理,以及自动驾驶/辅助驾驶,而排在第二名的自然语言处理,融资122亿元,占比19%。

深思考的“多模态深度语义理解引擎(iDeepwise.ai)与人机交互技术”,简单来说,就是实现从简单的机器感知到深度的语义理解,而这一点,会使人机交互变得更加智能,也是机器真正迈向智能的关键。

这可能是深思考能够吸引到华为子公司投资的原因之一。

但显然,这不是唯一的原因。

如今,人们已经很难用一句话来简单概括华为,其产业链包括通信设备、半导体、消费电子、云计算、安防等,公司营收也从2008年的183亿美金增长到2018年的1052亿美金。

不仅手机销量超越苹果,华为在5G、芯片和智能硬件端的表现也十分抢眼,尤其是5G产业上的发力,比如最新旗舰手机Mate30系列手机,其搭载的麒麟990芯片,也是行业中第一枚正式商用的5G SoC芯片。

再比如面向全场景的分布式操作系统鸿蒙OS,据之前发布会介绍,鸿蒙OS已在手机、平板上率先进行了使用,并将会应用在智能手表、智慧屏、车载设备、智能音箱等智能终端上。

但光有OS、芯片和5G技术,并不能完全实现万物互联的场景。这些技术像是未来华为AIoT战略的基础,但在基础之上,需要更多有效的技术来增加基础的抓手,落地更多的场景,触达更多的用户,并实现无感的体验。

多模态的语义理解技术及类脑人工智能技术,则能够起到关键性的作用。

目前,深思考基于AI多模态深度语义理解技术与人机对话产品主要落地于智能车联网数字座舱、汽车智慧营销、手机智能移动终端、智能家居、智慧医疗健康等应用场景。

以移动端的场景为例,在智能手机终端场景下,深思考基于多模态深度语义理解与人机对话引擎(iDeepWise.ai),提供出行、健康咨询、智慧办公、休闲娱乐等场景的智能人机对话交互iDeepWise.ai.mobile 的AI Saas 服务。尤其在出行领域,为2亿智能终端用户提供一站式AI智能出行生活服务,包括通过人机对话自动完成预订机票火车票、自动完成酒店预订等服务。

通过哈勃,华为今年已经投资了第三代半导体材料领域的山东天岳先进材料科技有限公司、集成电路设计公司杰华特微电子(杭州)有限公司,以及本文提到的深思考。不难看出,过去数月哈勃投资的三家公司,分别为华为提供了,人工智能所需的产品原材料、芯片设计生产和最适合的人工智能技术,可以说是通过投资实现了理想的战略布局。

相信这三家公司,未来在华为的大生态之下,也会有更多的交流和合作。

华为子公司对于深思考的投资,似乎也标志着,人工智能进入全面商业化的阶段,不再只在实验室进行测试和训练,而是不断在真实场景中去落地,去实验,去更接近成功。

对于巨头公司,尤其是ICT领域的巨头公司而言,其拥有的海量数据,就是储量丰富的金矿,但如果无法挖掘和发挥数据的价值,数据的存在则毫无意义。巨头们拥有用户、产品和场景,却缺少人工智能这样的“炼金术”,来提炼金矿中的财富,从而最终在同类型公司之中胜出。

对于人工智能公司而言,找到一个好的生态合作伙伴,或是一个拥有真实业务需求的投资方,能够快速实现技术的落地,并最终实现商业化,尤其是还有云和芯片的相关产业链。

仍然以智能家居场景为例,智能音响、智能电视、智能冰箱、智能空调等产品,最终需要被语音理解所赋能,提升理解能力,才能真正做到人工智能。

结合多模态的语义理解技术,这些智能家居和智能硬件,不再是简单的人类语音命令执行者,而是变成了隐形人工智能管家的触点,他们会更了解人类的需求和习惯,并提供更加个性化和人性化的服务。

以智能车联网为例,5G和人工智能的发展,让自动驾驶和车联网都被给予厚望。

传统智能车载系统,通常通过驾驶室的智能语音交互屏幕实现人机互动,而在智能车联网场景下,汽车跟道路基础设施之间、汽车跟汽车之间、汽车跟互联网之间都能够做信息的连接和交互。车辆本身也通过视觉对车外的环境做感知与理解,再加上温度传感器、语音信息输入传感器等。

对于用户而言,语言是最有效的交互方式,但对于车辆而言,要接受和理解语言,并且在极短时间内做出反应,是有巨大的挑战。而除了语言的模态外,智能车联网还有手势的模态和图像的模态等信息。

数字化场景下,深思考提供的技术能为上述多模态信息进行综合理解,为人车交互提供智能大脑,同时,还可以在座舱环境下,实现人、车和家庭的连接。加上RPA自动软件机器人,不光可以实现人车对话,车辆还可以自动帮助驾驶员完成任务,比如预定会议室、与其他智能设备的联动、执行等。

“更重要的是解决及提升物联网和AIoT设备多模态语义理解的能力。”杨志明博士在此前的采访中曾提到, 未来的场景之中,更多的情况是,终端设备首先具备各项传感器,能够多维度的收集信息和数据,同时端侧AI芯片的植入,又能让这类设备具有如图像识别、语音识别、语义理解等人工智能能力,而云端则是更强大的算力和服务支持。一方面,如果所有终端的处理,都由云完成,性能和响应可能会成为瓶颈,另一方面终端设备必须具备AI理解的能力,才能让机器更好的理解人类意图。下一个时代必定是AIot的时代,也是人工智能多模态语义理解的时代。

云、芯片和人工智能技术,深思考的技术和华为生态,相得益彰。


转载声明转载声明:本文系后花园转载发布,仅代表原作者或原平台态度,不代表我方观点。后花园仅提供信息发布平台,文章或有适当删改。对转载有异议和删稿要求的原著方,可联络[email protected]