AI进入无障碍时代:手语识别翻译的应用意味着什么?
相信在人们的印象里,AI都是一个属于“大多数”的技术门类。
所谓大多数,第一意味着相关数据量大、便于累积,适用于AI对海量数据极度依赖的特性;第二意味着应用场景广泛、便于变现回收成本,适用于AI研发的高门槛投入。
目前我们身边常常出现的人脸识别、语音交互等等,其实都符合以上这些特征。不过这并不意味着,属于“少数派”的AI是一片空白。
5月16日是“全球无障碍宣传日”,我们不如把目光投向于那些能够消弭“少数与多数”区别的技术发展,例如服务于听障人群的手语识别,就是一个典型的例子。
你我不懂的手语,为什么AI也很难读懂?
手语是用手势比量动作,根据手势的变化模拟形象或者音节以构成的一定意思或词语,是听障人群独有的一种沟通方式。但这种沟通方式虽然能让听障人士之间彼此沟通,或让理解手语的普通人与之沟通,但仍然不能满足听障人士与普罗大众之间的交流需求。
这便意味在一些社会公共空间之中,例如政务场景或服务业场景,听障人士可能都会遇到一些不便。
而AI,恰好成为了一种解决方案。
我们在一些软件中,已经开始应用到了AI的手势识别能力,像是拍照时“比心”来触发一些AR特效。将这种对于手势的捕捉,和手势语义对应起来,不就能实现对于手语的翻译和生成了吗?
这一逻辑是正确的,可从逻辑正确到应用可行,却还隔着一段不短的路程。
首先,手语的表达有一定的特殊性,想进行捕捉并不容易。
我们知道在“比划手势”这种行为上,本来就不存在绝对的精准度,加之一些手语词汇的表达非常接近,而且手语表达通常是以句子为单位,词与词之前不会有明显的间隙。以往手势识别中利用前置摄像头捕捉的方式,基本是不可行的。
于是很多科技和团队给出的解决方案是加以外设,例如中科大和微软推出了基于Kinect的手语翻译系统,加州大学曾经推出过的手语识别手套等等就是这样。可这些外设要么便携程度低,要么造价昂贵,推广起来有很大的困难。
同时,手语表达同样也有国别性和地域性,在模型通用性上存在着困难。
手语中有“文法手语”和“自然手语”两个概念,文法手语既是通用的普通话,至于自然手语则如同方言一般,在国别、地方甚至城市之间都有着不小的差异。这也造成了手语数据收集、标注会是一项成本高、工作量大的事情。例如亚马逊曾经提出过,对智能音箱Alex进行改造可以使其翻译出一些简单的信号。可是因为缺乏大规模的训练数据集,目前这一功能只能识别出一些简单的美国手语,停留在实验室阶段。
手语破题没有秘法,AI产业本该平权
虽然探索艰难,但科技企业们和学界还是不断在手语AI上取得成果。例如腾讯优图实验室推出的 “优图AI手语翻译机”、爱奇艺推出的AI手语主播等等,都在手语AI的应用上取得了不小的进展。
手语AI的突破可以分为两条路线,一方面是手语AI本身技术的进展,另一方面是应用场景的突破。
在手语AI技术本身上,可以分为识别模型和数据集两个解决路径。在数据集上,可以像优图一样,通过和社会相关机构以及听障人士的接触自建手语识别数据集,并且针对手语表达的地方性差异,做出表达习惯和速度上的多样性拓展。
至于识别模型上,业内也有全新的算法搭建概念,例如通过2D卷积神经网络和3D卷积神经网络分别提取手势中静态和动态的信息,经由综合处理来提升视频识别效果,彻底摆脱其他传感器的桎梏。同时针对手语表达的整句化的现象,在视频帧的最后加入了词级信息挖掘,对特征提取器提出的信息进行核验,进一步去确定手势对词语表达边界,除了提升识别精准度以外,还能提升对自然手语中地域表达的总结能力。在此基础上,还可以算法模型中引入了上下文理解能力,以便于面对更加复杂的手语识别翻译需求。
不过技术虽然得以提升,应用场景端仍然会受到一些限制。例如手语识别可能会依赖较强大的算力,短时间内很难便携化、消费化。但完全可以通过和政府的合作,让手语识别进入一些公共服务场景。或者像爱奇艺一样,从手语生成方面入手,同样也能帮助到听障人士。
其实我们不难发现,可如果将技术拆分来看就能发现,手语AI取得的进步,并不是因为在某项基础科学上突然取得了什么惊人的突破,而是有越来越多的企业和学者在研发和数据累积上一贯长期的投入,才能解脱于以往手语语料库匮乏的困境,在算法上不断迭代。
换句话说,企业和学者们在“少数派”的AI技术中投入了几乎与“大多数”AI技术相匹配的精力与财力。对于AI产业来说,这无疑是一种平权精神。
从以人为本到科技向善:我们为何要对技术洋流的引导更加主动?
腾讯优图在手语AI方面的投入,其实也是AI产业中一种隐隐冒出势头的洋流方向。
几天以前,在福州的数字中国峰会上,马化腾首次提到了“科技向善”这一概念,提出“我们相信,科技能够造福人类;人类应该善用科技,避免滥用,杜绝恶用;科技应该努力去解决自身发展带来的社会问题。”
无独有偶,李飞飞在回归斯坦福后,就着手创办了HAI研究所(以人为本斯坦福人工智能研究所),并在今年开始担任所长。HAI的研究目标,就是推动AI技术向造福人类的方向发展,预测AI对人类生活的切实影响。
科技巨头和学界旗帜都将目光投向了同一方向,是因为人们已经开始逐渐发现AI、5G、产业数字化等等技术力量的势头之强,已经到了不得不对其加以引导甚至约束的地步。
如同上文所说,科技企业在这一波技术发展的过程中,起到了很大的促进作用,而逐利自然是企业的本能和天性,因此企业会率先投身于那些满足大多数人、应用场景广泛、研发成本相对低的技术。
这种行为本身无可厚非,但AI等等新技术带来的效率提升实在过于显著,是否会会对那些暂时无法接入新技术的领域和群体进行挤压甚至边缘化,是很多人都在思考的一个问题。
例如随着英汉日法俄等等主流语种的机器翻译能力不断增强,那些语料库不充足、应用人数更少的小语种是否会因为得不到技术赋能,而被进一步的边缘化?
同样的,当公共事务办理越来越多的被语音交互、图像识别等等AI技术替代,听障、视障群体在获取服务时会不会遇到更多麻烦?
类似的情况其实已经发生:2018年年底,联合国发布了对英国政府数字化成果的报告,结果是数据显示在英格兰,自2010年以来无家可归者增加了60%,保障住房的等待名单上有120万人,用来救济穷人的食品银行需求量增长了近四倍——因为很多贫困人群并不知道如何在互联网上申请贫困补助,甚至家里都没办法连接互联网,最终只能在贫困中越陷越深。
很多时候,即使是无恶意的技术,也可能会出现无法预测走向。我们对于科技向善的引导,或许应该更主动一些。
结束语
最后,我们不如来看看这样一组数字:
据2017年北京听力协会预估数据,我国听障人群数量约达到7200万。在全球范围内,世界卫生组织发布的最新数据显示,全世界有共计约4.66亿人患有残疾性听力损失。
——你看,这世界上所谓“大多数”和“少数派”本来就是一个相对性的概念,并不存在黑白鲜明的区隔。尤其对于AI这种善于模仿人类能力的技术来说,它的存在本可以推倒阻碍各个群体沟通交流的空气壁,而不是让这种趋势愈演愈烈。我们关于利用技术搭建美好世界的目标,既然可以不抛下任何一个人,就不该抛下任何一个人。
好在从服务于听障人群的手语识别翻译上,我们已经能看到这种趋势走向——精于计算的大脑不是AI唯一的模拟对象,还有人类的炽热心脏。我们相信,在学界和巨头的引导之下,未来会有越来越多的企业关注到无障碍AI技术的发展,不断的打破各种隔膜阻碍。
爱虽沉默,也有回响。
AI虽沉默,也有回响。