IBM AI与人类辩论赛全程:机器语义、逻辑分析能力突飞猛进
当天的辩论赛分成三部分进行,首先正反双方分别进行4分钟的观点陈述,然后进入各自4分钟的反驳时间,最后是各自进行2分钟的总结。
这场辩论的辩题为“是否应该对学前教育进行补贴?” Project Debater 为正方,人类辩手为反方,每一轮都由Project Debater首先进行。
因而AI的结论是,对学前教育进行补贴,能够让贫困家庭的儿童支付的起相关教育,让他们更好地为未来的教育做好准备。
Project Debater的整个陈述句式完整,逻辑清晰,尤其多次引用了过往的研究成果,包括经合组织的数据等,来佐证自己的观点。
在接下来的驳论环节,辩论双方需要对对方之前所做出的陈述,进行针对性的回应,以进一步巩固自身的观点。
就这一轮环节来说,对于人工智能Project Debater的挑战在于,需要首先理解人类辩手在陈述中所进行的阐述,同时在其中找出其论证的一些漏洞或逻辑不严密的地方并对这些薄弱环节进行针对性回击。
随后,Project Debater的大部分陈述依然围绕着其相对简单的逻辑进行,包括有数据和研究表明学前教育对于儿童接下来接受学校教育更有帮助,以及学前教育可以降低犯罪率,所以要对学前教育进行补贴。
在最后总结陈词环节,Project Debater依然给出了标准完整的陈述,人类辩手在进一步阐述自身观点的同时,继续指出Project Debater的观点在论证逻辑上的不足。
与此同时进行的另一个投票结果则并不让人意外,69%的观众认为,Project Debater让他们增加了知识。
当然AI自身存在的不足,也在整个辩论赛过程中很明显地暴露出来,而这些“弱点”也正好被其训练有素的人类辩手所利用,例如AI的逻辑结论相对简单,总体而言,AI的逻辑是,过往的经验和研究数据表明,A能够导致B、A也能够导致C或者D,如果B、C、D都是好的,那么就应该支持A,基于这样简单的因果逻辑所得出的结论在遇到很多现实问题制约以及其他变量因素时,并不能够完全成立。 Noam Slonim表示,Project Debater的数据库包含100亿的句子,而该系统的能力在于在短时间里,从这些数据中找出能够用于当前辩题的词语,组成合乎逻辑的句子,再组成完整的陈述。 无论结果如何,这场辩论赛向世人展示了AI所具备的另一种能力,在我们亲眼看到AI能够在国际象棋、围棋、电脑游戏方面能够轻松战胜人类顶级选手以后,在对语义、逻辑要求更高的领域,已经取得了非常惊人的进展。 在辩论赛后,Slonim接受腾讯《潜望》等媒体采访时表示,自己愿意给Project Debater的表现打9分,他对于系统的表现十分满意,同时也指出在驳论阶段系统存在的不足。 “我们的最终目标是,当结果并不是非黑即白时,建立一个能够帮助人们做出基于证据的决策的系统。”Slonim说。 正如IBM 研究院主管Dario Gil在辩论赛开场之前所说,比赛的意义并不在于谁输谁赢,而是通过这样的方式,展示人类能够将AI更好地运用到分析问题、解决问题以及做出决策等方面的另一种可能性。