对话清华NLP实验室刘知远:NLP搞事情少不了知识库与图神经网络
机器之心:在过去一年,您认为人工智能或者机器学习领域方面有哪些比较重要的研究成果? 参考文章:谷歌终于开源 BERT 代码:3 亿参数量,机器之心全面解读 机器之心:Transformer 在 2018 年有了更广泛的应用,除了机器翻译以外,它在语言模型和问答系统也都有所应用。您认为这是不是体现了一种趋势? Transformer 现在有比较大的影响力,一个方面就是其每层都会利用 Attention(注意力)来捕捉全局的信息,能够提升长程依赖的学习能力,这是 CNN 所不具备的。同时 Transformer 能在 GPU 上得到非常好的加速,可以从更多训练数据学习更好的效果,这是 RNN 系列模型难以做到的。此外简单利用自注意力机制可以方便层次化建模,这也是之后深层 Transformer 以及 BERT 等相关模型效果显著的重要因素。 机器之心:您在 18 年都有哪些比较重要的研究成果,能介绍一下吗? 机器之心:清华 NLP 实验室这边还会关注哪一些前沿研究成果或关注哪些方向? 机器之心:在 2019 新的一年中,您认为整体上 NLP 会有哪些值得关注,或是有哪些可能会取得突破的地方? 如何更充分挖掘数据的价值,无论是有标注数据、弱标注数据还是无标注数据,都是数据驱动模型的重要命题,仍然有很多开放问题等待解决。即使 2018 年有了 BERT,未来还会有更多的学习机制等待探索。 另一个方向,也是我个人比较关注的,是如何更好地将结构化知识融入相关自然语言处理模型中,相当于把基于符号表示的各种先验知识和规则,引入到自然语言计算模型中。Google、DeepMind 等研究机构很重视这个方向,现在比较流行的图神经网络可以看做这方面的重要尝试。我们有望通过图神经网络将结构化知识融入深度学习,实现各种计算与推理任务。 我认为,未来这两个大方向都非常重要,它们会相互补充与促进:互联网上有海量的非结构化数据,需要 BERT 等深度学习模型发挥重要作用;我们也积累了海量结构化知识,如何利用这些知识也具有重要意义。 当然,很多热门学习模型在新的一年里还会有更多关注和进展,例如对抗学习、强化学习、图神经网络等;很多新颖的学习场景,如 zero/one/few shot learning 等,也开始有很多有益的探索。 机器之心:最近清华也刚刚成立了知识智能研究中心,那么在新的一年中,知识中心主要也是关注如何结合知识与文本这方面的研究吗? 清华人工智能研究院成立「知识智能研究中心」,发布四大知识平台 常识知识是鲁棒可解释人工智能必不可少的支撑,因此从 2019 年开始,我们计划利用若干年时间,逐步构建常识知识体系。常识知识具体以什么方式来构建,目前正在积极的讨论和规划中。 机器之心:您认为深度学习与知识库结合的优势以及局限都在哪? 以 word2vec 为例,词嵌入向量能得到不同词之间的类比关系,例如「国王 - 男性= 王后 - 女性」。但是每次重新训练后,表示某个词的向量都是不一样的,它捕捉的只是词之间的关系。这也是为什么词嵌入向量只能描述词的分布而不能描述组成这个词的概念的原因。大多数深度学习模型都和词嵌入向量一样缺少可解释性,这也是深度学习被广泛诟病的地方。 HowNet 中由义原向上构建概念,由概念向上定义词。借助它们,词嵌入等模型能突破此层面的表征。 2017 年以来,我们系统探索了 HowNet 在深度学习时代的应用价值,并在词汇语义表示、句子语义表示、词典扩展等任务上均得到了验证。研究发现,HowNet 通过统一的义原标注体系直接刻画语义信息,一方面能够突破词汇屏障,了解词汇背后丰富语义信息;另一方面每个义原含义明确固定,可被直接作为语义标签融入机器学习模型,使自然语言处理深度学习模型具有更好的鲁棒可解释性。 我们还认识到 HowNet 知识人工标注费时费力,我们还系统探索了如何利用深度学习模型对新词自动推荐义原,辅助知识的标注工作,这将为未来更快更好地扩充 HowNet 奠定技术基础。此外,我们还结合词向量学习技术与 HowNet 对领域词典进行自动扩展,这些都是充分利用 HowNet 知识和数据驱动深度学习技术的有益尝试。 所以总的而言,数据驱动的深度学习技术能够从海量文本中学习语义模式,却不可解释,因此还需要大规模知识库指导这些模式的原因和合理性。深度学习模型融合「世界模型」是非常有必要的。当然「世界模型」并不是一定就是 HowNet 这种形式。如果我们在计算过程中发现 HowNet 的缺点,自然也可以去改进它,或者寻找更好的语言知识表示方法。深度学习与 HowNet
图神经网络