图灵奖得主：人工智能是如何走出死胡同的？

生活2019-06-15 01:00લેખક: 36氪领读

સારાંશ专门为读书设立了【领读】栏目，筛选一些值得读的书，并提供一些书摘。

二十世纪八十年代初，人工智能领域走入死胡同。自1950年阿兰·图灵在他的论文《计算机器与智能》中第一次提出挑战以来，AI的主导方法就是所谓的基于规则的系统或专家系统，它将人类知识组织为具体事实和一般事实的集合，并通过推理规则来连接它们。例如：苏格拉底是一个人（具体事实）。所有人都要死（一般事实）。从这个知识库我们（或一台智能机器）使用普遍推理规则可以推断出苏格拉底要死的事实：

这种方法在理论上是可行的，但是硬性规则很少能捕捉到真实生活中的知识。也许我们并没有意识到，我们一直在应对例外规则和证据的不确定性。到1980年，专家系统显然难以从不确定的知识中做出正确的推断。计算机无法复制人类专家的推理过程，因为专家本身无法在系统提供的语言中阐明他们的思维过程。

二十世纪七十年代末，是AI界处理不确定性问题的酝酿期。想法倒是不缺。伯克利大学的罗特夫·扎德(Lotfi Zadeh)提出了“模糊逻辑”，其中陈述既不真也不假，而是一系列可能的真实值。堪萨斯大学的格伦·谢弗提出了“信念函数”，它给每个事实分配两个概率，一个表示“可能”的概率，另一个表示“可证明”的概率。爱德华·费根鲍姆和他斯坦福大学的同事尝试了“确定性因子”，将不确定性的数值度量插入到他们推断的确定性规则中。

遗憾的是，这些方法虽然具有独创性，但却有一个共同缺陷：他们模拟专家，而不是模拟世界，因此往往产生意外的结果。例如，它们不能同在诊断和预测模式中运行，这是贝叶斯法则无可争议的优势。在确定性因子方法中，规则“若起火，则冒烟（具有确定度）”与“若冒烟，则起火（具有确定度）”连贯地结合在一起，肯定会引发信念的失控。

当时也考虑了概率，但因对存储空间和处理时间的要求非常高，很快就饱受诟病。我进入这个竞技场的时间相当晚，1982年，当时我提出一个平淡无奇但又激进的建议：让我们将概率作为常识的守护者，仅仅修复它的计算缺陷，而不是从头开始再造一个新的不确定性理论。更具体地说，不是像以前那样，以一张巨大的表格来表示概率，而是用松散耦合的变量网络来表示。假设我们仅仅让每个变量与几个相邻变量相互作用，那么我们就可以克服使其他概率论者犯错的计算障碍。

这个想法并非从天而降。它来自加州大学圣地亚哥分校大卫·鲁梅哈特的一篇文章，他是认知科学家，也是神经网络的先驱。他在1976年发表的关于儿童阅读的文章明确指出，阅读是一个复杂的过程，同时活跃着许多不同层次的神经元（见图3.4）。

有些神经元仅仅识别个体特征 —— 圆圈或线条。在它们之上，另一层神经元将这些形状组合在一起，形成关于字母可能是什么的猜想。图3.4中，网络正在为第二个单词的大量歧义而冥思苦想。

在字母层面上，它可能是“FHP”，但在词汇层面没有太大意义。在词汇层面上它可能是“FAR”或“CAR”或“FAT”。神经元将这些信息向上传递到句法层面，判断在“THE”之后，会出现一个名词。

最后，这些信息被传递到语义层面，意识到前一句提到了大众汽车，所以这个短语很可能是“THE CAR”，同指大众汽车。关键一点是，所有神经元都是来回传递信息，自上而下，自下而上，左右传递。这是一个高度并行的系统，与我们对大脑的自我认知，即它是一个单一的、集中控制的系统，完全不同。

阅读鲁梅哈特的论文时，我确信任何人工智能都必须建模在我们所知道的人类神经信息处理的基础上，并且不确定性下的机器推理必须用类似的消息传递(message-passing)的体系结构来构建。但是这些消息是什么呢？我花了好几个月才弄明白。我终于认识到，消息是一个方向上的条件概率和另一个方向上的似然比。

图3.4. 大卫·鲁梅哈特的草图，消息传递网络如何学习阅读短语“THE CAR”。（来源：美国加州大学圣地亚哥分校的大脑与认知中心。)

更确切地说，我认为网络应是分层的，箭头从更高的神经元指向较低的神经元，或者从“父节点”到“子节点”。每个节点都会向所有相邻节点（包括层次结构中上方和下方）发送消息，告知当前它对所跟踪变量的信念度（例如，“我有2/3的把握认为这个字母是R”)。接收的节点会根据其方向，以两种不同的方式处理消息。如果消息是从父节点到子节点，子节点将用条件概率更新它的信念，如同我们在茶室例子中见到的。如果消息从子节点到父节点，父节点将通过乘以一个似然比来更新信念，如同乳房X光检查的例子。

将这两条规则反复应用于网络中的每个节点称为信念传播。回想起来，这两条规则并非武断或捏造；它们严格遵守贝叶斯法则。真正的挑战是要确保无论这些消息以什么顺序发送出去，事情最终会达到一个舒适的平衡；此外，最终的平衡将代表对所有变量的信念的正确状态。我所说的“正确”，意思是，就好像我们用教科书的方法而不是通过消息传递进行了计算。

这一挑战耗费我和我的学生、同事几年的时间。但在二十世纪八十年代末，我们已经解决了这一难题，使贝叶斯网络成为机器学习的实用方案。接下来的十年，现实生活中的应用不断增加，例如垃圾邮件过滤和语音识别。然而，那时我已经尝试攀登因果关系之梯，将贝叶斯网络的概率研究委托给了其他人。