Teilen

机器学习的巨大风险:一旦数据被污染,AI 可能完全失控

生活Autor: boxi
机器学习的巨大风险:一旦数据被污染,AI 可能完全失控
Zusammenfassung先发制人的不法分子试图靠篡改数据集或者物理环境来绑架人工智能,研究人员被迫求助于对抗性机器……

比如像Google和纽约大学研究人员那样,给一张校车的照片增加一层(人类)看不见的数据噪音层,神经网络就会几乎完全可以确定那是一只鸵鸟。不仅图像有这种情况:研究人员已经尝试过将隐藏的语音命令植入到广播当中,从而在我们耳朵听不见的情况下偷偷地控制智能手机。

尽管此类工作现在被说成是攻击,对抗样本起初却几乎被看成是神经网络设计的一个哲学盲点:我们假设机器看东西的方式跟我们是一样的,认为它们会按照类似的标准识别对象。这个想法最早是2014年Google的研究人员在一篇论文中提出来的,文章的题目叫做《神经网络的迷人属性》,里面描述了如何给图像增加“干扰”会导致网络看错东西——也就是所谓的“对抗样本”。他们发现,小小的干扰就能愚弄神经网络误读那辆校车或者将其错误分类。这引发了对神经网络“固有盲点”以及在学习方式上“非直观特征”的担忧。换句话说,我们其实并不了解神经网络的内部机制。

加州大学伯克利分校的计算机科学教授Dawn Song说:“对抗样本只是说明了我们对深度学习的工作方式和局限性的了解仍然十分有限”。Song是开发迷惑无人车的停止标志贴纸(4所大学联合研发)的研究人员之一。

停止标志研究者之一,华盛顿大学计算机安全研究人员Earlence Fernandes说:“有整整一批的攻击依赖于攻击者处在机器学习模型生成管道的哪个阶段。”比方说,一个训练时间攻击发生在机器学习的建模阶段,可以用恶意数据来训练系统。Fernandes说:“攻击者可以用数据污染脸部检测算法,令其将攻击者的脸识别成获授权的人的脸。”。

另一方面,推理时间攻击则是利用一系列算法将精心设计的输入展示给模型看——Fast Gradient Sign Method(快速梯度迭代法)或者Carlini与Wagner攻击就是对图像进行微小改变从而迷惑神经网络的流行方法。

从无人车,到分析性CCTV系统,再到通过脸部识别进行身份验证,随着AI逐渐渗透到我们生活的方方面面,对此类系统的进行攻击的可能性正在增加,危险也在加大。黑客篡改路边的设施会导致汽车碰撞事故发生。对数据机器学习系统的微妙改变也会导致AI系统的决策被植入偏见。

不过我们不应该感到担心。暂时还不需要。MIT的研究人员Anish Athalye说:“迄今为止此类攻击尚未在现实世界中被恶意方实施过。不过鉴于本领域的已有研究,似乎很多机器学习系统都非常脆弱,如果现实世界的系统容易受此类系统影响的话我是不会感到吃惊的。”

Athalye的研究目的是想让对抗攻击更健壮一点。一些被归类为“标准”的攻击也只是在特定视角才有效,但有的攻击则无论神经网络从哪个角度看对象或图像都有效。他说:“标准对抗样本是对图像中的像素进行少量修改,从而让分类朝着特定目标类别转变——比方说,让一只猫的图像被分类成鳄梨酱。不断重复这个过程,做出细微的改变,就有可能让机器把人眼里的东西看成是另一种东西。”研究表明,标准的对抗攻击是“脆弱的”,不大可能在现实世界里行得通。

于是Athalye和他在MIT与LabSix的同事开始设计更好的样本,对攻击图像进行优化,让它无论能从哪个角度或者距离看都能见效。他说:“我们还扩展到了3D对象,比方说,一个看起来像乌龟的东西会被机器认成是完全另一样东西。”其中就包括了他的3D打印玩具龟,在ImageNet分类器眼中看起来却像支来福枪。

如果只有某个精确角度才有效,或者如果干扰很容易被人认出的话攻击几乎就没什么用了。就拿无人车来说吧:无人车要靠计算机视觉来识别对象,而计算机视觉又要靠神经网络。任何对抗性的欺骗手段都需要在汽车任何可能的视角、视距都行得通,并且还不能被人类司机注意到才行——被遮盖的路标很容易被人留意到的。包括Fernandes和Song在内的研究人员利用了隐晦的油漆标志,在效果上不会掩盖路标,同时又增加了类似涂鸦的贴纸,导致神经网络将“停止”标志解析成了限速标志。

Fernandes说:“从高层来讲,此类攻击的手法是接触目标深度学习模型,然后运行算法来计算需要对物理实体进行什么样的编辑才能使得它既类似于人类看到的东西,同时又能让机器误认成完全不一样的东西。在本例中,我们的算法把输出了需要添加的编辑。也就是贴纸,然后我们把贴纸打印出来,粘贴到实际的停止标牌上。”

这没必要恐慌。只是把贴纸贴上去并不会引起无人车发生碰撞。Fernandes解释说无人车利用率多种传感器和算法,不会只根据已知机器学习模型来做出决策。他说:“所以,尽管我们的工作能够愚弄单个机器学习模型,但这并不意味着这种愚弄足以造成实质伤害。”

建立对抗样本并非易事,这往往需要能接触到神经网络的技术细节,比如模型的架构,即所谓的“白箱”访问。话虽如此,也有人描述过不需要详细网络信息的有力攻击;那些黑箱攻击对于想要攻击系统的外部人士会更加有用,因为可以移植到不同的神经网络上。

要想避免机器学习因为固有弱点而被搞瘸需要做些工作。虽然提议的解决方案不少,但是具备明确防御性的没有。密歇根大学研究人员Kevin Eykholt说:“能检测对抗样本以及消灭对抗样本的防御手段是研究的热点,总会有新的防御手段冒出来,但是很快就被突破了。在设计机器学习系统时,意识到对抗攻击的特定风险并且有缓解措施很重要,不能盲目地设计系统。”

Athalye说有个想法比较有希望,那就是通过在训练数据中植入对抗图像来训练神经网络识别这种干扰的能力。他说:“这样的话,神经网络就能‘学到’一些分辨对抗图像的能力。”

Fernandes说,机器学习核心里面发现了这种瑕疵其实并不令人吃惊,因为在更广泛传播之前系统通常都不会进行过很好的测试。他说:“随着机器学习变得越来越普遍,安全研究人员很自然就会开始从对抗角度审视这种系统,并且找到可以被利用的漏洞。”

这不仅是技术瑕疵,也是哲学假设。首先,机器学习开发者假定训练数据和测试数据是类似的,而攻击者可以自由地操纵对自己有利的数据。其次,我们假定神经网络跟我们的思考方式相似,但其实并不是;神经网络里面用于识别玩具乌龟的元素不同于我们要寻找的东西,这种差异给攻击创造了机会。Fernandes说:“神经网络是人脑极其粗略的近似。把它们看成跟我们类似的思考方式可能不是思考神经网络机制最好的办法。”

原文链接:https://www.wired.co.uk/article/artificial-intelligence-hacking-machine-learning-adversarial

编译组出品。编辑:郝鹏程。