“暗黑版”AI现身引忧虑　我们需要怎样的人工智能

2018-07-09 11:32:53　　来源：科技日报

　　近日，麻省理工学院媒体实验室出品了一个“暗黑版AI”，再次将人工智能的黑箱隐忧这个经久不衰的话题送上热门。据报道，实验室的三人团队联手创造了一个叫诺曼(Norman)的人工智能，与希区柯克经典电影《惊魂记》中的变态旅馆老板诺曼·贝兹同名。

　　名如其人。诺曼会以负面想法来理解它看到的图片。例如，一张在一般AI看来只是“树枝上的一群鸟”的普通图片，在诺曼眼中却是“一名男子触电致死”。

　　团队希望通过诺曼的表现提醒世人：用来教导或训练机器学习算法的数据，会对AI的行为造成显著影响。AI会成为什么样，有时人类可能束手无策。

　　TA们的偏见就是人类的偏见

　　诺曼们从哪来？答案首先藏在数据里。

　　“人工智能识别出的结果不是凭空而来，是大量训练的结果。如果要训练AI某一方面的能力，比如下棋，就需要收集、清洗、标记大量数据供机器学习。如果用于训练的数据不够多，就会造成AI学习的不充分，导致其识别结果的失误。”中科院自动化研究所研究员王金桥对科技日报记者表示。数据本身的分布特性，如偏差甚至偏见，也会被机器“有样学样”。针对诺曼的表现，创造它的实验室也指出，“当人们谈论人工智能算法存在偏差和不公平时，罪魁祸首往往不是算法本身，而是带有偏差、偏见的数据。因为当前的深度学习方法依赖大量的训练样本，网络识别的特性是由样本本身的特性所决定。尽管在训练模型时使用同样的方法，但使用了错误或正确的数据集，就会在图像中看到非常不一样的东西”。

　　另外是算法本身的影响。“这可能是无法完全避免的，由深度学习算法本身的缺陷决定，它存在内在对抗性。”王金桥表示，目前最流行的神经网络不同于人脑的生物计算，模型由数据驱动，和人类的认知不具有一致性。基于深度学习的框架，必须通过当前训练数据拟合到目标函数。在这个框架之下，如果机器要识别狗，它会通过狗的眼睛、鼻子、耳朵等局部特征进行可视化识别，而这些可视化特征却能给想利用深度学习漏洞的人机会，后者可以通过伪造数据来欺骗机器。

　　除了人训练机器的数据本身有偏差以外，机器通过对抗性神经网络合成的数据也可能有问题。由于机器不可能“见过”所有东西(比如识别桌子，机器不可能学习所有长短宽窄各异的桌子)，人也不可能标记所有数据。如果研究者输入一个随机的噪音，机器可以向任何方向学习。这是一把双刃剑，机器也可能合成一些有问题的数据，学习时间长了，机器就“跑偏”了。