这是一个被很多人讨论过很久了的问题,我在 Twitter 上也简短地说过我的观点。我写这篇博客的原因是最近 LeCun 的一条 tweet引发的争论,尽管我后来没有关注争论的走向,但无论在英文还是中文学术界中这个问题还能被争论这个事实让我想更仔细地把这个问题讲清楚。
什么是 AI 中的偏见
AI 中的偏见是指在很多 AI 系统中存在着人类认知里已有的性别、种族等方面的偏见。比如引起这次争论的这个人脸高分辨率补全系统,它能将一张极低分辨率的人脸照片「补全」成一张高分辨率的人脸照片,如将下图中左侧的模糊奥巴马头像补全成右侧的高清晰度照片。

这个系统在「补全」方面的效果非常 impressive,补全的照片可以以假乱真。但显然,这样的补全是错误的,因为它将一个黑人的头像补全成了另一个白人的模样,这是因为这个系统所用的训练数据主要包含的是白人的照片。就像(曾经还在地方命题时)高中生习惯了一个出题风格的考卷而在面对新的出题风格时会不适应,AI 系统在面对训练时少见的例子(黑人的照片)时也会难以给出正确的结果,于是会依赖于训练时多见的例子(白人的照片)。根源上这类错误来源于人类的偏见(训练数据中没有包含足够的黑人照片),而这样的偏见会在 AI 系统中被体现出来,因此不假思索地使用这样的系统(更危险地,因为它们是「机器」所以认为它们不会有偏见)只会延续甚至放大现有的偏见。
那既然问题出在数据里,和 AI 研究又有什么关系?实际上这也是 LeCun 的 tweet 给人的印象。虽然后来他解释并不是这个意思,但这个观点在学术界里存在得非常普遍。LeCun 是否持这个观点暂不明确,但某位毕业于美国的顶尖学校、目前身为教授、学术水平不俗的知乎大 V 很明确地表达过这个观点(这条 tweet 说的就是他)。
这种说法就类似波音说:「哦飞机坠毁了是因为机翼的材料不够坚硬,这可不怪我们我们只管把零件拼起来」。问题出在数据里,用更好的数据当然是最好的解决方式,但在 AI 系统里修正为什么就没有意义了?人的偏见在人的脑袋里,所以教育当然是最好的解决方式,但用法律修正人们偏见的表达没有意义吗?即使不去主动地修正它,在制造和使用 AI 系统的时候能清楚地意识到偏见的存在并因此意识到滥用的危害,这没有意义吗?Something is better than nothing.
根源上,这个问题是在讨论 AI 系统的 accountability. 这个母话题下另一个经常被讨论的问题是「到底该不该信任医疗/自动驾驶领域的黑箱 AI 系统」。
什么是黑箱
黑箱(black-box)是指系统内部的原理未知,人们只知道输入和输出,而不了解由输入到输出的具体运算原理。目前绝大多数的 AI 系统不同程度上都是黑箱系统,这是「深度学习」最大的缺点之一。
因为黑箱的属性,人们无从得知这些 AI 系统所做的判断的依据是什么。在其它领域,也许这不是一个很严重的问题,因为在这些领域犯错的成本很低(智能语音助手听不懂用户说的话不会造成什么灾难),但在生命攸关(life-critical)的领域比如自动驾驶和医疗,犯错的成本就高得多。有人(包括 LeCun 和 Hinton)认为,只要黑箱系统被足够的实验验证了效果,那就可以在生命攸关的领域里使用它们。
但实际上,这不是一个取决于效果的问题,而是取决于 accountability 的问题。再用飞机的例子,人类仍然不完全明白流体力学,但人们敢坐飞机,因为飞机制造商有责任保障飞机的安全。如果自动驾驶系统或者自动诊断系统的制造者能像飞机制造商一样为产品的错误担责,那才可以考虑在生命攸关的领域里信任黑箱系统。
To clarify,我不反对在自动驾驶或者医疗领域使用黑箱 AI 系统(我自己就在研究 ML for healthcare, for god’s sake),而是反对完全信任它们。像自动巡航系统一样使用辅助驾驶系统,或者用 AI 系统给医生提供建议,这些都是合理并且非常有意义的事情。
借用奥巴马的一句话,AI 研究者们不应该 “over-promise and under-deliver”, 有一个效果很好的人脸补全系统是件很棒的事,但也该同时承认,这个系统存在偏见,对不同肤色的头像有不同的表现。只有当这种谨慎变成常识,AI 系统才能从 cool, fun, nice-to-have 的玩具变成有现实意义的工具。