突发!ImageNet 数据集中的人脸全都变模糊了_数据_人工智能
【新智元导读】2012年,人工智能研究职员在打算机视觉方面取得了巨大进步,被称为ImageNet的数据集至今仍被用于成千上万的人工智能研究项目和实验。但是上周ImageNet上的所有人脸都溘然消逝了,由于数据集管理者为了保护隐私决定模糊处理它们。
ImageNet 数据集的管理者为如今深度学习的进步铺平了道路。现在,他们在保护人们的隐私方面又迈出了一大步:对数据集模糊处理。
2012年,人工智能研究职员在打算机视觉方面取得了巨大进步,这很大程度归功于一个非常弘大的图像集。
这个数据集中有数以千计的日常物体、人物和图片中的场景,这些图片都是从网上搜集并用手工标记的。
这些被称为 ImageNet 的数据集至今仍被用于成千上万的人工智能研究项目和实验。
但是上周 ImageNet 上的所有人脸都溘然消逝了,由于卖力管理数据集的研究职员决定模糊它们。
正如 ImageNet 帮助首创了人工智能的新时期,要修复它也面临很多寻衅,紧张是对无数人工智能程序、数据集和产品的影响和寻衅。
普林斯顿大学的助理教授 Olga Russakovsky 是 ImageNet 的卖力人之一,他说: 「我们担心隐私问题。」
在2012年,打算机科学家一贯致力于能开拓能够识别图像中物体的算法,ImageNet 便是为此而创建的。
然后,一种叫做深度学习的技能,通过给神经网络添加标记的例子来「教」它,而且还被证明比以前的方法效果更好。
从那时起,深度学习推动了人工智能的复兴,同时也暴露了这个领域的毛病。
例如,面部识别已经被证明是深度学习的一个特殊盛行和有前景的运用,但它也是有争议的。
出于对陵犯公民隐私的担忧,美国一些城市已经禁止政府利用这项技能,由于这些程序对非白人脸部的识别精确度较低。
ImageNet 包含了150万张图片和大约1000个标签。它紧张用于评估机器学习算法的性能,或者演习实行分外打算机视觉任务的算法。
如今,它对243198张照片进行了模糊处理。
Russakovsky 说 ImageNet 团队想要确定是否有可能在不改变识别工具的能力的情形下模糊数据集中的人脸。
「人们在数据中是有时涌现的,由于他们恰好涌如今描述这些物体的网络照片中,」她说。
换句话说,在一张显示啤酒瓶的图片中,纵然喝啤酒的人的脸上有一个粉赤色的污点,对啤酒瓶本身来说并无影响。
在 ImageNet 更新的同时,发布了一篇研究论文,数据库背后的团队阐明说,他们利用亚马逊的人工智能做事 Rekognition 模糊了面孔。
然后,他们付钱给 Mechanical Turk 的员工确认并调度他们的选择。
研究职员说,模糊脸部并不影响在 ImageNet 上演习的几种物体识别算法的性能。
他们还表明,用这些物体识别算法构建的其他算法也同样不受影响。
「我们希望这种观点验证为该领域更多的隐私意识视觉数据网络实践铺平了道路,」鲁萨科夫斯基说。
2019年12月,ImageNet 团队删除了由人工标签引入的带有偏见的贬义词,由于一个名为挖掘 AI 的项目引起了人们对这个问题的关注。
该研究表明他们可以在数据集中识别个人,包括打算机科学研究职员。他们还创造个中包含色情图片。
普拉布说,模糊脸是好事,但令人失落望的是 ImageNet 团队没有承认他和比尔哈恩的事情。Russakovsky 表示,论文的更新版本中将涌现一条引文。
模糊人脸仍旧可能会对基于 ImageNet 数据演习的算法产生意外后果。例如,算法可能学会在搜索特定工具时探求模糊的面孔。
Russakovsky 说: 「须要考虑的一个主要问题是,当你支配一个基于面部模糊数据集的模型时,会发生什么情形。」
例如,在此数据集上演习的机器人可能会由于不能识别现实天下中的人脸而被抛弃。
麻省理工学院的研究科学家 Aleksander Madry 已经创造了 ImageNet 的局限性。他认为,一个人工智能模型在包含模糊人脸的数据集上演习,当显示包含人脸的图像时,可能会表现得很奇怪。
他说: 「数据中的偏差可能非常奇妙,但同时可能会产生重大的后果。这便是为什么在机器学习的背景下考虑鲁棒性和公正性如此棘手。」
不过最近海内「315」也在提AI公司陵犯隐私权的问题,还是希望各位AI公司在发展技能的同时,也能思考一下这些附带来的问题。
参考资料:
https://www.wired.com/story/researchers-blur-faces-launched-thousand-algorithms/
本文系作者个人观点,不代表本站立场,转载请注明出处!