美国麻省理工学院媒体实验室研究项目显示,人工智能识别浅色皮肤男性的均匀缺点率不超过1%,识别深色皮肤女性的均匀缺点率达35%……

人工智能存在种族性别偏见还有隐私泄露危机......谁才是真正的幕后推手?_成见_数据 智能助手

人脸识别所导致的偏见问题一贯受到广泛关注。
近期,一篇关于图像超分辨率的论文引发了对付产生偏见缘故原由的新辩论。

网友利用论文中的开源代码进行了模型推理,在利用时创造,非白人面孔的高糊照片被还原成了一张白人面孔。
对此,2018年图灵奖得主、AI领军人物杨立昆(Yann LeCun)在推特上指出,当数据有偏见时,机器学习系统就变得有偏见。
而这一不雅观点,掀起一场辩论浪潮。
有人说,机器学习系统产生偏见不应只归咎于数据集,这种甩锅的做法是不公正的,还有技能、人类不雅观念等缘故原由。

现在还没有100%无偏见的数据集

随着人工智能时期的到来,人脸识别技能正被越来越广泛地运用在司法、广告及其他领域。
然而,这项技能在识别性别、肤色等过程中,存在着一定偏见。

“在美国,人脸识别系统中白人男性的识别率最高,而黑皮肤女性的识别率则最低;在亚洲国家的人脸识别系统中黄种人的识别率比较白种人的识别率差距就会小一些。
”福州大学数学与打算机科学学院、福建省新媒体行业技能开拓基地副主任柯逍博士说。

这次陷入辩论中央的人脸识别偏见问题实在是一个存在良久、热度很高的话题。

早前,美国麻省理工学院媒体实验室主导的一项名为《Gender Shades》的研究项目在研究了各个前沿科技公司的面部识别系统后创造,各系统在识别男性面脸与浅色面脸方面表现更佳,浅色皮肤男性的均匀识别缺点率不超过1%,浅色皮肤女性的均匀识别缺点率约为7%,深色皮肤男性的均匀识别缺点率约为12%,深色皮肤女性的均匀识别缺点率则高达35%。

那么本次争议中,杨立昆指出的数据集问题是如何产生偏见的?有无100%没有偏见的数据集?“不屈衡的数据,导致了系统在学习时,更好地拟合了比重较大的数据,而对占比小的数据的拟合则表现不佳,这就可能终极导致了偏见的产生。
”柯逍先容说,如一个常见的人脸识别数据集LFW,数据集中有近77%的男性,同时超过80%是白人。

“目前,险些可以肯定的是没有100%无偏见的数据集。
”柯逍举例说,在网络数据时,可以针对性地让男性与女性数目一样,乃至也可以让各种肤色的数据数目都一样。
但是,个中可能大部分人是没有戴眼镜的,这可能就对戴眼镜的人进行识别时带来了偏见。
进一步讲,各个年事段的人脸也很难做到完备同等,导致末了学习到的模型可能对戴眼镜、年长或年幼的人脸产生偏见。
以是有时候谈论数据偏见的产生,会创造其产生的缘故原由是考虑问题的角度不同。

涌现偏见不能只归咎于数据

浩瀚专家也指出,数据可能是机器学习系统中偏见的来源,但不是唯一的来源。

实在,在本次争议中,杨立昆在推特中已经很明确地表示,他的本意并不是说问题都出在数据集上,只是针对这篇论文,其算法在特定场景下,换个数据集就能办理问题,但并不是说所有的机器学习系统偏见都来源于数据集。

那么,谁才是产生偏见真正的“幕后推手”?

AI学习过程该当是架构、数据、演习算法等的相互浸染。
算法包括了特色的选择、丢失函数的选择、演习方法的选择以及超参数调节等,其本身的毛病也是偏见产生的一个缘故原由。

2019年12月,美国国家标准技能研究院进行的一项研究创造,在大多数当前评估的人脸识别算法中,跨人种差异确实存在广泛的准确性偏差。

柯逍先容说,在算法设计的时候,每每会选择L1丢失函数或者L2丢失函数。
若在将一个低分辨率人脸图像还原成高分辨率人脸图像的方法中,利用L2丢失函数,得到的大多数人脸图像更像白人;而利用L1丢失函数,得到大多数人脸图像更像黑人。
这解释由于丢失函数的选择不同,某个群体(黑人或白人)在一定程度上就会受算法的忽略,进而产生偏见。

这当中还存在另一种情形,如果数据带有少量的偏见,算法系统会将其放大,并变得更具有偏见。
一项研究表明,如果初始数据中,下厨与女性的联系概率是66%,将这些数据喂给人工智能后,其预测下厨与女性联系起来的概率会放大到84%。
一样平常来说,机器学习系统会选择最符合通用情形的策略,然而这样会导致一些非范例情形或较为分外情形被忽略。

除此之外,产生偏见的缘故原由还有相似性的偏见。
信息推送系统总会向用户推举他已经看到、检索过的干系内容。
终极的结果是导致流向用户的信息流都是基于现存的不雅观点和意见。
“系统会自动帮助用户屏蔽与他们见地相左的信息,这就催生了一个信息泡沫,用户看到的都是人工智能让你看到的。
这种偏见根本上也是数据与算法共同浸染产生的。
”柯逍说。

“总体而言,偏见还是源于规则制订者。
”中锐网络人工智能产品总监叶亮说,工程师从头到尾参与了全体系统设计,尤其是机器学习的目标设定。
算法就彷佛一只嗅探犬,当工程师向它展示特定东西的气味后,它才能够更加精准地找到目标。

算法纠偏工具已经上岗

近期,国际多家机构相继宣告禁用人脸识别技能。
有色人种被还原成白人的事宜,再次掀起了人们对付人工智能系统产生偏见的批驳浪潮,也再次警觉人们,技能带有偏见所带来的潜在危急。

偏见可能导致无辜者蒙冤。
在2018年夏天,英国媒体就宣布过,由于人脸识别技能的误判,导致一名年轻黑人男性被误认为嫌疑犯,在"大众场合被警察搜身。

也有报告显示,一些国外司法机构可以根据AI识别出的发色、肤色和面部特色对***中的人物进行检索。
这种技能上的偏见也在一定程度上放大了人们的偏见。

除了对人种与性别的识别偏差之外,人脸识别技能还因其在陵犯隐私方面的问题而引起担忧。
2020年初,美国一家人脸识别技能公司便受到了严密的审查,有关部门创造,其面部识别工具由超过30亿张图像构建而成,然而这些图像大部分都是通过抓取社交媒体网站网络的,并且已被许多企业广泛利用。

偏见存在的同时,一批新兴的算法纠偏工具也涌入了人工智能。

早在2018年,脸书曾发布一个算法模型,表示会在算法因种族、性别、年事等成分做出不公道判断时发出警告以提醒开拓者;2019年麻省理工学院就提出了一种纠偏算法,可以通过重新采样来自动肃清数据偏见。

那么战胜偏见还须要人工智能技能做出哪些努力?“开源方法和开源技能都有着极大的潜力改变算法偏见。
”叶亮指出,开源方法本身十分适宜肃清偏见程序,开源社区已经证明它能够开拓出强健的、经得住严厉测试的机器学习工具。
如果线上社团、组织和院校能够接管这些开源特质,那么由开源社区进行肃清算法偏见的机器设计将会顺利很多。

柯逍认为,可以看出偏见基本来源于数据与算法,加强对人工智能所利用的数据、算法以及模型的评估,能够在一定程度上缓解潜在的、可导致偏见与歧视的成分。
同时,人工智能的偏见实在都是人类偏见的反响与放大,因此人们放下偏见才是最根本的办理方案。

编辑:张爽

审核:王小龙