算法歧视关涉的伦理问题与解决进路,伦理学论文.docx
《算法歧视关涉的伦理问题与解决进路,伦理学论文.docx》由会员分享,可在线阅读,更多相关《算法歧视关涉的伦理问题与解决进路,伦理学论文.docx(25页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、算法歧视关涉的伦理问题与解决进路,伦理学论文摘 要: 算法歧视关涉三个详细的伦理问题:算法公平、算法身份的污名化与隐私。其原因在于:一是数据中预先存在的偏见所导致的算法歧视;二是使用算法本身可能是一种歧视;三是算法决策中数据的抽样偏差及其所设置权重的不同也有可能导致算法歧视。基于此,至少可从技术进路、哲学进路与法治进路三个方向探究躲避算法歧视的可能性,进而实现算法公平。 本文关键词语: 算法歧视; 算法公平; 算法身份污名化; Abstract: Algorithmic discrimination involves three ethical issues: algorithmic fair
2、ness, the stigmatization of algorithmic identity, and privacy. The reasons are as follows: First, algorithmic discrimination can be caused by the preexisting bias in the data; Second, using algorithms itself may be a form of discrimination; Third, the sampling bias of the data and different weight s
3、ettings in the algorithmic decision-making may also lead to algorithmic discrimination. Therefore, algorithmic discrimination can be avoided from three directions: the technical approach, the philosophic approach and the approach of rule of law, so as to realize algorithmic fairness. Keyword: Algori
4、thmic Discrimination; Algorithmic Fairness; Stigmatization of algorithmic identity; 大数据与人工智能的快速发展使算法融入并塑造我们的现实生活。据中国互联网网络信息中心于2021年8月20日发布的(中国互联网络发展状况统计报告显示,截止2021年6月30日,我们国家网民规模达8.02亿。如此宏大的网民规模使我们国家成为 数据土豪 。在这里基础上,智慧城市、智慧司法、精准医疗、在线教育等渐入发展快车道。详细而言,物联网、大数据和无处不在的传感器记录着每一个网络足迹。而算法则利用聚集人类行为的大规模数据集决定数据主体
5、能够获得的教育、医疗、信誉、治安、就业时机等。然而,在这里经过中已出现一种不容忽视的负面后果,即算法歧视。对此,2021年5月美国白宫发布名为(大数据报告:算法系统、时机与公民权利的报告。该报告明确指出,我们在享用大数据和算法为生活所带来便利的同时也要关注其可能造成的意外后果,尤其是算法歧视。由于算法歧视牵涉到社会的公平与正义,因而有关算法歧视的讨论就不仅局限于认识到算法歧视的存在,也不只局限于对算法所带来的风险与利益的权衡,而是亟需进一步深切进入考虑:什么是算法歧视、算法歧视的断定标准、算法歧视产生的原因、其关涉的伦理问题及解决进路等问题。 一、算法歧视及其产生 算法歧视 由算法与歧视两个概
6、念组合而成。算法指的是 有限的、抽象的、有效的、复合的控制构造,以在给定规则下完成特定的目的。华而不实,规则与目的是算法意向性的具体表现出,言讲着算法做了什么或为我们带来了什么。 1该定义中所包含的目的与规则暗示着算法必须被施行、执行并产生某种社会影响,换言之,算法可进一步理解为数学架构、实现技术和程序和配置应用程序,即将抽象的数学架构实现为技术与程序以及特定任务配置的技术应用。2何为歧视呢?歧视在(布莱克维尔政治学百科全书、(韦氏词典等权威辞书中具有两种基本含义:一是作为贬义词的差异不同对待,二是作为中性词的区别、识别、辨别等。算法话语中所讨论的是消极意义上的 歧视 ,即 在某一特定群体或类
7、别中,基于成员的身份而对其施以不合理的待遇 ,3或 不同的规则适用于类似的情况,或同一规则适用于不同的情况 。4 1. 算法歧视的表现形式 根据歧视意图能否存在及其存在方式,算法歧视具有三种表现形式:显性歧视、隐性歧视和差异不同性影响。详细而言: 显性歧视explicit discrimination指的是算法明确使用、分析受保卫群体的种族、民族等相关特性,并将其作为算法决策的因素之一,进而导致不公平的对待。不同于显性歧视对受保卫群体相关因素的直接依靠,隐性歧视implicit discrimination则是由于嵌入软件指令中的偏见、有偏差的数据集和工具使用,以及通过有目的地选择训练数据、设
8、定标签、选取特征等掩蔽行为而产生的不平等对待。算法歧视的第三种表现形式是差异不同性影响disparate impact,它指的是算法既未明确使用受保卫群体的特征,也不存在掩蔽、潜意识偏见、有偏差的数据等,但算法决策的结果仍会倾斜于少数群体或受保卫群体。换言之,此种算法歧视仅具有差异不同性影响的特征。 5综上,显性歧视中算法设计者或使用者的 主观歧视意图即意志的意图 6较为明显,而隐性歧视则利用算法将歧视意图隐藏的更深,因此这两者可统归为差异不同性对待或直接歧视。差异不同性影响虽无外表上主观的歧视意图,却由于其具有形式上的中立性与实践上歧视性,因此亦产生歧视后果。 2. 算法歧视的类别 根据算法
9、歧视能否关涉身份权可将其大致分为两类:一类是关涉身份权的算法歧视;一类是无涉身份权的算法歧视。 身份性歧视是指对于某种身份存在偏见,它意味着社会对某些群体具有一种身份性的偏好,即便这些群体毫不逊色于其他群体,也会被主流社会排挤或拒绝。美国社会对黑人的种族歧视是典型的身份性歧视。 7基于此,关涉身份权的算法歧视是指算法借助辨别个体或群体的宗教、民族、种族、肤色、性别而施以不平等的对待。无涉身份权的算法歧视则是指算法决策中个体虽不受身份影响,仍遭到不平等的对待,例如大数据杀熟与价格歧视。除此之外,统计性歧视在某些情况下可以归为无涉身份权的算法歧视。其发生源于在大数据与算法结合的环境下, 个人的 涉
10、己行为 同时也是 涉他行为 。算法决策的重要环节之一就是分类,但此分类不是固定不变的,而是临时的,即个体置身于临时群组之中,其实时的行为数据可为临时群组提供新的信息,可以让算法愈加了解同属该群组的其他成员的想法和行为,更会更改算法对这个临时群体的预测,进而对其他成员带来直接影响。如若A易患某种危险疾病,其健康信息将修正其所属群组的参数,以致其他成员也面临着拒绝受理医疗保险的风险。 8 3. 算法歧视何以产生 借鉴莱普利 普鲁诺Lepri Bruno的观点,算法歧视产生的根本源头可概括为三个方面: 一是有偏见的训练数据以反应循环的方式导致的歧视;二是使用算法本身就可能是一种歧视;三是输入的数据的
11、抽样偏差与权重设置较差也会导致歧视。 4,pp.4-5详细而言: 首先,数据中预先存在的偏见导致算法歧视。此类歧视通常在开创建立算法系统之前就已存在,算法只是将其反应出来。换言之,先前存在的偏见不仅能够无意识地影响算法设计者选择使用哪些算法,还能够通过个人或机构有意识地或无意识地进入算法,即通过定义目的变量而嵌入算法。其次,使用算法本身可能是一种歧视。在算法系统中,基于算法分类进行的优先化排序、关联性选择和过滤性排除是一种直接歧视,牵涉差异不同性地对待与不公正。在华而不实,尤为明显的是 类标签 确实定。歧视的风险不仅存在于类标签本身的定义中,也存在于随后其对规则的推断。根据类标签的定义,算法将
12、所有数据划分为互相排挤的类别。由此,基于类标签的定义,数据主体被赋予了一种新的身份,即 算法身份algorithmic identity 。算法身份是通过辨别IP地址、密码、网络行为足迹等信息性密符informational shibboleths,进而使用统计模型自动确定一个人的阶级、性别、种族等,在华而不实统计性推断起着至关重要的作用,其内在逻辑是在个人层面无法计算的东西,在集体层面上是能够计算的,因此当根据算法身份对主体进行判定时,就会将主体与一个虚拟的、概率性的群体或类联络起来,而这种联络不一定有任何合理的理由,且可能导致对主体的刻板印象和歧视。9再次,算法决策中数据的抽样偏差及其所设
13、置权重的不同可以能导致算法歧视。算法决策的客观性与正确性是建立在对所输入数据的两个假设之上,即数据是客观正确的且很好地表征了所要预测的个体。10前面已经提到数据并非总是客观正确的,而是可能裹挟着偏见。这里牵涉到的另一个问题是,算法所使用的数据也许并不能很好地表征个体,即数据的代表性缺乏。另外,算法设计者对不同因素的权重分配不当也会导致歧视。例如,在警务预测中,所用算法若过分强调邮政编码的权重则可能导致低收入的美国黑人社区与犯罪社区的关联更大。 二、算法歧视关涉的伦理问题 在算法背景下讨论歧视问题,不仅需要研究到底存在何种歧视形式,更为重要的是说明为什么要禁止它们。5,p.1382从伦理的角度而
14、言,反对算法歧视的原因在于它牵涉到公平与算法身份污名化两大伦理问题。 1. 算法公平:个体公平与群组公平 首先,算法歧视牵涉到算法语境下对 公平 的诠释问题。学者对公平有众多不同的理解,但在算法语境下讨论公平牵涉到两个问题:其一,公平能否能够量化、形式化?其二,假如公平可被量化、形式化,那么选择何种公平理论是恰当的?对于第一个问题,从当下各领域的研究成果来看,答案:是肯定的。防止歧视的数据挖掘和算法公平仿佛成为新兴的研究范式,试图借此发现并消除算法引发的不公平现象。康奈尔大学信息科学部学者梭伦 巴罗卡斯Solon Barocas、普林斯顿大学信息技术政策中心学者约书亚 克罗尔Joshua Kr
15、oll等人建立了专注于机器学习公平、透明与可责的研究中心FAT-ML,Fairness,Accountability,and Transparency in Machine Learning,鼓励计算机领域的学者在预防算法歧视的前提下设计算法。 针对第二个问题,公平在算法中通常被量化、形式化为两种形式:群组公平group fairness与个体公平individual fairness。群组公平又被称为统计奇偶性statistical parity,指的是接受正分类或负分类的人的比例与整个人口统计是一样的,旨在平等地对待所有群体,它要求通过算法而进行的决策结果在受保卫群体与非受保卫群体之间的比
16、例相等。例如,若某行业从业人口的男女比例为1:2,那么受雇佣的男女比例也应接近1:2。然而,学者辛西娅 德沃克Cynthia Dwork等人则以为群组公平并缺乏以保证算法决策结果的公平性,由于就个人角度而言,它可能造成不公平。例如,在申请贷款中,群组公平并不能保证A与B两个群体中信誉度类似的两个人获得一样的贷款概率。因而他们提倡另一种形式的公平 个体公平。个体公平可被阐释为平等地对待类似的个体。德沃克通过测量在特定任务中个体之间的类似度而保证分类的公平性,以防止个体由于附属于某一群体成员而被歧视。11学者马修 约瑟夫Matthew Joseph则将个体公平进一步发展为个体时机均等:通过将约翰
17、罗尔斯的 时机平等原则 以数学的方式形式化,建立机器学习中的上下文赌博机contextual bandits,以保证算法的每一步都公平地对待类似的个体。12 事实上,在 群体公平 与 个体公平 选择的背后隐藏着设计者的不同世界观。 群体公平所隐含的是 我们都是平等的 ,即在算法的特征选择经过中,个体所组成的群组之间并没有天生的差异,他们看起来都是一样的。或者讲,即便存在差异,这些差异都是由个人控制之外的因素造成的,在算法决策经过中不应考虑这些因素。个体公平隐含的则是 所见即所得 。也就是讲,针对算法特征选取的观察方式方法能够较为真实地、准确地表征个体并作为算法的输入。 13 但算法语境下公平的
18、形式化仅仅是对公平阐释的内容之一,而非全部。对此,学者迈克尔 斯克潘Michael Skirpan以为,算法语境下对公平的诠释需要重视两个问题: 一是诠释算法公平常,公平更多的是一种公平建构fairness construct,即公平不是静态的,而是动态的,对其诠释依靠于算法所要解决的特定问题空间以及在训练和应用中对该诠释进行编码和测量的方式方法。二是需超越上述对技术方式方法之公平的关注,重视算法系统的公平性与结果的公平性。算法系统的公平性即采用算法系统解决某个特定问题能否恰当。例如,算法驱动的道路导航之自主实验系统不仅在缺乏用户知情同意的情况下利用用户的无知而开展实验,而且在实验经过中整个算
19、法系统可能会更倾向于选择那些信息较少的用户作为实验对象,这就提出了怎样在实验对象与非实现对象之间公平分配利益与风险的问题 结果的公平性,即算法X的结果能否公平。它可被理解为对算法歧视的事后控制,能够使用特殊的事后分析方式方法发现黑盒模型可能存在的不公平。 14 2. 算法身份的污名化 第一,算法歧视关涉个体被赋予何种算法身份。如前所述,在算法决策中,个体被赋予一种新的身份,即 算法身份 。但它并非静态的、不可更改的,而是具有交互性、适应性和可跟踪性等特征:9,p.77一方面, 算法身份 可随时追踪个体与所属临时群组中其别人的信息更新,并根据这些新信息更改个体算法身份;另一方面,新的信息也在更新
20、与重建算法本身。正如学者塔尔顿 吉尔斯皮Tarleton Gillespie所言,算法是偶尔的、不稳定的,由于用户的每一个点击、新数据的增加等细微的变化都将调整与重塑算法。15在这里意义上,算法身份 就像信息流一般,新的判定、分数、风险评估等不断地被扔进华而不实。 16然而,由于算法身份是基于多种数据库、算法以及决策者交互而构建的,其对个体的理解及其算法身份确实定 不是根据个体的实际行为,而是根据算法所辨别的个体与别人的关系 ,2,p.8加之前面提到的数据偏差、不合理地分类等原因,个体的算法身份可能与个体的现实状况并不相符,并被贴上某种标签而使其在算法决策中易遭到歧视。更挖苦的是,即便算法在推
21、断个体身份时能克制这些问题,那么接下来的问题则转变为假如算法过于准确地推断受保卫群体的成员资格,仍然可能会据此确定算法身份并在这里基础上对他们进行歧视。17 第二,一旦将个体算法身份贴上某种易于被歧视的标签,就会产生双重累积劣势。18累积性优势/累积劣势是默顿对科学界职业分层中 马太效应 现象提供的一种构造性解释。华而不实累积优势指的是任何个体、群体或地区一旦在社会地位、信誉、经济状况等方面获得成功,就会产生一种累积优势,进而获得更多的时机和更大的成功;累积劣势则是对其相反状况的描绘叙述。为什么是双重累积劣势?一方面,算法越是精准地推断受保卫群体或少数群体中个体的成员资格并据此对其进行分类,其
22、在决策结果中遭到的歧视可能性就越大。例如, 由于一系列复杂的因素,收入不平等在美国黑人之中很明显,它通常是经过几代人的劣势累积而构成的代际负担。身体健康等生活质量、政治介入程度以及社会理论家所言的自信心、知识等 社会资本 不仅与美国黑人的收入状况相关联,而且会加强其在地理上的孤立并重生与扩展他们在收入中的劣势累积,进而导致他们所寓居的社区成为风险状况的一个重要指标。这些因素都将以数据的形式输入算法并被呈现,进而导致美国黑人在生活时机的分配中再次遭到负面影响。 19 另一方面,基于算法对受保卫群体或少数群体中个体成员资格的推断,其决策结果带来教育、就业时机、医疗等方面的负面影响,则可能在日后生活
23、中进一步加剧,并导致自我应验预言的实现与污名化。2,p.9原因在于,基于算法身份的算法决策会产生关于个体的新推断,并影响个体的行为,进而构成更多的数据,而这些新数据则会成为算法再一次对个体进行分类、确定算法身份并作出推断的数据基础。如此一来,劣势则会越累积越多。与此同时,算法在劣势累积影响下所作出的推断与决策结果还将导致对少数群体或受保卫群体的负面成见,即污名化与自我应验预言的实现。例如, 当一个算法评分系统表示清楚,某个受保卫群体的成员在特定环境下信誉评分较低时,它会传达这样一种信息,即该成员乃至这个群体的所有成员在众多情况下都是不值得信任的。如此一来,其别人对该群体的看法以及该群体内成员对
24、自我的看法都会遭到影响,这就是污名化与自我应验预言的实现。 5,pp.1398-1399事实上,这在更深层次牵涉到了算法系统的记忆与遗忘问题。更准确地讲, 是算法决策中的数据追溯与使用问题,即个体数据应该保存多久、何时应该删除,应该使用过去多久的数据来合理地评价个体。破产法、青少年犯罪记录以及金融信誉报告中都存在这样的规定:在规定年限之后,个体就有权要求制度上的遗忘,即将相关数据删除并消除其累积效应,进而能够 重新开场 。20 综上所述,算法歧视主要牵涉到算法公平与算法身份污名化两大伦理问题。但这并不意味着算法歧视仅仅牵涉到上述两个问题,它还不同程度地牵涉其他伦理问题,如隐私。详细而言,算法歧
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 农业相关
限制150内