在人工智能发展的初期,人们对算法的要求往往停留于「准」的层面,预测结果越精确似乎越好。然而,随着人工智能技术逐渐融入日常生活,人们对于算法「公平性」的要求与日俱增。在本文中,来自 CMU 的研究人员 Han Zhao 提出了一种通过学习公平表征来实现算法公平的方法。

其中 ϵ > 0 是一个预设的常数,我们使用 I(⋅;⋅) 表示两个随机变量之间的互信息。如图 2 所示,得益于近期深度神经网络表征学习方面的研究进展,我们可以通过对抗性训练算法实现上面的优化问题。这种特殊的方法至少可以追溯到 Edwards 等人的工作:「Censoring Representations with an Adversary」(https://arxiv.org/abs/1511.05897)。

国联证券表示,从短期趋势来看,目前旅游行业整体进入增速放缓阶段,但是高品质消费需求带来人均消费支出不断提高,对旅游行业起到提振的作用,国内长线游在春节期间将会迎来高峰,建议关注收入逐步改善的峨眉山A;出境游仍偏爱东南亚地区,建议关注出境游零售+免税布局的凯撒旅业。

根据定理 1,对于任意公平分类器,它在两种群体上的误差率之和必然至少为 10%,所以它们都是最优的。定理 1 是非常直观的,它本质上说明了:

通常而言, 取介于 0 和 1 之间的值,正是这个值表示了在二分类情况下对于公平性和效用的权衡。

举例而言,我们不妨考虑一下下面的贷款核准问题。假如这个虚拟设定的环境中有通过圆形和方形代表的两组贷款申请人。

需要指出的是,选择总变分距离作为分布对齐质量的度量没有什么特别之处。在论文「Inherent Tradeoffs in Learning Fair Representations」的 3.2 节,我们使用 f 散度给出了一种一般性分析,读者可以也可以使用其它的散度测度(例如,HS 距离、Hellinger 距离等)对其进行实例化,从而得到相同的下界。

事实证明,这种近似有助于减小定理 1 中的下界。具体而言,令  为给定 A=a 时的条件分布 D。对于特征转换函数   来说,令  为 Da 在使用 g 转换后的前推分布(Pushforward Distribution)。此外,如果我们使用 代表两个概率分布之间的总变分距离,那么下面的定理成立:

具体而言,根据鸽巢原理,我们很容易发现任意的公平分类器必然会至少在其中一个群体上产生至少  的误差率。此外,该结论是预算法无关的,它在群体层面上成立(即使用大的训练集并不能有所帮助)。接下来,让我们深入分析   这个量:

定理1. 对于任意满足统计均等的预测器 ,

理解效用和统计均等之间的基本权衡既有趣又充满挑战。在我们的论文和这篇博文中,我们在二元分类问题的环境下,给出了对这种内在权衡的简单而直观的描述:当各群体之间的基准比率不同时,任何满足统计均等的公平分类器都必然至少在其中一个群体上产生较大的误差!

第一个概念是「个体公平」。简而言之,它要求公平的算法以类似的方式对待相似的个体。然而,在实践中,通常很难找到或设计一种被社会所认可的距离度量标准,该标准用于衡量个体在面对特定任务时的相似度。 第二个概念是「群体公平」,这是本文重点讨论的问题。更具体地说,就是所谓的统计均等,它本质上是要求预测器对于不同子群输出的结果相同。

2020年春运大潮将在1月10日开启,“反向春运”进一步呈现增长态势。去哪儿网数据显示,2020年春运期间,近40%的旅客选择异地过年,其中一成旅客出境游过年,近三成旅客国内异地过年。异地过年与回家过年相反,是指老人、儿童前往子女/父母工作所在城市,或者全家一起出游过年。与2019年春运同期相比,异地过年旅客总量增长近10%。反向春运占比不断升高,对旅游市场来说是提升城市旅游消费的催化剂。从机票、酒店、餐饮到旅游景区、城市娱乐消费,一线城市和中东部省会城市将逐渐形成岁末年初“淡季不淡”的新格局。

图 3:统计均等的权衡,以及在不同这种系数 λ 下群体间的误差率之和。

例如,在我们图 1 所示的贷款核准问题中,圆形群体的还款率(90%)要高于方形群体的还款率(80%)。根据统计均等的概念,一个公平的预测器必须以相同的比例将贷款发放给圆形和方形群体。举例而言,一个公平的分类器会将贷款恰好发放给 80% 会还款的方形申请者,同时也会将贷款发放给 80% 会还款的圆形申请者(详见图 1 左图)。但是,这就意味着有 10% 确实会还款的圆形申请者会被拒绝放款。

三、公平表征学习的权衡

另一种可能的情况是,一个公平的分类器会将贷款恰好发放给 90% 会还款的圆形申请者,同时将贷款发放给 80% 会还款和 10% 不会还款的方形申请者。在我们例子中的这两种情况下,为了满足统计均等的标准,一个公平的分类器都会在预测准确率方面有所损失。当然,也可能存在其它公平的预测器,这些预测器可不可能遭受较小的损失呢?

随着春节的逐步来临,旅游业也将迎来小高峰。国家移民管理局此前的通报显示,2019年春节期间出境游客达631.1万人次,同比增长12.48%,显然出国旅游过春节已成为一种新趋势。随着今年法定节假日放假时间的公布,大家发现今年的元旦假期只有一天,这也会让原本计划跨年出行的人们,会将行程调整安排在春节前后,导致今年过年期间出境人数剧增。

据首都机场海关副关长段凯介绍,该关主动将防线前移,与各航空公司达成航班信息通报机制,使重点地区的航班到达时口岸提前做好各类应急准备,根据疫情发展态势,对重点航班根据布控指令严格实施登临检疫。

随着机器学习应用程序在诸如刑事判决,医学检测,在线广告等高风险领域中的盛行,确保自动化的决策支持系统不会传播历史数据中可能存在的固有偏见或歧视是至关重要的。从广义上讲, 有关算法公平性的文献中包含两个核心的「公平性」概念:

在本例中,同样根据数据处理不等式(DPI),任何作用于 Z 的假设 h 也会在不同的群体上以相同的比率输出结果,因此是公平的。

科学家们已经确定了一种与舍曲林的阳性结果相关的神经信号,并训练了一种机器学习算法来识别患者的这种信号。这项技术未来可以帮助医生根据他们的大脑活动模式来确定开这种SSRI处方药是否对患者有帮助。

为各个群体之间基准比率(Base Rate)之差。则下面的定理成立:

如图 2 所示的模型包含两个目标函数,我们在训练阶段同时优化他们。第一个目标是为了通过骗过对抗者确保统计均等,第二个目标是为了减小预测 Y 的目标任务的损失函数。

正如预期的那样,随着 λ 的增大,差异得分迅速减小。当 λ=50.0 时,相应的  已经非常接近于满足统计均等。另一方面,我们也可以观察到,随着 λ 的增大,红色的竖条也迅速增大,最终群体间误差之和达到了大于 0.36 的水平。

其中,该概率值是根据 X,A,Y(即申请人的描述信息、申请人所属群体、申请人实际是否还款的真实标签) 的联合分布 D 得到的。换而言之,统计均等要求预测器 C(x) 与群体属性 A 无关:C(x)⊥A。

现在,我们的目标就非常直接了:根据著名的数据处理不等式(DPI),如果我们试图训练一种特征转换方式 Z,使其能够骗过非常强的对抗者(判别器),那么任何使用这种表征的预测器也会是公平的(即满足统计均等)。

值得注意的是,近期许多旅客在乘机出行时会携带消毒液、体温计等防护用品。首都机场提示广大旅客,双氧水、过氧乙酸、84、高锰酸钾、漂白粉、消毒泡腾片等消毒产品含有毒性物质,禁止随身携带和托运。酒精类消毒剂主要成分是乙醇,属于易燃液体,酒精体积百分含量超过70%禁止随身携带和托运,70%及以下只能托运且每瓶不得超过500ml。水银体温计必须放置在保护盒内进行托运,不可随身携带。

从宏观上说,这类工作试图找到一种信息丰富的表征 Z(详见 Richard Zemel 教授的相关工作:http://www.cs.toronto.edu/~zemel/inquiry/home.php)、一种输入变量 X 的特征转换方式,从而使 Z(近似地)与 A 无关,同时 Z 仍然包含关于目标 Y 的丰富信息。这种目标可以被形式化定义为下面的优化问题:

在我们贷款核准的例子中,圆形申请者和方形申请者的还款率之差为 10%,因此。请注意,上述两种公平分类器针对圆形申请者和方形申请者的的误差率都为 0.1。

如果我们分别使用 A=0 表示申请人来自圆形群组,A=1 表示申请人来自方形群组,这种统计均等的定义要求如下:

首先,显然当  时,定理 2 退化到了定理 1 中的下界。

在地面交通方面,目前首都机场除天津、秦皇岛、保定、唐山、廊坊、沧州、赤峰、张家口、燕郊9条巴士线路双向停运外,其他巴士线路和地铁首都机场线均正常运行。为做好防疫工作,地铁首都机场线每个安检点设立了旅客测温点,首都机场巴士和地铁首都机场线均加强了对车辆的通风和消毒工作。

另一方面,我们的实验结果说明了,将统计均等定义为公平性是有缺陷的。当我们定义公平性的概念时,还应该将目标的信息考虑进来。例如,均等几率和准确率均等是两种另外的定义群体公平性的方式,它们都是可以与完美的预测器兼容的。

上述下界意味着在群体间过度对齐的特征分布将会不可避免地导致更大的联合误差。为了证明这种可能性,我们在真实世界数据集(UCI 成人数据集)上进行了实验。这里的任务是收入预测(年薪是否高于 50,000),群体属性则对应于「男性/女性」。对于该数据集而言,,即在 1994 年男性年收入大于 50,000 的比率比女性高 19.7%。

这是目前医生用来确定治疗特定患者抑郁症的最佳选择的反复试验方法的一种受欢迎的替代方法。根据这项研究,SELSER算法“可靠地”预测了参与者根据其脑电图信息对舍曲林的反应。同样,该算法还可以预测“更广泛的临床结果”,而不仅仅是患者对这类SSRI药物的反应程度。例如,该算法预测,对舍曲林反应不良的患者更有可能对经颅磁刺激和心理疗法产生反应。

其次,要意识到,越小,则下界越大。因此,当  较大时,针对不同群体的表征对齐地越好,则不同群体上的误差之和也会越大。

请注意,在图 3 中,黑色的水平线对应于 ,所有的红色薯条都超过了这个水平线,这与我们的理论分析结果是一致的。实际上, 是非常容易计算的,它可以在不实际训练公平分类器的情况下,限制它们所产生的误差之和。

这两个目标函数往往会通过一个调和超参数 λ 融合在一起。然而,统计均等的概念并没有考虑与真实标签 Y 相关的信息。正如你可以想到的,加入某个人的群体特征 A 与其目标标签 Y 高度相关,那么要想使预测器满足统计均等就必然会同时破坏预测器的最佳性能。

临床抑郁症是一种常见的心理健康状况,难以治疗。尽管市场上有许多不同类型的抗抑郁药,但最常用的抗抑郁药是SSRI类药物,其中舍曲林是最受欢迎的选择之一。虽然有些患者对此药反应良好,但其他患者的抑郁症状并未得到改善,实际上在服用药物后可能会感到不适。

如果 A⊥Y,那么Pr(Y=1 | A=0) = Pr(Y=1 | A=1),这意味着 。也就是说,如果群体属性与目标无关,那么上述下界为 0,因此此时不存在效用和公平性的权衡。 如果基于可以确定 A=Y 或 A=1-Y,那么   将取到其最大值 1。在这种情况下,任何公平分类器都必然会在至少一个群体上产生至少为 0.5 的误差。

而要想在回归问题中找到相应的描述方式,仍然是个有待解决的问题,目前尚不明确如何将我们现在的这种证明策略扩展到分析回归问题中类似的权衡上去。

在图 3 中,我们绘制出了三种度量标准以及它们随着 λ 增大而发生的变化。第一个竖条对应于联合误差(即 ),它是在成人数据集上的整体误差。第二个红色的竖条代表群体间误差率之和,这正是在我们的定理 1 和定理 2 中都出现了的下界。第三个灰色竖条对应于衡量 满足统计均等的程度的差异得分(gap score)。具体而言,灰色的竖条代表的是:。简而言之,这个差异得分越小,预测器越满足统计均等。

我们实现了图 2 所示的模型,将对抗性损失的权衡超参数 λ 取了不同的值:0.1,1.0,5.0,以及 50.0。实验结果如图 3 所示:

自动贷款核准系统 C 的目标是预测:如果某位贷款申请人被批准放贷,在给定对于申请人的描述信息 X 时,他是否会按期还款,C(x)=1 代表会按期还款,C(x)=0 代表不会按期还款。

目前,首都机场共设置了62处测温点,对所有旅客、员工和进出航站楼人员进行体温检测,确保100%完成测温。同时加大各航站楼内的新风送风量,确保良好通风,加强对值机设备、行李手推车、卫生间、电梯、摆渡车等设备设施和区域的消毒频次,特别是针对有发热旅客的航班所使用的登机桥、行李转盘等区域做到该航班保障结束后立即消毒。对于特殊发热旅客,首都机场还设置了专门的转运程序和路线,避免与其他旅客发生接触。不仅如此,首都机场还严格按照有关防疫要求,对一线工作人员进行重点防护。

个股方面,新时代证券推荐免税行业的中国国旅,公司规模效应尽显,未来扩张脚步不止,市内免税店开业,牌照红利逻辑长期成立;人工景区宋城演艺,可复制性与休闲化程度高,行业地位稳固,业绩持续稳健增长。

定理 1 仅仅在某种「精确」的情况下成立:预测器需要「精确地」满足统计均等。然而,实际上,由于有限的训练数据量或模型容量,这种要求可能是难以实现的。

定理 2. 令  为一种特征变换。对于任意(随机的)假设 ,令  为一种预测器,则下面的不等式成立:

当不同群体的基准比率有差异时,所有满足统计均等的公平分类器都必然会至少在其中一个群体上产生较大的误差。

雷锋网原创文章,。详情见转载须知。

图 2:学习公平表征的一种算法实现。中间的表征 Z 试图骗过对抗者 A,A 的目标是识别出输入变量的群体属性是「圆形:A=0」还是「方形:A=1」。整体的网络架构可以使用梯度下降法训练。

首都机场海关介绍,目前,该关严格落实各项防控要求,细化人员检疫查验措施,对每一名出入境旅客进行体温监测,严格落实出入境人员填写健康申明卡制度,对有症状及接触史人员开展医学排查,全面加强出入境人员卫生检疫。在北京海关的统一部署下,为了应对疫情,还强化了口岸卫生监督,对航站楼公共卫生开展全面监督检查,指导航站楼管理部做好集中空调通风消毒作业,及时增加新风量,维护口岸卫生安全。

二、公平性和效用间的权衡

此外,航站楼内全天候循环播放中英文广播,提醒旅客注重个人防护。而类似“拐点未到,莫要扎堆;防控之责,不可放松”、“戴口罩、勤洗手、多通风、少聚集”等温馨提示在3座航站楼内更是随处可见,数量超过4000处。

从积极的一面来看,在一定的条件下,我们也证明了学习公平的表征有助于实现另一种公平的概念,即准确率均等,它要求组间的误差率相等。

我们是否有可能在某种预测器只能近似地满足统计均等的标准时,表示这种内在的权衡?如果可能的话,这种表征的特性将会在何时、以何种方式发挥作用?

图 1:统计均等(Statistical Parity,又称群体公平)和最优决策之间权衡的示意图。在本例中,由于圆形和方形群组之间在群体层面上的还款率不同,为了遵循统计均等,决策者必须要么拒绝向某些处于还款状态(repaying)的圆形申请者贷款(左图),要么同意向某些违约的方形申请者贷款(右图)。