打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
分类中的公平成本

论文摘要

我们研究了具有公平约束的分类器学习问题,对量化问题内在平衡的目标有三个主要贡献。首先,我们将现有的两种公平度量与成本敏感风险联系起来。其次,对于成本敏感的分类和公平性度量,最优分类器是类概率函数的一个实例相关的阈值。第三,我们展示了准确性和公平性之间的平衡取决于目标的类概率和敏感特征之间的一致性。支持我们分析的是一个通用框架,该框架将公平性要求的学习问题转化为最小化两种统计风险差异的问题。

论文介绍

假设我们希望学习一个分类器来确定合适的求职者。这个分类器可以接受候选人的各种特征作为输入,例如他们的面试表现、资格和多年的经验。假设其中一个特征被认为是敏感的,例如他们的种族。然后,我们可能需要约束分类器,使其对这个敏感特性不具有过度的识别性。受此限制,我们当然希望分类器尽可能精确。这被称为公平感知学习问题,最近在机器学习界受到了相当大的关注。主要关注的是形式化什么才能构成一个完全公平的分类器,以及如何学习一个分类器来近似地实现这种公平性。在这两方面都有几个不同的建议。

在这篇论文中,我们感兴趣的是在一个公平要求的学习问题中的内在平衡。我们特别关注公平性对原始问题的两个方面的影响:最优解的结构和性能下降。我们的三项主要贡献C1-C3包括对这两个问题的分析:

C1:我们减少了两种现有的公平度量方法对成本敏感的风险。

C2:我们证明,对于这种成本敏感的分类和公平性度量,最优的公平感知分类器是类概率函数的一个实例相关的阈值。

C3:我们提供了目标和敏感特性的类概率之间的一致性度量,它量化了由于公平性要求而导致的性能下降。

公平度量作为统计风险

我们将公平性度量作为统计风险的一般观点提出,其中敏感特征是目标。这让我们可以使用研究风险的工具来分析公平措施。

在公平感知学习中,我们的目标是输出一个随机化的分类器:

我们将主要关注上述问题的以下可处理的特殊情况。

分类类型公平度量

我们可以定义一个分类类型的公平度量通过:

直观地说,我们正在测试是否可以从X预测敏感特性

。如果可能的话,根据Rfair的说法,我们不公平。

下述两个例子:

反分类器与对称公平

采用公平的统计风险限制了假阳性和阴性率。然而,这些约束可能假定我们的分类器在

上是不平凡的:例如,如果一个分类器f有

,那么

。那么人们可能会通过反分类器欺骗这些度量。即一个具有高公平性,但其否定具有低公平性的措施。

从直觉上讲,人们希望禁止这样一个微不足道的转变对公平产生不利影响。要做到这一点,一个简单的方法是考虑对称的公平度量:

公平度量的成本敏感观点

平衡的成本敏感风险

不同的影响和成本敏感风险

我们的第一个结果是,不同的影响因素可能与平衡的成本敏感风险有关。这表明对后者的研究有助于理解前者。

首先,引理 1并不意味着不同的影响等于成本敏感的风险,而是它们的超水平集是相关的。尽管如此,这意味着一个完全不同的影响约束等同于一个成本敏感的约束,后者更容易分析,第二,正如引理 1对任何分布D所持的那样,我们可以插入DEO,在“机会均等”制度中产生同样的不同影响结果。

成本敏感的公平问题

上述结果证明了成本敏感公平度量的通用性。因此,在本书的续集中,我们将重点关注一般成本参数的这类措施,依靠引理1和2将有关这些参数的陈述与有关DI和MD分数的陈述联系起来。对于对称性,我们还将关注基础问题的成本敏感风险,尽管可能具有不同的成本参数。我们可以将一般问题1的特殊情况正式化,这是接下来的重点。

贝叶斯最优公平感知分类器

将公平感知学习问题正式化,并将现有的公平措施与成本敏感风险进一步联系起来,我们就可以研究该问题带来的权衡。我们首先问:公平性要求对贝叶斯最优解有什么影响?这些解决方案的结构提供了对问题的深入了解,并提出了简单实用的算法。

在命题4中,首先,我们只需要知道敏感特性在正实例中处于活动状态的概率。第二,阈值修正的形式不再是相加的,而是相乘的。

上面研究了一个一般性的X,其中敏感特征不一定作为分类器的输入提供。当我们允许敏感特征作为输入时,最优分类器的形式简化了。

总结

我们研究了具有公平约束的学习问题中固有的权衡问题,表明对于成本敏感的公平度量,最优分类器是类概率函数的一个依赖实例的阈值,并通过一个目标和敏感变量的对齐。

未来工作有几个有趣的方向。举几个例子,我们认为研究Bayes的最优评分器对诸如AUC之类的排名度量很有价值;建立插件估计量的一致性;量化使用有限样本的影响;并将我们的分析扩展到多类别敏感特征的情况。

引用

K. Menon and R. C. Williamson, “The cost of fairness in classification,” arXiv:1705.09055 [cs], May 2017.

致谢

本文由南京大学软件工程系2019硕士生郭子琛翻译转述。

感谢国家自然科学基金项目(重点项目)智能软件系统的数据驱动测试方法与技术(61932012)资助

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
AI产品经理要了解的算法有哪些?
思考的20个常见模型
特征选择(feature selection)
AdaBoost算法中寻找最优阈值分类器的代码优化
带你了解统计学习方法概论
Bentley基于风险的资产管理助配电网更可靠运行
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服