基于中心的聚类(例如,$ k $ -means,$ k $ -Medians)和使用线性子空间的聚类是两种最受欢迎的技术,可以将真实数据分配到较小的群集中。但是,当数据由敏感人群组组成时,不同敏感组的每点的聚集成本显着不同,可能会导致与公平相关的危害(例如,服务质量不同)。社会公平聚类的目的是最大程度地降低所有组中每点聚类的最大成本。在这项工作中,我们提出了一个统一的框架,以解决社会公平的基于中心的聚类和线性子空间聚类,并为这些问题提供实用,高效的近似算法。我们进行了广泛的实验,以表明在多个基准数据集上,我们的算法要么紧密匹配或超越最先进的基线。
translated by 谷歌翻译
在本文中,我们采用一种公理方法来定义满足一组一致性和公平公理的随机组排名。我们表明,这导致了通过合并来自不同敏感人群组的给定排名列表的排名,同时满足了最高等级中每个组的表示下限和上限,从而导致了唯一的分布$ \ MATHCAL {D} $。与确定性排名相比,随机或随机排名在最近的文献中引起了人们的关注。即使存在隐式偏见,不完整的相关信息,或者只有序数排名而不是相关性分数或实用程序值,我们的问题公式即使有效。我们提出了三种算法,以从上面提到的分布$ \ mathcal {d} $中采样一个随机的集体排名。我们的第一个算法样本排名从分配$ \ epsilon $ -close到$ \ nathcal {d} $的总变化距离,并且在所有输入参数中都在运行时间多项式,而$ 1/\ epsilon $,有足够的差距在所有组的上限和下限表示约束之间。我们的第二个算法示例从$ \ Mathcal {d} $恰好在组数量的时间指数中排名。我们的第三个算法从$ \ mathcal {d} $恰好从$ \ mathcal {d} $示例随机组公平排名,并且当每个组的上限和下限之间的差距很小时,比第一个算法更快。我们在实验中验证了上述算法的上述保证,该算法在最高排名中的群体公平性和现实世界数据集的每个等级中的代表性。
translated by 谷歌翻译
计算机辅助诊断数字病理学正在变得普遍存在,因为它可以提供更有效和客观的医疗保健诊断。最近的进展表明,卷积神经网络(CNN)架构是一种完善的深度学习范式,可用于设计一种用于乳腺癌检测的计算机辅助诊断(CAD)系统。然而,探索了污染变异性因污染变异性和染色常规化的影响,尚未得到很好的挑战。此外,对于高吞吐量筛选可能是重要的网络模型的性能分析,这也不适用于高吞吐量筛查,也不熟悉。要解决这一挑战,我们考虑了一些当代CNN模型,用于涉及(1)的乳房组织病理学图像的二进制分类。使用基于自适应颜色解卷积(ACD)的颜色归一化算法来处理污染归一化图像的数据以处理染色变量; (2)应用基于转移学习的一些可动性更高效的CNN模型的培训,即视觉几何组网络(VGG16),MobileNet和效率网络。我们在公开的Brankhis数据集上验证了培训的CNN网络,适用于200倍和400x放大的组织病理学图像。实验分析表明,大多数情况下预染额网络在数据增强乳房组织病理学图像中产生更好的质量,而不是污染归一化的情况。此外,我们使用污染标准化图像评估了流行轻量级网络的性能和效率,并发现在测试精度和F1分数方面,高效网络优于VGG16和MOBILENET。我们观察到在测试时间方面的效率比其他网络更好; vgg net,mobilenet,在分类准确性下没有太大降低。
translated by 谷歌翻译