公平测试旨在减轻数据驱动的AI系统决策过程中的意外歧视。当AI模型为仅根据受保护属性(例如年龄和种族)区分的两个不同的个体做出不同的决定时,可能会发生个人歧视。这样的实例揭示了偏见的AI行为,被称为个人歧视实例(IDI)。在本文中,我们提出了一种选择初始种子以生成IDI进行公平测试的方法。先前的研究主要使用随机的初始种子来实现这一目标。但是,这个阶段至关重要,因为这些种子是后续IDIS生成的基础。我们称我们提出的种子选择方法I&D。它产生了大量的初始IDI,表现出极大的多样性,旨在提高公平测试的整体性能。我们的实证研究表明,I&D能够就四种最先进的种子生成方法产生更多的IDI,平均产生1.68倍的IDI。此外,我们比较I&D在训练机器学习模型中的使用,并发现与最先进的ART相比,使用I&D将剩余IDI的数量减少了29%,因此表明I&D有效地改善了模型公平性
translated by 谷歌翻译
本文提供了有关在机器学习(ML)模型中实现公平性的偏置缓解方法的全面调查。我们总共收集了234个有关ML分类器偏置缓解的出版物。这些方法可以根据其干预程序(即预处理,进行内部处理,后处理)及其应用的技术来区分。我们研究了文献中如何评估现有的缓解方法。特别是,我们考虑数据集,指标和基准测试。根据收集的见解(例如,最受欢迎的公平度量是什么?用于评估偏置缓解方法的数据集?)。我们希望在开发和评估新的缓解方法时支持从业者做出明智的选择。
translated by 谷歌翻译
软件偏见是软件工程师越来越重要的操作问题。我们提出了17种代表性缓解方法的大规模,全面的经验评估,该方法通过1​​2个机器学习(ML)绩效指标,4项公平度量指标和24种类型的公平性 - 性能权衡评估,应用于8种广泛采用的公平性折衷评估基准软件决策/预测任务。与以前在此重要的操作软件特征上的工作相比,经验覆盖范围是全面的,涵盖了最多的偏见缓解方法,评估指标和公平性的绩效权衡措施。我们发现(1)偏置缓解方法大大降低了所有ML性能指标(包括先前工作中未考虑的指标)所报告的值,在很大一部分的情况下(根据不同的ML性能指标为42%〜75%) ; (2)在所有情况和指标中,偏置缓解方法仅在约50%的情况下获得公平性改善(根据用于评估偏见/公平性的指标,介于29%〜59%之间); (3)缓解偏见的方法的表现不佳,甚至导致37%的情况下的公平性和ML性能下降; (4)缓解偏差方法的有效性取决于任务,模型,公平性和ML性能指标,并且没有证明对所有研究的情况有效的“银弹”缓解方法。在仅29%的方案中,我们发现优于其他方法的最佳缓解方法。我们已公开提供本研究中使用的脚本和数据,以便将来复制和扩展我们的工作。
translated by 谷歌翻译
在过去的二十年中,几个机器学习(ML)库已自由使用。许多研究都使用此类图书馆对预测软件工程(SE)任务进行实证研究。但是,使用一个库在另一个库上使用的差异被忽略了,隐含地假设使用这些库中的任何一个都会为用户提供相同或非常相似的结果。本文旨在提高人们对使用不同ML库进行软件开发工作估算(见)时所产生的差异的认识,这是研究最广泛的SE预测任务之一。为此,我们研究了3个最受欢迎的ML开源库(即不同语言)(即Scikit-Learn,Caret和Weka)提供的4个确定性机器学习者。我们进行了一项彻底的实证研究,比较了机器学习者在5个最常见的数据集上的性能,请参见方案(即,盒子内ML和TUNED-ML)以及深入的分析其API的文档和代码。我们的研究结果表明,在总共研究的105例病例中,这3个文库提供的预测平均为95%。在大多数情况下,这些差异明显很大,并且误容最多。每个项目3,000小时。此外,我们的API分析表明,这些库为用户提供了可以操纵参数的不同级别的控制,并且总体上缺乏清晰度和一致性,这可能会误导用户。我们的发现强调,ML库是参观研究的重要设计选择,这可能会导致性能差异。但是,这种差异不足。最后,我们通过强调开放式挑战,对图书馆的开发商以及使用它们的研究人员和从业者提出建议。
translated by 谷歌翻译
In the last decade, several studies have explored automated techniques to estimate the effort of agile software development. We perform a close replication and extension of a seminal work proposing the use of Deep Learning for Agile Effort Estimation (namely Deep-SE), which has set the state-of-the-art since. Specifically, we replicate three of the original research questions aiming at investigating the effectiveness of Deep-SE for both within-project and cross-project effort estimation. We benchmark Deep-SE against three baselines (i.e., Random, Mean and Median effort estimators) and a previously proposed method to estimate agile software project development effort (dubbed TF/IDF-SVM), as done in the original study. To this end, we use the data from the original study and an additional dataset of 31,960 issues mined from TAWOS, as using more data allows us to strengthen the confidence in the results, and to further mitigate external validity threats. The results of our replication show that Deep-SE outperforms the Median baseline estimator and TF/IDF-SVM in only very few cases with statistical significance (8/42 and 9/32 cases, respectively), thus confounding previous findings on the efficacy of Deep-SE. The two additional RQs revealed that neither augmenting the training set nor pre-training Deep-SE play lead to an improvement of its accuracy and convergence speed. These results suggest that using semantic similarity is not enough to differentiate user stories with respect to their story points; thus, future work has yet to explore and find new techniques and features that obtain accurate agile software development estimates.
translated by 谷歌翻译
机器学习技术的进步鼓励研究人员将这些技术应用于使用源代码分析(例如测试和漏洞检测)的无数软件工程任务。如此大量的研究阻碍了社区了解当前的研究格局。本文旨在总结用于源代码分析的机器学习中当前知识。我们审查了属于软件工程任务的十二类的研究以及已应用于解决它们的相应的机器学习技术,工具和数据集。为此,我们进行了广泛的文献搜索,并确定了2011年至2021年之间发表的479项主要研究。我们在确定的研究的帮助下总结了我们的观察结果和发现。我们的发现表明,将机器学习技术用于源代码分析任务的使用始终在增加。我们综合了常用的步骤和每个任务的总体工作流程,并总结了所使用的机器学习技术。我们确定在此上下文中可用的可用数据集和工具的全面列表。最后,本文讨论了该领域的感知挑战,包括标准数据集的可用性,可重复性和可复制性以及硬件资源。
translated by 谷歌翻译
社交机器人是一种自主机器人,通过参与其协作角色附带的社会情感行为,技能,能力和规则,与人们互动。为了实现这些目标,我们认为建模与用户的互动并将机器人行为调整为用户本人对其社会角色至关重要。本文提出了我们首次尝试将用户建模功能集成到社交和情感机器人中。我们提出了一种基于云的体系结构,用于建模用户机器人交互,以便使用不同类型的社交机器人重复使用该方法。
translated by 谷歌翻译
病变分割是放射线工作流程的关键步骤。手动分割需要长时间的执行时间,并且容易发生可变性,从而损害了放射线研究及其鲁棒性的实现。在这项研究中,对非小细胞肺癌患者的计算机断层扫描图像进行了深入学习的自动分割方法。还评估了手动与自动分割在生存放射模型的性能中的使用。方法总共包括899名NSCLC患者(2个专有:A和B,1个公共数据集:C)。肺部病变的自动分割是通过训练先前开发的建筑NNU-NET进行的,包括2D,3D和级联方法。用骰子系数评估自动分割的质量,以手动轮廓为参考。通过从数据集A的手动和自动轮廓中提取放射性的手工制作和深度学习特征来探索自动分割对患者生存的放射素模型对患者生存的性能的影响。评估并比较模型的精度。结果通过平均2D和3D模型的预测以及应用后处理技术来提取最大连接的组件,可以实现具有骰子= 0.78 +(0.12)的自动和手动轮廓之间的最佳一致性。当使用手动或自动轮廓,手工制作或深度特征时,在生存模型的表现中未观察到统计差异。最好的分类器显示出0.65至0.78之间的精度。结论NNU-NET在自动分割肺部病变中的有希望的作用已得到证实,从而大大降低了时必的医生的工作量,而不会损害基于放射线学的生存预测模型的准确性。
translated by 谷歌翻译
西尼罗河病毒(WNV)的发生代表了最常见的蚊子传播的人畜共患病毒感染之一。它的循环通常与适合载体增殖和病毒复制的气候和环境条件有关。最重要的是,已经开发了几种统计模型来塑造和预测WNV循环:尤其是,最近的地球观察数据(EO)数据的巨大可用性,再加上人工智能领域的持续发展,提供了宝贵的机会。在本文中,我们试图通过用卫星图像为深度神经网络(DNN)喂食WNV循环,这些图像已被广泛证明可以具有环境和气候特征。值得注意的是,尽管以前的方法可以独立分析每个地理位置,但我们提出了一种空间感知方法,该方法也考虑了近距离位点的特征。具体而言,我们建立在图形神经网络(GNN)的基础上,以从相邻位置进行聚集特征,并进一步扩展这些模块以考虑多个关系,例如两个地点之间的温度和土壤水分差异以及地理距离。此外,我们将与时间相关的信息直接注入模型中,以考虑病毒传播的季节性。我们设计了一个实验环境,将卫星图像(来自Landsat和Sentinel任务)结合在一起,以及意大利WNV循环的地面真相观察。我们表明,与适当的预训练阶段配对时,我们提出的多种jaCencenciencencencence Graph注意网络(MAGAT)始终导致更高的性能。最后,我们在消融研究中评估MAGAT每个组成部分的重要性。
translated by 谷歌翻译
在各种领域,包括搜索和救援,自动驾驶汽车导航和侦察的各个领域,形成不断变化的场景的非线图像(NLOS)图像的能力可能具有变革性。大多数现有的活性NLOS方法使用针对继电器表面并收集回返回光的时间分辨测量的脉冲激光来照亮隐藏场景。流行的方法包括对垂直壁上的矩形网格的栅格扫描,相对于感兴趣的数量,以产生共聚焦测量集合。这些固有地受到激光扫描的需求的限制。避免激光扫描的方法将隐藏场景的运动部件作为一个或两个点目标。在这项工作中,基于更完整的光学响应建模,但仍没有多个照明位置,我们演示了运动中对象的准确重建和背后的固定风景的“地图”。计数,本地化和表征运动中隐藏物体的大小,结合固定隐藏场景的映射的能力,可以大大提高各种应用中的室内情况意识。
translated by 谷歌翻译