人类注释在机器学习(ML)研究和开发中发挥着至关重要的作用。然而,正在建立ML数据集的过程和决策周围的道德考虑并没有接近足够的重视。在本文中,我们调查了一系列文献,这些文献提供了对众群数据集注释的道德考虑的洞察。我们综合这些见解,并沿着两层奠定了这个空间中的挑战:(1)注释者是谁,并且注释者的生活经验如何影响他们的注释,以及注释器与众群平台之间的关系那么这种关系都为他们提供了什么。最后,我们在ML数据流水线的各个阶段提出了一个具体的建议和考虑因素,以ML数据流水线的各个阶段:任务制定,选择注释,平台和基础架构选择,数据集分析和评估以及数据集文档和发布。
translated by 谷歌翻译
本文提供了在CVPR 2021会议上组织的讲习班*在CVPR 2021年会议上的创新应用中学到的伦理考虑因素,以及在ECCV的时尚,艺术和设计*的计算机愿景(ECCV)的一系列讲习班2018年,ICCV 2019年和CVPR 2020。我们希望这一反思将把艺术家和机器学习研究人员带入计算机视觉创造性应用的道德和社会方面的对话。
translated by 谷歌翻译
基准数据集在机器学习研究组织中发挥着核心作用。他们协调共享研究问题的研究人员,并作为共同目标的进展衡量。尽管基准测试在该领域的基准实践存在的基础作用,但已经对基准数据集使用和重用,在机器学习子信中或跨机器中的动态进行了相对较少的关注。在本文中,我们挖掘了这些动态。我们研究数据集使用模式如何在机器学习子信中和2015 - 2012年的时间跨越时间。我们发现在任务社区中较少和更少的数据集中越来越少,从其他任务中获取数据集的重大采用,以及由位于少数精英机构内的研究人员引入的数据集中的集中集中。我们的结果对该领域内的科学评估,AI伦理和股权/访问有影响。
translated by 谷歌翻译
AI中的不同子场倾向于储存一小部分有影响力的基准。这些基准作为一系列涂抹的常见问题的支架运作,这些常见问题经常被录制为朝向灵活和更广泛的AI系统的道路上的基础里程碑。这些基准最先进的性能被广泛理解为表明对这些长期目标的进展。在这个位置纸中,我们探讨了这种基准的限制,以便在其框架中揭示构建有效性问题,作为功能“一般”的进展措施,他们被设置为。
translated by 谷歌翻译
模型评估的常见设计通常侧重于单机设置,其中根据其在单个数据集上的性能进行比较不同的模型,该性能被假定代表手头任务的所有可能数据。虽然这对大数据集可能是合理的,但是这种假设难以在低资源场景中维持,其中数据收集的伪像可以产生具有异常值的数据集,可能得出关于模型性能掺入的结论。为了解决这些问题,我们调查跨越低资源场景中的模型概括性。使用形态分割作为测试用例,我们将三种具有不同参数化的广泛模型进行比较,从6个语言系列中从11种语言中获取数据。在每个实验设置中,我们在第一个数据集上评估所有模型,然后在使用相同大小的新随机采样的数据集时检查它们的性能一致性,并且在将培训的模型应用于不同尺寸的试验组测试组时,请进行培训的模型。结果表明,模型泛化的程度取决于数据集的特性,并且不一定依赖于数据集大小。在我们研究的特征中,语素重叠的比例与训练和测试集之间的每个词的平均语素数量是两个最突出的因素。我们的研究结果表明,未来的工作应该采用随机抽样来构建具有不同尺寸的数据集,以便为模型评估做出更负责任的要求。
translated by 谷歌翻译
制定了具有机器学习模拟(骆驼)项目的宇宙学和天体物理学,通过数千名宇宙的流体动力模拟和机器学习将宇宙学与天体物理学结合起来。骆驼包含4,233个宇宙学仿真,2,049个n-body和2,184个最先进的流体动力模拟,在参数空间中采样巨大的体积。在本文中,我们介绍了骆驼公共数据发布,描述了骆驼模拟的特性和由它们产生的各种数据产品,包括光环,次麦,银河系和空隙目录,功率谱,Bispectra,Lyman - $ \ Alpha $光谱,概率分布函数,光环径向轮廓和X射线光子列表。我们还释放了超过骆驼 - 山姆的数十亿个星系的目录:与Santa Cruz半分析模型相结合的大量N身体模拟。我们释放包含350多个Terabytes的所有数据,并包含143,922个快照,数百万光环,星系和摘要统计数据。我们提供有关如何访问,下载,读取和处理数据AT \ URL {https://camels.readthedocs.io}的进一步技术详细信息。
translated by 谷歌翻译
最近的多目标跟踪(MOT)系统利用高精度的对象探测器;然而,培训这种探测器需要大量标记的数据。虽然这种数据广泛适用于人类和车辆,但其他动物物种显着稀缺。我们目前稳健的置信跟踪(RCT),一种算法,旨在保持鲁棒性能,即使检测质量差。与丢弃检测置信信息的先前方法相比,RCT采用基本上不同的方法,依赖于精确的检测置信度值来初始化曲目,扩展轨道和滤波器轨道。特别地,RCT能够通过有效地使用低置信度检测(以及单个物体跟踪器)来最小化身份切换,以保持对象的连续轨道。为了评估在存在不可靠的检测中的跟踪器,我们提出了一个挑战的现实世界水下鱼跟踪数据集,Fishtrac。在对FISHTRAC以及UA-DETRAC数据集的评估中,我们发现RCT在提供不完美的检测时优于其他算法,包括最先进的深单和多目标跟踪器以及更经典的方法。具体而言,RCT具有跨越方法的最佳平均热量,可以成功返回所有序列的结果,并且具有比其他方法更少的身份交换机。
translated by 谷歌翻译
近年来政府和商业实体的面部识别(FR)技术的快速采用提出了对公民自由和隐私的担忧。作为回应,已经开发了一套广泛的所谓“反面部识别”(AFR)工具,以帮助用户避免不需要的面部识别。在过去几年中提出的一组AFR工具是广泛的,快速发展,需要退回措施,以考虑AFR系统的更广泛的设计空间和长期挑战。本文旨在填补该差距,并提供对AFR研究景观的第一次综合分析。使用FR系统的运营级作为起点,我们创建了一个系统框架,用于分析不同AFR方法的益处和权衡。然后,我们考虑到AFR工具面临的技术和社会挑战,并提出在该领域的未来研究方向。
translated by 谷歌翻译
食品药物中的额外标签药物使用由美国动物药用药物使用澄清法(AMDUCA)授权,估计的戒断间隔基于已发表的科学药代动力学数据。偶尔会有一种缺乏基于戒断间隔或正在处理的大量动物的科学数据的缺乏,驱动需要测试药物残留物的需要。快速测定商业农场侧测试对于监测动物产品中的药物残留物来保护人类健康至关重要。已经在制造商的网站上报告了用于商业快速测定测试的活性成分,灵敏度,矩阵和物种,或者在消费者可用的PDF文件中,但可能需要特殊访问请求。此外,该信息并不总是与FDA批准的公差相关联。此外,这些测试的参数变化可能非常具有挑战性,以定期识别,特别是网站上列出的那些或未公开可用的文件。因此,人工智能在有效地提取数据并确保当前信息时发挥着关键作用。通过学术界和商业工具建设者研究了从PDF和HTML文件中提取表。在实施自然语言规划方面,这些文件的文本挖掘研究已成为一个广泛但挑战的竞技场。然而,提取表的技术仍在他们的初期,并由研究人员调查和改进。在本研究中,我们开发并评估了数据挖掘方法,用于自动从电子文档中提取快速测定数据。我们的自动电子数据提取方法包括软件包模块,开发的模式识别工具和数据挖掘发动机。测定细节由几个生产这些快速药物残留测定的商业实体提供
translated by 谷歌翻译
最近的工作表明,培训的型号训练在相同的目标,并实现了对一致的测试数据的类似准确度的措施,尽管如此,仍可能对个体预测中的表现非常不同。这种不一致在高赌注环境中是不可取的,例如医学诊断和金融。我们表明,这种不一致的行为超出了对特征归因的预测,这同样对模型的可懂度具有负面影响,以及一个能够找到对象的追索权的能力。然后,我们将通过应用假设测试对使用随机选择的起始条件训练的一组模型的预测来减轻这些不一致的选择性合并来减轻这种不一致;重要的是,选择性集合可以在无法实现一致结果无法实现指定的置信水平的情况下弃权。我们证明了选择性集合之间的预测分歧是有界的,并且经验证明了选择性集合在保持低弃权率的同时实现一致的预测和特征归因。在几个基准数据集中,选择性集合达到零不一致预测点,额外的速率低1.5%。
translated by 谷歌翻译