嵌入在自主系统中的机器学习(ML)组件的增加使用 - 所谓的启用学习的系统(LES) - 导致压力需要确保其功能安全性。至于传统的功能安全,在工业和学术界的新兴共识是为此目的使用保证案例。通常,保证案例支持可靠性的支持权,支持安全性,并且可以被视为组织争论和从安全分析和可靠性建模活动产生的证据的结构化方式。虽然这些保证活动传统上由基于协商一致的标准,但由于ML模型的特点和设计,在安全关键应用中,LES构成了新的挑战。在本文中,我们首先向LES提出了一种强调定量方面的总体保证框架,例如,打破系统级安全目标与可靠性指标中所述的组件级要求和支持索赔。然后,我们向ML分类器介绍一种新的模型 - 不可能可靠性评估模型(RAM),该分类器利用操作简档和鲁棒性验证证据。我们讨论了模型假设以及评估我们RAM揭示的ML可靠性的固有挑战,并提出了实用的解决方案。还基于RAM开发了较低ML组件级的概率安全争论。最后,为了评估和展示我们的方法,我们不仅对合成/基准数据集进行实验,还展示了我们对模拟中自动水下车辆的综合案例研究的方法。
translated by 谷歌翻译
Spatial understanding is a fundamental aspect of computer vision and integral for human-level reasoning about images, making it an important component for grounded language understanding. While recent large-scale text-to-image synthesis (T2I) models have shown unprecedented improvements in photorealism, it is unclear whether they have reliable spatial understanding capabilities. We investigate the ability of T2I models to generate correct spatial relationships among objects and present VISOR, an evaluation metric that captures how accurately the spatial relationship described in text is generated in the image. To benchmark existing models, we introduce a large-scale challenge dataset SR2D that contains sentences describing two objects and the spatial relationship between them. We construct and harness an automated evaluation pipeline that employs computer vision to recognize objects and their spatial relationships, and we employ it in a large-scale evaluation of T2I models. Our experiments reveal a surprising finding that, although recent state-of-the-art T2I models exhibit high image quality, they are severely limited in their ability to generate multiple objects or the specified spatial relations such as left/right/above/below. Our analyses demonstrate several biases and artifacts of T2I models such as the difficulty with generating multiple objects, a bias towards generating the first object mentioned, spatially inconsistent outputs for equivalent relationships, and a correlation between object co-occurrence and spatial understanding capabilities. We conduct a human study that shows the alignment between VISOR and human judgment about spatial understanding. We offer the SR2D dataset and the VISOR metric to the community in support of T2I spatial reasoning research.
translated by 谷歌翻译
We propose EM-PASTE: an Expectation Maximization(EM) guided Cut-Paste compositional dataset augmentation approach for weakly-supervised instance segmentation using only image-level supervision. The proposed method consists of three main components. The first component generates high-quality foreground object masks. To this end, an EM-like approach is proposed that iteratively refines an initial set of object mask proposals generated by a generic region proposal method. Next, in the second component, high-quality context-aware background images are generated using a text-to-image compositional synthesis method like DALL-E. Finally, the third component creates a large-scale pseudo-labeled instance segmentation training dataset by compositing the foreground object masks onto the original and generated background images. The proposed approach achieves state-of-the-art weakly-supervised instance segmentation results on both the PASCAL VOC 2012 and MS COCO datasets by using only image-level, weak label information. In particular, it outperforms the best baseline by +7.4 and +2.8 mAP0.50 on PASCAL and COCO, respectively. Further, the method provides a new solution to the long-tail weakly-supervised instance segmentation problem (when many classes may only have few training samples), by selectively augmenting under-represented classes.
translated by 谷歌翻译
模拟逼真的传感器是自主系统数据生成的挑战,通常涉及精心手工的传感器设计,场景属性和物理建模。为了减轻这一点,我们引入了一条管道,用于对逼真的激光雷达传感器进行数据驱动的模拟。我们提出了一个模型,该模型可以在RGB图像和相应的LIDAR功能(例如Raydrop或每点强度)之间直接从真实数据集中进行映射。我们表明,我们的模型可以学会编码逼真的效果,例如透明表面上的掉落点或反射材料上的高强度回报。当应用于现成的模拟器软件提供的天真播放点云时,我们的模型通过根据场景的外观预测强度和删除点来增强数据,以匹配真实的激光雷达传感器。我们使用我们的技术来学习两个不同的LIDAR传感器的模型,并使用它们相应地改善模拟的LiDAR数据。通过车辆细分的示例任务,我们表明通过我们的技术增强模拟点云可以改善下游任务性能。
translated by 谷歌翻译
很少有细粒度的分类和人搜索作为独特的任务和文学作品,已经分别对待了它们。但是,仔细观察揭示了重要的相似之处:这两个任务的目标类别只能由特定的对象细节歧视;相关模型应概括为新类别,而在培训期间看不到。我们提出了一个适用于这两个任务的新型统一查询引导网络(QGN)。QGN由一个查询引导的暹罗引文和兴奋子网组成,该子网还重新进行了所有网络层的查询和画廊功能,一个查询实习的区域建议特定于特定于特定的本地化以及查询指导的相似性子网络子网本网络用于公制学习。QGN在最近的一些少数细颗粒数据集上有所改善,在幼崽上的其他技术优于大幅度。QGN还对人搜索Cuhk-Sysu和PRW数据集进行了竞争性执行,我们在其中进行了深入的分析。
translated by 谷歌翻译
尽管机器学习分类器越来越多地用于高风险决策(例如癌症诊断,刑事起诉决策),但他们表现出了针对代表性不足的群体的偏见。公平性的标准定义需要访问感兴趣的敏感属性(例如性别和种族),这通常不可用。在这项工作中,我们证明了在这些敏感属性未知的情况下,人们仍然可以通过使用从敏感属性预测因子得出的代理敏感属性来可靠地估计并最终控制公平性。具体来说,我们首先表明,只有对完整数据分布的了解,就可以使用敏感属性预测因子获得分类器真实公平度量的上和下限。其次,我们证明了如何通过控制代理敏感属性的公平性来证明人们如何证明对真实敏感属性的公平性。我们的结果在比以前的作品明显温和的假设下得出。我们在一系列合成和真实数据集上说明了结果。
translated by 谷歌翻译
培训计算机视觉模型通常需要在各种场景配置和属性集中收集和标记大量图像。这个过程非常耗时,并且要确保捕获的数据分布映射到应用程序方案的目标域,这是一项挑战。最近,综合数据已成为解决这两个问题的一种方式。但是,现有方法要么要求人类专家手动调整每个场景属性,要么使用几乎无法控制的自动方法;这需要渲染大量的随机数据变化,这很慢,对于目标域通常是次优的。我们介绍了第一个完全可区分的合成数据管道,该数据管道使用具有目标应用程序损耗函数的闭环中的神经辐射场(NERF)。我们的方法可以在没有人工的情况下生成数据,以最大程度地提高目标任务的准确性。我们说明了我们方法对合成和现实对象检测任务的有效性。我们还引入了一个新的“ YCB野外”数据集和基准标准,该数据集和基准为对象检测提供了一种在现实世界环境中具有多种姿势的测试方案。
translated by 谷歌翻译
随着机器学习(ML)更加紧密地编织到社会中,如果我们要负责任地使用它,我们必须更好地表征ML的优势和局限性。现有的ML基准环境(例如董事会和视频游戏)为进度提供了明确定义的基准测试,但是组成的任务通常很复杂,而且通常不清楚任务特征如何对机器学习者的整体难度有所贡献。同样,如果没有系统地评估任务特征如何影响难度,则在不同基准环境中的性能之间建立有意义的联系是一项挑战。我们介绍了一个新颖的基准环境,该环境提供了大量的ML挑战,并可以精确地检查任务要素如何影响实际难度。工具框架学习任务是“董事会清除游戏”,我们称之为“隐藏规则”游戏(GOHR)。环境包括一种表达性的规则语言和可以在本地安装的圈养服务器环境。我们建议一组基准的规则学习任务,并计划为有兴趣尝试学习规则的研究人员提供绩效领导者板。 GOHR通过允许对任务进行罚款,受控的修改来补充现有环境,使实验者能够更好地了解给定学习任务的每个方面如何有助于其对任意ML算法的实际困难。
translated by 谷歌翻译
机器学习模型,尤其是人工神经网络,越来越多地用于为在各个领域的高风险场景中(从金融服务,公共安全和医疗保健服务)提供信息。尽管神经网络在许多情况下都取得了出色的性能,但它们的复杂性质引起了人们对现实情况下的可靠性,可信赖性和公平性的关注。结果,已经提出了几种A-tostori解释方法来突出影响模型预测的特征。值得注意的是,Shapley的价值 - 一种满足几种理想特性的游戏理论数量 - 在机器学习解释性文献中获得了知名度。然而,更传统上,在统计学习中的特征是通过有条件独立性正式化的,而对其进行测试的标准方法是通过有条件的随机测试(CRT)。到目前为止,有关解释性和特征重要性的这两个观点已被认为是独特的和独立的。在这项工作中,我们表明基于沙普利的解释方法和针对特征重要性的有条件独立性测试密切相关。更确切地说,我们证明,通过类似于CRT的程序实现了一组特定的条件独立性测试,评估了Shapley系数量,以执行特定的条件独立性测试,但用于不同的零假设。此外,获得的游戏理论值上限限制了此类测试的$ p $值。结果,我们授予大型Shapley系数具有精确的统计意义,并具有控制I型错误。
translated by 谷歌翻译
弱监督的对象检测(WSOD)使对象检测器能够使用图像级类标签训练对象检测器。但是,当前WSOD模型的实际应用是有限的,因为它们在小规模上运行,需要进行广泛的培训和精致。我们提出了弱监督的检测变压器,该变压器可以有效地从大规模预处理数据集到数百个新物体的WSOD列表有效地转移。我们利用预处理的知识来改善WSOD中使用的多个实例学习框架,并且实验表明我们的方法的表现优于数据集上的最新方法,其新颖类是本文的两倍。
translated by 谷歌翻译