构建可靠的AI决策支持系统需要一组强大的数据来培训模型;在数量和多样性方面。在资源有限的设置或在部署的早期阶段中,获取此类数据集可能很困难。样本拒绝是应对这一挑战的一种方法,但是该领域的许多现有工作都不适合这种情况。本文证明了该立场并提出了一个简单的解决方案作为概念基线的证明。
translated by 谷歌翻译
放射学诊断的传统数据集倾向于在放射学报告旁边提供放射学图像。但是,放射科医生进行的放射学读数是一个复杂的过程,在阅读过程中,放射科医生的眼睛固定等信息有可能成为可从中学习的宝贵数据源。但是,此类数据的收集既昂贵又耗时。这导致了一个问题,即此类数据是否值得投资收集。本文利用最近发表的Eye Gaze数据集对面对不同级别的输入功能的影响的影响和解释性(DL)分类的影响进行详尽的研究,即:放射学图像,放射学报告文本和放射学家眼睛凝视数据。我们发现,通过放射学报告自由文本和放射学图像的组合,可以实现X射线图像的最佳分类性能,而眼睛凝视数据没有提供性能的提升。尽管如此,与培训的模型相比,与从事分类和注意力图的模型相比,眼睛凝视数据将作为次级基础真理以及类标签以及类似于辅助图的模型产生更好的注意力图。
translated by 谷歌翻译
机器学习已成为包括运动在内的多个领域的工程设计和决策的组成部分。深度神经网络(DNNS)一直是预测职业体育赛事结果的最新方法。但是,除了对这些体育活动成果进行高度准确的预测外,还必须回答诸如“为什么模型预测A团队会赢得与B队的比赛?”之类的问题? DNN本质上是本质上的黑框。因此,需要为模型在运动中的预测提供高质量的可解释的解释性解释。本文探讨了两步可解释的人工智能(XAI)方法,以预测巴西排球联盟(Superliga)中比赛的结果。在第一阶段,我们直接使用可解释的基于规则的ML模型,这些模型可以根据布尔规则列的生成(BRCG;提取简单和 - 或分类规则)和逻辑回归(logReg;允许估算)对模型的行为进行全局理解。功能重要性得分)。在第二阶段,我们构建了非线性模型,例如支持向量机(SVM)和深神经网络(DNN),以在排球比赛的结果上获得预测性能。我们使用ProtoDash为每个数据实例构建了“事后”解释,该方法在训练数据集中找到原型,与测试实例最相似,而Shap是一种估计每个功能在模型预测中的贡献的方法。我们使用忠诚度量标准评估了摇摆的解释。我们的结果证明了对模型预测的解释的有效性。
translated by 谷歌翻译
对比语言图像预测(剪辑)编码器已被证明是有利于对分类和检测到标题和图像操纵的一系列视觉任务。我们调查剪辑视觉骨干网的有效性,以实现AI任务。我们构建令人难以置信的简单基线,名为Emplip,没有任务特定的架构,归纳偏差(如使用语义地图),培训期间的辅助任务,或深度映射 - 但我们发现我们的改进的基线在范围内表现得非常好任务和模拟器。 empclip将Robothor ObjectNav排行榜上面的20分的巨额边缘(成功率)。它使ithor 1相重新安排排行榜上面,击败了采用主动神经映射的下一个最佳提交,而且多于固定的严格度量(0.08至0.17)。它还击败了2021年栖息地对象挑战的获奖者,该挑战采用辅助任务,深度地图和人类示范以及2019年栖息地进程挑战的挑战。我们评估剪辑视觉表示在捕获有关输入观测的语义信息时的能力 - 用于导航沉重的体现任务的基元 - 并且发现剪辑的表示比想象成掠过的骨干更有效地编码这些基元。最后,我们扩展了我们的一个基线,产生了能够归零对象导航的代理,该导航可以导航到在训练期间未被用作目标的对象。
translated by 谷歌翻译
过去几年目睹了提高自治车辆激光器的感知性能的兴趣越来越兴趣。虽然大多数现有的工作都侧重于开发新的深度学习算法或模型架构,但我们研究了物理设计的视角,即多个激光雷达的不同放置如何影响基于学习的感知的问题。为此,我们介绍了一种易于计算的信息理论代理度量,以定量和快速评估不同类型对象的3D检测的激光雷达放置。我们还在现实的Carla模拟器中提供了一个新的数据收集,检测模型培训和评估框架,以评估不同的多激光雷达配置。通过自动驾驶公司设计灵感的多种普遍的展示,我们通过广泛的实验表明了我们在基提上不同代表算法的替代公制和对象检测性能之间的相关性,验证了我们激光雷达展示率评估方法的有效性。我们的结果表明,在基于3D点云的对象检测中,传感器放置是不可忽略的,这将在具有挑战性的3D对象检测设置方面有助于平均精度的5%〜10%。我们认为这是第一次定量调查激光雷达放置对感知性能的影响的研究之一。
translated by 谷歌翻译
Transformers achieve remarkable performance in several tasks but due to their quadratic complexity, with respect to the input's length, they are prohibitively slow for very long sequences. To address this limitation, we express the self-attention as a linear dot-product of kernel feature maps and make use of the associativity property of matrix products to reduce the complexity from O N 2 to O (N ), where N is the sequence length. We show that this formulation permits an iterative implementation that dramatically accelerates autoregressive transformers and reveals their relationship to recurrent neural networks. Our linear transformers achieve similar performance to vanilla transformers and they are up to 4000x faster on autoregressive prediction of very long sequences.
translated by 谷歌翻译