智能论文笔记

Making the Most of Text Semantics to Improve Biomedical Vision--Language Processing

Benedikt Boecking , Naoto Usuyama , Shruthi Bannur , Daniel C. Castro , Anton Schwaighofer , Stephanie Hyland , Maria Wetscherek , Tristan Naumann , Aditya Nori , Javier Alvarez-Valle

分类：计算机视觉 | 自然语言处理

2022-04-21

生物医学中的多模式数据遍布，例如放射学图像和报告。大规模解释这些数据对于改善临床护理和加速临床研究至关重要。与一般领域相比，具有复杂语义的生物医学文本在视觉建模中提出了其他挑战，并且先前的工作使用了缺乏特定领域语言理解的适应性模型不足。在本文中，我们表明，有原则的文本语义建模可以大大改善自我监督的视力 - 语言处理中的对比度学习。我们发布了一种实现最先进的语言模型，从而通过改进的词汇和新颖的语言预测客观的客观利用语义和话语特征在放射学报告中获得了自然语言推断。此外，我们提出了一种自我监督的联合视觉 - 语言方法，重点是更好的文本建模。它在广泛的公开基准上建立了新的最新结果，部分是通过利用我们新的特定领域的语言模型。我们释放了一个新的数据集，该数据集具有放射科医生的局部对齐短语接地注释，以促进生物医学视觉处理中复杂语义建模的研究。广泛的评估，包括在此新数据集中，表明我们的对比学习方法在文本语义建模的帮助下，尽管仅使用了全球对准目标，但在细分任务中的表现都优于细分任务中的先验方法。

translated by 谷歌翻译

Prediction of the outcome of a Twenty-20 Cricket Match

Ashish V Shenoy , Arjun Singhvi , Shruthi Racha , Srinivas Tunuguntla

分类：机器学习

2022-09-13

Twenty20板球，有时是二十20，经常缩写为T20，是板球的一小部分。在一场二十二十比赛中，两支球员组成的两支球队都有一局，最多仅限20分。这个版本的板球尤其是不可预测的，这是它最近在近期越来越受欢迎的原因之一。但是，在本文中，我们尝试了四种不同的方法来预测T20板球比赛的结果。具体来说，我们要考虑：以前的竞争团队参与者的绩效统计数据，从知名的板球统计网站获得的球员的评分，以相似的性能统计数据和基于ELO基于ELO的方法来汇率玩家。我们通过使用逻辑回归，支持向量机，贝叶斯网络，决策树，随机森林来比较每种方法的性能。

translated by 谷歌翻译

A Comprehensive Study of Real-Time Object Detection Networks Across Multiple Domains: A Survey

Elahe Arani , Shruthi Gowda , Ratnajit Mukherjee , Omar Magdy , Senthilkumar Kathiresan , Bahram Zonooz

分类：计算机视觉 | 人工智能

2022-08-23

深神网络的对象探测器正在不断发展，并用于多种应用程序，每个应用程序都有自己的要求集。尽管关键安全应用需要高准确性和可靠性，但低延迟任务需要资源和节能网络。不断提出了实时探测器，在高影响现实世界中是必需的，但是它们过分强调了准确性和速度的提高，而其他功能（例如多功能性，鲁棒性，资源和能源效率）则被省略。现有网络的参考基准不存在，设计新网络的标准评估指南也不存在，从而导致比较模棱两可和不一致的比较。因此，我们对广泛的数据集进行了多个实时探测器（基于锚点，关键器和变压器）的全面研究，并报告了一系列广泛指标的结果。我们还研究了变量，例如图像大小，锚固尺寸，置信阈值和架构层对整体性能的影响。我们分析了检测网络的鲁棒性，以防止分配变化，自然腐败和对抗性攻击。此外，我们提供了校准分析来评估预测的可靠性。最后，为了强调现实世界的影响，我们对自动驾驶和医疗保健应用进行了两个独特的案例研究。为了进一步衡量关键实时应用程序中网络的能力，我们报告了在Edge设备上部署检测网络后的性能。我们广泛的实证研究可以作为工业界对现有网络做出明智选择的指南。我们还希望激发研究社区的设计和评估网络的新方向，该网络着重于更大而整体的概述，以实现深远的影响。

translated by 谷歌翻译

InBiaseD: Inductive Bias Distillation to Improve Generalization and Robustness through Shape-awareness

Shruthi Gowda , Bahram Zonooz , Elahe Arani

分类：计算机视觉 | 人工智能 | 机器学习

2022-06-12

与深层神经网络相比，人类较少依赖虚假的相关性和微不足道的提示，例如纹理，从而导致更好的概括和稳健性。它可以归因于先前的知识或大脑中存在的高级认知诱导偏置。因此，将有意义的归纳偏见引入神经网络可以帮助学习更多通用和高级表示，并减轻一些缺点。我们提出痴迷以提炼感应偏见并为神经网络带来形状意识。我们的方法包括一个偏差对准目标，该目标强制执行网络学习更多的通用表示，这些代表不太容易受到数据中意外提示的影响，从而改善了概括性能。依从性不太容易受到捷径学习的影响，并且表现出较低的质地偏见。更好的表示还有助于提高对对抗性攻击的鲁棒性，因此我们无缝地插入了现有的对抗训练方案，以显示概括和稳健性之间的更好权衡。

translated by 谷歌翻译

Does Thermal data make the detection systems more reliable?

Shruthi Gowda , Bahram Zonooz , Elahe Arani

分类：计算机视觉 | 人工智能 | 机器学习

2021-11-09

基于深度学习的检测网络在自动驾驶系统（广告）中取得了显着进展。广告应在各种环境照明和恶劣天气条件下具有可靠的性能。然而，亮度劣化和视觉障碍物（如眩光，雾）导致视觉相机质量差，导致性能下降。为了克服这些挑战，我们探讨了利用不同数据模型的想法，这些数据模块不同于视觉数据。我们提出了一种基于多模式协作框架的全面检测系统，该框架从RGB（来自Visual Cameras）和热（来自红外相机）数据学习。该框架在学习其自身模式的学习最佳特征中提供了灵活性，同时还包含对方的互补知识。我们广泛的经验结果表明，虽然准确性的提高是标称的，但该值在于挑战性和极其困难的边缘情况，这在广告中的安全关键应用中至关重要。我们提供了在检测中使用热成像系统的效果和限制的整体视图。

translated by 谷歌翻译