Weakly-supervised object localization aims to indicate the category as well as the scope of an object in an image given only the image-level labels. Most of the existing works are based on Class Activation Mapping (CAM) and endeavor to enlarge the discriminative area inside the activation map to perceive the whole object, yet ignore the co-occurrence confounder of the object and context (e.g., fish and water), which makes the model inspection hard to distinguish object boundaries. Besides, the use of CAM also brings a dilemma problem that the classification and localization always suffer from a performance gap and can not reach their highest accuracy simultaneously. In this paper, we propose a casual knowledge distillation method, dubbed KD-CI-CAM, to address these two under-explored issues in one go. More specifically, we tackle the co-occurrence context confounder problem via causal intervention (CI), which explores the causalities among image features, contexts, and categories to eliminate the biased object-context entanglement in the class activation maps. Based on the de-biased object feature, we additionally propose a multi-teacher causal distillation framework to balance the absorption of classification knowledge and localization knowledge during model training. Extensive experiments on several benchmarks demonstrate the effectiveness of KD-CI-CAM in learning clear object boundaries from confounding contexts and addressing the dilemma problem between classification and localization performance.
translated by 谷歌翻译
Whole-slide images (WSI) in computational pathology have high resolution with gigapixel size, but are generally with sparse regions of interest, which leads to weak diagnostic relevance and data inefficiency for each area in the slide. Most of the existing methods rely on a multiple instance learning framework that requires densely sampling local patches at high magnification. The limitation is evident in the application stage as the heavy computation for extracting patch-level features is inevitable. In this paper, we develop RLogist, a benchmarking deep reinforcement learning (DRL) method for fast observation strategy on WSIs. Imitating the diagnostic logic of human pathologists, our RL agent learns how to find regions of observation value and obtain representative features across multiple resolution levels, without having to analyze each part of the WSI at the high magnification. We benchmark our method on two whole-slide level classification tasks, including detection of metastases in WSIs of lymph node sections, and subtyping of lung cancer. Experimental results demonstrate that RLogist achieves competitive classification performance compared to typical multiple instance learning algorithms, while having a significantly short observation path. In addition, the observation path given by RLogist provides good decision-making interpretability, and its ability of reading path navigation can potentially be used by pathologists for educational/assistive purposes. Our code is available at: \url{https://github.com/tencent-ailab/RLogist}.
translated by 谷歌翻译
随着卷积神经网络(CNN)的蓬勃发展,诸如VGG-16和Resnet-50之类的CNN广泛用作SAR船检测中的骨架。但是,基于CNN的骨干很难对远程依赖性进行建模,并且导致缺乏浅层特征图中缺乏足够的高质量语义信息,从而导致在复杂的背景和小型船只中的检测性能不佳。为了解决这些问题,我们提出了一种基于SWIN Transformer的SAR船检测方法,并提出了功能增强功能功能金字塔网络(FEFPN)。SWIN Transformer用作建模远程依赖性并生成层次特征图的骨架。提出了FEFPN,以进一步提高特征地图的质量,通过逐渐增强各级特征地图的语义信息,尤其是浅层中的特征地图。在SAR船检测数据集(SSDD)上进行的实验揭示了我们提出的方法的优势。
translated by 谷歌翻译
近年来,与传统方法相比,受监督或无监督的基于学习的MVS方法的性能出色。但是,这些方法仅使用成本量正规化计算的概率量来预测参考深度,这种方式无法从概率量中挖掘出足够的信息。此外,无监督的方法通常尝试使用两步或其他输入进行训练,从而使过程更加复杂。在本文中,我们提出了DS-MVSNET,这是一种具有源深度合成的端到端无监督的MVS结构。为了挖掘概率量的信息,我们通过将概率量和深度假设推向源视图来创造性地综合源深度。同时,我们提出了自适应高斯采样和改进的自适应垃圾箱采样方法,以改善深度假设精度。另一方面,我们利用源深度渲染参考图像,并提出深度一致性损失和深度平滑度损失。这些可以根据不同视图的光度和几何一致性提供其他指导,而无需其他输入。最后,我们在DTU数据集和储罐数据集上进行了一系列实验,这些实验证明了与最先进的方法相比,DS-MVSNET的效率和鲁棒性。
translated by 谷歌翻译
脆弱性识别对于软件相关行业的网络安全至关重要。早期识别方法需要在制作功能或注释脆弱的代码方面进行重大手动努力。尽管最近的预培训模型减轻了这个问题,但他们忽略了法规本身中包含的多个丰富结构信息。在本文中,我们提出了一种新型的多视图预训练模型(MV-PTM),该模型(MV-PTM)编码源代码的顺序和多类型结构信息,并使用对比度学习来增强代码表示。在两个公共数据集上进行的实验证明了MV-PTM的优势。特别是,就F1分数而言,MV-PTM平均将GraphCodebert提高了3.36 \%。
translated by 谷歌翻译
场景图生成(SGG)任务旨在在给定图像中检测所有对象及其成对的视觉关系。尽管SGG在过去几年中取得了显着的进展,但几乎所有现有的SGG模型都遵循相同的训练范式:他们将SGG中的对象和谓词分类视为单标签分类问题,而地面真实性是一个hot目标。标签。但是,这种普遍的训练范式忽略了当前SGG数据集的两个特征:1)对于正样本,某些特定的主题对象实例可能具有多个合理的谓词。 2)对于负样本,有许多缺失的注释。不管这两个特征如何,SGG模型都很容易被混淆并做出错误的预测。为此,我们为无偏SGG提出了一种新颖的模型不合命相的标签语义知识蒸馏(LS-KD)。具体而言,LS-KD通过将预测的标签语义分布(LSD)与其原始的单热目标标签融合来动态生成每个主题对象实例的软标签。 LSD反映了此实例和多个谓词类别之间的相关性。同时,我们提出了两种不同的策略来预测LSD:迭代自我KD和同步自我KD。大量的消融和对三项SGG任务的结果证明了我们所提出的LS-KD的优势和普遍性,这些LS-KD可以始终如一地实现不同谓词类别之间的不错的权衡绩效。
translated by 谷歌翻译
近年来,基于深度学习的模型在视频超分辨率(VSR)方面取得了显着性能,但是这些模型中的大多数不适用于在线视频应用程序。这些方法仅考虑失真质量,而忽略了在线应用程序的关键要求,例如低延迟和模型较低的复杂性。在本文中,我们专注于在线视频传输,其中需要VSR算法来实时生成高分辨率的视频序列。为了应对此类挑战,我们提出了一种基于一种新的内核知识转移方法,称为卷积核旁路移植物(CKBG)。首先,我们设计了一个轻巧的网络结构,该结构不需要将来的帧作为输入,并节省了缓存这些帧的额外时间成本。然后,我们提出的CKBG方法通过用``核移植物)''绕过原始网络来增强这种轻巧的基础模型,这些网络是包含外部预验证图像SR模型的先验知识的额外卷积内核。在测试阶段,我们通过将其转换为简单的单路结构来进一步加速移植的多支球网络。实验结果表明,我们提出的方法可以处理高达110 fps的在线视频序列,并且模型复杂性非常低和竞争性SR性能。
translated by 谷歌翻译
高动态范围(HDR)成像是图像处理中的一个基本问题,即使在场景中存在不同的照明的情况下,它旨在产生暴露良好的图像。近年来,多曝光融合方法已取得了显着的结果,该方法合并了多个具有不同暴露的动态范围(LDR)图像,以生成相应的HDR图像。但是,在动态场景中综合HDR图像仍然具有挑战性,并且需求量很高。生产HDR图像有两个挑战:1)。 LDR图像之间的对象运动很容易在生成的结果中引起不良的幽灵伪像。 2)。由于在合并阶段对这些区域的补偿不足,因此下区域和过度曝光的区域通常包含扭曲的图像含量。在本文中,我们提出了一个多尺度采样和聚合网络,用于在动态场景中进行HDR成像。为了有效地减轻小动作和大型动作引起的问题,我们的方法通过以粗到精细的方式对LDR图像进行了暗中对齐LDR图像。此外,我们提出了一个基于离散小波转换的密集连接的网络,以改善性能,该网络将输入分解为几个非重叠频率子带,并在小波域中自适应地执行补偿。实验表明,与其他有希望的HDR成像方法相比,我们提出的方法可以在不同场景下实现最新的性能。此外,由我们的方法生成的HDR图像包含清洁剂和更详细的内容,扭曲较少,从而带来更好的视觉质量。
translated by 谷歌翻译
由于常见对象关系中严重的不平衡谓词分布,当前场景图(SGG)方法倾向于预测频繁的谓词类别,并且无法识别稀有类别。为了提高SGG模型在不同谓词类别上的鲁棒性,最近的研究集中在无偏见的SGG上,并采用了Mean Recess@K(MR@K)作为主要评估指标。但是,我们发现了关于这个事实上的标准指标MR@K的两个被忽视的问题,这使得当前无偏见的SGG评估脆弱且不公平:1)@K先生忽略了谓词之间的相关性,而无意识地打破了所有三胞胎预测,无论将所有三胞胎预测列为独立性,在谓词类别中,导致某些谓词被低估了。 2)MR@k忽略了不同谓词的组成多样性,并将过高的权重分配给某些过度简化类别的样本,具有有限的组合关系三重态类型。它与SGG任务的目标完全冲突,该任务鼓励模型检测更多类型的视觉关系三胞胎。此外,我们研究了对象和谓词之间的探索不足的相关性,这可以作为无偏SGG的简单但强大的基线。在本文中,我们完善了MR@K,并提出了两个公正SGG的互补评估指标:独立的均值回忆(IMR)和加权IMR(WIMR)。这两个指标是通过分别考虑组合关系三胞胎的类别独立性和多样性来设计的。我们通过广泛的实验将提出的指标与事实上的标准指标进行了比较,并讨论了以更可信赖的方式评估无偏SGG的解决方案。
translated by 谷歌翻译
最近,越来越多的努力集中在弱监督的场景图(WSSGG)上。 WSSGG的主流解决方案通常遵循相同的管道:它们首先将文本实体与弱图像级别的监督(例如,未定位的关系三胞胎或字幕)相结合,然后用图像区域对齐,然后以完全固定的实例训练SGG模型 - 级别的“伪”标签。但是,我们认为大多数现有的WSSGG仅专注于对象一致性,这意味着接地区域应具有与文本实体相同的对象类别标签。尽管他们忽略了理想对齐的另一个基本要求:相互作用,这意味着接地区域对应具有与文本实体对相同的相互作用(即视觉关系)。因此,在本文中,我们建议通过使用对象感知和互动感知知识来增强简单的接地模块,以获取更可靠的伪标签。为了更好地利用这两种类型的知识,我们将它们视为两位老师,并融合其生成的目标,以指导我们接地模块的训练过程。具体而言,我们设计了两种不同的策略,可以通过评估每个培训样本的可靠性来适应不同的教师。广泛的实验表明,我们的方法始终在各种弱监督下提高WSSGG性能。
translated by 谷歌翻译