智能论文笔记

EBHI-Seg: A Novel Enteroscope Biopsy Histopathological Haematoxylin and Eosin Image Dataset for Image Segmentation Tasks

Liyu Shi , Xiaoyan Li , Weiming Hua , Haoyuan Chen , Jing Chen , Zizhen Fan , Minghe Gao , Yujie Jing , Guotao Lu , Deguo Ma

分类：计算机视觉

2022-12-01

Background and Purpose: Colorectal cancer is a common fatal malignancy, the fourth most common cancer in men, and the third most common cancer in women worldwide. Timely detection of cancer in its early stages is essential for treating the disease. Currently, there is a lack of datasets for histopathological image segmentation of rectal cancer, which often hampers the assessment accuracy when computer technology is used to aid in diagnosis. Methods: This present study provided a new publicly available Enteroscope Biopsy Histopathological Hematoxylin and Eosin Image Dataset for Image Segmentation Tasks (EBHI-Seg). To demonstrate the validity and extensiveness of EBHI-Seg, the experimental results for EBHI-Seg are evaluated using classical machine learning methods and deep learning methods. Results: The experimental results showed that deep learning methods had a better image segmentation performance when utilizing EBHI-Seg. The maximum accuracy of the Dice evaluation metric for the classical machine learning method is 0.948, while the Dice evaluation metric for the deep learning method is 0.965. Conclusion: This publicly available dataset contained 5,170 images of six types of tumor differentiation stages and the corresponding ground truth images. The dataset can provide researchers with new segmentation algorithms for medical diagnosis of colorectal cancer, which can be used in the clinical setting to help doctors and patients.

translated by 谷歌翻译

A Closed-Loop Perception, Decision-Making and Reasoning Mechanism for Human-Like Navigation

Wenqi Zhang , Kai Zhao , Peng Li , Xiao Zhu , Yongliang Shen , Yanna Ma , Yingfeng Chen , Weiming Lu

分类：机器人

2022-07-25

可靠的导航系统在机器人技术和自动驾驶中具有广泛的应用。当前方法采用开环过程，将传感器输入直接转换为动作。但是，这些开环方案由于概括不佳而在处理复杂而动态的现实情况方面具有挑战性。在模仿人类导航的情况下，我们添加了一个推理过程，将动作转换回内部潜在状态，形成了两阶段的感知，决策和推理的封闭环路。首先，VAE增强的演示学习赋予了模型对基本导航规则的理解。然后，在RL增强交互学习中的两个双重过程彼此产生奖励反馈，并共同增强了避免障碍能力。推理模型可以实质上促进概括和鲁棒性，并促进算法将算法的部署到现实世界的机器人，而无需精心转移。实验表明，与最先进的方法相比，我们的方法更适合新型方案。

translated by 谷歌翻译

DSPNet: Towards Slimmable Pretrained Networks based on Discriminative Self-supervised Learning

Shaoru Wang , Zeming Li , Jin Gao , Liang Li , Weiming Hu

分类：计算机视觉

2022-07-13

自我监督学习（SSL）已取得了有希望的下游表现。但是，当面临现实世界应用程序中的各种资源预算时，将一一一个尺寸的多个网络预算到多个网络的巨大计算负担。在本文中，我们提出了基于歧视性SSL的可靠预处理网络（DSPNET），可以立即训练，然后缩小到各种大小的多个子网络，每个尺寸都可以忠实地学习良好的表示，并可以作为良好的初始化，以良好的初始化。具有各种资源预算的下游任务。具体而言，我们通过优雅地集成SSL和知识蒸馏，将微小网络的思想扩展到判别性SSL范式。我们在图像网上与网络与线性评估和半监督评估方案的一个单独预处理的网络表现出可比性或改进的性能，同时降低了较大的培训成本。预处理的模型还可以很好地推广到下游检测和分割任务。代码将公开。

translated by 谷歌翻译

Cross-Architecture Knowledge Distillation

Yufan Liu , Jiajiong Cao , Bing Li , Weiming Hu , Jingting Ding , Liang Li

分类：计算机视觉

2022-07-12

由于其能够学习全球关系和卓越的表现，变形金刚引起了很多关注。为了实现更高的性能，将互补知识从变形金刚到卷积神经网络（CNN）是很自然的。但是，大多数现有的知识蒸馏方法仅考虑同源 - 建筑蒸馏，例如将知识从CNN到CNN蒸馏。在申请跨架构方案时，它们可能不合适，例如从变压器到CNN。为了解决这个问题，提出了一种新颖的跨架构知识蒸馏方法。具体而言，引入了部分交叉注意投影仪和小组线性投影仪，而不是直接模仿老师的输出/中级功能，以使学生的功能与教师的功能保持一致。并进一步提出了多视图强大的训练方案，以提高框架的稳健性和稳定性。广泛的实验表明，所提出的方法在小规模和大规模数据集上均优于14个最先进的方法。

translated by 谷歌翻译

PIC 4th Challenge: Semantic-Assisted Multi-Feature Encoding and Multi-Head Decoding for Dense Video Captioning

Yifan Lu , Ziqi Zhang , Yuxin Chen , Chunfeng Yuan , Bing Li , Weiming Hu

分类：计算机视觉

2022-07-06

密集的视频字幕（DVC）的任务旨在为一个视频中的多个事件制作带有时间戳的字幕。语义信息对于DVC的本地化和描述都起着重要作用。我们提出了基于编码编码框架的语义辅助密集的视频字幕模型。在编码阶段，我们设计了一个概念检测器来提取语义信息，然后将其与多模式的视觉特征融合在一起，以充分代表输入视频。在解码阶段，我们设计了一个与本地化和字幕的分类头，以提供语义监督。我们的方法在DVC评估指标下对Youmakeup数据集进行了重大改进，并在PIC 4TH挑战的化妆密集视频字幕（MDVC）任务中实现了高性能。

translated by 谷歌翻译

SiamMask: A Framework for Fast Online Object Tracking and Segmentation

Weiming Hu , Qiang Wang , Li Zhang , Luca Bertinetto , Philip H. S. Torr

分类：计算机视觉

2022-07-05

在本文中，我们介绍了Siammask，这是一个实时使用相同简单方法实时执行视觉对象跟踪和视频对象分割的框架。我们通过通过二进制细分任务来增强其损失，从而改善了流行的全面暹罗方法的离线培训程序。离线训练完成后，SiamMask只需要一个单个边界框来初始化，并且可以同时在高框架速率下进行视觉对象跟踪和分割。此外，我们表明可以通过简单地以级联的方式重新使用多任务模型来扩展框架以处理多个对象跟踪和细分。实验结果表明，我们的方法具有较高的处理效率，每秒约55帧。它可以在视觉对象跟踪基准测试中产生实时最新结果，同时以高速进行视频对象分割基准测试以高速显示竞争性能。

translated by 谷歌翻译

PolarFormer: Multi-camera 3D Object Detection with Polar Transformers

Yanqin Jiang , Li Zhang , Zhenwei Miao , Xiatian Zhu , Jin Gao , Weiming Hu , Yu-Gang Jiang

分类：计算机视觉 | 人工智能

2022-06-30

自动驾驶中的3D对象检测旨在推理3D世界中感兴趣的对象的“什么”和“在哪里”。遵循先前2D对象检测的传统智慧，现有方法通常采用垂直轴的规范笛卡尔坐标系。但是，我们共轭这并不符合自我汽车的视角的本质，因为每个板载摄像头都以激进（非垂体）轴的成像几何形状感知到了楔形的楔形世界。因此，在本文中，我们主张对极性坐标系的开发，并提出一个新的极性变压器（极性形式），以在Bird's-eye-View（BEV）中更准确的3D对象检测（BEV），仅作为输入仅作为输入的多相机2D图像。具体而言，我们设计了一个基于交叉注意的极性检测头，而无需限制输入结构的形状以处理不规则的极性网格。为了解决沿极性距离维度的不受约束的物体量表变化，我们进一步引入了多个层状表示策略。结果，我们的模型可以通过参与序列到序列时尚的相应图像观察来充分利用极性表示，但要受几何约束。对Nuscenes数据集进行的彻底实验表明，我们的极性形式的表现明显优于最先进的3D对象检测替代方案，并且在BEV语义分割任务上产生了竞争性能。

translated by 谷歌翻译

Narrowing the Gap: Improved Detector Training with Noisy Location Annotations

Shaoru Wang , Jin Gao , Bing Li , Weiming Hu

分类：计算机视觉

2022-06-12

深度学习方法需要大量的注释数据以优化参数。例如，附加具有准确边界框注释的数据集对于现代对象检测任务至关重要。但是，具有这样的像素准确性的标签是费力且耗时的，并且精心制作的标记程序对于降低人造噪声是必不可少的，涉及注释审查和接受测试。在本文中，我们关注嘈杂的位置注释对对象检测方法的性能的影响，并旨在减少噪声的不利影响。首先，当将噪声引入边界框注释中时，一阶段和两阶段检测器都会在实验上观察到明显的性能降解。例如，我们的合成噪声导致可可测试分裂的FCO探测器的性能从38.9％的AP降低到33.6％的AP，对于更快的R-CNN而言，COCO检测器的性能从38.9％的AP下降到37.8％的AP和33.7％的AP。其次，提出了一种基于贝叶斯过滤器进行预测合奏的自我纠正技术，以更好地利用教师学习范式后的嘈杂位置注释。合成和现实世界情景的实验始终证明了我们方法的有效性，例如，我们的方法将FCOS检测器的降解性能从33.6％的AP提高到可可的35.6％AP。

translated by 谷歌翻译

IL-MCAM: An interactive learning and multi-channel attention mechanism-based weakly supervised colorectal histopathology image classification approach

Haoyuan Chen , Chen Li , Xiaoyan Li , Md Mamunur Rahaman , Weiming Hu , Yixin Li , Wanli Liu , Changhao Sun , Hongzan Sun , Xinyu Huang

分类：计算机视觉

2022-06-07

近年来，大肠癌已成为危害人类健康最重要的疾病之一。深度学习方法对于结直肠组织病理学图像的分类越来越重要。但是，现有方法更多地集中在使用计算机而不是人类计算机交互的端到端自动分类。在本文中，我们提出了一个IL-MCAM框架。它基于注意机制和互动学习。提出的IL-MCAM框架包括两个阶段：自动学习（AL）和交互性学习（IL）。在AL阶段，使用包含三种不同注意机制通道和卷积神经网络的多通道注意机制模型用于提取多通道特征进行分类。在IL阶段，提出的IL-MCAM框架不断地将错误分类的图像添加到交互式方法中，从而提高了MCAM模型的分类能力。我们对数据集进行了比较实验，并在HE-NCT-CRC-100K数据集上进行了扩展实验，以验证拟议的IL-MCAM框架的性能，分别达到98.98％和99.77％的分类精度。此外，我们进行了消融实验和互换性实验，以验证三个通道的能力和互换性。实验结果表明，所提出的IL-MCAM框架在结直肠组织病理学图像分类任务中具有出色的性能。

translated by 谷歌翻译

Improving Visual Grounding with Visual-Linguistic Verification and Iterative Reasoning

Li Yang , Yan Xu , Chunfeng Yuan , Wei Liu , Bing Li , Weiming Hu

分类：计算机视觉

2022-04-30

视觉接地是定位自然语言表达式指示的目标的任务。现有方法将通用对象检测框架扩展到此问题。它们将视觉接地基于预先生成的提案或锚点的特征，并将这些功能与文本嵌入融合，以找到文本提到的目标。但是，对这些预定义位置的视觉特征进行建模可能无法完全利用文本查询中的视觉上下文和属性信息，从而限制其性能。在本文中，我们提出了一个基于变压器的框架，以通过建立文本条件的判别特征和执行多阶段的跨模式推理来进行准确的视觉接地。具体而言，我们开发了一个视觉语言验证模块，以将视觉特征集中在与文本描述相关的区域上，同时抑制了无关区域。还设计了一种语言指导的特征编码器来汇总目标对象的视觉上下文，以提高对象的独特性。为了从编码的视觉特征中检索目标，我们进一步提出了一个多阶段的跨模式解码器，以迭代地推测图像和文本之间的相关性，以进行准确的目标定位。在五个广泛使用的数据集上进行的广泛实验验证了我们提出的组件的功效，并证明了最先进的性能。我们的代码在https://github.com/yangli18/vltvg上公开。

translated by 谷歌翻译