超声检查中的乳腺病变检测对于乳腺癌诊断至关重要。现有方法主要依赖于单独的2D超声图像或组合未标记的视频和标记为2D图像以训练模型以进行乳腺病变检测。在本文中,我们首先收集并注释一个超声视频数据集(188个视频),以进行乳腺病变检测。此外,我们通过汇总视频级别的病变分类功能和剪辑级的时间功能来解决超声视频中乳房病变检测的解决剪辑级和视频级特征聚合网络(CVA-NET)。剪辑级的时间功能特征编码有序视频框架的本地时间信息和洗牌视频帧的全局时间信息。在我们的CVA-NET中,设计了一个Inter-Video融合模块,以融合原始视频框架的本地功能以及从洗牌视频帧中的全局功能,并设计了一个内部视频融合模块,以学习相邻视频框架之间的时间信息。此外,我们学习视频水平功能,以将原始视频的乳房病变分类为良性或恶性病变,以进一步增强超声视频中最终的乳房病变检测性能。我们注释数据集的实验结果表明,我们的CVA-NET显然优于最先进的方法。相应的代码和数据集可在\ url {https://github.com/jhl-det/cva-net}上公开获得。
translated by 谷歌翻译
Detection Transformer (DETR) and Deformable DETR have been proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance as previous complex hand-crafted detectors. However, their performance on Video Object Detection (VOD) has not been well explored. In this paper, we present TransVOD, the first end-to-end video object detection system based on spatial-temporal Transformer architectures. The first goal of this paper is to streamline the pipeline of VOD, effectively removing the need for many hand-crafted components for feature aggregation, e.g., optical flow model, relation networks. Besides, benefited from the object query design in DETR, our method does not need complicated post-processing methods such as Seq-NMS. In particular, we present a temporal Transformer to aggregate both the spatial object queries and the feature memories of each frame. Our temporal transformer consists of two components: Temporal Query Encoder (TQE) to fuse object queries, and Temporal Deformable Transformer Decoder (TDTD) to obtain current frame detection results. These designs boost the strong baseline deformable DETR by a significant margin (2 %-4 % mAP) on the ImageNet VID dataset. TransVOD yields comparable performances on the benchmark of ImageNet VID. Then, we present two improved versions of TransVOD including TransVOD++ and TransVOD Lite. The former fuses object-level information into object query via dynamic convolution while the latter models the entire video clips as the output to speed up the inference time. We give detailed analysis of all three models in the experiment part. In particular, our proposed TransVOD++ sets a new state-of-the-art record in terms of accuracy on ImageNet VID with 90.0 % mAP. Our proposed TransVOD Lite also achieves the best speed and accuracy trade-off with 83.7 % mAP while running at around 30 FPS on a single V100 GPU device. Code and models will be available for further research.
translated by 谷歌翻译
speed among all existing VIS models, and achieves the best result among methods using single model on the YouTube-VIS dataset. For the first time, we demonstrate a much simpler and faster video instance segmentation framework built upon Transformers, achieving competitive accuracy. We hope that VisTR can motivate future research for more video understanding tasks.
translated by 谷歌翻译
在这项工作中,我们呈现SEQFormer,这是一个令人沮丧的视频实例分段模型。 SEQFormer遵循Vision变换器的原理,该方法模型视频帧之间的实例关系。然而,我们观察到一个独立的实例查询足以捕获视频中的时间序列,但应该独立地使用每个帧进行注意力机制。为此,SEQFormer在每个帧中定位一个实例,并聚合时间信息以学习视频级实例的强大表示,其用于动态地预测每个帧上的掩模序列。实例跟踪自然地实现而不进行跟踪分支或后处理。在YouTube-VIS数据集上,SEQFormer使用Reset-50个骨干和49.0 AP实现47.4个AP,其中Reset-101骨干,没有响铃和吹口哨。此类成果分别显着超过了以前的最先进的性能4.6和4.4。此外,与最近提出的Swin变压器集成,SEQFormer可以实现59.3的高得多。我们希望SEQFormer可能是一个强大的基线,促进了视频实例分段中的未来研究,同时使用更强大,准确,整洁的模型来实现该字段。代码和预先训练的型号在https://github.com/wjf5203/seqformer上公开使用。
translated by 谷歌翻译
超声检查广泛用于甲状腺结节(良性/恶性)的临床诊断。但是,准确性在很大程度上取决于放射科医生的经验。尽管已经研究了甲状腺结节识别的深度学习技术。当前的解决方案主要基于静态超声图像,其时间信息有限,并且与临床诊断不一致。本文提出了一种通过详尽的超声视频和钥匙框架进行详尽的探索来自动识别甲状腺结节的新方法。我们首先提出一个检测 - 定位框架,以自动识别每个超声视频中典型结节的临床密钥框架。根据本地化的键框架,我们为甲状腺结节识别开发了一个钥匙框引导的视频分类模型。此外,我们引入了运动注意模块,以帮助网络关注超声视频中的重要帧,这与临床诊断一致。拟议的甲状腺结节识别框架已在临床收集的超声视频上进行了验证,与其他最先进的方法相比,表现出卓越的性能。
translated by 谷歌翻译
对于在线视频实例分段(VI),以有效的方式充分利用来自先前帧的信息对于实时应用是必不可少的。最先前的方法遵循一个两级方法,需要额外的计算,例如RPN和Roialign,并且在VI中的所有子任务中没有完全利用视频中的可用信息。在本文中,我们提出了一种基于网格结构特征表示构建的在线VI的新颖单级框架。基于网格的功能允许我们使用完全卷积的网络进行实时处理,并且还可以轻松地重用和共享不同组件内的功能。我们还介绍了从可用帧中聚合信息的协同操作模块,以便丰富VI中所有子任务的功能。我们的设计充分利用了以高效的方式为所有任务的网格形式提供了以前的信息,我们在YouTube上实现了新的最先进的准确性(38.6 AP和36.9 AP)和速度(40.0fps) - 2019年和2021年在线VIS方法之间的数据集。
translated by 谷歌翻译
宫颈异常细胞检测是一项具有挑战性的任务,因为异常细胞和正常细胞之间的形态差异通常是微妙的。为了确定宫颈细胞是正常还是异常,细胞病理学家总是将周围细胞作为参考,并进行仔细比较以鉴定其异常。为了模仿这些临床行为,我们建议探索上下文关系,以提高宫颈异常细胞检测的性能。具体而言,利用细胞和细胞到全球图像之间的上下文关系,以增强每个感兴趣区域(ROI)建议的特征。因此,开发了两个模块,称为ROI关系注意模块(RRAM)和全球ROI注意模块(GRAM),还研究了它们的组合策略。我们通过使用特征金字塔网络(FPN)使用单头或双头更快的R-CNN来设置强基础,并将我们的RRAM和革兰氏集整合到它们中以验证提出的模块的有效性。由40,000个细胞学图像组成的大宫颈细胞检测数据集进行的实验表明,RRAM和GRAM的引入都比基线方法获得了更好的平均精度(AP)。此外,当级联RRAM和GRAM时,我们的方法优于最先进的方法(SOTA)方法。此外,我们还显示了提出的功能增强方案可以促进图像级别和涂片级别的分类。代码和训练有素的模型可在https://github.com/cviu-csu/cr4cacd上公开获得。
translated by 谷歌翻译
视频实例分割旨在预测每个帧的对象分割掩码,并关联多个帧的实例。最近的端到端视频实例分割方法能够在直接并行序列解码/预测框架中共同执行对象分割和实例关联。尽管这些方法通常可以预测较高质量的对象分割掩码,但它们可能无法在具有挑战性的情况下与实例相关联,因为它们没有明确对相邻帧的时间实例一致性进行建模。我们提出了一个一致的端到端视频实例分割框架,并在框架间反复注意,以建模相邻帧的时间实例一致性和全局时间上下文。我们的广泛实验表明,框架间的重复注意显着提高了时间实例的一致性,同时保持对象分割掩模的质量。我们的模型在YouTubevis-2019(62.1 \%)和YouTubevis-2021(54.7 \%)数据集上都达到了最新的精度。此外,定量和定性结果表明,所提出的方法可以预测更具时间一致的实例分割掩码。
translated by 谷歌翻译
最近,基于变压器的图像分割方法对先前的解决方案取得了显着的成功。虽然对于视频域,如何有效地模拟时间上下文,以跨越帧的对象实例的注意仍然是一个打开问题。在本文中,我们提出了一种具有新颖的实例感知时间融合方法的在线视频实例分段框架。我们首先利用表示,即全局上下文(实例代码)和CNN特征映射中的潜在代码来表示实例和像素级别功能。基于此表示,我们介绍了一种无裁剪的时间融合方法来模拟视频帧之间的时间一致性。具体地,我们在实例代码中编码全局实例特定信息,并在实例代码和CNN特征映射之间构建与混合关注的帧间上下文融合。使用订单约束进一步强制执行实例代码之间的帧间一致性。通过利用学习的混合时间一致性,我们能够直接检索和维护帧中的实例标识,从而消除了先前方法中的复杂帧实例匹配。已经在流行的VIS数据集中进行了广泛的实验,即YouTube-Vis-19/21。我们的模式实现了所有在线VIS方法中的最佳性能。值得注意的是,我们的模型也在使用Reset-50骨干时eClipses所有脱机方法。
translated by 谷歌翻译
肺癌往往在晚期检测到,导致患者死亡率高。因此,最近的研究集中在早期疾病检测上。肺癌通常首先出现在气道壁的支气管上皮内发生的病变。支气管镜检查是有效无创支气化病变检测的选择程序。特别是,自身荧光支气管镜检查(AFB)区分了正常组织和患病组织的自荧光特性,在AFB视频帧中,病变在AFB视频帧中显得红棕色,而正常组织则为绿色。由于最近的研究表明AFB具有高病变敏感性的能力,因此在标准的支气管镜呼吸道考试中,它已成为一种潜在的关键方法,用于早期肺癌检测。不幸的是,对AFB视频的手动检查非常乏味且容易出错,而有限的努力已花费在可能更健壮的自动AFB病变检测和细分方面。我们提出了一个实时的深度学习体系结构ESFPNET,用于从AFB视频流中对支气管病变的强大检测和分割。该体系结构具有编码器结构,该结构可利用预审计的混合变压器(MIT)编码器和阶段特征金字塔(ESFP)解码器结构。来自肺癌患者气道考试的AFB视频的结果表明,我们的方法分别给出了平均骰子指数和0.782和0.658的IOU值,而处理吞吐量为27帧/秒。这些值优于使用混合变压器或基于CNN的编码器的其他竞争体系结构获得的结果。此外,ETIS-LaribpolypDB数据集的出色性能证明了其对其他域的潜在适用性。
translated by 谷歌翻译
我们基于以下假设,即明确面向对象的信息可能是理解整个序列的上下文,我们介绍了一个新的范式用于离线视频实例分割(VIS)。为此,我们提出了Vita,这是一个简单的结构,建立在基于现成的变压器的图像实例分割模型之上。具体而言,我们使用图像对象检测器作为将特定于对象的上下文提炼为对象令牌的一种手段。 Vita通过在不使用时空主链功能的情况下关联框架级对象令牌来完成视频级别的理解。通过使用凝结信息在对象之间有效建立关系,Vita用Resnet-50骨架在VIS基准上实现了最新的关系:49.8 AP,45.7 AP在YouTube-VIS 2019和2021和2021和19.6 AP上的AP上的Ovis上。此外,由于其基于对象令牌的结构与骨干功能脱节,Vita显示了以前的离线VIS方法未探索的几个实际优势 - 使用常见的GPU处理长长和高分辨率的视频,并冻结框架级检测器在图像域进行训练。代码将在https://github.com/sukjunhwang/vita上提供。
translated by 谷歌翻译
深度神经网络(DNN)已在脑病变检测和分割中广泛采用。但是,在2D MRI切片中定位小病变是具有挑战性的,需要在3D上下文聚集的粒度和计算复杂性之间取得平衡。在本文中,我们提出了一种新型的视角变压器,以增强MRI特征的提取,以进行更准确的肿瘤检测。首先,所提出的变压器在3D脑扫描中收获了不同位置之间的远程相关性。其次,变压器将一堆切片功能堆叠为多个2D视图,并增强这些特征的视图,该功能大致以有效的方式实现了3D相关计算。第三,我们将提出的变压器模块部署在变压器主链中,该模块可以有效地检测到脑损伤周围的2D区域。实验结果表明,我们提出的观看式变压器在具有挑战性的大脑MRI数据集上对大脑病变检测表现良好。
translated by 谷歌翻译
时空视频超分辨率(STVSR)旨在从相应的低帧速率,低分辨率视频序列构建高空时间分辨率视频序列。灵感来自最近的成功,考虑空间时间超级分辨率的空间信息,我们在这项工作中的主要目标是在快速动态事件的视频序列中充分考虑空间和时间相关性。为此,我们提出了一种新颖的单级内存增强图注意网络(Megan),用于时空视频超分辨率。具体地,我们构建新颖的远程存储图聚合(LMGA)模块,以沿着特征映射的信道尺寸动态捕获相关性,并自适应地聚合信道特征以增强特征表示。我们介绍了一个非本地剩余块,其使每个通道明智的功能能够参加全局空间分层特征。此外,我们采用渐进式融合模块通过广泛利用来自多个帧的空间 - 时间相关性来进一步提高表示能力。实验结果表明,我们的方法与定量和视觉上的最先进的方法相比,实现了更好的结果。
translated by 谷歌翻译
In recent years, object detection has achieved a very large performance improvement, but the detection result of small objects is still not very satisfactory. This work proposes a strategy based on feature fusion and dilated convolution that employs dilated convolution to broaden the receptive field of feature maps at various scales in order to address this issue. On the one hand, it can improve the detection accuracy of larger objects. On the other hand, it provides more contextual information for small objects, which is beneficial to improving the detection accuracy of small objects. The shallow semantic information of small objects is obtained by filtering out the noise in the feature map, and the feature information of more small objects is preserved by using multi-scale fusion feature module and attention mechanism. The fusion of these shallow feature information and deep semantic information can generate richer feature maps for small object detection. Experiments show that this method can have higher accuracy than the traditional YOLOv3 network in the detection of small objects and occluded objects. In addition, we achieve 32.8\% Mean Average Precision on the detection of small objects on MS COCO2017 test set. For 640*640 input, this method has 88.76\% mAP on the PASCAL VOC2012 dataset.
translated by 谷歌翻译
In this work, we present a new computer vision task named video object of interest segmentation (VOIS). Given a video and a target image of interest, our objective is to simultaneously segment and track all objects in the video that are relevant to the target image. This problem combines the traditional video object segmentation task with an additional image indicating the content that users are concerned with. Since no existing dataset is perfectly suitable for this new task, we specifically construct a large-scale dataset called LiveVideos, which contains 2418 pairs of target images and live videos with instance-level annotations. In addition, we propose a transformer-based method for this task. We revisit Swin Transformer and design a dual-path structure to fuse video and image features. Then, a transformer decoder is employed to generate object proposals for segmentation and tracking from the fused features. Extensive experiments on LiveVideos dataset show the superiority of our proposed method.
translated by 谷歌翻译
表示像素位移的光流量广泛用于许多计算机视觉任务中以提供像素级运动信息。然而,随着卷积神经网络的显着进展,建议最近的最先进的方法直接在特征级别解决问题。由于特征向量的位移不与像素位移不一致,因此常用方法是:将光流向神经网络向前传递到任务数据集上的微调该网络。利用这种方法,他们期望微调网络来产生编码特征级运动信息的张量。在本文中,我们重新思考此事实上的范式并分析了视频对象检测任务中的缺点。为了缓解这些问题,我们提出了一种具有视频对象检测的\ textBF {i} n-network \ textbf {f} eature \ textbf {f} eature \ textbf {f}低估计模块(iff模块)的新型网络(iff-net)。在不借鉴任何其他数据集的预先训练,我们的IFF模块能够直接产生\ textBF {feature flow},表示特征位移。我们的IFF模块由一个浅模块组成,它与检测分支共享该功能。这种紧凑的设计使我们的IFF-Net能够准确地检测对象,同时保持快速推断速度。此外,我们提出了基于\ Textit {自我监督}的转换剩余损失(TRL),这进一步提高了IFF-Net的性能。我们的IFF-Net优于现有方法,并在Imagenet VID上设置最先进的性能。
translated by 谷歌翻译
How to effectively explore the colors of reference exemplars and propagate them to colorize each frame is vital for exemplar-based video colorization. In this paper, we present an effective BiSTNet to explore colors of reference exemplars and utilize them to help video colorization by a bidirectional temporal feature fusion with the guidance of semantic image prior. We first establish the semantic correspondence between each frame and the reference exemplars in deep feature space to explore color information from reference exemplars. Then, to better propagate the colors of reference exemplars into each frame and avoid the inaccurate matches colors from exemplars we develop a simple yet effective bidirectional temporal feature fusion module to better colorize each frame. We note that there usually exist color-bleeding artifacts around the boundaries of the important objects in videos. To overcome this problem, we further develop a mixed expert block to extract semantic information for modeling the object boundaries of frames so that the semantic image prior can better guide the colorization process for better performance. In addition, we develop a multi-scale recurrent block to progressively colorize frames in a coarse-to-fine manner. Extensive experimental results demonstrate that the proposed BiSTNet performs favorably against state-of-the-art methods on the benchmark datasets. Our code will be made available at \url{https://yyang181.github.io/BiSTNet/}
translated by 谷歌翻译
Cascade is a classic yet powerful architecture that has boosted performance on various tasks. However, how to introduce cascade to instance segmentation remains an open question. A simple combination of Cascade R-CNN and Mask R-CNN only brings limited gain. In exploring a more effective approach, we find that the key to a successful instance segmentation cascade is to fully leverage the reciprocal relationship between detection and segmentation. In this work, we propose a new framework, Hybrid Task Cascade (HTC), which differs in two important aspects: (1) instead of performing cascaded refinement on these two tasks separately, it interweaves them for a joint multi-stage processing; (2) it adopts a fully convolutional branch to provide spatial context, which can help distinguishing hard foreground from cluttered background. Overall, this framework can learn more discriminative features progressively while integrating complementary features together in each stage. Without bells and whistles, a single HTC obtains 38.4% and 1.5% improvement over a strong Cascade Mask R-CNN baseline on MSCOCO dataset. Moreover, our overall system achieves 48.6 mask AP on the test-challenge split, ranking 1st in the COCO 2018 Challenge Object Detection Task. Code is available at: https://github.com/ open-mmlab/mmdetection.
translated by 谷歌翻译
尽管视频实例细分(VIS)已经取得了迅速的进步,但当前的方法难以预测具有准确边界细节的高质量面具。此外,预测的分割经常会随着时间的流逝而波动,表明时间一致性线索被忽略或不充分利用。在本文中,我们着手解决这些问题,目的是实现VIS的高度详细且更具时间稳定的面具预测。我们首先提出了视频蒙版转换方法(VMT)方法,得益于高效的视频变压器结构,能够利用细粒度的高分辨率功能。我们的VMT检测和组在视频段中每个曲目的稀疏易用错误时空区域稀疏,然后使用局部和实例级别的提示对其进行完善。其次,我们确定流行的YouTube-VIS数据集的粗边界注释构成了一个主要限制因素。因此,根据我们的VMT体系结构,我们通过迭代培训和自我纠正设计了一种自动注释细化方法。为了基准VIS的高质量掩码预测,我们介绍了HQ-YTVIS数据集,该数据集由手动重新注销的测试集和我们的自动完善培训数据组成。我们将VMT与HQ-YTVI的最新最新方法以及YouTube-VIS,OVIS和BDD100K MOTS基准进行了比较。实验结果清楚地证明了我们方法通过捕获精确的细节来分割复杂和动态对象的功效和有效性。
translated by 谷歌翻译
最近的视频文本发现方法通常需要三个阶段的管道,即检测单个图像中的文本,识别本地化文本,跟踪文本流以及后处理以生成最终结果。这些方法通常遵循按匹配范式跟踪并开发复杂的管道。在本文中,植根于变压器序列建模,我们提出了一个简单但有效的端到端视频文本检测,跟踪和识别框架(TransDert)。转码主要包括两个优点:1)与相邻帧中的显式匹配范式不同,transdetr轨道和不同的匹配范围,并通过长期时间序列(超过7帧)隐含的不同查询所谓的文本查询隐式识别每个文本。 2)Transdetr是第一个端到端可训练的视频文本斑点框架,该框架同时介绍了三个子任务(例如,文本检测,跟踪,识别)。进行了四个视频文本数据集(即ICDAR2013视频,ICDAR2015视频,Minetto和YouTube视频文本)中的广泛实验,以证明Transdetr在预先的性能中达到了最大的表现,并且在视频文本发现任务方面的提高约为8.0%。 。可以在https://github.com/weijiawu/transdetr上找到Transdet的代码。
translated by 谷歌翻译