Detection Transformer (DETR) and Deformable DETR have been proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance as previous complex hand-crafted detectors. However, their performance on Video Object Detection (VOD) has not been well explored. In this paper, we present TransVOD, the first end-to-end video object detection system based on spatial-temporal Transformer architectures. The first goal of this paper is to streamline the pipeline of VOD, effectively removing the need for many hand-crafted components for feature aggregation, e.g., optical flow model, relation networks. Besides, benefited from the object query design in DETR, our method does not need complicated post-processing methods such as Seq-NMS. In particular, we present a temporal Transformer to aggregate both the spatial object queries and the feature memories of each frame. Our temporal transformer consists of two components: Temporal Query Encoder (TQE) to fuse object queries, and Temporal Deformable Transformer Decoder (TDTD) to obtain current frame detection results. These designs boost the strong baseline deformable DETR by a significant margin (2 %-4 % mAP) on the ImageNet VID dataset. TransVOD yields comparable performances on the benchmark of ImageNet VID. Then, we present two improved versions of TransVOD including TransVOD++ and TransVOD Lite. The former fuses object-level information into object query via dynamic convolution while the latter models the entire video clips as the output to speed up the inference time. We give detailed analysis of all three models in the experiment part. In particular, our proposed TransVOD++ sets a new state-of-the-art record in terms of accuracy on ImageNet VID with 90.0 % mAP. Our proposed TransVOD Lite also achieves the best speed and accuracy trade-off with 83.7 % mAP while running at around 30 FPS on a single V100 GPU device. Code and models will be available for further research.
translated by 谷歌翻译
最近提出的深度感知视频Panoptic分段(DVPS)旨在预测视频中的Panoptic分段结果和深度映射,这是一个具有挑战性的场景理解问题。在本文中,我们提供了多相变压器,揭示了DVPS任务下的所有子任务。我们的方法通过基于查询的学习探讨了深度估计与Panoptic分割的关系。特别是,我们设计三个不同的查询,包括查询,填写询问和深度查询的东西。然后我们建议通过门控融合来学习这些查询之间的相关性。从实验中,我们从深度估计和Panoptic分割方面证明了我们设计的好处。由于每个物品查询还对实例信息进行了编码,因此通过具有外观学习的裁剪实例掩码功能来执行跟踪是自然的。我们的方法在ICCV-2021 BMTT挑战视频+深度轨道上排名第一。据报道,消融研究表明我们如何提高性能。代码将在https://github.com/harboryuan/polyphonicformer提供。
translated by 谷歌翻译
本文提出了一种用于对象和场景的高质量图像分割的新方法。灵感来自于形态学图像处理技术中的扩张和侵蚀操作,像素级图像分割问题被视为挤压对象边界。从这个角度来看,提出了一种新颖且有效的\ textBF {边界挤压}模块。该模块用于从内侧和外侧方向挤压对象边界,这有助于精确掩模表示。提出了双向基于流的翘曲过程来产生这种挤压特征表示,并且设计了两个特定的损耗信号以监控挤压过程。边界挤压模块可以通过构建一些现有方法构建作为即插即用模块,可以轻松应用于实例和语义分段任务。此外,所提出的模块是重量的,因此具有实际使用的潜力。实验结果表明,我们简单但有效的设计可以在几个不同的数据集中产生高质量的结果。此外,边界上的其他几个指标用于证明我们对以前的工作中的方法的有效性。我们的方法对实例和语义分割的具有利于Coco和CityCapes数据集来产生重大改进,并且在相同的设置下以前的最先进的速度优于先前的最先进的速度。代码和模型将在\ url {https:/github.com/lxtgh/bsseg}发布。
translated by 谷歌翻译
像窗户,瓶子和镜子等玻璃状物体在现实世界中存在广泛存在。感应这些对象有许多应用,包括机器人导航和抓握。然而,由于玻璃样物体背后的任意场景,这项任务非常具有挑战性。本文旨在通过增强的边界学习解决玻璃状物体分割问题。特别是,我们首先提出了一种新的精致差分模块,其输出更精细的边界线索。然后,我们介绍了一个边缘感知点的图形卷积网络模块,以沿边界模拟全局形状。我们使用这两个模块来设计解码器,该解码器产生准确和干净的分段结果,尤其是在对象轮廓上。两个模块都是重量轻且有效的:它们可以嵌入到各种分段模型中。在最近的三个玻璃状物体分割数据集上进行了广泛的实验,包括Trans10K,MSD和GDD,我们的方法建立了新的最先进的结果。我们还说明了我们在三个通用分段数据集中的方法的强大泛化属性,包括城市景观,BDD和Coco Sift。代码和模型可用于\ url {https:/github.com/hehao13/ebrnet}。
translated by 谷歌翻译
在持续学习的SSLAD-TRACK 3B挑战中,我们提出了与变压器(COLT)继续学习的方法。与卷积神经网络相比,我们发现变压器遭受灾难性遗忘的损失。我们方法的主要原则是用旧知识蒸馏和头部扩展策略装备基于变压器的特征提取器来竞争灾难性的遗忘。在本报告中,我们首先介绍了对象检测的持续学习的整体框架。然后,我们分析了解决我们解决方案中灾难性遗址的关键要素对效果。我们的方法在SSLAD-TRACK 3B挑战测试集上实现70.78映射。
translated by 谷歌翻译
自然语言界面(NLIS)为用户提供了一种方便的方式来通过自然语言查询交互分析数据。然而,交互式数据分析是一种苛刻的过程,特别是对于新手数据分析师。从不同域探索大型和复杂的数据集时,数据分析师不一定有足够的关于数据和应用域的知识。它使他们无法有效地引起一系列查询并广泛导出理想的数据洞察力。在本文中,我们使用Step-Wise查询推荐模块开发NLI,以帮助用户选择适当的下一步探索操作。该系统采用数据驱动方法,以基于其查询日志生成用户兴趣的应用域的逐步语义相关和上下文感知的查询建议。此外,该系统可帮助用户将查询历史和结果组织成仪表板以传达发现的数据洞察力。通过比较用户学习,我们表明我们的系统可以促进比没有推荐模块的基线更有效和系统的数据分析过程。
translated by 谷歌翻译
已经开发了各种深度学习模型,以从医学图像分段解剖结构,但它们通常在具有不同数据分布的另一个目标域上测试时具有差的性能。最近,已经提出了未经监督的域适应方法来缓解这种所谓的域移位问题,但大多数都是针对具有相对较小域移位的方案设计的,并且在遇到大域间隙时可能会失败。在本文中,我们提出DCDA,一种新的跨模型无监督域适应框架,用于具有大域移位的任务,例如,来自Octa和OCT图像的分段视网膜血管。 DCDA主要包括解开表示样式转移(DRST)模块和协作一致性学习(CCL)模块。 DRST将图像分解成内容组件和样式代码,并执行样式传输和图像重建。 CCL包含两个分段模型,一个用于源域,另一个用于目标域。这两种模型使用标记的数据(与相应的传输图像一起)进行监督学习,并在未标记的数据上执行协作一致性学习。每个模型都侧重于相应的单个域,并旨在产生专用域特定的分段模型。通过对视网膜船分割的广泛实验,我们的框架从Octa到Oct和Oct到Octa的OctA到Octa的骰子分数均达到目标培训的甲骨文,显着优于其他最先进的方法。
translated by 谷歌翻译
生物医学网络上的自我监督的代表学习(SSL)为药物发现提供了新的机会,这些机会缺乏可用的生物或临床表型。但是,如何有效地结合多个SSL模型是具有挑战性的并且很少探索。因此,我们提出了对药物发现的生物医学网络的自我监督代表学习的多任务联合策略,命名为MSSL2DRUG。我们设计了六种基本的SSL任务,这些任务受到各种方式特征,包括生物医学异构网络中的结构,语义和属性,包括结构,语义和属性。此外,通过两种药物发现场景中的基于图表的对抗的对抗性多任务学习框架评估了多份任务的十五个组合。结果表明了两个重要的发现。 (1)与其他多任务联合策略相比,多模式任务的组合实现了最佳性能。 (2)本地和全球SSL任务的联合培训比随机任务组合产生更高的性能。因此,我们猜想多式联运和本地全球组合策略可以被视为多任务SSL对药物发现的指导。
translated by 谷歌翻译
不观察到的混淆是观测数据的因果效应估计的主要障碍。仪器变量(IVS)广泛用于存在潜在混淆时的因果效应估计。利用标准IV方法,当给定的IV有效时,可以获得无偏估计,但标准IV的有效性要求是严格和不可能的。已经提出了通过调节一组观察变量(称为条件IV的调节装置)来放松标准IV的要求。然而,用于查找条件IV的调节集的标准需要完整的因果结构知识或指向的非循环图(DAG),其代表观察到和未观察的变量的因果关系。这使得无法发现直接从数据设置的调节。在本文中,通过利用潜在变量的因果推断中的最大祖先图(MAGS),我们提出了一种新型的MAG中的IV,祖先IV,并开发了支持给定祖传的调节装置的数据驱动的发现iv在mag。基于该理论,我们在MAG和观测数据中开发了一种与祖先IV的非偏见因果效应估计的算法。与现有IV方法相比,对合成和实际数据集的广泛实验表明了算法的性能。
translated by 谷歌翻译
Pawlak粗糙集和邻居粗糙集是两个最常见的粗糙设置理论模型。 Pawlawk可以使用等价类来表示知识,但无法处理连续数据;邻域粗糙集可以处理连续数据,但它失去了使用等价类代表知识的能力。为此,本文介绍了基于格兰拉球计算的粒状粗糙集。颗粒球粗糙集可以同时代表佩皮克粗集,以及邻域粗糙集,以实现两者的统一表示。这使得粒度球粗糙集不仅可以处理连续数据,而且可以使用对知识表示的等价类。此外,我们提出了一种颗粒球粗糙集的实现算法。基准数据集的实验符合证明,由于颗粒球计算的鲁棒性和适应性的组合,与Pawlak粗糙集和传统的邻居粗糙相比,粒状球粗糙集的学习准确性得到了大大提高放。颗粒球粗糙集也优于九流行或最先进的特征选择方法。
translated by 谷歌翻译