Detection Transformer (DETR) and Deformable DETR have been proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance as previous complex hand-crafted detectors. However, their performance on Video Object Detection (VOD) has not been well explored. In this paper, we present TransVOD, the first end-to-end video object detection system based on spatial-temporal Transformer architectures. The first goal of this paper is to streamline the pipeline of VOD, effectively removing the need for many hand-crafted components for feature aggregation, e.g., optical flow model, relation networks. Besides, benefited from the object query design in DETR, our method does not need complicated post-processing methods such as Seq-NMS. In particular, we present a temporal Transformer to aggregate both the spatial object queries and the feature memories of each frame. Our temporal transformer consists of two components: Temporal Query Encoder (TQE) to fuse object queries, and Temporal Deformable Transformer Decoder (TDTD) to obtain current frame detection results. These designs boost the strong baseline deformable DETR by a significant margin (2 %-4 % mAP) on the ImageNet VID dataset. TransVOD yields comparable performances on the benchmark of ImageNet VID. Then, we present two improved versions of TransVOD including TransVOD++ and TransVOD Lite. The former fuses object-level information into object query via dynamic convolution while the latter models the entire video clips as the output to speed up the inference time. We give detailed analysis of all three models in the experiment part. In particular, our proposed TransVOD++ sets a new state-of-the-art record in terms of accuracy on ImageNet VID with 90.0 % mAP. Our proposed TransVOD Lite also achieves the best speed and accuracy trade-off with 83.7 % mAP while running at around 30 FPS on a single V100 GPU device. Code and models will be available for further research.
translated by 谷歌翻译
在本文中,我们提出了一种新的GPU实现了螺旋CT重建的Katsevich算法。我们的实现划分了宿函数,并通过音高来重建CT图像间距。通过利用katsevich算法参数的周期性属性,我们的方法只需要为所有音高计算这些参数一次,因此GPU-Memory负担较低,非常适合深度学习。通过将我们的实现嵌入到网络中,我们提出了一种具有稀疏探测器的高音高螺旋CT重建的端到端深网络。由于我们的网络利用了来自SINOGAGAMS和CT图像中提取的特征,因此它可以同时减少由SINOGRAMS的稀疏性引起的条纹伪像,并在CT图像中保持细节。实验表明,我们的网络在主观和客观评估中表明了相关方法。
translated by 谷歌翻译
学习者语料库收集L2学习者产生的语言数据,即第二或外语学习者。这种资源与第二语言采集研究,外语教学和自动语法纠错有关。但是,几乎没有焦点汉语作为外语(CFL)学习者的学习者语料库。因此,我们建议构建大规模的多维注释的中国学习者语料库。要构建语料库,我们首先获得CFL学习者生成的大量富有的富主题文本。然后我们设计一个注释方案,包括句子可接受性得分以及语法错误和基于流畅的校正。我们构建一个众群平台,有效地执行注释(https://yaclc.wenmind.net)。我们命名语料库yaclc(又一个中国学习者语料库)并将其释放为Cuge基准(http://cuge.baai.ac.cn)。通过分析语料库中的原始句子和注释,我们发现Yaclc具有相当大的尺寸和非常高的注释质量。我们希望这项语料库能够进一步加强中国国际教育和中国自动语法纠错的研究。
translated by 谷歌翻译
联合学习框架通常需要协作者共享共同模型的本地渐变更新,而不是共享培训数据以保留隐私。但是,在梯度泄漏攻击的事先工作表明,可以从梯度揭示私人培训数据。到目前为止,几乎所有相关工程都基于完全连接或卷积神经网络的攻击。鉴于近期适应变压器以解决多种愿景任务的绝大多大浪潮,调查视觉变压器的隐私风险是非常有价值的。在本文中,我们分析了基于自我关注机制的渐变泄漏风险,以理论和实用的方式。特别是,我们提出了4月 - 注意隐私泄漏,这对自我关注的博览会造成了强烈的威胁,如vit。展示视觉变压器如何通过梯度泄露隐私泄漏的风险,我们敦促设计隐私更安全的变压器模型和防守方案的重要性。
translated by 谷歌翻译
实现通用语言情报是自然语言处理的长期目标,标准评估基准发挥基本和指导作用。我们认为,对于通用语言智能评估,基准本身需要全面和系统。为此,我们提出了Cuge,一种中文语言理解和生成评估基准,具有以下特征:(1)分层基准框架,其中数据集主要选择和组织语言能力 - 任务数据集层次结构。 (2)多级评分策略,其中基于分层框架提供了不同级别的模型性能。为了促进CUGE,我们提供了一个公共排行榜,可以自定义,以支持灵活的模型判断标准。代表性预先训练的语言模型的评估结果表明了对通用语言智能的完善的充足空间。 Cuge在Cuge.baai.ac.cn上公开提供。
translated by 谷歌翻译
在本文中,我们研究了深神经网络中的动态感知对抗攻击问题。大多数现有的对抗性攻击算法是在基本假设下设计的 - 网络架构在整个攻击过程中都是固定的。然而,这种假设不适用于许多最近提出的网络,例如最近提出的网络。 3D稀疏卷积网络,其中包含输入相关的执行,以提高计算效率。它导致严重问题的滞后梯度,由于架构之后的架构而导致当前步骤的学习攻击无效。为了解决这个问题,我们提出了一种带有铅梯度法(LGM)并显示出滞后梯度的显着影响。更具体地说,我们重新制定了梯度,以了解网络架构的潜在动态变化,使得学习攻击更好地“引导”的下一步,而是当网络架构动态变化时的动态 - 不知道方法。关于各种数据集的广泛实验表明,我们的LGM在语义细分和分类上实现了令人印象深刻的性能。与动态无知的方法相比,LGM在SCANNET和S3DIS数据集上均达到约20%的MIOU。 LGM还优于最近的点云攻击。
translated by 谷歌翻译
光保护综合技术的快速进展达到了真实和操纵图像之间的边界开始模糊的临界点。最近,一个由Mega-Scale Deep Face Forgery DataSet,由290万个图像组成和221,247个视频的伪造网络已被释放。它是迄今为止的数据规模,操纵(7个图像级别方法,8个视频级别方法),扰动(36个独立和更混合的扰动)和注释(630万个分类标签,290万操纵区域注释和221,247个时间伪造段标签)。本文报告了Forgerynet-Face Forgery Analysis挑战2021的方法和结果,它采用了伪造的基准。模型评估在私人测试集上执行离线。共有186名参加比赛的参与者,11名队伍提交了有效的提交。我们将分析排名排名的解决方案,并展示一些关于未来工作方向的讨论。
translated by 谷歌翻译
本文介绍了一种可以在非通信和局部可观察条件下应用的新型混合多机器人运动计划。策划员是无模型的,可以实现多机器人状态和观察信息的端到端映射到最终平滑和连续的轨迹。规划师是前端和后端分离的架构。前端协作航点搜索模块的设计基于具有分散执行图的集中培训下的多代理软演员批评算法。后端轨迹优化模块的设计基于具有安全区域约束的最小快照方法。该模块可以输出最终动态可行和可执行的轨迹。最后,多组实验结果验证了拟议的运动计划员的有效性。
translated by 谷歌翻译
虽然基于深度学习的跟踪方法取得了大量的进展,但它们需要大规模和高质量的注释数据,以进行足够的培训。为了消除昂贵和彻底的注释,我们研究自我监督的学习,以便进行视觉跟踪。在这项工作中,我们开发了作物变换粘贴操作,该操作能够通过在跟踪期间模拟各种外观变化来综合足够的训练数据,包括对象和背景干扰的外观变化。由于目标状态在所有合成数据中都是已知的,因此可以使用没有人为注释的合成数据在日常方式培训现有的深度跟踪器。所提出的目标感知数据综合方法在没有算法改变的情况下适应自我监督的学习框架内的现有跟踪方法。因此,所提出的自我监督学习机制可以无缝地集成到现有的跟踪框架中以进行培训。广泛的实验表明,我们的方法1)在有限注释下的案件下实现了对监督学习计划的有利性能; 2)有助于处理各种跟踪挑战,例如由于其可操纵性导致的物体变形,闭塞或背景杂波; 3)对最先进的无监督的跟踪方法表现有利; 4)提高各种最先进的监督学习框架的性能,包括SiamRPN ++,DIMP和Transt(基于变压器)。
translated by 谷歌翻译
基于点云的大规模地位识别对于许多应用程序,如同时本地化和映射(SLAM)等许多应用是基础的。虽然已经提出了许多模型并通过学习短程局部特征而实现了良好的性能,但往往忽略了远程语境特性。此外,模型大小也已成为其广泛应用的瓶颈。为了克服这些挑战,我们提出了一个超级轻型网络模型,被称为SVT-Net,用于大规模识别。具体地,在高效的3D稀疏卷积(SP-CONV)之上,提出了一种基于原子的稀疏体变压器(ASVT)和基于簇的稀疏体变压器(CSVT),以学习短程局部特征和长期 - 此模型中的上下文功能。由ASVT和CSVT组成,SVT-NET可以在基准数据集中实现最先进的,其精度和速度都具有超光模型尺寸(0.9M)。同时,引入了两种简化的SVT-NET版本,也实现了最先进的,进一步降低了模型尺寸至0.8米和0.4米。
translated by 谷歌翻译