变压器验证引起了机器学习研究和行业的越来越多的关注。它正式验证了变压器对对抗性攻击的鲁棒性,例如用同义词交换单词。但是,由于以中线为中心的计算,变压器验证的性能仍然不令人满意,这与标准神经网络有显着差异。在本文中,我们提出了信仰,这是用于GPU的变压器验证的有效框架。我们首先提出一个语义意识的计算图转换,以识别语义信息,例如变压器验证中的结合计算。我们利用此类语义信息,以在计算图级别启用有效的内核融合。其次,我们提出了一个验证专门的内核手工艺品,以有效地将变压器验证映射到现代GPU。该手工艺者利用了一组GPU硬件支持,以加速通常是内存密集型的验证专业操作。第三,我们提出了一个专家指导的自动调整,以纳入有关GPU后端的专家知识,以促进大型搜索空间探索。广泛的评估表明,Faith在最先进的框架上实现了$ 2.1 \ times $至$ 3.4 \ times $($ 2.6 \ times $)的加速。
translated by 谷歌翻译
弱监督的点云语义分割方法需要1 \%或更少的标签,希望实现与完全监督的方法几乎相同的性能,这些方法最近引起了广泛的研究关注。该框架中的一个典型解决方案是使用自我训练或伪标记来从点云本身挖掘监督,但忽略了图像中的关键信息。实际上,在激光雷达场景中广泛存在相机,而这种互补信息对于3D应用似乎非常重要。在本文中,我们提出了一种用于3D分割的新型交叉模式弱监督的方法,并结合了来自未标记图像的互补信息。基本上,我们设计了一个配备有效标签策略的双分支网络,以最大程度地发挥标签的力量,并直接实现2D到3D知识转移。之后,我们以期望最大(EM)的视角建立了一个跨模式的自我训练框架,该框架在伪标签估计和更新参数之间进行了迭代。在M-Step中,我们提出了一个跨模式关联学习,通过增强3D点和2D超级像素之间的周期矛盾性,从图像中挖掘互补的监督。在E-Step中,伪标签的自我校准机制被得出过滤噪声标签,从而为网络提供了更准确的标签,以进行全面训练。广泛的实验结果表明,我们的方法甚至优于最先进的竞争对手,而少于1 \%的主动选择注释。
translated by 谷歌翻译
本文介绍了Omnivl,这是一种新的基础模型,旨在使用一种通用体系结构来支持图像语言和视频语言任务。它为图像和视频输入采用了统一的基于变压器的视觉编码器,因此可以执行联合图像语言和视频语言预处理。我们首次证明了这样的范式受益于图像和视频任务,而不是传统的单向传输(例如,使用图像语言来帮助视频语言)。为此,我们提出了对图像语言和视频语言的脱钩关节预处理,以有效地将视觉模型分解为空间和时间维度,并在图像和视频任务上获得性能提升。此外,我们引入了一种新颖的统一视觉对比度(UNIVLC)损失,以利用图像文本,视频文本,图像标签(例如,图像分类),视频标签(例如,视频动作识别)在一起受到监督和吵闹的监督预处理数据都尽可能多地利用。无需额外的任务适配器,Omnivl可以同时支持仅视觉任务(例如,图像分类,视频操作识别),跨模式对齐任务(例如,图像/视频 - 文本检索)和多模式理解和生成任务(例如,图像/视频问答,字幕)。我们在各种下游任务上评估Omnivl,并以相似的模型大小和数据量表获得最新的或竞争结果。
translated by 谷歌翻译
点云完成旨在从部分点云中恢复原始形状信息,引起了人们对3D Vision社区的关注。现有方法通常成功完成标准形状,同时未能生成某些非标准形状的点云的本地细节。为了获得理想的当地细节,全球形状信息的指导至关重要。在这项工作中,我们设计了一种有效的方法来借助类内部形状的原型表示区分标准/非标准形状,可以通过建议的监督形状聚类借口任务来计算,从而导致异构组件W.R.T完成网络。代表性的原型(定义为形状类别的特征质心)可以提供全局形状的指导,该指南被称为软性知识,以多尺度方式通过所需的选择性感知特征融合模块注入下游完成网络。此外,要进行有效的培训,我们考虑了基于困难的采样策略,以鼓励网络更多地关注一些部分点云,而几何信息较少。实验结果表明,我们的方法表现优于其他最新方法,并且具有完成复杂几何形状的强大能力。
translated by 谷歌翻译
在小组活动识别中,层次结构框架被广泛采用以表示个人及其相应小组之间的关系,并实现了有希望的绩效。但是,现有方法在此框架中仅采用了最大/平均池,这忽略了不同个体对小组活动识别的不同贡献。在本文中,我们提出了一种新的上下文合并方案,名为Ascentive Pooling,该方案可以从个人动作到小组活动的加权信息过渡。通过利用注意机制,细心的合并是可解释的,并且能够将成员环境嵌入现有的层次模型中。为了验证拟议方案的有效性,设计了两种特定的专注合并方法,即全球细心合并(GAP)和分层的细心池(HAP)。差距奖励对小组活动意义重大的个体,而HAP通过引入亚组结构进一步考虑了层次结构。基准数据集上的实验结果表明,我们的建议在基线之外取得了显着优势,并且与最先进的方法相当。
translated by 谷歌翻译
作为人类识别的重要生物标志物,可以通过被动传感器在没有主题合作的情况下以远距离收集人步态,这在预防犯罪,安全检测和其他人类识别应用中起着至关重要的作用。目前,大多数研究工作都是基于相机和计算机视觉技术来执行步态识别的。但是,在面对不良的照明时,基于视觉的方法并不可靠,导致性能降解。在本文中,我们提出了一种新型的多模式步态识别方法,即gaitfi,该方法利用WiFi信号和视频进行人类识别。在GAITFI中,收集了反映WiFi多路径传播的通道状态信息(CSI),以捕获人体步态,而视频则由相机捕获。为了了解强大的步态信息,我们建议使用轻量级残留卷积网络(LRCN)作为骨干网络,并通过集成WiFi和Vision功能来进一步提出两流性gaitfi,以进行步态检索任务。通过在不同级别的特征上的三胞胎损失和分类损失进行训练。广泛的实验是在现实世界中进行的,该实验表明,基于单个WiFi或摄像机的GAITFI优于最先进的步态识别方法,对于12个受试者的人类识别任务而达到94.2%。
translated by 谷歌翻译
夜间场景解析(NTSP)对于许多视觉应用是必不可少的,尤其是对于自动驾驶。大多数现有方法都是为了解析白天的现有方法。他们依靠在照明下建模基于像素强度的空间上下文线索。因此,这些方法在夜间场景中表现不佳,因为这种空间上下文提示被埋葬在夜间场景中的过度/暴露区域中。在本文中,我们首先进行了基于图像频率的统计实验来解释白天和夜间场景差异。我们发现,在白天和夜间场景之间,图像频率分布有很大差异,并且了解此类频率分布对于NTSP问题至关重要。基于此,我们建议利用图像频率分布来解析夜间场景。首先,我们提出了一个可学习的频率编码器(LFE),以模拟不同频率系数之间的关系,以动态测量所有频率组件。其次,我们提出了一个空间频率融合模块(SFF),该模块融合了空间和频率信息,以指导空间上下文特征的提取。广泛的实验表明,我们的方法对夜总会,夜城+和BDD100K晚数据集的最先进方法表现出色。此外,我们证明我们的方法可以应用于现有的白天场景解析方法,并在夜间场景中提高其性能。
translated by 谷歌翻译
随着视频数量的越来越多,对技术的需求很大,可以帮助人们迅速导航到他们感兴趣的视频片段。但是,当前的视频理解主要理解主要是视频内容摘要,而几乎没有努力,而对探索视频的结构。受文本轮廓生成的启发,我们介绍了一项新颖的视频理解任务,即视频大纲生成(VOG)。该任务定义为包含两个子任务:(1)首先根据内容结构对视频进行分割,然后(2)为每个段生成一个标题。要学习和评估VOG,我们注释了一个10K+数据集,称为Duvog。具体来说,我们使用OCR工具来识别视频的字幕。然后,要求注释者将字幕分为章节,并将每个章节分为标题。在视频中,突出显示的文本往往是标题,因为它更有可能引起人们的注意。因此,我们提出了一个视觉字幕功能增强的视频大纲生成模型(VSENET),该模型将文本字幕及其视觉字体大小和位置作为输入。我们将VOG任务视为一个序列标记问题,该问题提取了跨标题的位置,然后将其重写以形成最终大纲。此外,基于视频概述和文本概述之间的相似性,我们使用大量文章带有章节标题来预先我们的模型。 Duvog上的实验表明,我们的模型在很大程度上胜过其他基线方法,对于视频分割水平达到了77.1的F1得分,对于标题生成级别的Rouge-L_F0.5的85.0。
translated by 谷歌翻译
最近,后门攻击已成为对深神经网络(DNN)模型安全性的新兴威胁。迄今为止,大多数现有研究都集中于对未压缩模型的后门攻击。尽管在实际应用中广泛使用的压缩DNN的脆弱性尚未得到利用。在本文中,我们建议研究和发展针对紧凑型DNN模型(RIBAC)的强大和不可感知的后门攻击。通过对重要设计旋钮进行系统分析和探索,我们提出了一个框架,该框架可以有效地学习适当的触发模式,模型参数和修剪口罩。从而同时达到高触发隐形性,高攻击成功率和高模型效率。跨不同数据集的广泛评估,包括针对最先进的防御机制的测试,证明了RIBAC的高鲁棒性,隐身性和模型效率。代码可从https://github.com/huyvnphan/eccv2022-ribac获得
translated by 谷歌翻译
3D场景感性风格化旨在根据给定的样式图像从任意新颖的视图中生成光真逼真的图像,同时在从不同观点呈现时确保一致性。一些带有神经辐射场的现有风格化方法可以通过将样式图像的特征与多视图图像结合到训练3D场景来有效地预测风格化的场景。但是,这些方法生成了包含令人反感的伪影的新型视图图像。此外,他们无法为3D场景实现普遍的影迷风格化。因此,样式图像必须根据神经辐射场重新训练3D场景表示网络。我们提出了一个新颖的3D场景,逼真的风格转移框架来解决这些问题。它可以通过2D样式图像实现感性3D场景样式转移。我们首先预先训练了2D逼真的样式传输网络,该网络可以符合任何给定内容图像和样式图像之间的影片风格转移。然后,我们使用体素特征来优化3D场景并获得场景的几何表示。最后,我们共同优化了一个超级网络,以实现场景的逼真风格传输的任意样式图像。在转移阶段,我们使用预先训练的2D影视网络来限制3D场景中不同视图和不同样式图像的感性风格。实验结果表明,我们的方法不仅实现了任意样式图像的3D影像风格转移,而且还优于视觉质量和一致性方面的现有方法。项目页面:https://semchan.github.io/upst_nerf。
translated by 谷歌翻译