With the continuously thriving popularity around the world, fitness activity analytic has become an emerging research topic in computer vision. While a variety of new tasks and algorithms have been proposed recently, there are growing hunger for data resources involved in high-quality data, fine-grained labels, and diverse environments. In this paper, we present FLAG3D, a large-scale 3D fitness activity dataset with language instruction containing 180K sequences of 60 categories. FLAG3D features the following three aspects: 1) accurate and dense 3D human pose captured from advanced MoCap system to handle the complex activity and large movement, 2) detailed and professional language instruction to describe how to perform a specific activity, 3) versatile video resources from a high-tech MoCap system, rendering software, and cost-effective smartphones in natural environments. Extensive experiments and in-depth analysis show that FLAG3D contributes great research value for various challenges, such as cross-domain human action recognition, dynamic human mesh recovery, and language-guided human action generation. Our dataset and source code will be publicly available at https://andytang15.github.io/FLAG3D.
translated by 谷歌翻译
除了在经典图像压缩编解码器上实现较高的压缩效率外,还可以通过其他侧面信息(例如,从同一场景的不同角度)改进深层图像压缩。为了更好地利用分布式压缩方案下的侧面信息,现有方法(Ayzik和Avidan 2020)仅在图像域上实现匹配的补丁,以解决由查看点差异引起的视差问题。但是,在图像域上匹配的补丁匹配对由不同的视角引起的比例,形状和照明的差异并不强大,也无法充分利用侧面信息图像的丰富纹理信息。为了解决此问题,我们建议在分布式图像压缩模型的解码器上充分利用多尺度特征域贴片匹配(MSFDPM)。具体而言,MSFDPM由侧面信息特征提取器,多尺度特征域补丁匹配模块和多尺度特征融合网络组成。此外,我们重复使用从浅层层进行斑点相关性,以加速深层的贴片匹配。最后,我们认为,与图像域(Ayzik和Avidan 2020)的贴片匹配方法相比,在多尺度特征域中的匹配进一步提高了压缩率约20%。
translated by 谷歌翻译
最近,许多半监督的对象检测(SSOD)方法采用教师学生框架并取得了最新的结果。但是,教师网络与学生网络紧密相结合,因为教师是学生的指数移动平均值(EMA),这会导致表现瓶颈。为了解决耦合问题,我们为SSOD提出了一个周期自我训练(CST)框架,该框架由两个老师T1和T2,两个学生S1和S2组成。基于这些网络,构建了一个周期自我训练机制​​,即S1 $ {\ rightarrow} $ t1 $ {\ rightArow} $ s2 $ {\ rightArrow} $ t2 $ {\ rightArrow} $ s1。对于S $ {\ Rightarrow} $ T,我们还利用学生的EMA权重来更新老师。对于t $ {\ rightarrow} $ s,而不是直接为其学生S1(S2)提供监督,而是老师T1(T2)为学生S2(S1)生成伪标记,从而松散耦合效果。此外,由于EMA的财产,老师最有可能积累学生的偏见,并使错误变得不可逆转。为了减轻问题,我们还提出了分配一致性重新加权策略,在该策略中,根据教师T1和T2的分配一致性,将伪标记重新加权。通过该策略,可以使用嘈杂的伪标签对两个学生S2和S1进行训练,以避免确认偏见。广泛的实验证明了CST的优势,通过将AP比基线优于最先进的方法提高了2.1%的绝对AP改进,并具有稀缺的标记数据,而胜过了2.1%的绝对AP。
translated by 谷歌翻译
FreeSpace检测是自动驾驶技术的重要组成部分,并且在轨迹计划中起着重要作用。在过去的十年中,已证明基于深度学习的自由空间检测方法可行。但是,这些努力集中在城市道路环境上,由于缺乏越野基准,很少有针对越野自由空间检测专门设计的深度学习方法。在本文中,我们介绍了ORFD数据集,据我们所知,该数据集是第一个越野自由空间检测数据集。数据集收集在不同的场景(林地,农田,草地和乡村),不同的天气条件(阳光,多雨,雾气和雪地)以及不同的光线条件(明亮的光线,日光,暮光,黑暗)中,完全包含12,198 LIDAR点云和RGB图像对与可穿越的区域,不可传输区域和无法达到的区域进行了详细注释。我们提出了一个名为Off-NET的新型网络,该网络将变压器体系结构统一以汇总本地和全球信息,以满足大型接收领域的自由空间检测任务的要求。我们还向动态融合激光雷达和RGB图像信息提出了交叉注意,以进行准确的越野自由空间检测。数据集和代码可公开可用athttps://github.com/chaytonmin/off-net。
translated by 谷歌翻译
基于面具的预训练在没有手动注释的监督的情况下,在图像,视频和语言中进行自我监督的学习取得了巨大的成功。但是,作为信息冗余数据,尚未在3D对象检测的字段中进行研究。由于3D对象检测中的点云是大规模的,因此无法重建输入点云。在本文中,我们提出了一个蒙版素分类网络,用于预训练大规模点云。我们的关键思想是将点云分为体素表示,并分类体素是否包含点云。这种简单的策略使网络是对物体形状的体素意识,从而改善了3D对象检测的性能。广泛的实验显示了我们在三个流行数据集(Kitti,Waymo和Nuscenes)上使用3D对象检测器(第二,Centerpoint和PV-RCNN)的预训练模型的效果。代码可在https://github.com/chaytonmin/voxel-mae上公开获得。
translated by 谷歌翻译
金融领域的数值推理 - 进行定量分析并总结了财务报告中的信息 - 可以大大提高业务效率并降低数十亿美元的成本。在这里,我们提出了一个数值推理问答系统,以回答财务文本和表数据源之间的数值推理问题,该问题由回收器模块,发电机模块和集合模块组成。具体而言,除了检索整个行数据外,我们还创新设计了一个细胞回收器,该池检索器可以检索金单元,以避免将同一行中的无关和相似的单元带到发电机模块的输入中。在发电机模块中,我们利用多个发电机来生产程序,这是回答问题的操作步骤。最后,在整体模块中,我们集成了多个程序,以选择最佳程序作为系统的输出。在FinQA竞争中的最终私人测试集中,我们的系统获得了69.79的执行精度。
translated by 谷歌翻译
长期以来,3D面部识别因其抵抗当前的物理对抗攻击(例如对抗斑块)而被认为是安全的。但是,本文表明,3D面部识别系统很容易受到攻击,从而导致逃避和模仿攻击。我们是第一个针对3D面部识别系统(称为结构化光成像攻击(SLIA)的)提出可实现的攻击的人,该系统利用了基于结构化的3D扫描设备的弱点。 Slia在结构化的光成像系统中利用投影仪来创建对抗性照明,以污染重建的点云。首先,我们提出了一个3D变换不变的损耗函数(3D-TI),以生成对逆动力的对抗扰动,这对头部运动更强大。然后,我们将3D成像过程集成到攻击优化中,从而最大程度地减少了流条纹模式的总像素转移。我们意识到对现实世界3D面部识别系统的躲避和模仿攻击。与倒角和基于倒角+KNN的方法相比,我们的方法对预计模式的修改需要较少,并且达到0.47(模拟)和0.89(躲避)的平均攻击成功率。本文揭示了当前结构化的光成像技术的不安全感,并阐明了设计安全的3D面部识别身份验证系统。
translated by 谷歌翻译
Contrastive language-image pretraining (CLIP) links vision and language modalities into a unified embedding space, yielding the tremendous potential for vision-language (VL) tasks. While early concurrent works have begun to study this potential on a subset of tasks, important questions remain: 1) What is the benefit of CLIP on unstudied VL tasks? 2) Does CLIP provide benefit in low-shot or domain-shifted scenarios? 3) Can CLIP improve existing approaches without impacting inference or pretraining complexity? In this work, we seek to answer these questions through two key contributions. First, we introduce an evaluation protocol that includes Visual Commonsense Reasoning (VCR), Visual Entailment (SNLI-VE), and Visual Question Answering (VQA), across a variety of data availability constraints and conditions of domain shift. Second, we propose an approach, named CLIP Targeted Distillation (CLIP-TD), to intelligently distill knowledge from CLIP into existing architectures using a dynamically weighted objective applied to adaptively selected tokens per instance. Experiments demonstrate that our proposed CLIP-TD leads to exceptional gains in the low-shot (up to 51.9%) and domain-shifted (up to 71.3%) conditions of VCR, while simultaneously improving performance under standard fully-supervised conditions (up to 2%), achieving state-of-art performance on VCR compared to other single models that are pretrained with image-text data only. On SNLI-VE, CLIP-TD produces significant gains in low-shot conditions (up to 6.6%) as well as fully supervised (up to 3%). On VQA, CLIP-TD provides improvement in low-shot (up to 9%), and in fully-supervised (up to 1.3%). Finally, CLIP-TD outperforms concurrent works utilizing CLIP for finetuning, as well as baseline naive distillation approaches. Code will be made available.
translated by 谷歌翻译
自动视觉解对我们多样化和开放的世界需要计算机视觉模型,以概括为特定任务的最小定制,类似于人类视力。计算机视觉基础型号培训,培训多样化,大型数据集,可以适应各种下游任务,对该任务来解决现实世界计算机视觉应用而言至关重要。虽然现有的视觉基础模型如剪辑,对齐和吴道2.0主要集中在映射图像和文本表示到跨模型共享表示,我们介绍了一台新的计算机视觉基础模型,佛罗伦萨,扩大粗糙的表示(现场)到精细(对象),从静态(图像)到动态(视频),以及从RGB到多个模态(标题,深度)。通过从Web级图像文本数据中纳入通用视觉语言表示,我们的佛罗伦萨模型可以很容易地适应各种计算机视觉任务,例如分类,检索,对象检测,VQA,图像标题,视频检索和动作识别。此外,佛罗伦萨在许多类型的转移学习中表现出出色的表现:全面采样的微调,线性探测,几次射击传输和用于新颖图像和物体的零拍摄传输。所有这些属性对于我们的视觉基础模型至关重要,以提供通用视觉任务。佛罗伦萨实现了新的最先进的导致44个代表性基准,例如Imagenet-1K零射击分类,最高1精度为83.74,最高5个精度为97.18,62.4地图上的Coco微调, 80.36在VQA上,动力学-600上的87.8。
translated by 谷歌翻译
利用3D点云数据已经成为在面部识别和自动驾驶等许多领域部署人工智能的迫切需要。然而,3D点云的深度学习仍然容易受到对抗的攻击,例如迭代攻击,点转换攻击和生成攻击。这些攻击需要在严格的界限内限制对抗性示例的扰动,导致不切实际的逆势3D点云。在本文中,我们提出了对普遍的图形 - 卷积生成的对抗网络(ADVGCGAN)从头开始产生视觉上现实的对抗3D点云。具体地,我们使用图形卷积发电机和带有辅助分类器的鉴别器来生成现实点云,从真实3D数据学习潜在分布。不受限制的对抗性攻击损失纳入GaN的特殊逆势训练中,使得发电机能够产生对抗实例来欺骗目标网络。与现有的最先进的攻击方法相比,实验结果表明了我们不受限制的对抗性攻击方法的有效性,具有更高的攻击成功率和视觉质量。此外,拟议的Advgcan可以实现更好的防御模型和比具有强烈伪装的现有攻击方法更好的转移性能。
translated by 谷歌翻译