生成一组高质量的对应关系或匹配是点云注册中最关键的步骤之一。本文通过共同考虑点对立的结构匹配来提出学习框架COTREG,以预测3D点云登记的对应关系。具体地,我们将这两个匹配转换为基于Wasserstein距离和基于Gromov-Wasserstein距离的优化。因此,建立对应关系的任务可以自然地重塑成耦合的最佳运输问题。此外,我们设计一个网络,以预测点云的每个点的置信度,其提供重叠区域信息以产生对应关系。我们的对应预测管道可以很容易地集成到基于学习的特征,如FCGF或FPFH等传统描述符。我们在3DMATCH,KITTI,3DCSR和ModelNet40基准上进行了全面的实验,显示了所提出的方法的最先进的性能。
translated by 谷歌翻译
准确和高效的点云注册是一个挑战,因为噪音和大量积分影响了对应搜索。这一挑战仍然是一个剩余的研究问题,因为大多数现有方法都依赖于对应搜索。为了解决这一挑战,我们通过调查深生成的神经网络来点云注册来提出新的数据驱动登记算法。给定两个点云,动机是直接生成对齐的点云,这在许多应用中非常有用,如3D匹配和搜索。我们设计了一个端到端的生成神经网络,用于对齐点云生成以实现这种动机,包含三种新组件。首先,提出了一种点多感知层(MLP)混频器(PointMixer)网络以便在自点云中有效地维护全局和局部结构信息。其次,提出了一种特征交互模块来融合来自交叉点云的信息。第三,提出了一种并行和差分样本共识方法来基于所生成的登记结果计算输入点云的变换矩阵。所提出的生成神经网络通过维持数据分布和结构相似度,在GAN框架中训练。 ModelNet40和7Scene数据集的实验表明,所提出的算法实现了最先进的准确性和效率。值得注意的是,与基于最先进的对应的算法相比,我们的方法减少了注册错误(CD)的$ 2 \次数为$ 12 \倍运行时间。
translated by 谷歌翻译
在医疗保健诊断过程中常见于多级顺序决策方案。在本文中,开发了一种基于主动学习的方法,以以顺序方式积极收集必要的患者数据。提出的方法中有两份新奇。首先,与只有单级模型的现有序数逻辑回归模型不同,我们将所有阶段的参数估算在一起。其次,假设不同阶段中的共同特征的系数保持一致。该方法的有效性在模拟研究中验证和实际案例研究。与单独且独立地建模数据的基线方法相比,所提出的方法通过62 \%-1838 \%提高了估计效率。对于模拟和测试队列,所提出的方法更有效,稳定,可解释和对参数估计的计算有效。该方法可以很容易地扩展到各种场景,其中可以仅通过必要的信息来顺序地完成决策。
translated by 谷歌翻译
运动,作为视频中最明显的现象,涉及随时间的变化,对视频表示学习的发展是独一无二的。在本文中,我们提出了问题:特别是对自我监督视频表示学习的运动有多重要。为此,我们撰写了一个二重奏,用于利用对比学习政权的数据增强和特征学习的动作。具体而言,我们介绍了一种以前的对比学习(MCL)方法,其将这种二重奏视为基础。一方面,MCL大写视频中的每个帧的光流量,以在时间上和空间地样本地样本(即,横跨时间的相关帧斑块的序列)作为数据增强。另一方面,MCL进一步将卷积层的梯度图对准来自空间,时间和时空视角的光流程图,以便在特征学习中地进行地面运动信息。在R(2 + 1)D骨架上进行的广泛实验证明了我们MCL的有效性。在UCF101上,在MCL学习的表示上培训的线性分类器实现了81.91%的前1个精度,表现优于6.78%的训练预测。在动力学-400上,MCL在线方案下实现66.62%的前1个精度。代码可在https://github.com/yihengzhang-cv/mcl-motion-focused-contrastive-learning。
translated by 谷歌翻译
人类的行为通常是组合结构或图案,即受试者,物体,以及两者之间的时空相互作用。因此,发现这种结构是一种有价值的方式,可以推理互动的动态并识别动作。在本文中,我们介绍了一个新的子图设计,以表示和编码视频中每个动作的辨别模式。具体而言,我们呈现多尺度的子图学习(MOTE)框架,该框架,该框架新颖地构建空间时间图并将图形集群相对于节点的数量在每个比例上的紧凑型子图中。从技术上讲,Mudle在每个视频剪辑中产生3D边界框,即管弦,作为曲线节点,并将密集的连接作为管之间的图形边缘。对于每个操作类别,我们通过学习高斯混合层执行在线群集以将图形分解为每种比例的子图,并选择判别子图作为动作原型以进行识别。在某种东西上进行了广泛的实验 - 某种东西 - 某种东西 - 东西-400数据集,并且与最先进的方法相比,报告了卓越的结果。更值得注意的是,我们的柱子达到了最佳报告的准确性为65.0%的东西 - 某种东西的验证集。
translated by 谷歌翻译
Vision-Language预培训是一个新兴和快速发展的研究主题,将多模态知识从丰富的资源预训练任务转移到有限资源下游任务。与主要学习单个通用编码器的现有作品不同,我们提出了一种可训练的通用编码器 - 解码器网络(UNI-EDEN),以促进视觉语言感知(例如,视觉问题应答)和生成(例如,图像标题)。 UNI-EDEN是一种基于双流变换器的结构,由三个模块组成:对象和句子编码器,其单独了解每个模态的表示,以及通过模态交互能够实现多模态推理和句子的句子解码器。考虑到每个图像的语言表示可以跨越该层次结构的不同粒度,包括从简单到全面,个人标签,短语和自然句子,我们通过多粒愿景语言代理任务预先列车UNI-EDEN:屏蔽对象分类(MOC),蒙版区域短语生成(MRPG),图像句匹配(ISM)和屏蔽句生成(MSG)。以这种方式,UNI-EDEN赋予了多模态表示提取和语言建模的功率。广泛的实验证明了通过微调到四个视觉语言感知和发电下游任务来展示Uni-Eden的概括性。
translated by 谷歌翻译
实时视频广播通常需要具有域知识的多种技能和专业知识,以实现多摄像头制作。随着摄像机的数量不断增加,指导现场运动广播现在比以往任何时候都变得更加复杂和挑战。在生产过程中,广播董事需要更加集中,响应,令人满意的知识。为了使董事免于其密集努力,我们开发了一个叫做智能总监的创新自动化体育广播指示系统,旨在模仿典型的人类循环广播过程,以实时自动创建近专业广播节目通过使用一组高级多视图视频分析算法。灵感来自于所谓的“三事”的体育广播建设,我们用一个由三个连续新型组件组成的事件驱动管道构建我们的系统:1)通过建模多视图相关性来检测事件的多视图事件定位2)多视图突出显示检测通过视图选择的视觉重视等级相机视图,3)自动广播调度程序来控制广播视频的生产。为了我们的最佳知识,我们的系统是用于多摄像机运动广播的第一个端到端的自动化指导系统,完全受到体育赛事的语义理解。它还是通过跨视网膜关系建模解决多视图联合事件检测的新问题的第一系统。我们对现实世界的多相机足球数据集进行客观和主观评估,这证明了我们的自动生成视频的质量与人类导向的质量相当。由于其更快的回应,我们的系统能够捕获更快速的快速和短期持续时间,通常由人道持有。
translated by 谷歌翻译
视频内容是多方面的,由对象,场景,交互或操作组成。现有数据集主要标记为模型培训的一个方面,导致视频表示根据训练数据集仅偏置为一个小平面。目前还没有研究如何学习来自多方面标签的视频表示,以及多方面的信息是否有助于视频表示学习。在本文中,我们提出了一种新的学习框架,多朝向集成(MUFI),以聚合来自不同数据集的面部,以学习可以反映视频内容的全频谱的表示。从技术上讲,MUFI将问题交流为视觉语义嵌入学习,该问题将视频表示映射到丰富的语义嵌入空间中,并从两个角度联合优化视频表示。一个是利用每个视频和自己的标签描述之间的小型内部监督,第二个是从其他数据集的小平面预测每个视频的“语义表示”作为刻面监控。广泛的实验表明,通过我们的MUFI框架在四个大型视频数据集加上两个图像数据集的联盟上学习3D CNN,导致视频表示的优异能力。具有MUFI的预先学习的3D CNN还显示出在几个下游视频应用上的其他方法的清晰改进。更值得注意的是,MUFI在UCF101 / HMDB51上实现98.1%/ 80.9%,用于行动识别和101.5%,在MSVD上的浏览器D得分为视频字幕。
translated by 谷歌翻译
由于细粒度的视觉细节中的运动和丰富内容的大变化,视频是复杂的。从这些信息密集型媒体中抽象有用的信息需要详尽的计算资源。本文研究了一个两步的替代方案,首先将视频序列冷凝到信息“框架”,然后在合成帧上利用现成的图像识别系统。有效问题是如何定义“有用信息”,然后将其从视频序列蒸发到一个合成帧。本文介绍了一种新颖的信息帧综合(IFS)架构,其包含三个客观任务,即外观重建,视频分类,运动估计和两个常规方案,即对抗性学习,颜色一致性。每个任务都配备了一个能力的合成框,而每个常规器可以提高其视觉质量。利用这些,通过以端到端的方式共同学习帧合成,预期产生的帧封装了用于视频分析的所需的时空信息。广泛的实验是在大型动力学数据集上进行的。与基线方法相比,将视频序列映射到单个图像,IFS显示出优异的性能。更值得注意地,IFS始终如一地展示了基于图像的2D网络和基于剪辑的3D网络的显着改进,并且通过了具有较少计算成本的最先进方法实现了相当的性能。
translated by 谷歌翻译
由于具有高复杂性和训练方案的各种选项,最佳地学习3D卷积神经网络(3D COUNCNET)并不重要。最常见的手工调整过程从使用短视频剪辑开始学习3D扫描,然后使用冗长的剪辑学习长期时间依赖性,同时逐渐将学习率衰减到低至低于低的学习率随着训练的进展。这样的过程与几个启发式设置出现的事实激发了研究,以寻求最佳的“路径”以自动化整个培训。在本文中,我们将路径分解为一系列训练“状态”,并在每个状态下指定超参数,例如学习率和输入剪辑的长度。膝关节曲线上的膝关节估计触发从一个状态到另一个状态的转换。我们在所有候选状态下执行动态编程,以规划状态的最佳排列,即优化路径。此外,我们使用独特的双头分类器设计设计了一种新的3D扫描,以提高空间和时间辨别。关于七个公共视频识别基准的广泛实验证明了我们提案的优势。通过优化规划,与最先进的识别方法相比,我们的3D ConverNets在比较时实现了卓越的结果。更值得注意地,我们分别在动力学-400和动力学-600数据集中获得80.5%和82.7%的前1个精度。源代码在https://github.com/zhaofanqiu/optimization-planning-for-3d-convnets中获得。
translated by 谷歌翻译