在实际应用程序中,并非所有多视图数据中的实例都能得到充分表示。为了处理不完整的多视图数据,传统的多视图算法通常会丢弃不完整的实例,从而导致可用信息的丢失。为了克服这种损失,不完全多视图学习(IML)已经成为一个热门的研究课题。在本文中,我们提出了一个通用的IML框架,用于统一现有的IML方法并深入了解IML。所提出的框架共同执行嵌入式学习和低级近似。具体地说,它通过一组低秩矩阵来近似不完整数据,并通过线性变换学习完整和常见的嵌入。几种现有的IML方法可以统一为框架的特例。更有趣的是,一些基于线性变换的全视图方法可以在框架的指导下直接适应IML。这弥补了完整的多视图学习和IML之间的差距。此外,框架可以为开发新算法提供指导。为了说明,在框架内,我们提出了一种特定的方法,称为具有块对角线表示的不完全多视图学习(IML-BDR)。基于采样示例具有近似线性子空间结构的假设,IML-BDR在学习完全嵌入之前使用块对角线结构,这将导致更正确的聚类。设计了一种具有连续过度松弛(SOR)优化技术的收敛轮廓迭代算法用于优化。各种数据集的实验结果证明了IML-BDR的有效性。
translated by 谷歌翻译
我们提供了PartNet:一个一致的大型3D对象数据集,用细粒度,实例级和分层3D零件信息进行注释。 Ourdataset包含573,585个零件实例,超过26,671个3D模型,涵盖24个对象类别。该数据集能够并作为许多任务的催化剂,如形状分析,动态三维场景建模和模拟,可供性分析等。使用我们的数据集,我们建立了三个评估三维零件识别的基准测试任务:细粒度语义分割,分层语义分割和实例分割。我们对用于细粒度语义分割的最先进的3D深度学习算法和用于分层语义分割的三种基线方法进行了基准测试。我们还提出了一种新的部分实例分割方法,并展示了优于现有方法的性能。
translated by 谷歌翻译
语义分割需要大量像素方式的注释,以容许准确的模型。在本文中,我们提出了一种基于视频预测的方法,通过综合新的训练样本来扩展训练集,以提高语义分割网络的准确性。我们利用视频预测模型预测未来帧的能力,以便预测未来的标签。还提出了联合传播策略以减少合成样品中的错误比对。我们证明了由合成样本增加的数据集上的训练分割模型导致准确性的显着改善。此外,我们引入了一种新颖的边界标签松弛技术,该技术使得对沿着对象边界的注释噪声和传播伪像具有鲁棒性。我们提出的方法在Cityscapes上实现了83.5%的最新技术,在CamVid上实现了82.9%。没有模型合奏的单一模型在KITTI语义分割测试集上达到了72.8%mIoU,超过了ROBchallenge 2018的获奖作品。我们的代码和视频可以在以下网址找到://nv-adlr.github.io/publication/2018 -分割。
translated by 谷歌翻译
根据多模态上下文回答问题是一个具有挑战性的问题,需要深度整合不同的数据源。现有方法仅在一个关注点中使用数据源之间的部分交互。在本文中,我们提出了整体多模态记忆网络(HMMN)框架,它充分考虑了每一跳中不同输入源(多模态上下文,问题)之间的相互作用。此外,在上下文检索阶段需要考虑其中的选择。因此,所提出的框架有效地集成了多模态上下文,问题和答案信息,这导致了更多信息上下文的问题回答。我们的HMMN框架在MovieQA数据集上实现了最先进的准确性。广泛的消融研究表明了绝对推理的重要性以及不同注意策略的贡献。
translated by 谷歌翻译
当前最先进的视频理解方法采用时间抖动来模拟以不同帧速率分析视频。但是,这对于多速率视频效果不佳,其中动作或子动作的速度不同。帧采样率应根据不同的运动速度而变化。在这项工作中,我们提出了一个简单但有效的策略,称为随机时间跳过,以解决这种情况。该策略通过随机抽样评估培训有效地处理多速率视频。这是一种详尽的方法,可以涵盖所有的运动速度变化。此外,由于大量的时间跳过,我们的网络可以看到最初覆盖超过100帧的视频剪辑。这样的时间范围足以分析大多数动作/事件。我们还介绍了一种能够识别人类动作识别的改进运动图的一种感知识别光流学习方法。我们的框架是端到端的可训练,实时运行,并在六个广泛采用的视频基准测试中实现了最先进的性能。
translated by 谷歌翻译
深度神经网络已经在计算机视觉领域取得了一系列突破,提供了足够的注释训练数据集。对于具有有限标签数据的新任务,流行的方法是通过微调将预训练模型中学到的知识转移到新任务。经典的模式调整利用了训练有素的神经网络似乎学习跨域特征的事实。在转学习期间,这些功能得到平等对待。在本文中,我们通过引入传输模块来探索特征选择在模式调整中的影响,该模块为从预训练模型中提取的特征分配权重。所提出的传输模块证明了用于将模型从源域转移到目标域的特征选择的重要性。它被证明可以显着改善微调结果,而且只有极小的额外计算成本。我们还将辅助分类器作为额外的正则化器,以避免过度拟合。最后,我们基于我们的传输模块构建了一个门控传输网络(GTN),并在六个不同的任务上实现了最先进的结果。
translated by 谷歌翻译
对于细粒度分类任务,视频可以作为静态图像的更好来源,因为视频具有包含判别模式的更高机会。然而,视频序列也可能包含许多冗余和不相关的帧。如何定位感兴趣的关键信息是一项艰巨的任务。在本文中,我们提出了一种新的网络结构,称为冗余约简注意(RRA),它通过抑制冗余特征通道来学习专注于多重判别模式。具体来说,它首先通过对特征中所有特征向量进行加权求和来总结视频。具有时空软关注的所选帧的映射,然后根据所学习的非线性变换根据该摘要预测要抑制或增强的信道。通过调制特征图和脱粒弱激活来实现抑制。然后在下一次迭代中使用更新的特征映射。最后,视频根据多个摘要进行分类。所提出的方法在多个视频分类数据集中实现了卓越的性能。此外,我们还收集了两个大型视频数据集,YouTube-Birds和YouTube-Cars,用于未来对细粒度视频分类的研究。数据集可在http://www.cs.umd.edu/~chenzhu/fgvc获得。
translated by 谷歌翻译
在智能辅导系统(ITS)中,为了提供更多支持性的学习指导,已经研究了几十年来追踪学生的学习知识。在本文中,我们提出了一种新的知识追踪模型:i)捕捉学生的学习能力,并在规律的时间间隔内动态地将学生分配到具有相似能力的不同群体中; ii)将这些信息与称为深度知识追踪的循环神经网络结构相结合。实验结果证实,所提出的模型在预测学生表现方面明显优于众所周知的最先进的学生建模技术。
translated by 谷歌翻译
我们介绍了SCORES,一种用于形状合成的递归神经网络。我们的网络从两个或多个源3D形状中获取零件的输入集,并通过零件的初始放置。它为组合形状输出优化的零件结构,从而实现高质量的几何结构。我们的作曲网络的独特之处在于它不仅仅是学习如何连接零件。尽管输入部件之间存在很大的不兼容性,但我们的目标是产生连贯且可信的3D形状。网络显着改变输入部件的几何形状和结构,并基于输入合成新颖的形状结构,同时添加或移除部件以最小化结构合理性损失。我们将SCORES设计为递归自动编码器网络。在编码期间,递归分组输入部分以生成根代码。在合成期间,递归地解码根代码以产生新的相干部件组件。组装的形状结构可能是新颖的,与训练样本几乎没有全局相似性,但具有合理的子结构。因此,SCORES基于每个节点的损失来学习先前的分层子结构形状。它是在ShapeNet的结构形状上进行训练,并且迭代应用以减少合理性损失。我们在不同类型的人造形状上显示来自多个来源的形状组成的结果,并与最先进的替代方案进行比较,证明我们的网络可以显着扩展基于程序集的建模的可组合形状的范围。
translated by 谷歌翻译
我们通过自然语言描述为视频中的剪辑定位提出了一种新颖的序列翻译序列(ASST)。我们进行两次分配。首先,我们提出了一种双向递归神经网络(RNN),其具有精细校准的视觉语言注意机制,全面了解自由形成的自然语言描述。 TheRNN在两个方向上解析自然语言描述,并且注意力模型为每个帧参与每个有意义的单词或短语,从而更加详细地理解视频内容和描述语义。其次,我们设计了一个网络的分层结构,以共同模拟语言描述和视频内容。给定视频描述对,网络产生矩阵表示,即矢量序列。矩阵中的每个向量表示由描述条件限制的视频帧.2D表示不仅保留了帧的时间依赖性,而且还提供了执行帧级视频语言匹配的有效方式。分层体系结构利用具有多个粒度的视频内容,从细微的细节到全局上下文。多个粒度的集成产生用于多级视频语言抽象的鲁棒表示。我们验证了ASST在两个大规模数据集上的有效性。我们的ASST在DiDeMo数据集上的表现优于最新款$ 4.28 \%$ inRank $ 1 $。在Charades-STA数据集中,我们在Rank $ @ 1,IoU = 0.5 $中显着提高了13.41美元\%$的最新技术水平。
translated by 谷歌翻译