无监督的跨域人员重新识别(Re-ID)面临两个关键问题。一个是源域与目标域之间的数据分布差异,另一个是目标域中缺少标签信息。本文从表示学习的角度阐述了这一点。对于第一个问题,我们强调相机级子域的存在作为人Re-ID的独特特征,并且开发相机感知域适应,以减少源和域之间以及跨这些子域之间的差异。对于第二个问题,我们利用目标域的每个摄像机的时间连续性来创建判别信息。这是通过动态生成每批中的在线三元组来实现的,以最大限度地利用在训练过程中稳步改进的特征表示。总之,上述两种方法为人Re-ID提出了一种新的无监督深域适应框架。对基准数据集的实验和消融研究证明了它的优越性和有趣的特性。
translated by 谷歌翻译
我们提出了TableBank,一种新的基于图像的表检测和识别数据集,它通过互联网上的Word和Latex文档进行了新的弱监督。现有的基于图像的表检测和识别的研究通常使用数千个人类标记的示例对域外数据进行精细调整预训练模型,这很难在实际应用中进行推广。 TableBank包含417K高质量的标签表,我们使用具有深度神经网络的最先进模型构建了几个强大的基线。我们公开提供TableBank(https://github.com/doc-analysis/TableBank),并希望它能够在表检测和识别任务中实现更多的深度学习方法。
translated by 谷歌翻译
准确的相对姿势是视觉测距(VO)和同时定位和映射(SLAM)的关键组成部分之一。最近,联合优化相对姿态和目标图像深度的自我监督学习框架引起了社会的关注。以前的工作依赖于相邻帧之间的深度和姿势产生的光度误差,其由于反射表面和遮挡而在真实场景下包含大的系统误差。在本文中,我们通过在自我监督的框架中引入由极性几何约束的匹配损失来弥合几何损耗和光度损失之间的差距。在KITTIdataset上进行评估,我们的方法大大超过了最先进的无监督自我运动估计方法。代码和数据可从以下网址获得://github.com/hlzz/DeepMatchVO。
translated by 谷歌翻译
我们通过结合残留学习和卷积稀疏编码(RL-CSC)的优点,提出了一种简单而有效的单图像超分辨率(SISR)模型。我们的模型受到Learned IterativeShrinkage-Threshold算法(LISTA)的启发。我们将LISTA扩展到卷积转换,并通过严格遵循卷积形式构建模型的主要部分,这提高了网络的可解释性。具体而言,输入特征映射的卷积稀疏编码以递归方式得到,并且可以从中恢复高频信息。这些CSC。更重要的是,应用剩余学习来减轻网络深入时的训练难度。对基准数据集的广泛实验证明了我们的方法的有效性。 RL-CSC(30layers)在精度和视觉质量方面优于几种最新的现有技术,例如DRRN(52层)和MemNet(80层)。代码和更多结果可在https://github.com/axzml/RL-CSC获得。
translated by 谷歌翻译
卷积神经网络(CNNs)在物体图像检索方面取得了卓越的性能,而具有手工制作的局部特征的Bag-of-Words(BoW)模型仍然主导着3D重建中重叠图像的检索。在本文中,我们通过提供有效的基于CNN的方法来检索具有重叠的图像来缩小这一差距,我们将其称为可匹配的图像检索问题。与以往基于稀疏重构生成训练数据的方法不同,我们创建了一个具有丰富三维几何的大规模图像数据库,并利用表面重构的信息来获得细粒度的训练数据。我们提出了一种基于batchedtriplet的损失函数与网格重投影相结合,以有效地学习CNN表示。所提出的方法显着加速了3D重建中的图像检索过程,并且优于用于可匹配图像检索的最先进的基于CNN和BoW的方法。代码和数据可从https://github.com/hlzz/mirror获得。
translated by 谷歌翻译
端到端方法最近引起了很多关注,以显着简化自动语音识别(ASR)系统的构建.RNN传感器(RNN-T)是流行的端到端方法之一。之前的研究表明,RNN-T难以训练,并且需要非常复杂的训练过程才能获得合理的性能。在本文中,我们探索RNN-T用于中文大词汇量连续语音识别(LVCSR)任务,并在保持性能的同时简化训练过程。首先,提出了一种学习率衰减的新策略来加速模型收敛。其次,我们发现在网络的开头添加卷积层并使用有序数据可以在不损失性能的情况下丢弃编码器的预训练过程。此外,我们设计实验以找到GPU内存使用,训练圈和模型性能之间的平衡。最后,我们在测试集上实现了16.9%的字符错误率(CER),这是一个强大的BLSTM CE系统与语言的2%绝对改进modeltrained在同一文本语料库中。
translated by 谷歌翻译
在本文中,我们研究了一种学习从自然语言中创作音乐的新任务。给定歌词作为输入,我们提出了一种旋律合成模型,其生成歌词条件旋律以及同时生成的旋律与给定歌词之间的精确对齐。更具体地说,我们基于序列到序列框架开发旋律合成模型。它由两个神经编码器分别编码当前歌词和上下文旋律,一个分层编码器共同产生音符和相应的对齐.18,451首流行歌曲的歌词 - 旋律对的实验结果证明了我们提出的方法的有效性。此外,我们应用歌唱合成器软件来合成歌词和旋律的“歌唱”,以进行人性化评价。结果表明,与基线方法相比,我们生成的旋律更加柔和和优美。
translated by 谷歌翻译
具有基于树的句子编码器的神经网络已经在许多下游任务中显示出更好的结果。大多数现有的基于树的编码器采用语法分析树作为显式结构先验。为了研究不同树结构的有效性,我们用编码器中的普通树(即二叉平衡树,左分支树和右分支树)替换解析树。虽然琐碎的树不包含句法信息,但是那些编码器在我们调查的所有十个下游任务中获得了竞争甚至更好的结果。这个令人惊讶的结果表明,明确的语法指导可能不是基于树的神经句建模的优越性能的主要贡献者。进一步分析表明,当关键词更接近最终表示时,树模型可以获得更好的结果。另外的实验为如何设计有效的树基编码器提供了更多线索。我们的代码是开源的,可以通过以下网址获得://github.com/ExplorerFreda/TreeEnc。
translated by 谷歌翻译
基于卷积神经网络(CNN)的学习局部描述符已经在基于补丁的基准测试中取得了显着的改进,而在基于图像的3D重建的最近基准测试中没有具备强大的泛化能力。在本文中,我们通过提出新的局部描述符学习方法来缓解这种限制,该方法集成了来自多视图重建的几何约束,这有利于数据生成,数据采样和损失计算方面的学习过程。我们将提出的描述符称为GeoDesc,并展示其在各种大型基准测试中的卓越性能,特别是在具有挑战性的重建任务方面取得了巨大成功。此外,我们提供了关于学习描述符在结构动态(SfM)管道中的实际集成的指南,显示了GeoDesc在准确性和效率之间为3D重构任务提供的良好折衷。
translated by 谷歌翻译
点云注册的关键是在3D空间中的点之间建立一组准确的对应关系。通信问题一般通过判别式3D局部描述符的设计和另一方面稳健匹配策略的发展来解决。在这项工作中,我们首先提出了一个多视图本地描述符,它是从多个视图的图像中获取的,用于3D关键点的描述。然后,我们开发了一种强大的匹配方法,旨在基于通过信念的有效推理来拒绝异常匹配。在定义的图形模型上传播。我们已经证明了我们在公共扫描和多视图立体数据集上注册的方法的推进。通过对多种描述符和匹配方法的深入比较,验证了优越的性能。
translated by 谷歌翻译