在本文中,我们的目标是自动搜索有效的网络体系结构进行密集图像预测。特别是,我们遵循编码器 - 解码器风格,专注于自动设计解码器的连接结构。为实现这一目标,我们首先设计一个密集连接的网络,其中包含名为Fully Dense Network的可学习连接,其中包含大量可能的最终连接结构。然后,我们使用梯度下降来搜索密集连接的最佳连接。搜索过程由一个新的损失函数引导,它将每个连接的权重推到二进制,并且连接是稀疏的。已发现的连接在两个分段数据集上实现了竞争结果,而运行速度提高了三倍以上,并且与最先进的方法相比需要的参数少于一半。广泛的实验表明,被发现的连通性与各种骨干兼容,并且可以推广到其他密集图像预测任务。
translated by 谷歌翻译
3D对象检测在大量实际应用中起着重要作用。它要求我们估计真实场景中3D对象的局部化和方向。在本文中,我们提出了一种新的网络体系结构,该体系结构侧重于利用前视图图像和平截头体点云来生成3D检测结果。一方面,使用PointSIFT模块来提高3D分割的性能。它可以捕捉空间中不同方向的信息和不同尺度形状的鲁棒性。另一方面,我们的网络通过SENet模块获得有用的特征并抑制具有较少信息的特征。该模块重新调整信道特征并且更有效地估计3D边界框。我们的方法在室外场景的KITTI数据集和室内场景的SUN-RGBD数据集上进行评估。实验结果表明,我们的方法比最先进的方法具有更好的性能,特别是当点云非常稀疏时。
translated by 谷歌翻译
人员重新识别(ReID)在单域设置方面取得了显着的进步。然而,直接利用模型到新域总是面临巨大的性能下降,并且在没有目标域标识标签的情况下使模型适应新域仍然具有挑战性。在本文中,我们讨论跨域ReID并为模型概括和适应做出贡献。首先,我们提出了部分对齐池(PAP),它为跨域测试带来了显着的改进。其次,我们设计了一个关于ReID特征的零件分割(PS)约束,以增强对齐和改进模型的推广。最后,我们展示了将我们的PS约束应用于未标记的目标域图像作为有效的域适应。我们在三个大型数据集Market1501,CUHK03和DukeMTMC-reID之间进行了大量实验。我们的模型在源域和跨域设置下都实现了最先进的性能。为了完整起见,我们还证明了我们的模型与现有领域适应方法的互补性。该代码可在https://github.com/huanghoujing/EANet获得。
translated by 谷歌翻译
在这项工作中,我们引入了一个用于通用对象跟踪的大型高度多样性数据库,称为GOT-10k。 GOT-10k由WordNet的语义层次结构支持。它在现实世界中填充了大多数563个对象类和87个运动模式,从而产生了超过1万个视频片段和150万个边界框的规模。据我们所知,GOT-10k是迄今为止最丰富的运动轨迹数据集,其对象类的覆盖范围远远超过类似规模的对应物。通过发布GOT-10k,我们希望鼓励通用目标跟踪器的开发,这些跟踪器适用于各种移动对象和各种现实场景。为了促进一般化并避免评估结果偏向于看到的类,我们遵循数据集拆分中的一次性原则,其中训练和测试类是零重叠的。我们还进行了一系列分析实验,以选择一个紧凑而具有高度代表性的测试子集 - 它包含84个对象类和32个运动模式,只有180个视频分片,可以进行有效的评估。最后,我们对GOT-10k上的一些代表性跟踪器进行了培训和评估,并分析了它们的性能。评估结果表明,现实世界中无约束视频的跟踪远未被解决,只有40%的帧使用排名跟踪器成功跟踪。将提供所有数据集,评估工具包和基线结果。
translated by 谷歌翻译
在DeepConvolutional Networks(ConvNet)的帮助下,边缘检测取得了重大进展。这些基于ConvNet的边缘检测器已经在标准基准测试中达到了人类级别的性能。我们提供这些探测器输出的系统研究。我们证明了检测结果没有准确地定位边缘像素,边缘像素可能是需要清晰边缘输入的对抗性能量。作为一种补救措施,我们提出了一种新颖的改进架构,以解决使用ConvNet学习脆弱探测器的挑战性问题。我们的方法利用自上而下的后向细化路径,逐步提高特征图的分辨率,从而生成清晰的边缘。我们的结果实现了卓越的性能,在BSDS500上使用标准标准时超越了人的准确性,并且在使用更严格的标准时大体上执行了最先进的方法。更重要的是,我们展示了清晰边缘图对计算机视觉中几个重要应用的好处,包括光流估计,对象建议生成和语义分割。
translated by 谷歌翻译
风格转移一直是计算机视觉和图形学中的一个重要课题。加蒂等人。首先证明由预先训练的VGG网络提取的深度特征代表图像的内容和样式特征,因此,可以通过特征空间中的优化来实现样式转移。黄等人。然后通过简单地对齐每个特征通道的均值和方差,表明实时任意样式转移可以发生变化。然而,在本文中,我们认为仅仅调整深度特征的全局统计数据并不总能保证良好的风格转移。相反,我们建议联合分析输入图像对并提取两者之间的共同/可交换的样式特征。此外,还开发了一种新的融合模式,用于在特征空间中结合内容和样式信息。定性和定量实验证明了我们的方法的优势。
translated by 谷歌翻译
在本文中,我们提出神经短语到短语机器翻译(NP $ ^ 2 $ MT)。我们的模型使用短语注意机制来发现解码器用来生成输出(目标)短语的相关输入(源)段。我们还设计了一种有效的动态编程算法来解码分段,这些分段允许比Huang等人现有的基于神经短语的机器翻译方法更快地训练模型。 (2018)。此外,我们的方法可以在解码期间自然地与外部短语词典集成。经验实验表明,我们的方法与基准数据集上的最新方法具有可比性。但是,当训练和测试数据来自不同的分布或域时,我们的方法表现更好。
translated by 谷歌翻译
自然语言生成(NLG)是面向任务的对话系统的重要组成部分。尽管近来NLG的神经方法取得了成功,但它们通常是针对具有丰富注释训练样本的特定域开发的。在本文中,我们在资源匮乏的环境中研究NLG,以便通过少量训练示例在新场景中生成句子。我们从元学习的角度阐述问题,并基于公认的模型不可知元学习(MAML)算法提出基于广义优化的方法(Meta-NLG)。 Meta-NLG定义了一组元代码,并直接将适应新的低资源NLG任务的目标纳入元学习优化过程。对具有多样性变化的大型多域数据集(MultiWoz)进行了广泛的实验。我们表明,Meta-NLG在各种低资源配置中明显优于其他方法。我们分析结果,并证明Meta-NLG适应极快和良好的资源情况。
translated by 谷歌翻译
解密潜在空间中的内容和风格是普通的文本风格转移。然而,在大多数当前神经模型中存在两个主要问题。 1)很难从句子的语义中完全剥离样式信息。 2)基于递归神经网络(RNN)的编码器和解码器,由潜在表示介导,不能解决长期依赖问题,导致非风格语义内容的保存。本文提出了风格变换器,它没有对潜在句子的潜在表现做出任何假设,并且配备了变形金刚注意机制的力量,以实现更好的风格转移和更好的内容保存。
translated by 谷歌翻译
事实证明,语言模型预训练对于学习通用语言表示非常有用。作为最先进的语言模型预训练模型,BERT(变形金刚的双向编码器表示)在许多语言理解任务中取得了惊人的成果。在本文中,我们进行了详尽的实验,以研究BERT在文本分类任务上的不同微调方法,并为BERTfine调整提供一般解决方案。最后,所提出的解决方案在八个广泛研究的文本分类数据集上获得了新的最新结果。
translated by 谷歌翻译