3D对象检测在大量实际应用中起着重要作用。它要求我们估计真实场景中3D对象的局部化和方向。在本文中,我们提出了一种新的网络体系结构,该体系结构侧重于利用前视图图像和平截头体点云来生成3D检测结果。一方面,使用PointSIFT模块来提高3D分割的性能。它可以捕捉空间中不同方向的信息和不同尺度形状的鲁棒性。另一方面,我们的网络通过SENet模块获得有用的特征并抑制具有较少信息的特征。该模块重新调整信道特征并且更有效地估计3D边界框。我们的方法在室外场景的KITTI数据集和室内场景的SUN-RGBD数据集上进行评估。实验结果表明,我们的方法比最先进的方法具有更好的性能,特别是当点云非常稀疏时。
translated by 谷歌翻译
人员重新识别(ReID)在单域设置方面取得了显着的进步。然而,直接利用模型到新域总是面临巨大的性能下降,并且在没有目标域标识标签的情况下使模型适应新域仍然具有挑战性。在本文中,我们讨论跨域ReID并为模型概括和适应做出贡献。首先,我们提出了部分对齐池(PAP),它为跨域测试带来了显着的改进。其次,我们设计了一个关于ReID特征的零件分割(PS)约束,以增强对齐和改进模型的推广。最后,我们展示了将我们的PS约束应用于未标记的目标域图像作为有效的域适应。我们在三个大型数据集Market1501,CUHK03和DukeMTMC-reID之间进行了大量实验。我们的模型在源域和跨域设置下都实现了最先进的性能。为了完整起见,我们还证明了我们的模型与现有领域适应方法的互补性。该代码可在https://github.com/huanghoujing/EANet获得。
translated by 谷歌翻译
在这项工作中,我们引入了一个用于通用对象跟踪的大型高度多样性数据库,称为GOT-10k。 GOT-10k由WordNet的语义层次结构支持。它在现实世界中填充了大多数563个对象类和87个运动模式,从而产生了超过1万个视频片段和150万个边界框的规模。据我们所知,GOT-10k是迄今为止最丰富的运动轨迹数据集,其对象类的覆盖范围远远超过类似规模的对应物。通过发布GOT-10k,我们希望鼓励通用目标跟踪器的开发,这些跟踪器适用于各种移动对象和各种现实场景。为了促进一般化并避免评估结果偏向于看到的类,我们遵循数据集拆分中的一次性原则,其中训练和测试类是零重叠的。我们还进行了一系列分析实验,以选择一个紧凑而具有高度代表性的测试子集 - 它包含84个对象类和32个运动模式,只有180个视频分片,可以进行有效的评估。最后,我们对GOT-10k上的一些代表性跟踪器进行了培训和评估,并分析了它们的性能。评估结果表明,现实世界中无约束视频的跟踪远未被解决,只有40%的帧使用排名跟踪器成功跟踪。将提供所有数据集,评估工具包和基线结果。
translated by 谷歌翻译
在DeepConvolutional Networks(ConvNet)的帮助下,边缘检测取得了重大进展。这些基于ConvNet的边缘检测器已经在标准基准测试中达到了人类级别的性能。我们提供这些探测器输出的系统研究。我们证明了检测结果没有准确地定位边缘像素,边缘像素可能是需要清晰边缘输入的对抗性能量。作为一种补救措施,我们提出了一种新颖的改进架构,以解决使用ConvNet学习脆弱探测器的挑战性问题。我们的方法利用自上而下的后向细化路径,逐步提高特征图的分辨率,从而生成清晰的边缘。我们的结果实现了卓越的性能,在BSDS500上使用标准标准时超越了人的准确性,并且在使用更严格的标准时大体上执行了最先进的方法。更重要的是,我们展示了清晰边缘图对计算机视觉中几个重要应用的好处,包括光流估计,对象建议生成和语义分割。
translated by 谷歌翻译
风格转移一直是计算机视觉和图形学中的一个重要课题。加蒂等人。首先证明由预先训练的VGG网络提取的深度特征代表图像的内容和样式特征,因此,可以通过特征空间中的优化来实现样式转移。黄等人。然后通过简单地对齐每个特征通道的均值和方差,表明实时任意样式转移可以发生变化。然而,在本文中,我们认为仅仅调整深度特征的全局统计数据并不总能保证良好的风格转移。相反,我们建议联合分析输入图像对并提取两者之间的共同/可交换的样式特征。此外,还开发了一种新的融合模式,用于在特征空间中结合内容和样式信息。定性和定量实验证明了我们的方法的优势。
translated by 谷歌翻译
在本文中,我们提出神经短语到短语机器翻译(NP $ ^ 2 $ MT)。我们的模型使用短语注意机制来发现解码器用来生成输出(目标)短语的相关输入(源)段。我们还设计了一种有效的动态编程算法来解码分段,这些分段允许比Huang等人现有的基于神经短语的机器翻译方法更快地训练模型。 (2018)。此外,我们的方法可以在解码期间自然地与外部短语词典集成。经验实验表明,我们的方法与基准数据集上的最新方法具有可比性。但是,当训练和测试数据来自不同的分布或域时,我们的方法表现更好。
translated by 谷歌翻译
路面状况评估对于确保其可用性至关重要,同时仍能提供最大的道路交通安全。本文介绍了一种嵌入无人机(UAV)的鲁棒立体视觉系统。首先将目标图像的透视图转换为参考视图,这不仅提高了视差精度,而且还提高了算法的计算复杂度。然后使用双边滤波器对从立体匹配产生的成本量进行滤波。后者已经被证明是完全连通的马尔可夫随机场模型的功能最小化问题的可行解决方案。最后,通过相对于滚动角和视差投影模型最小化能量函数来变换视差图。这使得受损的道路区域与道路表面更加不同。所提出的系统在具有CUDA的NVIDIA Jetson TX2 GPU上实现以用于实时目的。通过实验证明,可以容易地将受损的道路区域与变换的视差图区分开。
translated by 谷歌翻译
Clinical notes contain information about patients that goes beyond structured data like lab values and medications. However, clinical notes have been underused relative to structured data, because notes are high-dimensional and sparse. This work develops and evaluates representations of clinical notes using bidirectional transformers (ClinicalBert). Clini-calBert uncovers high-quality relationships between medical concepts as judged by humans. ClinicalBert outperforms baselines on 30-day hospital readmission prediction using both discharge summaries and the first few days of notes in the intensive care unit. Code and model parameters are available. 1
translated by 谷歌翻译
为全世界95%以上的资源提供大量用于训练ASR系统的注释语音数据仍然很困难。然而,我们注意到人类婴儿开始通过少量示例词的声音(或语音结构)来学习语言,并且在没有听到大量数据的情况下将这些知识“概括”为其他词语。我们在这方面开展了一些初步工作。音频Word2Vec用于从口语(信号段)学习语音结构,而另一个自动编码器用于从文本词中学习语音结构。上述两者之间的关系可以在上述两个训练有素之后共同学习。这种关系可用于具有非常低资源的语音识别。在对TIMMIT数据集的初步实验中,只有2.1小时的语音数据(其中2500个口语单词被注释,其余未标记)的单词错误率为44.6%,如果4.1小时的语音数据,这个数字可以减少到34.2%(其中有20000个口语被注释)。这些结果并不令人满意,但是起点很好。
translated by 谷歌翻译
核磁共振(NMR)光谱学是化学和生物学中不可或缺的工具,但经常会遇到很长的实验时间。我们提出了利用深度学习和神经网络的概念验证,以便从有限的实验数据中重建高质量,可靠且非常快速的核磁共振谱。我们表明,神经网络训练可以仅使用合成的核磁共振信号来实现,这提升了对深度学习方法中通常需要的大量实际训练数据的禁止需求。
translated by 谷歌翻译