这是用于人体姿势估计的深度高分辨率表示学习的官方pytorch实现。在这项工作中,我们对人体姿势估计问题感兴趣,重点是学习可靠的高分辨率表示。大多数现有方法从高分辨率网络产生的低分辨率表示中恢复高分辨率表示。相反,我们提出的网络在整个过程中保持高分辨率的表示。我们从高分辨率子网开始作为第一阶段,逐一逐步添加高到低分辨率子网以形成更多阶段,并且并行地连接它们的分辨率子网。我们进行重复的多尺度融合,使得从高到低分辨率的表示中的每一个一遍又一遍地从其他平行表示接收信息,从而导致丰富的高分辨率表示。结果,预测的关键点热图可能更准确并且在空间上更精确。我们通过两个基准数据集的优越姿态估计结果,经验证明了我们网络的有效性:COCO关键点检测数据集和MPII人体姿势数据集。代码和模型已在\ url {https://github.com/leoxiaobin/deep-high-resolution-net.pytorch}公开发布。
translated by 谷歌翻译
6DOF相机重定位是自动驾驶和导航的重要组成部分。深度学习最近成为解决这一问题的有前途的技术。在本文中,我们提出了一种新颖的相对几何感知的神经网络,通过明确地利用图像之间的相对几何约束来增强基于深度学习的方法的性能。我们执行多任务学习并同时预测绝对和相对。我们在功能域和功能域中规范共享权重双网络,以确保估计的姿势在全局以及本地正确。我们采用度量学习并设计新颖的自适应度量距离,以学习能够区分来自不同位置的视觉相似图像的姿势的特征。我们对公共室内外基准测试方法进行了评估,实验结果表明我们的方法可以显着提高定位性能。此外,还进行了大量的消融评估,以证明不同损失函数项的有效性。
translated by 谷歌翻译
随机投影能够有效地降低具有非线性低维结构的数据集。一个众所周知的例子是随机矩阵将稀疏向量近似地嵌入到低维子空间中,称为压缩传感中的受限等距属性。在本文中,我们探讨了随机投影indeep神经网络的一些应用。当输入数据是稀疏矢量或形成低维平滑流形时,我们提供完全连接的神经网络的表达能力。我们证明了具有规定精度的近似Lipschitz函数所需的神经元数量取决于流形的稀疏性或维度,并且弱于输入向量的维度。我们的证明中的关键是随机投影将稀疏矢量集或低维光滑流形稳定地嵌入到低维子空间中。基于这一事实,我们还提出了一些新的神经网络模型,其中每个层首先投影输入通过随机投影到低维子空间,然后应用标准线性连接和非线性激活。通过这种方式,神经网络中的参数数量显着减少,因此可以加速神经网络的训练而不会造成太多的性能损失。
translated by 谷歌翻译
机器学习的一个基本问题是找到从低维潜在空间到高维观察空间的映射$ f $。学习者具有非线性的表现力,可以很容易地找到完全符合所有观察结果的映射。然而,这种映射通常不被认为是好的,因为它不够简单并且过度拟合。如何定义简单?本文试图对非线性映射所强加的信息量进行这样一种形式化的定义。该定义基于信息几何,并且与观察无关,也不与特定参数无关。我们证明了这些基本属性,并讨论了与参数嵌入和非参数嵌入的关系。
translated by 谷歌翻译
视觉跟踪是计算机视觉最重要的应用领域之一。目前,大多数算法主要在PC上实现,在实际场景中应用时很难保证实时性能。为了提高跟踪速度,降低视觉跟踪的整体功耗,本文提出了一种基于DSST(判别标度空间跟踪)方法的实时视觉跟踪算法。我们基于我们提出的视觉跟踪算法在Xilinx XC7K325T FPGA平台上实现硬件系统。我们的硬件系统可以在153帧以上运行。为了减少资源占用,我们的系统在特征提取模块中采用批处理方法。在滤波器处理模块中,FFT IP内核是时分复用的。因此,我们的硬件系统分别使用33%和40%的LUT和存储块。测试结果表明,所提出的视觉跟踪硬件系统具有良好的性能。
translated by 谷歌翻译
词法分析被认为是迈向自然语言理解的关键步骤,并且已被广泛研究。近年来,具有递归神经网络的端到端病毒分析模型越来越受到关注。在本报告中,我们引入了一个深层的Bi-GRU-CRF网络,该网络共同模拟了分词,词性标注和命名实体识别任务。我们使用我们最好的中文词法分析工具预先标记的几个大型语料库,以及一个小而高质量的人类注释语料库来训练模型。我们在不同语料库之间进行了平衡采样,以保证人类注释的影响,并在训练过程中定期微调CRF解码层。正如linguisticexperts所评估的那样,该模型在测试集上达到了95.5%的准确率,相对于我们(之前)最好的中文词法分析曲目,相对误差降低了大约13%。该模型具有计算效率,通过一个线程实现每秒2.3K字符的速度。
translated by 谷歌翻译
总变差距离是满足度量公理的概率度量之间的核心统计距离,其值总是落在$ [0,1] $中。这个距离在机器学习和信号处理中起着重要作用:它是更广泛的$ f $ - 发散类的成员,它与贝叶斯假设检验中的错误概率有关。由于总变差距离不允许闭合-form表达式forstatistical混合(如高斯混合模型),人们经常不得不依赖于昂贵的数值积分或快速蒙特卡罗近似的实践,但不保证确定性的下限和上限。在这项工作中,我们考虑两种方法来限制单变量混合模型的总变差:第一种方法是基于总变差的信息单调性质来设计有保证的嵌套确定性下界。第二种方法依赖于计算加权混合分量的几何下部和上部包络,以基于密度比导出确定性边界。我们在高斯,伽马和瑞利混合模型的一系列实验中证明了我们的界限的紧密性。
translated by 谷歌翻译
在本文中,我们感兴趣的是构建轻量级和高效的卷积神经网络。受两种设计模式的成功启发,结构化稀疏内核的组合,例如交错组卷积(IGC),以及低秩内核的组合,例如瓶颈模块,我们研究了这两种设计模式的组合,使用组织稀疏低秩内核,形成卷积核。我们不是在通道上引入互补条件,而是引入一个松散的互补条件,通过在超级通道上施加互补条件来制定,以指导生成密集卷积核的设计。生成的网络称为IGCV3。我们凭经验证明低秩和稀疏内核的组合提高了我们提出的方法的性能和优越性,我们提出的技术,IGCV2和MobileNetV2在CIFAR和ImageNet上的图像分类和COCO上的对象检测。
translated by 谷歌翻译
我们研究了生成对抗网络(GAN)在语音识别中的使用,以实现强大的语音识别。最近已经研究了GAN用于语音增强以消除附加噪声,但是仍然缺乏检查它们在语音去混响中的能力并且使用GAN的优点尚未完全建立。在本文中,我们提供了在ASR中使用基于GAN的dereverberation前端的深入研究。首先,我们研究了不同dereverberation网络(生成器GAN)的有效性,并发现与我们的数据集中的前馈DNN和CNN相比,LSTM带来了显着的改进。其次,在深LSTM中进一步添加残余连接也可以提高性能。最后,我们发现,为了GAN的成功,在训练期间使用相同的小批量数据更新发生器和鉴别器是很重要的。此外,如前面的研究所示,使用混响谱图作为鉴别器的条件可能会降低性能。总之,与基线DNN去混响网络相比,在强多条件训练声学模型上进行测试时,我们的基于GAN的减少前端实现了相对CER减少14%-19%。
translated by 谷歌翻译
我们研究了$ L_p $ -norm约束编码的问题,即将转换信号转换为位于$ L_p $ -ball内的代码,并且最忠实地重构信号。虽然之前的作品称为稀疏编码已经解决了$ L_0 $和$ L_1 $规范的情况,但更多普遍的情况与其他$ p $值,尤其是未知$ p $,仍然是一个难点。我们提出了弗兰克沃尔夫网络(F-W Net),其架构的灵感来自展开和截断Frank-Wolfe算法以解决$ L_p $ -norm约束问题。我们证明了$ L_p $ -norm约束的Frank-Wolfe求解器导致了一个新的闭合形式的非线性单元,它由$ p $ andtermed $ pool_p $参数化。 $ pool_p $单元链接传统的池化,激活和规范化操作,使得F-W Net与现有的deepnetworks不同,可以通过启发式设计或从投影渐变算法转换而来。我们进一步表明,超参数$ p $可以在F-W Net中预先选择而不是预先选择,它可以优雅地解决$ L_p $ -norm约束编码问题,并且未知$ p $。我们评估F-W Net在广泛的模拟中的性能以及手写数字识别的任务,其中F-W Net表现出强大的学习能力。然后,我们提出了F-W网络的卷积版本,并将卷积F-W网络应用于图像去噪和超分辨率任务,其中F-W Net都表现出令人印象深刻的有效性,灵活性和稳健性。
translated by 谷歌翻译