随机梯度Langevin动态(SGLD)是一种基本算法随机优化。 Zhang等人最近的工作。 [2017]给出了SGLD对一阶和二阶静止点的击中时间的分析。 Zhang等人的证明。 [2017]是一个两阶段的程序,通过整个Cheeger常数,这是相当复杂的,导致松散的。在本文中,利用随机微分方程的直觉,我们提供了SGLD对一阶和二阶静止点的击中时间的直接分析。我们的分析很简单。它只依赖于基本的线性代数和概率论工具。与Zhang等人相比,我们的直接分析也导致了更严格的界限。 [2017]并显示击球时间对不同因素的显着依赖性,包括维度,平滑度,噪声强度和步长效应。在适当的条件下,我们表明SGLD对一阶静止点的击中时间可以与床层无关。此外,我们应用我们的分析来研究机器学习中的几个重要的在线估计问题,包括线性回归,矩阵分解和在线PCA。
translated by 谷歌翻译
最近,可微分搜索方法在降低神经结构搜索的计算成本方面取得了重大进展。但是,这些方法通常报告在评估搜索的体系结构或将其传输到另一个数据集时的准确性较低。这可以说是由于搜索和评估方案中架构深度之间的巨大差距。在本文中,我们提出了一种有效的算法,它允许搜索体系结构的深度在训练过程中逐渐增长。这带来了两个问题,即更重的计算开销和更弱的搜索稳定性,我们分别使用搜索空间近似和正则化来解决这些问题。通过显着缩短搜索时间(单个GPU上约7个小时),我们的方法在proxydataset(CIFAR10或CIFAR100)和目标数据集(ImageNet)上实现了最先进的性能。代码可在https://github.com/chenxin061/pdarts获得。
translated by 谷歌翻译
我们提出了一种新的语言表示模型,该模型被称为ENDIE(通过kNowledge IntEgration的增强表示)的知识增强。受到BERT的掩蔽策略的启发,ERNIE旨在通过知识掩蔽策略来学习语言表达,其中包括实体级掩蔽和短语级掩蔽。实体级策略掩盖通常由多个单词组成的实体。语法级别策略掩盖整个短语,该短语由作为概念单元的几个单词组成。实验结果表明ERNIE优于其他基线方法,实现了新的状态。艺术成果包括自然语言推理,语义相似度,命名实体识别,情感分析和问答。我们还说明了ERNIE在acloze测试中具有更强大的知识推理能力。
translated by 谷歌翻译
我们提出了一种新颖的深度卷积网络流水线LO-Net,用于实时雷达测量。与通过单独设计的特征选择,特征匹配和用途估计流水线的大多数现有激光雷达测距(LO)估计不同,LO-Net可以以端到端的方式进行训练。通过新的掩模加权几何约束损失,LO-Net可以有效地学习LO估计的特征表示,并且可以隐含地利用数据中的这些顺序依赖性和动态性。我们还设计了一个扫描到地图模块,它使用在LO-Net中学习的几何和语义信息来提高估计精度。基准数据集上的实验表明,LO-Net优于现有的基于学习的方法,并且与最先进的基于几何的方法LOAM具有相似性。
translated by 谷歌翻译
图像中的对象表现出不同的尺度。期望自适应感受域以捕获用于处理不同尺寸的对象的精确像素级语义预测的适当上下文范围。最近,已经使用具有不同扩张率的萎缩卷积通过若干分支产生多尺度的特征,并且这些特征被融合用于预测。然而,在分支机构之间缺乏明确的相互作用,自适应地充分利用上下文。在本文中,我们提出了一个内容自适应规模交互网络(CaseNet)来利用多尺度特征进行场景解析。我们基于经典的AtrousSpatial金字塔池(ASPP)模块构建CaseNet,然后是建议的上下文互动(CSI)模块和规模适应(SA)模块。具体来说,首先,对于每个空间位置,我们启用不同的上下文交互通过规模感知的非局部操作进行扩展,即CSI模块,这有助于生成灵活的混合接收领域,而不是传统的平面领域。其次,尺度适应模块(SA)明确且轻柔地选择适当的比例,每个空间位置和每个通道。消融研究证明了所提出的模块的有效性。我们在三个场景解析基准Cityscapes,ADE20K和LIP上实现了最先进的性能。
translated by 谷歌翻译
计算机视觉近年来取得了令人瞩目的进展。同时,手机已经成为数百万人的主要计算平台。除了移动电话之外,许多自治系统依靠视觉数据来做出决策,其中一些系统的能量有限(例如无人驾驶飞行器也称为无人驾驶飞机和移动机器人)。这些系统依赖电池,能效至关重要。本文保留了两个主要目的:(1)检查低功率解决方案的最新技术,以检测图像中的对象。自2015年以来,IEEE年度国际低功耗图像识别挑战赛(LPIRC)一直致力于识别最节能的计算机视觉解决方案。本文总结了2018年获奖者的解决方案。 (2)建议研究方向以及低功耗计算机视觉的机会。
translated by 谷歌翻译
Correntropy是在核空间中定义的局部相似性度量,近年来最大熵准则(MCC)已成功应用于信号处理和机器学习的许多领域。在correntropy中的核函数通常限于高斯函数,其中心定位为零。然而,对于许多实际应用,零均值高斯函数可能不是一个好的选择。在这项研究中,我们提出了一个扩展版本的correntropy,其中心可以位于任何位置。因此,我们提出了一种新的优化标准,称为最大熵准则,其中变量中心(MCC-VC)。我们还提出了一种有效的方法来优化MCC-VC中的内核宽度和中心位置。参数线性回归(LIP)模型的仿真结果证实了新方法的理想性能。
translated by 谷歌翻译
我们使用用于视频识别的深度模型来解决学习运动表示的挑战性问题。为此,我们利用注意力模块来学习突出视频中的区域和聚合功能以进行识别。具体而言,我们建议利用输出关注度图作为车辆,将学习的表示从运动(流)网络传输到RGB网络。我们系统地研究了注意模块的设计,并开发了一种新的注意蒸馏方法。我们的方法在主要行动基准上进行了评估,并且一直在显着提高基线RGB网络的性能。此外,我们证明了ourattention地图可以利用学习中的运动线索来识别视频帧中的动作位置。我们相信我们的方法为深度模型中的学习运动感知表示提供了一个步骤。
translated by 谷歌翻译
我们提出了一种基于学习的方案,用于在穿着的3D人体扫描中稳健且准确地估计穿着健康以及人体形状。 Ourapproach将穿着的人体几何图形映射到我们称之为穿透GI的几何图像。为了在不同的衣服下对齐衣服GI,我们扩展了参数人体模型,并采用骨架检测和翘曲来实现可靠的对齐。对于穿着-GI上的每个像素,我们提取包括颜色/纹理,位置,法线等的特征向量,并使用全面的3D服装训练用于每像素适应度预测的修改的条件GAN网络。我们的技术显着提高了人体形状预测的准确性,特别是在宽松和合身的服装下。我们进一步展示了我们的结果,人类/服装细分和虚拟服装适应高视觉真实感。
translated by 谷歌翻译
最近,基于深度学习的三维人脸重建方法已经显示出质量和效率的最终结果。然而,训练深度神经网络通常需要大量数据,而具有地面真实3D面部形状的人脸图像是稀缺的。在本文中,我们提出了一种新颖的深三维人脸重建方法,1)利用鲁棒的混合损失函数进行弱监督学习,同时考虑到监督的低水平感知水平信息,以及2)通过以下方式进行多图像重建:利用差异形式的补充信息进行形状聚合。我们的方法快速,准确,稳健,具有较大的姿势。我们提供全面的三维实验,系统地将我们的方法与十五种最新方法进行比较,并展示其最先进的性能。
translated by 谷歌翻译