我们提出了一种概念上简单而有效的算法来检测给定图像中的线框。与先前预测中间热图然后利用启发式算法提取直线的方法相比,我们的方法是端到端可训练的,并且可以直接输出包含语义上有意义且几何上相同的连接点和线的矢量化线框。为了更好地理解输出的质量,我们提出了一种新的线框评估指标,用于惩罚重叠的内容和不正确的线路连接。我们进行了大量的实验,并证明我们的方法明显优于先前的线框和线提取算法。我们希望我们的简单方法可以作为未来线框解析研究的基准。 Code已在https://github.com/zhou13/lcnn公开发布。
translated by 谷歌翻译
如今,几乎所有的在线订单都是通过手机,平板电脑和电脑等屏蔽设备进行的。随着物联网(IoT)和智能家电的快速发展,越来越多的无屏智能设备,例如智能扬声器和智能冰箱,出现在我们的日常生活中。他们开辟了新的互动方式,可以提供良好的机会,以吸引新客户并增加销售。然而,并非所有的项目都适合无屏幕购物,因为一些项目的外观在消费者决策中起着重要作用。典型的例子包括衣服,娃娃,包和鞋子。在本文中,我们的目的是推断每个项目在消费者决策中的出现意义,并确定适合无屏幕购物的项目组。具体而言,我们将问题表述为一个分类任务,预测一个项目的外观对人们的影响有重大影响。为了解决这个问题,我们从三个不同的视图中提取特征,即项目的内在属性,项目图像和用户评论,并通过众包收集一组必要的标签。然后,我们提出了一个迭代的半监督学习框架,其中包含三个精心设计的损失函数。我们对从在线零售巨头JD.com收集的真实交易数据集进行了大量实验。实验结果验证了该方法的有效性。
translated by 谷歌翻译
弱监督数据是普遍存在的并且引起了很多关注。然而,由于标签质量通常难以保证,因此有时使用弱监督数据将导致不令人满意的性能,即性能下降或性能增益差。此外,手动增加标签质量通常是不可行的,这导致弱监督学习有点难以依赖。针对这一重大问题,本文提出了一种简单而新颖的弱监督学习框架。我们通过少量验证数据指导标签质量的优化,并确保性能的安全性,同时最大限度地提高性能。由于验证集是描述泛化风险的良好近似,它可以有效地避免由不正确的数据分布假设引起的不令人满意的性能。我们将这种基本考虑形式化为新的双层优化并提供有效的解决方案。广泛的实验结果验证了新框架在弱监督学习中获得了令人印象深刻的性能,其中包含了大量的验证数据。
translated by 谷歌翻译
在本文中,我们提出了一种新的基于图像的形状生成的视角。大多数现有的基于深度学习的形状重建方法采用单视图确定性模型,由于后部被遮挡,因此有时不足以确定单个地面形状。在这项工作中,我们首先引入一个条件生成网络来模拟单视图重建的不确定性。然后,我们将多视图重建的任务制定为取每个单个图像上的预测形状空间的交集。我们设计了新的可微分引导,包括前约束,多样性约束和一致性损失,以实现有效的单视图条件生成和多视图合成。实验结果和消融研究表明,我们提出的方法优于3D的最先进方法重建测试错误并证明其对现实世界数据的泛化能力。
translated by 谷歌翻译
在本文中,我们重点关注具有数千个机器人的大型系统的任务分配,协同路径规划和运动协调问题,旨在实现机器人仓库和自动化物流系统的实际应用。特别是在机器人运动不确定性和通信故障的存在下,我们解决了终身规划问题,保证了大型机器人网络的协调性能。提出了分层规划和协调结构。环境分为几个扇区,生成动态交通热图以描述当前的扇区级交通流量。在任务规划级别,实现协商任务分配方法,将当前任务分配给最近的自由机器人,通过综合考虑行驶距离,交通热值分布和当前机器人/通信故障,生成扇区级路径。在运动协调水平上,在每个扇区中实施局部协作A *算法,以生成扇区中每个机器人的无碰撞道路水平路径,并引入滚动规划结构来解决由运动和通信不确定性引起的问题。通过超过一千个机器人和真实实验室实验的大规模模拟验证了所提方法的有效性和实用性。
translated by 谷歌翻译
Multilingual machine translation, which translates multiple languages with a single model, has attracted much attention due to its efficiency of offline training and online serving. However, traditional multilingual translation usually yields inferior accuracy compared with the counterpart using individual models for each language pair, due to language diversity and model capacity limitations. In this paper, we propose a distillation-based approach to boost the accuracy of multilingual machine translation. Specifically, individual models are first trained and regarded as teachers, and then the multilingual model is trained to fit the training data and match the outputs of individual models simultaneously through knowledge distillation. Experiments on IWSLT, WMT and Ted talk translation datasets demonstrate the effectiveness of our method. Particularly, we show that one model is enough to handle multiple languages (up to 44 languages in our experiment), with comparable or even better accuracy than individual models.
translated by 谷歌翻译
Two new stochastic variance-reduced algorithms named SARAH and SPIDER have been recently proposed, and SPIDER has been shown to achieve a near-optimal gradient oracle complexity for non-convex optimization. However, the theoretical advantage of SPIDER does not lead to substantial improvement of practical performance over SVRG. To address this issue, momentum technique can be a good candidate to improve the performance of SPIDER. However, existing momentum schemes used in variance-reduced algorithms are designed specifically for convex optimization, and are not applicable to nonconvex scenarios. In this paper, we develop novel momentum schemes with flexible coefficient settings to accelerate SPIDER for nonconvex and nonsmooth composite optimization , and show that the resulting algorithms achieve the near-optimal gradient oracle complexity for achieving a generalized first-order stationary condition. Furthermore, we generalize our algorithm to online nonconvex and nonsmooth optimization, and establish an oracle complexity result that matches the state-of-the-art. Our extensive experiments demonstrate the superior performance of our proposed algorithm over other stochastic variance-reduced algorithms.
translated by 谷歌翻译
头部姿势估计,其计算来自目标人头部的内在欧拉角(偏转,俯仰,滚动),对于凝视估计,面部对准和3D重建是至关重要的。头部姿势估计的传统方法在很大程度上依赖于面部标志的准确性,并且解决了2D面部标志与平均3D头部模型(ad-hoc拟合程序)之间的对应问题,这严重限制了他们的表现,特别是当面部的可见性不好时条件。但是现有的无标志方法既可以将头部姿势估计视为子问题,也可以在问题减少期间带来额外的误差。因此,在本文中,我们提出了有效的混合粗细分类来处理上述问题。首先,我们通过增加类别数量来扩展先前的工作和更严格的精细分类。然后,我们将混合粗细分类方案引入到网络中。采用积分回归得到最终预测。我们提出的头部姿态估计方法是在三个具有挑战性的基准上进行评估,我们在AFLW2000和BIWI上实现了最先进的技术,并且使用AFLW的最新技术缩小了差距。
translated by 谷歌翻译
基于表面的测地拓扑为对象语义分析和几何建模提供了强有力的线索。但是,这种连接信息在点云中丢失了。因此,我们介绍了GeoNet,这是第一个深度学习架构,用于模拟表示为pointclouds的曲面的内在结构。为了证明所学习的测地知识表示的适用性,我们提出了融合方案,该方案将GeoNet与其他基线或骨干网络(如PU-Net和PointNet ++)结合使用,用于下游流点云分析。我们的方法改进了最先进的多个代表性任务,这些任务可以从对下面的表面拓扑的理解中受益,包括点上采样,正常估计,网格重建和非刚性形状分类。
translated by 谷歌翻译
已经发现随机梯度下降(SGD)在训练各种深度神经网络方面具有惊人的效果。然而,仍然缺乏对SGD如何以及为何能够将这些复杂网络进行全球最小化培训的理解。在本研究中,我们建立了SGD与全局最小的非凸优化问题的收敛性,这些问题在神经网络训练中经常遇到。我们的论证利用了以下两个重要的性质:1)训练损失可以达到零值(近似值),这在深度学习中被广泛观察到; 2)SGD遵循星 - 凸路径,本文通过各种实验验证。在这样的背景下,超分析表明SGD虽然长期以来被认为是一种随机算法,但却以一种本质上确定的方式收敛于全局最小值。
translated by 谷歌翻译