在本文中,我们重点关注具有数千个机器人的大型系统的任务分配,协同路径规划和运动协调问题,旨在实现机器人仓库和自动化物流系统的实际应用。特别是在机器人运动不确定性和通信故障的存在下,我们解决了终身规划问题,保证了大型机器人网络的协调性能。提出了分层规划和协调结构。环境分为几个扇区,生成动态交通热图以描述当前的扇区级交通流量。在任务规划级别,实现协商任务分配方法,将当前任务分配给最近的自由机器人,通过综合考虑行驶距离,交通热值分布和当前机器人/通信故障,生成扇区级路径。在运动协调水平上,在每个扇区中实施局部协作A *算法,以生成扇区中每个机器人的无碰撞道路水平路径,并引入滚动规划结构来解决由运动和通信不确定性引起的问题。通过超过一千个机器人和真实实验室实验的大规模模拟验证了所提方法的有效性和实用性。
translated by 谷歌翻译
Two new stochastic variance-reduced algorithms named SARAH and SPIDER have been recently proposed, and SPIDER has been shown to achieve a near-optimal gradient oracle complexity for non-convex optimization. However, the theoretical advantage of SPIDER does not lead to substantial improvement of practical performance over SVRG. To address this issue, momentum technique can be a good candidate to improve the performance of SPIDER. However, existing momentum schemes used in variance-reduced algorithms are designed specifically for convex optimization, and are not applicable to nonconvex scenarios. In this paper, we develop novel momentum schemes with flexible coefficient settings to accelerate SPIDER for nonconvex and nonsmooth composite optimization , and show that the resulting algorithms achieve the near-optimal gradient oracle complexity for achieving a generalized first-order stationary condition. Furthermore, we generalize our algorithm to online nonconvex and nonsmooth optimization, and establish an oracle complexity result that matches the state-of-the-art. Our extensive experiments demonstrate the superior performance of our proposed algorithm over other stochastic variance-reduced algorithms.
translated by 谷歌翻译
头部姿势估计,其计算来自目标人头部的内在欧拉角(偏转,俯仰,滚动),对于凝视估计,面部对准和3D重建是至关重要的。头部姿势估计的传统方法在很大程度上依赖于面部标志的准确性,并且解决了2D面部标志与平均3D头部模型(ad-hoc拟合程序)之间的对应问题,这严重限制了他们的表现,特别是当面部的可见性不好时条件。但是现有的无标志方法既可以将头部姿势估计视为子问题,也可以在问题减少期间带来额外的误差。因此,在本文中,我们提出了有效的混合粗细分类来处理上述问题。首先,我们通过增加类别数量来扩展先前的工作和更严格的精细分类。然后,我们将混合粗细分类方案引入到网络中。采用积分回归得到最终预测。我们提出的头部姿态估计方法是在三个具有挑战性的基准上进行评估,我们在AFLW2000和BIWI上实现了最先进的技术,并且使用AFLW的最新技术缩小了差距。
translated by 谷歌翻译
基于表面的测地拓扑为对象语义分析和几何建模提供了强有力的线索。但是,这种连接信息在点云中丢失了。因此,我们介绍了GeoNet,这是第一个深度学习架构,用于模拟表示为pointclouds的曲面的内在结构。为了证明所学习的测地知识表示的适用性,我们提出了融合方案,该方案将GeoNet与其他基线或骨干网络(如PU-Net和PointNet ++)结合使用,用于下游流点云分析。我们的方法改进了最先进的多个代表性任务,这些任务可以从对下面的表面拓扑的理解中受益,包括点上采样,正常估计,网格重建和非刚性形状分类。
translated by 谷歌翻译
已经发现随机梯度下降(SGD)在训练各种深度神经网络方面具有惊人的效果。然而,仍然缺乏对SGD如何以及为何能够将这些复杂网络进行全球最小化培训的理解。在本研究中,我们建立了SGD与全局最小的非凸优化问题的收敛性,这些问题在神经网络训练中经常遇到。我们的论证利用了以下两个重要的性质:1)训练损失可以达到零值(近似值),这在深度学习中被广泛观察到; 2)SGD遵循星 - 凸路径,本文通过各种实验验证。在这样的背景下,超分析表明SGD虽然长期以来被认为是一种随机算法,但却以一种本质上确定的方式收敛于全局最小值。
translated by 谷歌翻译
在神经网络中,通常希望与相同空间的各种表示一起工作。例如,3D旋转可以用四元数或欧拉角表示。在本文中,我们提出了连续表示的定义,这有助于训练深度神经网络。我们将其与拓扑等价的定义联系起来。然后,我们研究了2D,3D和n维旋转的连续和不连续表示。我们证明,对于3D旋转,所有表示在实际欧几里德空间中的四维或更少维度是不连续的。因此,诸如四元数和欧拉角的广泛使用的表示是不连续的并且难以学习神经网络。我们证明3D旋转在5D和6D中具有连续表示,这更适合于学习。我们还给出了n维旋转组SO(n)的一般情况的连续表示。虽然我们的主要关注点是旋转,但我们也表明我们的结构适用于其他组,例如正交组和相似变换。我们最终给出了经验结果,表明我们的连续旋转表示在图形和视觉方面的几个实际问题上优于不连续旋转表示,包括简单的自动编码器健全性测试,3D点云的旋转估计,以及3D人体姿势的逆运动学求解器。
translated by 谷歌翻译
近年来,随着人工智能领域研究出版物的迅速普及,研究人员越来越难以有效地跟上一个人的所有最新研究成果。然而,历史表明,科学突破往往来自不同领域的研究人员的合作。传统的搜索算法,如词汇搜索,寻找字面匹配或查询词的同义词和变量,对于发现跨域研究论文和满足信息溢出时代的研究人员的需求是无效的。在本文中,我们开发并测试了一种创新的语义搜索引擎,类比搜索引擎(ASE),用于2000个AI研究论文摘要,涉及语言技术,机器人,机器学习,计算生物学,人机交互等领域.ASE结合了最近的理论和方法从计算类比和自然语言处理到超越基于关键词的词汇搜索,发现研究论文摘要之间更深层次的类比关系。我们通过实验证明,ASEis能够找到比基线弹性研究更有趣和有用的研究论文。此外,我们认为ASE中使用的方法超越了学术论文,并将使许多其他文档搜索任务受益。
translated by 谷歌翻译
尽管对生成对抗性网络(GAN)越来越感兴趣,但从理论和实际角度来看,训练GAN仍然是一个具有挑战性的问题。为了应对这一挑战,在本文中,我们提出了一种利用真实数据的独特几何结构的新方法,尤其是流形信息。更具体地说,我们设计了一种通过添加称为流量调节器的附加正则化项来规范GANtraining的方法。流形正则化器迫使发生器尊重实际数据流形的独特几何结构并生成高质量数据。此外,我们在理论上证明在任何一类GAN(包括DCGAN和Wasserstein GAN)中添加该正则化项导致在泛化方面的性能提高,存在均衡和稳定性。初步实验表明,所提出的流量规划有助于避免模式崩溃并导致稳定的训练。
translated by 谷歌翻译
由于姿势,面部质量,衣服,化妆等方面的差异很大,野外人物鉴定非常具有挑战性。传统的研究,如面部识别,人员重新识别和说话人识别,往往只关注单一的信息模式,这不足以处理实践中的所有情况。多模态人物识别是一种更有前景的方法,我们可以共同利用面部,头部,身体,音频特征等。在本文中,我们介绍了iQIYI-VID,这是用于多模态识别的最大视频数据集。它由5,000个名人的600K视频片段组成。这些视频片段是从400K小时的各种类型的在线视频中提取的,从电影,综艺节目,电视剧到新闻广播。 Allvideo剪辑通过仔细的人工注释过程,标签的错误率低于0.2%。我们在iQIYI-VIDdataset上评估了人脸识别,人员重新识别和说话人识别的最新模型。实验结果表明,这些模型对野外人员识别任务还远远不够。我们进一步证明了多模态特征的简单融合可以极大地改善人的识别。我们已在线发布数据集,以促进多模式人员识别研究。
translated by 谷歌翻译
对于细粒度分类任务,视频可以作为静态图像的更好来源,因为视频具有包含判别模式的更高机会。然而,视频序列也可能包含许多冗余和不相关的帧。如何定位感兴趣的关键信息是一项艰巨的任务。在本文中,我们提出了一种新的网络结构,称为冗余约简注意(RRA),它通过抑制冗余特征通道来学习专注于多重判别模式。具体来说,它首先通过对特征中所有特征向量进行加权求和来总结视频。具有时空软关注的所选帧的映射,然后根据所学习的非线性变换根据该摘要预测要抑制或增强的信道。通过调制特征图和脱粒弱激活来实现抑制。然后在下一次迭代中使用更新的特征映射。最后,视频根据多个摘要进行分类。所提出的方法在多个视频分类数据集中实现了卓越的性能。此外,我们还收集了两个大型视频数据集,YouTube-Birds和YouTube-Cars,用于未来对细粒度视频分类的研究。数据集可在http://www.cs.umd.edu/~chenzhu/fgvc获得。
translated by 谷歌翻译