为了解决深度生成模型学习中的挑战(例如,变分自动编码器的瑕疵和训练生成对抗网络的不稳定性,我们提出了一种新的深度生成模型,名为Wasserstein-Wasserstein自动编码器(WWAE)。我们制定了WWAE的最小化目标分布和生成的分布之间的惩罚最佳传输。通过注意到潜在代码Z的先前$ P_Z $和聚合后验$ Q_Z $可以被高斯人很好地捕获,所提出的WWAE利用方形的Wasserstein的封闭形式 - 因此,WWAE不会受到采样负担的影响,并且通过利用重新参数化技巧在计算上是有效的。数值结果在多个基准数据集上进行了评估,包括MNIST,时尚-MNIST和CelebA表明WWAE学习得更好。结构比VAE和生成更好的视觉质量和更高的样本r FID得分超过VAE和GAN。
translated by 谷歌翻译
为了获得用于移动机器人的本地化和规划的基于紧凑线段的地图表示,有必要合并冗余线段,其在物理上代表环境无关扫描的相同部分。在本文中,提出了一种一致且有效的冗余中文合并方法(CAE-RLSM)用于在线特征地图构建。建议的CAE-RLSM由两个新提出的模块组成:一对多增量线段合并(OTM-ILSM)和多处理全局映射调整(MP-GMA)。与最先进的离线合并方法不同,所提出的CAE-RLSM可以实现实时的映射性能,不仅可以降低高效率的增量合并冗余,还可以解决循环闭合后全局映射调整的问题。全球一致性。此外,为线段图的质量评估提出了一种新的相关性基础评估度量。该评估度量不需要手动测量环境度量信息,而是充分利用通过同时定位和映射(SLAM)获得的全局一致的激光器。系统以客观公正的方式比较不同基于线段的映射方法的性能。基于平均移位的离线冗余线段合并方法(MS-RLSM)和一对一增量线段合并方法(OTO-ILSM)的离线版本对公共数据集和自记录的比较实验结果数据集显示了CAE-RLSM在不同情景下的效率和地图质量方面的卓越性能。
translated by 谷歌翻译
持续学习是指代理人不断提高多个任务的能力。虽然最近在连续学习文献中的工作主要集中在开发特定的损失函数或解释发作记忆或神经可塑性的神经网络的专门结构,但我们从训练机制的角度研究了持续学习。具体来说,我们提出了一个COnitnual Match BAsedTraining(COMBAT)框架,用于在Pommerman培训一群优势 - 行为 - 评论家(A2C)代理,这是一个没有沟通的部分可观察的多代理环境。遵循COMBAT框架,我们培训了一个代理商,即Navocado,在NeurIPS 2018Pommerman竞赛中获得了前1名学习代理的称号。我们的代理人的两个关键特征值得一提。首先,我们的代理人没有从任何示威中学到东西。其次,我们的代理商具有高度可重复性。作为技术报告,我们阐述了状态空间,动作空间,奖励的设计,最重要的是,我们的Pommerman代理的COMBAT框架。我们在实验中表明,Pommerman是研究持续学习的完美环境,并且代理人可以通过不断忘记旧技能来不断学习新技能来提高其绩效。最后,Pommerman竞赛中的结果验证了ouragent在与各种对手竞争时的稳健性。 。
translated by 谷歌翻译
鉴于对人类生活的不同类型的限制,人们必须做出满足社会活动需求的决策。最大限度地降低与旅行相关的成本(即距离,时间或金钱)在感知和实现的社会生活质量中起着重要作用。当存在具有时空约束的多个移动对象(MMO)时,识别在线网络上的最佳交互位置仍然是一个挑战。在本研究中,我们将MMO作为空间优化模型的动态理想交互位置的形式化,并引入基于上下文的地理处理启发式框架来解决这个问题。作为概念证明,一个案例研究涉及在交通条件下识别多人的聚会地点,用于验证拟议的地理处理框架。已经测试了关于有效最短路径搜索空间的五种启发式方法。我们发现基于R *树的算法在高质量解决方案和低计算时间下表现最佳。该框架在GIS环境中实现,以便在动态搜索理想的聚会场所时促进与外部地理上下文信息的集成,例如临时道路障碍,兴趣点(POI)和实时交通信息。所提出的方法可以应用于旅行计划,拼车服务,协作交互和物流管理。
translated by 谷歌翻译
深层强化学习已经广泛应用于机器人领域,最近研究运动和抓取等任务,但将其应用于社会机器人仍然是一个挑战。在本文中,我们提出了一个深度学习方案,在模拟器中获取先前的机器人行为模型作为第一阶段,通过学习随后的物理机器人的实际交互进一步细化。该计划,我们称之为分阶段社交行为学习(SSBL),考虑社交场景中不同的学习阶段。在此方案的基础上,我们实现了机器人接近行为,由F形成的小组进行,并使用客观和主观测量来评估不同配置的性能。我们发现,与最先进的模型(即社会力量模型)相比,我们的模型产生了更具社会关注性的行为。我们还建议SSBL可以应用于广泛的社会机器人应用。
translated by 谷歌翻译
本报告展示了我们针对Open Images 2018 Challenge的解决方案。基于对Open Image Datasets(OID)的详细分析,发现有四个典型特征:大规模,分层标签系统,严重的注释不完整性和数据不平衡。考虑到这些特性,采用了一些策略,包括SNIPER,软件采样,类感知采样(CAS),分层非最大抑制(HNMS)等。凭借这些有效的策略,并进一步使用功能强大的SENet154配备功能金字塔模块和可变形ROIalignas骨干,我们最好的单一模型可以实现56.9%的mAP。经过9个模型的进一步合作后,最终的mAP在公共排行榜(排名第2位)和58.6%在私人排行榜中排名第62位(排名第3位,略低于第1位仅0.04分)。
translated by 谷歌翻译
基于相关滤波器(CF)的跟踪算法最近表现出良好的性能。然而,顶级性能跟踪器总是采用复杂的优化方法来约束它们的实时应用。如何在保持跟踪精度的同时加快跟踪速度是一个重要的问题。在本文中,我们提出了一种基于CF的多级跟踪方法,名为MLCFT,它进一步探索了CF在两级检测中的潜在容量:原始检测和定向重新检测。级联检测方案很简单,但能够防止模型漂移并加快速度。介绍了一种基于相对熵的有效融合方法,将卷积神经网络(CNN)深层和浅层的互补特征结合起来。此外,我们的跟踪器采用了新颖的在线模型更新策略,进一步提高了跟踪性能。实验结果表明,我们提出的方法优于大多数最先进的跟踪器,同时在有挑战性的基准测试中以超过每秒16帧的速度进行跟踪。
translated by 谷歌翻译
视觉跟踪是计算机视觉最重要的应用领域之一。目前,大多数算法主要在PC上实现,在实际场景中应用时很难保证实时性能。为了提高跟踪速度,降低视觉跟踪的整体功耗,本文提出了一种基于DSST(判别标度空间跟踪)方法的实时视觉跟踪算法。我们基于我们提出的视觉跟踪算法在Xilinx XC7K325T FPGA平台上实现硬件系统。我们的硬件系统可以在153帧以上运行。为了减少资源占用,我们的系统在特征提取模块中采用批处理方法。在滤波器处理模块中,FFT IP内核是时分复用的。因此,我们的硬件系统分别使用33%和40%的LUT和存储块。测试结果表明,所提出的视觉跟踪硬件系统具有良好的性能。
translated by 谷歌翻译
深度强化学习和机器人技术的最新进展是由于越来越现实和复杂的仿真环境的存在而推动的。然而,现有的许多平台提供了不切实际的视觉效果,不准确的物理特性,低任务复杂性或者人工代理的交互能力有限。此外,许多平台缺乏适当配置模拟的能力,因此从学习系统的角度将模拟环境转变为黑盒子。在这里,我们描述了一个新的开源工具包,用于使用Unity平台创建和与模拟环境交互:Unity ML-Agents Toolkit。通过利用Unity作为仿真平台的优势,该工具包可以开发具有丰富的感官和物理复杂性的学习环境,提供引人注目的认知挑战,并支持动态的多代理交互。我们详细介绍了平台设计,通信协议,一组示例环境以及通过该工具包实现的各种培训方案。
translated by 谷歌翻译
评估生成性对抗网络(GAN)具有内在的挑战性。在本文中,我们重新审视了几个基于样本的代表性GAN评估度量,并解决了如何评估评估度量的问题。我们从指标的一些必要条件开始,以产生有意义的分数,例如区分真实样本和生成样本,识别模式丢弃和模式折叠,以及检测过度拟合。 Witha系列精心设计的实验,我们全面调查现有的基于样本的指标,并在实际环境中确定其优势和局限性。基于这些结果,我们观察到内核最大平均差异(MMD)和1-最近邻(1-NN)双样本测试似乎满足大多数理想的属性,前提是样本之间的距离是在合适的特征空间中计算的。我们的实验还揭示了几个流行的GAN模型的行为的有趣属性,例如它们是否记忆训练样本,以及它们在多大程度上不会影响目标分布。
translated by 谷歌翻译