视觉定位是一个有吸引力的问题,它基于查询图像估计来自数据库图像的相似定位。它是各种应用的关键任务,例如自动驾驶汽车,辅助导航和增强现实。任务的挑战性问题在于查询和数据库图像之间的不同外观变化,包括照明变化,季节变化,动态对象变化和观点变化。为了应对这些挑战,本文提出了全景环形透镜和强大的深度图像描述符的全景环形定位器。处理由单个摄像机捕获的全景环形图像并将其馈送到NetVLAD网络中以形成活动的深度描述符,并且利用顺序匹配来生成定位结果。在公共数据集和现场进行的实验说明了所提出的系统的验证。
translated by 谷歌翻译
从图像中自动消除雨水效果有许多应用,例如自动驾驶,无人机驾驶和照片编辑,并且仍然吸引了许多人的注意力。传统方法使用启发式手工制作各种先验,以从图像中移除或分离雨效果。最近提出了基于端到端深度学习的去除方法以提供更大的灵活性和有效性。然而,当遇到大雨的图像时,它们往往不会获得良好的视觉效果。大雨带来了不仅有雨的条纹,还有由于微小雨滴积聚而产生的雾状效应。与以往的去除方法不同,在本文中,我们使用新的雨模型来模拟雨水图像,不仅可以去除雨水条纹,还可以消除类似雾霾的效果。在我们的模型的指导下,我们设计了一个双分支网络来容忍其参数。然后,联合训练SPP结构以改进我们模型的结果,以便灵活地控制去除雾状效果的程度。此外,提出了一种可以定位雨天像素的子网,以指导我们的网络训练。在几个数据集上的广泛实验表明,我们的方法在目标评估和视觉质量方面都优于最先进的技术。
translated by 谷歌翻译
我们提出了一个结合了分层规划和机器学习的思想的导航系统。该系统使用传统的全局规划器来计算朝向目标的最佳路径,并使用深度局部轨迹规划器和速度控制器来计算运动命令。系统的后者组件通过注意机制调整机器人的行为,使其朝向目标移动,避开障碍物,并尊重近距离行人的空间。所提出的深度模型的结构和使用注意机制都使得系统的执行可以解释。我们的仿真实验表明,所提出的架构优于基线,可以将全局计划信息和传感器数据直接映射到velocitycommands。与手工设计的传统导航系统相比,所提出的方法表现出更一致的性能。
translated by 谷歌翻译
一次性神经结构搜索(NAS)是一种很有前途的方法,可以在不进行任何单独培训的情况下显着缩短搜索时间。它可以作为来自过度参数化网络的体系结构参数的网络压缩问题。但是,大多数一次性NAS方法存在两个问题。首先,节点与其前身和后继者之间的依赖关系经常被忽视,这导致对零操作的不当处理。其次,基于他们的高度修剪架构参数是值得怀疑的。在本文中,我们采用经典的贝叶斯学习方法,通过使用分层自动相关性确定(HARD)先验建模体系结构参数来缓解这两个问题。与其他NAS方法不同,我们仅为一个训练过度参数化网络,然后更新体系结构。令人印象深刻的是,这使我们能够在使用单个GPU的0.2个GPUdays内在CIFAR-10上的代理和无代理任务中找到架构。作为副产品,我们的方法可以直接转移到压缩卷积神经网络,通过强制执行结构稀疏性,实现极其稀疏的网络而不会出现准确的恶化。
translated by 谷歌翻译
遮挡和姿势变化可以显着改变面部外观,是自动面部表情识别(FER)的两个主要障碍。尽管自动FER在过去几十年中取得了实质性进展,但FER的阻塞 - 稳健和姿势不变问题已经得到相对较少的关注,尤其是在真实场景中。本文通过三重贡献解决了真实世界的姿势和遮挡强大的FER问题。首先,为了激发FER在现实世界的遮挡和变异姿势的研究,我们为社区建立了几个带有手动注释的野外面部表情数据集。其次,我们提出了一种新颖的区域注意网络(RAN),以自适应地捕捉面部区域的重要性以进行遮挡和姿势变异FER。 RAN将骨干卷积神经网络产生的不同数量的区域特征聚合并嵌入到紧凑的固定长度表示中。最后,受面部表情主要由面部单位定义这一事实的启发,我们提出了一个区域偏见的损失,以鼓励对最重要区域的高度重视。我们在构建的测试数据集和四个流行数据集上验证了我们的RAN和区域偏差损失:FERPlus,AffectNet,RAF-DB和SFEW。大量实验表明,我们的RAN和区域偏差在很大程度上改善了FER的闭塞和变形性能。我们的方法还在FERPlus,AffectNet,RAF-DB和SFEW上实现了最先进的结果。代码和收集的测试数据将公开提供。
translated by 谷歌翻译
本文介绍了一种新的统一预训练语言模型(UniLM),可以对自然语言理解和生成任务进行微调。该模型使用三种类型的语言建模目标进行预训练:单向(从左到右和从右到左),双向和序列到序列预测。通过使用共享的变压器网络并利用特定的自注意掩模来控制预测条件的上下文来实现统一建模。我们可以将UniLM微调为单向解码器,双向编码器或序列到序列模型,以支持各种下游自然语言理解和生成任务。 UniLM在GLUE基准测试和SQuAD 2.0和CoQA问题回答任务方面优于BERT。此外,我们的模型在三个自然语言生成任务上实现了最新的结果,包括将CNN / DailyMail抽象概括ROUGE-L提高到40.63(2.16绝对改进),推动CoQA生成问题回答F1得分为82.5(绝对值37.1)改进)和SQUAD问题代BLEU-4到22.88(6.50绝对改进)。
translated by 谷歌翻译
Text effects are combinations of visual elements such as outlines, colors and textures of text, which can dramatically improve its artistry. Although text effects are extensively utilized in the design industry, they are usually created by human experts due to their extreme complexity, which is laborious and not practical for normal users. In recent years, some efforts have been made for automatic text effects transfer, however, the lack of data limits the capability of transfer models. To address this problem, we introduce a new text effects dataset, TE141K, with 141,081 text effects/glyph pairs in total. Our dataset consists of 152 professionally designed text effects, rendered on glyphs including English letters, Chinese characters, Arabic numerals, etc. To the best of our knowledge, this is the largest dataset for text effects transfer as far. Based on this dataset, we propose a baseline approach named Text Effects Transfer GAN (TET-GAN), which supports the transfer of all 152 styles in one model and can efficiently extend to new styles. Finally, we conduct a comprehensive comparison where 14 style transfer models are benchmarked. Experimental results demonstrate the superiority of TET-GAN both qualitatively and quantitatively, and indicate that our dataset is effective and challenging. Index Terms-Text effects, style transfer, deep neural network, large-scale dataset, model benchmarking.
translated by 谷歌翻译
在本文中,我们提出了硬人身份挖掘(HPIM),它试图通过硬实例挖掘来提高人员识别的探索效率。它受到以下观察的推动:一些人分享的属性越多,分离他们的身份就越困难。基于这种观察,我们通过传递的属性描述器开发HPIM,这是一种深度多属性分类器,是从源noisyperson属性数据集训练而来的。我们将每个图像编码为目标人物重新ID数据集中的属性概率描述。然后在属性代码空间中,我们将每个人视为分布,以在不同的实际场景中生成特定于视图的属性代码。因此,我们将特定于人的统计矩从第零到高阶进行估计,这些统计矩进一步用于计算人与人之间的中心矩差异。这种差异是选择硬性身份来组织适当的小批量的基础,而不涉及改变内部学习的人物代表性。它作为硬实例挖掘的补充工具,有助于探索由随机抽样身份构建的小批量中的全局而不是本地硬实例约束。两个人重新识别基准的广泛实验验证了我们提出的算法的有效性。
translated by 谷歌翻译
我们研究了具有{\ it any}状态和动作空间的有限时间确定性控制系统的在线强化学习。假设过渡动态和奖励函数是未知的,但状态和动作空间被赋予一个度量,该度量表征不同状态和动作之间的接近度。我们提供了一种令人惊讶的简单的上信心增强学习算法,该算法使用函数逼近oracle来从经验中评估乐观的Q函数。我们表明,$ K $剧集后算法的遗憾是$ O(HL(KH)^ {\ frac {d-1} {d}})$其中$ L $是asmoothness参数,$ d $是倍增状态 - 动作空间相对于给定度量的维度。我们还建立了一个近匹配的下界。所提出的方法可以适用于更多结构化的过渡系统,包括有限状态情况和其中值函数是特征的线性组合,其中该方法也实现最佳遗憾。
translated by 谷歌翻译
艺术文本样式转移是将样式从源图像迁移到目标文本以创建艺术字体的任务。最近的样式转移方法考虑了纹理控制以增强可用性。然而,在形状变形方面控制风格程度仍然是一个重要的开放挑战。在本文中,我们提出了第一个文本样式转移网络,它允许通过可调参数实时控制字形的关键文体度。我们的关键贡献是新的双向形状匹配框架,以在不同的变形水平上建立有效的雕文式映射而没有成对的基础事实。基于这个想法,我们提出了一个尺度可控模块,使单个网络能够连续表征多尺度形状特征ofstyle图像并将这些功能传输到目标文本。所提出的方法在生成多样,可控和高质量的程式化文本方面证明了其优于先前技术水平的优越性。
translated by 谷歌翻译