视觉定位是一个有吸引力的问题,它基于查询图像估计来自数据库图像的相似定位。它是各种应用的关键任务,例如自动驾驶汽车,辅助导航和增强现实。任务的挑战性问题在于查询和数据库图像之间的不同外观变化,包括照明变化,季节变化,动态对象变化和观点变化。为了应对这些挑战,本文提出了全景环形透镜和强大的深度图像描述符的全景环形定位器。处理由单个摄像机捕获的全景环形图像并将其馈送到NetVLAD网络中以形成活动的深度描述符,并且利用顺序匹配来生成定位结果。在公共数据集和现场进行的实验说明了所提出的系统的验证。
translated by 谷歌翻译
在现成的导航辅助设备上,定位精度仅限于全球导航卫星系统(GNSS)的信号误差。在户外旅行期间,不准确的本地化困扰视觉上受损的人,特别是在关键位置,例如大门,公共汽车站或十字路口。视觉定位是提高辅助设备定位精度的可行方法。利用多个图像描述符,本文提出了一种鲁棒有效的可视化局部算法,利用先验GNSS信号和多模态图像实现关键位置的精确定位。在实验中,我们在可穿戴系统上实现了该方法,并在实际场景下测试了可视化本地化的性能。
translated by 谷歌翻译
最近,综合学习的进展提出了合成图像的训练模型,可以有效地降低人力和物质资源的成本。然而,由于与真实图像相比合成图像的不同分布,所期望的性能仍然不能实现。真实图像由多种形式的光取向组成,而合成图像由均匀的光取向组成。这些特征分别被认为是室外和室内场景的特征。解决这个问题,前一种方法学会了一种模型来改善合成图像的真实感。与以往的方法不同,本文采用净化真实图像的第一步。通过风格转移任务,将室外真实图像的分布转换为室内合成图像,从而减少光的影响。因此,本文提出了一种区域时间风格转移网络,其保留了输入图像(真实图像)的图像内容信息(例如,注视方向,瞳孔中心位置),同时推断了风格图像的风格信息(例如,图像颜色结构,语义特征)。合成图像)。此外,网络加速了模型的收敛速度,并适应多尺度图像。使用混合研究(定性和定量)方法进行实验,以证明在复杂方向上纯化真实图像的可能性。定性地,将所提出的方法与LPW数据集的一系列室内和室外场景中的可用方法进行比较。在定量计中,它通过在交叉数据集上训练凝视估计模型来评估纯化图像。结果显示,与原始实际图像相比,基线方法有显着改进。
translated by 谷歌翻译
目前用于人类活动识别(HAR)的金标准基于相机的使用。然而,相机系统的可扩展性差使得它们在追求在移动计算环境中更广泛地采用HAR的目标上是不切实际的。因此,研究人员反而依赖于可穿戴传感器,特别是惯性传感器。一种特别流行的可穿戴设备是智能手表,由于其集成的惯性和光学传感能力,在非突出的路径中实现更好的HAR具有很大的潜力。如果通常在智能手表或类似设备中找到的腕式光学传感器可以用作数据可用性识别的有用来源,本文试图通过确定来简化可穿戴方法。该方法有可能消除对惯性传感元件的需求,这又会降低智能手表和健身追踪器的成本和复杂性。这可能潜在地考虑到HAR的硬件要求,同时保留来自单个光学传感器的心率监测和活动捕获的功能。我们的方法依赖于基于适当缩放的光信号图来采用用于活动识别的机器视觉。我们采用这种方法,以便产生易于由非技术用户解释和解释的分类。更具体地,使用光电容积描记器信号时间序列的图像来重新训练最初在ImageNet数据库上训练的卷积神经网络的倒数第二层。然后,我们使用来自倒数第二层的2048维特征作为支持向量机的输入。实验结果的平均分类准确率为92.3%。该结果优于光学和惯性传感器的组合(78%)并且使用...来说明HAR系统的能力。
translated by 谷歌翻译
最近使用深度神经网络的研究已经显示出非凡的转换,特别是对于艺术和照片般逼真的图像。然而,使用全局特征相关的方法无法捕获小的,复杂的纹理并且保持艺术品的正确纹理尺度,并且基于局部补丁的方法在全局效果上是有缺陷的。在本文中,我们提出了一个新颖的特征金字塔融合神经网络,称为GLStyleNet,它通过最佳聚合VGG网络中的层来充分考虑多尺度和多级金字塔特征,并分层执行样式转移,具有多个不同的损失。我们提出的方法从损失函数约束和特征融合两个方面保留了图像的高频像素信息和低频构造信息。我们的方法不仅可以灵活地调整内容和风格之间的交易,还可以在全局和本地之间进行控制。与最先进的方法相比,我们的方法不仅可以传递大规模,明显的风格线索,还可以传递微妙,精致的方法,并且可以大大提高风格转换的质量。我们展示了我们的肖像风格转移,艺术风格转移,照片写实风格转移和中国古代绘画风格转移任务的方法的有效性。实验结果表明,我们的统一方法比以往最先进的方法提高了图像样式传递质量,同时也在一定程度上加速了整个过程。我们的代码可在https://github.com/EndyWon/GLStyleNet上获得。
translated by 谷歌翻译
代词通常在诸如中文之类的支持语言中被省略,通常导致在完成翻译的产生方面的重大挑战。最近,王等人。 (2018)提出了一种新的基于重构的方法来减轻神经机器翻译模型的下降代词(DP)翻译问题。在这项工作中,我们从两个角度改进了原始模型。首先,我们采用共享的重构,更好地利用编码器和解码器表示。其次,我们共同学习以端到端的方式翻译和预测DP,以避免从外部DP预测模型传播的错误。实验结果表明,该方法显着提高了翻译性能和DP预测准确性。
translated by 谷歌翻译
Heterogeneous network embedding (HNE) is a challenging task due to the diverse node types and/or diverse relationships between nodes. Existing HNE methods are typically unsupervised. To maximize the profit of utilizing the rare and valuable supervised information in HNEs, we develop a novel Active Heterogeneous Network Embedding (Ac-tiveHNE) framework, which includes two components: Discriminative Heterogeneous Network Embedding (DHNE) and Active Query in Heterogeneous Networks (AQHN). In DHNE, we introduce a novel semi-supervised heterogeneous network embedding method based on graph convolutional neu-ral network. In AQHN, we first introduce three active selection strategies based on uncertainty and representativeness, and then derive a batch selection method that assembles these strategies using a multi-armed bandit mechanism. ActiveHNE aims at improving the performance of HNE by feeding the most valuable supervision obtained by AQHN into DHNE. Experiments on public datasets demonstrate the effectiveness of ActiveHNE and its advantage on reducing the query cost.
translated by 谷歌翻译
Given the collection of timestamped web documents related to the evolving topic, timeline summarization (TS) highlights its most important events in the form of relevant summaries to represent the development of a topic over time. Most of the previous work focuses on fully-observable ranking models and depends on hand-designed features or complex mechanisms that may not generalize well. We present a novel dynamic framework for evolutionary timeline generation leveraging distributed representations, which dynamically finds the most likely sequence of evolutionary summaries in the timeline, called the Viterbi timeline, and reduces the impact of events that irrelevant or repeated to the topic. The assumptions of the coherence and the global view run through our model. We explore adjacent relevance to constrain timeline coherence and make sure the events evolve on the same topic with a global view. Experimental results demonstrate that our framework is feasible to extract summaries for timeline generation, outperforms various competitive baselines, and achieves the state-of-the-art performance as an unsupervised approach.
translated by 谷歌翻译
直接学习点云的特征已成为3D理解中的一个活跃的研究方向。现有的基于学习的方法通常从点云构建局部区域,并使用共享的多层感知器(MLP)和最大池来提取相应的特征。然而,这些过程中的大多数并未充分考虑点云的空间分布,从而限制了感知细粒度图案的能力。我们设计了一种新颖的局部空间注意(LSA)模块,根据局部区域的空间分布自适应地生成注意力图。与这些注意力图集成的特征学习过程可以有效地捕获局部几何结构。我们进一步提出构建分支架构的空间特征提取器(SFE),以便更好地将空间信息与网络的每一层中的相关特征进行聚合。实验表明,我们的网络名为LSANet,可以达到与状态相同或更好的性能。评估具有挑战性的基准数据集时的最先进方法。源代码可从以下网址获得://github.com/LinZhuoChen/LSANet。
translated by 谷歌翻译
在本文中,我们专注于面部表情翻译任务,并提出一个新的表达式条件GAN(ECGAN),它可以学习基于一个额外的表达属性从一个图像域到另一个图像域的映射。所提出的ECGAN是通用框架,并且适用于不同的表达生成任务,其中特定的面部表情可以通过条件属性标签容易地控制。此外,我们还介绍了一种新颖的面膜,以减少背景变化的影响。此外,我们提出了在野外进行面部表情生成和识别的整个框架,其包括两个模块,即生成和识别。最后,我们在几个公共面部数据集上评估我们的框架,其中主体具有不同的种族,光照,遮挡,姿势,颜色,内容和背景条件。尽管这些数据集非常多样化,但定性和定量结果都表明我们的方法能够准确,稳健地生成面部表达。
translated by 谷歌翻译