视觉注意力预测是一个经典问题,似乎在深度学习时代得到了很好的体现。然而,一个引人注目的问题是随着现有视觉数据集的快速增长的性能得分逐渐增加:现有的深度模型是否真正捕捉到人类视觉注意力的内在机制?为了解决这个问题,本文提出了一个名为VASUN的新数据集,它记录了对太阳图像的自由观察人类注意力。与以前的数据集不同,VASUN中的图像包含许多不规则的视觉模式,现有的深层模型已经隐藏了这些模式。通过对VASUN上的现有模型进行基准测试,我们发现许多最先进的深模型的性能显着下降,而许多经典的浅模型表现令人印象深刻。从这些结果中,我们发现现有深度注意力模型的显着性能提升可能来自于记忆和预测某些特定视觉模式的发生而不是学习人类视觉注意的内在机制。此外,我们还在VASUN上训练了几个基线模型,以展示预测太阳视觉注意力的可行性和关键问题。这些基线模型与建议的数据集一起,可用于从与现有视角互补的新视角重新审视视觉注意力预测的问题。
translated by 谷歌翻译
在地面平台中,已经开发出许多显着性模型以像人类那样感知视觉世界。然而,它们可能不适合从许多异常观点看起来的dronet。为解决这一问题,本文提出了一种众包多路径网络(CMNet),用于传输航空视频中时空显着性预测的地面知识。为了训练CMNet,我们首先收集并融合24个subjectson 1,000个航拍视频的眼动追踪数据诠释地面真相的显着区域。受到眼动追踪实验中众包注释的启发,我们为CMNet设计了多路径架构,其中每条路径在经典地面显着性模型的监督下进行初始化。之后,以数据驱动的方式选择最具代表性的路径,然后将其融合并同时在航拍视频上进行微调。通过这种方式,可以将各种经典的地面显着性模型中的priorknowledge转移到CMNet,以提高其处理航空视频的能力。最后,通过时空显着优化算法对CMNet给出的空间预测进行自适应改进。 。实验结果表明,所提出的方法在预测航空视频中的视觉显着性方面优于十种最先进的模型。
translated by 谷歌翻译
由于不准确的检测和识别,自主车辆可能做出错误的决定。因此,智能车辆可以将自己的数据与其他车辆相结合,提高感知能力,从而提高检测精度和驾驶安全性。然而,多车协同感知要求现实世界场景的整合和原始传感器数据交换的流量远远超过现有车载网络的带宽。据我们所知,我们是第一个对原始数据级合作感知进行研究的人。提高自驾系统的检测能力。在这项工作中,依靠LiDAR 3D点云,我们完成了从连接车辆的不同位置和角度收集的传感器数据。提出了一种基于点云的三维物体检测方法,用于对齐点云的多样性。 KITTI和我们收集的数据集的实验结果表明,所提出的系统通过扩展感知区域优于感知,提高了检测精度并促进了增强结果。最重要的是,我们证明可以通过现有的车载网络技术传输用于协作感知的pointclouds数据。
translated by 谷歌翻译
条件生成对抗网络(GAN)中的对抗性损失未被设计为直接优化目标任务的评估度量,因此,可能不总是引导GAN中的生成器生成具有改进的度量分数的数据。为了克服这个问题,我们提出了一种新颖的MetricGAN方法,旨在针对一个或多个评估指标优化发电机。此外,基于MetricGAN,生成数据的度量分数也可以由用户任意指定。我们在语音增强任务上测试了所提出的MetricGAN,这特别适合于验证所提出的方法,因为存在多个度量来测量语音信号的不同方面。此外,这些指标通常是复杂的,并且无法通过Lp或传统的对抗性无法完全优化。
translated by 谷歌翻译
我们介绍了DeepICP--一种新颖的端到端学习型3D点云注册框架,可以达到与先进的几何方法相当的注册精度。与通常需要RANSAC程序的其他基于关键点的方法不同,我们实现了使用各种深度神经网络结构来建立端到端的可训练网络。我们的关键点检测器通过这种端到端结构进行训练,并使系统能够避免动态对象的推断,利用静止物体上足够显着特征的帮助,从而实现高稳健性。不是在现有点之间搜索相应的点,而是关键的贡献是我们基于一组候选者之间的学习匹配概率创新地生成它们,这可以提高注册准确性。我们的损失功能结合了局部相似性和全局几何约束,以确保所有上述网络设计能够朝着正确的方向收敛。我们使用KITTI数据集和Apollo-SouthBay数据集全面验证了我们方法的有效性。结果表明,我们的方法比最先进的基于几何的方法实现了可比较的或更好的性能。包括详细的消融和可视化分析,以进一步说明我们网络的行为和见解。低注册错误以及我们方法的高稳健性使其对依赖点云注册任务的实质性应用具有吸引力。
translated by 谷歌翻译
已经证明语法在神经机器翻译(NMT)中非常有效。先前的NMT模型通过表示来自训练有素的解析系统的1最佳树输出来集成语法,例如,可能遭受错误传播的代表性树-RNN和树线化方法。在这项工作中,我们提出了一种新的方法来隐式地为NMT整合源端语法。基本思想是使用经过训练的端到端依赖解析器的中间隐藏表示,这些表示被称为assyntax-aware word representationation(SAWR)。然后,我们简单地将这些SAWR与普通的单词嵌入连接起来,以增强基本的NMT模型。该方法可以直接集成到广泛使用的序列到序列(Seq2Seq)NMT模型中。我们从基于RNN的代表性Seq2Seq基线系统开始,分别测试我们提出的方法在中英文和英语 - 越南语翻译任务的两个基准数据集上的有效性。实验结果表明,与基线相比,该方法能够在两个数据集上显着提高BLEU得分,中英翻译分别为1.74分,英语 - 越南语翻译分别为0.80分。此外,该方法还优于显式树-RNN和树线性化方法。
translated by 谷歌翻译
图像生成在学术和工业领域引起了极大的关注,特别是对于有条件和面向目标的图像生成,例如犯罪肖像和时装设计。虽然目前的研究已经沿着这个方向取得了初步成果,但它们总是把重点放在类标签上,作为从潜在载体中随机生成空间内容的条件。边缘细节通常是模糊的,因为难以保留空间信息。鉴于此,我们提出了一种新颖的空间约束生成对抗网络(SCGAN),它将空间约束与潜在向量分离,并使这些约束可以作为附加的可控信号。为了增强空间可控性,生成器网络专门设计为逐步采用语义分割,潜在向量和属性级别标签作为输入。此外,构造分段网络以对发生器施加空间约束。在实验上,我们提供了CelebA和DeepFashion数据集的视觉和定量结果,并证明了所提出的SCGAN在控制空间内容以及生成高质量图像方面非常有效。
translated by 谷歌翻译
利用与人类感知相关的目标函数来训练一个增强模型已成为最近的一个热门话题。这主要是因为传统的均方误差(MSE)损失不能很好地反映听觉感知。在与人类感知相关的指标中,语音质量的感知评估(PESQ)是典型的,并且已被证明与人类评定的质量评分具有高度相关性。然而,由于其复杂且不可微分的特性,PESQ功能可能不会用于直接优化语音增强模型。在这项研究中,我们建议用近似的PESQ函数优化增强模型,该函数是可区分的,并从训练数据中学习。实验结果表明,与基于MSE的预训练模型相比,通过学习损失函数的增强语音微调的平均PESQ得分可以进一步提高0.1个点。
translated by 谷歌翻译
本文介绍了一种学习和检测3D形状的独特区域的新方法。与之前需要标记数据的作品不同,我们的方法是不受监督的。我们对从3D形状采样的点集进行分析,并在深度神经网络中进行无监督的形状聚类任务,以学习局部和全局特征,以区分相对于给定形状集的形状。为了使网络以无人监督的方式学习,我们设计了基于聚类的非参数softmax分类器,其具有形状的迭代聚类,以及用于增强特征嵌入质量和稳定学习过程的适应的对比损失。到那时,我们鼓励网络学习输入形状的点独特性。我们广泛地评估了我们方法的各个方面,并展示了它在3D场景中的独特引导形状检索,采样和视图选择的应用。
translated by 谷歌翻译
在大数据时代,从具有非常大的词汇量的分类特征(例如,用于Criteo点击预测数据集的2800万)中学习已成为机器学习研究人员和实践者的实际挑战。我们设计了一种高度可扩展的词汇压缩算法,旨在最大化压缩类别特征和目标二进制标签之间的互信息,并且我们进一步证明该解决方案保证在全球的$ 1-1 / e \约63 \%$因子内。最佳解决方案为实现这一点,我们引入了互信息目标的新颖参数化,我们证明了它是子模块,并设计了一个数据结构来查询子模块函数$ O(\ log n)$ time(其中$ n $是输入词汇量)尺寸)。我们的完整算法显示在$ O(n \ log n)$时间内运行。另外,我们设计了一个分布式实现,其中查询数据结构在$ O(k)$机器上分解,这样每台机器只需要$ O(\ fracn k)$空间,同时仍保留近似保证并仅使用对数轮计算。我们还提供了简单替代启发式压缩方法的分析,以证明它们无法实现任何近似保证。使用大规模的Criteo学习任务,与其他基线方法相比,我们在保留互信息方面表现出更好的性能,并验证了竞争性学习性能。
translated by 谷歌翻译