现有的序数嵌入方法通常遵循两阶段例程:首先使用异常检测来挑选不一致的比较;然后从清洁数据中学习嵌入。然而,众所周知,以多级方式学习会受到次优解决方案的影响。在本文中,我们提出了一个统一的框架来共同识别受污染的比较并获得可靠的嵌入。我们的方法的优点是三重:(1)通过提出的统一框架,传统方法的次优性大大减轻; (2)所提出的方法通过最小化相应的成本来了解全局不一致性,而传统方法仅涉及局部不一致性; (3)我们采用精确的秩等式约束解决方案,而不是考虑核规范启发式。我们的研究得到了模拟样本和实际数据的实验支持。拟议的框架为我们提供了一个有希望的工具,可以从污染的比较中进行强有力的序数嵌入。
translated by 谷歌翻译
在缺乏先验知识的情况下,序数嵌入方法通过一组四次比较获得低维欧氏空间中项目的新表示。这些序数比较通常来自人类注释者,并且充分的比较会引起经典语言的成功。然而,收集大量标记数据被称为一项艰巨的任务,并且大多数现有工作很少关注样本不足的概括能力。同时,大边际理论的最新进展表明,不仅仅是最小化最小保证金,边际均值和方差(表征边际分布)对整体泛化绩效更为重要。针对训练样本不足的问题,我们提出了一种序数嵌入的边缘分布学习范式,名为DistributionalMargin based Ordinal Embedding(\ textit {DMOE})。确切地说,我们首先定义序数嵌入问题的保证金。其次,我们制定了一个简洁的目标函数,它避免了最大化边际均值和最小化边际变异,但表现出类似的效果。此外,基于AugmentedLagrange Multiplier的算法可以自定义,以有效地寻找\ textit {DMOE}的最佳解决方案。提供了模拟和现实世界数据集的实验研究,以显示所提算法的有效性。
translated by 谷歌翻译
大多数现有的工作都是以图像中的自然语言短语为基础,假设所讨论的短语与图像相关。在本文中,我们讨论了一个更加真实的自然语言背景任务版本,我们必须确定该短语是否与图像相关并将该词组本地化。这也可以被视为对开放式词汇表的对象检测的概括,主要是引入少量和零射击检测的元素。我们为此任务提出了一个短语R-CNN网络,它扩展了更快的R-CNN以关联图像区域和短语。通过使用规范相关分析(CCA)仔细初始化我们网络的分类层,我们鼓励在相似短语之间进行推理时更加清晰的解决方案,导致与两个流行的短语接地数据,Flickr30K实体和引用游戏的天真适应相比,性能超过两倍,测试时间短语词汇分别为5K和39K。
translated by 谷歌翻译
自大数据分析和图形处理单元(GPU)提出以来,深度学习技术受到了极大的关注,并在图像处理领域得到了广泛的应用。在本文中,我们的目的是全面回顾和总结近年来提出的图像去噪深度学习技术。此外,我们系统地分析了用于图像去噪的传统机器学习方法。最后,我们指出了图像去噪中深度学习技术的一些研究方向。
translated by 谷歌翻译
事实证明,语言模型预训练对于学习通用语言表示非常有用。作为最先进的语言模型预训练模型,BERT(变形金刚的双向编码器表示)在许多语言理解任务中取得了惊人的成果。在本文中,我们进行了详尽的实验,以研究BERT在文本分类任务上的不同微调方法,并为BERTfine调整提供一般解决方案。最后,所提出的解决方案在八个广泛研究的文本分类数据集上获得了新的最新结果。
translated by 谷歌翻译
在本文中,我们专注于面部表情翻译任务,并提出一个新的表达式条件GAN(ECGAN),它可以学习基于一个额外的表达属性从一个图像域到另一个图像域的映射。所提出的ECGAN是通用框架,并且适用于不同的表达生成任务,其中特定的面部表情可以通过条件属性标签容易地控制。此外,我们还介绍了一种新颖的面膜,以减少背景变化的影响。此外,我们提出了在野外进行面部表情生成和识别的整个框架,其包括两个模块,即生成和识别。最后,我们在几个公共面部数据集上评估我们的框架,其中主体具有不同的种族,光照,遮挡,姿势,颜色,内容和背景条件。尽管这些数据集非常多样化,但定性和定量结果都表明我们的方法能够准确,稳健地生成面部表达。
translated by 谷歌翻译
基于秩的学习与深度神经网络已被广泛用于图像策划。然而,基于排名的方法的表现往往很差,这主要是由于两个原因:1)图像裁剪是一种列表排序任务而不是成对比较; 2)由汇集层引起的重新缩放和视图生成中的变形损害了组合学习的性能。在本文中,我们开发了一个新的模型来克服这些问题。为了解决第一个问题,我们将图像裁剪制定为列表方向问题,以找到最佳视图组合。对于第二个问题,提出了定义视图采样(称为RoIRefine)来提取候选视图生成的精细特征映射。给定一系列候选视图,所提出的模型学习视图的前1概率分布并获得最佳视图。通过整合精确抽样和列表排名,所提出的称为LVRN的网络实现了最先进的性能,包括不准确性和速度。
translated by 谷歌翻译
神经程序嵌入已显示出有助于分析大规模复杂软件的潜力。新提出的深度神经架构主要用于学习程序语义而不是表面的语法特征。但是,通过仅考虑源代码,绝大多数神经网络都无法捕获程序语义的深度,精确表示。在本文中,我们提出了\ dypro,一种从程序执行轨迹中学习的新型深度神经网络。与priordynamic模型相比,\ dypro不仅能够通过多个执行来概括整个程序的动态语义,而且在处理产生长行程跟踪的程序时,\ dypro也更有效。为了评估,我们使用语义分类任务\ dypro(即基于其语义对程序进行分类),并将其与两个突出的静态模型进行比较:门控图神经网络和TreeLSTM。我们发现\ dypro在所有模型中实现了最高的预测精度。进一步揭示了所有上述深度神经架构的能力,我们检查模型是否可以学习如何检测程序的更深层次的语义属性。特别是考虑到识别循环不变量的任务,我们显示\ dypro大幅度地击败所有静态模型。
translated by 谷歌翻译
在本文中,我们提出了一个新的计算机视觉任务,名为视频实例分割。此新任务的目标是同时检测,分割和跟踪视频中的实例。用语言来说,这是第一次将图像实例分割问题扩展到视频域。为了完成这项新任务的研究,我们提出了一个名为YouTube-VIS的大型基准测试,它包括2883个高分辨率YouTube视频,40个类别的标签集和131k高质量的实例掩码。此外,我们为此任务提出了一种名为MaskTrack R-CNN的新算法。我们的新方法引入了一个新的跟踪分支到Mask R-CNN,以同时共同执行检测,分割和跟踪任务。最后,我们对我们的新数据集评估了所提出的方法和几个强大的基线。实验结果清楚地证明了所提算法的优点,并揭示了对未来改进的洞察力。我们相信视频实例细分任务将激励社区沿着研究视频理解的路线。
translated by 谷歌翻译
越来越多的城市数据和先进的学习技术使人们能够提高城市功能的效率。其中,提高城市交通效率是最突出的主题之一。最近的研究已经提出使用强化学习(RL)堡垒信号控制。与传统的运输方式不同,后者严重依赖于先验知识,RL可以直接从反馈中学习。另一方面,如果没有仔细的模型设计,现有的RL方法通常需要很长时间才能收敛,学习的模型可能无法适应新的场景。例如,训练良好的交通流量的模型可能不适用于下午的交通,因为交通流量可能会被逆转,从而导致非常不同的状态表示。在本文中,我们提出了一种名为FRAP的新颖设计,它基于交通信号控制中相位竞争的直观原则:当两个交通信号发生冲突时,应优先考虑交通流量较大的一个(即需求较高)。通过相位竞争建模,我们的模型对于诸如翻转和旋转内部流动的对称情况不变。通过进行综合实验,我们证明了我们的模型在复杂的全相选择问题中找到了比现有RL方法更好的解决方案,在训练期间收敛得更快,并且在不同的道路结构和交通条件下实现了更高的普遍性。
translated by 谷歌翻译