视觉定位是一个有吸引力的问题,它基于查询图像估计来自数据库图像的相似定位。它是各种应用的关键任务,例如自动驾驶汽车,辅助导航和增强现实。任务的挑战性问题在于查询和数据库图像之间的不同外观变化,包括照明变化,季节变化,动态对象变化和观点变化。为了应对这些挑战,本文提出了全景环形透镜和强大的深度图像描述符的全景环形定位器。处理由单个摄像机捕获的全景环形图像并将其馈送到NetVLAD网络中以形成活动的深度描述符,并且利用顺序匹配来生成定位结果。在公共数据集和现场进行的实验说明了所提出的系统的验证。
translated by 谷歌翻译
测量来自观察样本的高维,连续,随机变量之间的互信息(MI)具有广泛的理论和实践应用。虽然传统的MI方法,如(Kraskov et al.2004),能够在低维信号之间捕获MI,但它们的维度不断增加,并且不具有可扩展性。现有的神经方法,如MINE(Belghazi等人,2018),搜索最大化互信息估计的变分下界的d维神经网络;然而,这需要O(d log d)观察样本以防止神经网络过度拟合。对于实际应用中的实际互信息估计,数据并不总是有剩余的,特别是在数据采集过于昂贵的情况下,例如infMRI分析。我们引入了可扩展的,数据有效的互信息估计器。通过将基于学习的MI下界视图与元学习相结合,DEMINE实现了高置信度估计,而与网络规模无关,并且在实际数据集大小上具有提高的准确性。我们证明了DEMINE在合成基准测试中的有效性以及fMRIinter-主题相关性分析的实际应用。
translated by 谷歌翻译
从诸如Instagram帖子之类的多模态数据计算作者意图需要建模文本和图像之间的复杂关系。例如,一个标题可以讽刺地反映在图像上,因此标题和图像都不是另一个的转录本。相反,他们结合 - 通过所谓的乘法 - 来创造一种新的意义,与文本和图像的字面意义有更复杂的关系。在这里,我们介绍1299 Instagram帖子的多模态数据集,标记为三个正交分析:图​​像标题对背后的作者意图,图像和标题的字面意义之间的语境关系,以及图像和标题的表示意义之间的这些关系。构建一个基线深度多模式分类器来验证分类法,表明与仅使用图像模态相比,同时使用文本和图像可以将意图检测提高8%,从而证明了非交叉意义乘法的共性。我们的数据集为研究文本和图像配对带来的丰富意义提供了重要资源。
translated by 谷歌翻译
我们提出了一种新的RBGD流数据三维分割方法,用于处理频繁对象交互的一般场景中的三维对象分割任务。它主要有两个方面,一般是通用而不需要初始化:首先,提出了一种新的树形结构表示场景的点云。然后,连接组件拆分和合并的动态管理机制利用树结构表示。
translated by 谷歌翻译
排名是电子商务推荐系统的核心任务,旨在向用户提供有序的项目列表。通常,从标记的数据集中获取排名函数以优化全局性能,其产生每个单独项目的排名分数。但是,它可能是最优的,因为评分函数单独应用于每个项目,并且没有明确考虑项目之间的相互影响,以及用户偏好或意图的差异。因此,我们提出了一种用于电子商务推荐系统的个性化情境感知重新排序模型。通过直接使用现有的排名特征向量,可以容易地将所提出的重新排序模型作为后续模块进行排序。它通过使用变换器结构有效地编码列表中所有项目的信息来直接优化整个推荐列表。具体而言,Transformer应用自我关注机制,直接模拟整个列表中任何项目对之间的全局关系。除此之外,我们引入个性化嵌入来模拟不同用户的特征分布之间的差异。在线基准测试和现实世界在线电子商务系统的实验结果证明了所提出的重新排序模型的显着改进。
translated by 谷歌翻译
根据历史行为对用户的动态和不断变化的偏好进行建模对于推荐系统而言具有挑战性和关键性。先前的方法采用顺序神经网络(例如,递归神经网络)来将用户从左到右的历史交互编码为隐藏的代表以用于提出推荐。尽管这些方法取得了令人满意的结果,但它们通常采用严格有序的序列,这种方法并不实用。我们认为这种从左到右的单向架构限制了历史序列表示的力量。为此,我们引入了变压器的双向编码器表示,用于顺序推荐(BERT4Rec)。然而,在深度双向模型中对左右上下文的共同调节将使训练变得微不足道,因为每个项目可以间接地“看到目标项目”。为了解决这个问题,我们使用Cloze任务训练双向模型,通过联合调整其左右上下文来预测序列中的蒙版项。与预测序列中每个位置的下一个项目相比,Cloze任务可以生成更多样本来训练更强大的双向模型。对四个基准数据集的广泛实验表明,我们的模型始终优于各种最先进的顺序模型。
translated by 谷歌翻译
大多数现有的房地产评估方法都侧重于从给定数据集建立准确性和可靠模型,但很少关注其训练模型的可扩展性。由于不同的城市通常包含不同的地理位置特征(地区名称,公寓名称),因此必须在不同的城市或地区从头开始训练新的模型。因此,这些方法需要对每个城市进行大量的数据收集,并且多城市房地产评估系统的总培训时间将非常长。此外,一些小城市可能没有足够的数据来培养强大的评估模型。为了克服这些限制,我们开发了一种新颖的同质特征转移和异构位置微调(HFT + HLF)跨城市财产评估框架。通过从源城市转移部分神经网络学习并微调目标城市的少量位置信息,与完全监督的人工神经网络(ANN)方法相比,oursemi监督模型可以实现类似甚至更好的性能。
translated by 谷歌翻译
虽然深度学习在某些疾病的标签和严重程度分类方面表现出了成功的表现,但大多数都没有提供如何做出预测的证据。在这里,我们建议利用深度学习应用在医学诊断中的可解释性。受Koch's Postulate的启发,这是一种众所周知的医学研究策略,用于识别病原体的特性,我们定义了一种可从糖尿病视网膜病变检测器的活化神经元中提取的病理描述符。为了可视化该描述符中编码的症状和特征,我们提出了一种基于GAN的方法,用于在给定描述符和二元血管分割的情况下合成病理学视网膜图像。此外,通过这个描述符,我们可以任意地操纵病变的位置和数量。经由5位特许眼科医生组成的小组验证,我们的合成图像具有与糖尿病视网膜病变诊断直接相关的症状。小组调查还显示,我们生成的图像在质量和数量上都优于现有方法。
translated by 谷歌翻译
电子商务赞助搜索是该商业公司收入的重要组成部分。考虑到有效性和效率,大规模赞助搜索系统通常采用多阶段架构。我们将这些阶段命名为\ textit {ad retrieval},\ textit {ad pre-ranking}和\ textit {ad ranking}。 \ textit {广告检索}和\ textit {广告预排名}在本文中统称为\ textit {ad matching}。我们提出了端到端神经匹配框架(EENMF)来模拟两个方面--- \ textit {基于矢量的广告检索}和\ textit {基于神经网络的adpre-ranking}。在深度\ textit {matching}框架下,\ textit {vector-basedad retrieval}利用用户最近的行为序列来检索相关的adcandidates而不受关键字出价的约束。同时,深度模型用于有效且高效地从多个检索路径执行广告候选的全局预排序。此外,所提出的模型试图优化逐点交叉熵损失,这与排序阶段预测模型的目标一致。我们进行广泛评估以验证拟议框架的绩效。在大规模电子商务赞助搜索的实际交通中,所提议的方法显着优于基线。
translated by 谷歌翻译
频谱图卷积网络(GCN)是用于学习图形结构数据的卷积网络的推广。光谱GCN的应用已经取得了成功,但仅限于固定图形的一些问题,例如形状对应和节点分类。在这项工作中,我们通过重新审视特定的谱图网络系列Chebyshev GCN来解决这一局限性,显示其在解决具有可变图形结构和大小的图形分类任务方面的功效。 Chebyshev GCNsrestrict图表在任何节点对之间至多有一条边。为此,我们提出了一种从多关系图中学习的新型多图网络。我们用抽象的意义模拟学习的边缘,并用不同的方法进行实验,以融合从注释和学习中提取的表示,从而在各种化学分类基准上获得竞争结果。
translated by 谷歌翻译