在本文中,我们提出了一个新的实体关系提取任务范例。我们将任务转换为多回合问题回答问题,即,实体和关系的提取被转换为从上下文识别答案跨度的任务。这种多转QA形式化有几个关键优势:首先,问题查询编码我们想要识别的实体/关系类的重要信息;其次,QA提供了一种自然的方式来联合建模实体和关系;第三,它允许我们利用完善的机器阅读理解(MRC)模型。在ACE和CoNLL04公司的实验表明,所提出的范例明显优于以前的最佳模型。我们能够获得所有ACE04,ACE05和CoNLL04数据集的最新结果,增加了三个数据集的SOTA结果49.6(+1.2),60.3(+0.7)和69.2(+1.4) , 分别。此外,我们构建了一个新开发的数据集RESUME,它需要多步推理来构造实体依赖关系,而不是先前数据集中三元组提取中的单步依赖提取。提出的多转QA模型也在RESUME数据集上实现了最佳性能。
translated by 谷歌翻译
近年来,可以自然地集成节点信息和拓扑结构的图形神经网络(GNN)已经被证明在学习图形数据方面具有很强的功能。 GNN的这些优点为推进社交推荐提供了巨大的潜力,因为社交推荐系统中的数据可以表示为用户 - 用户社交图和用户 - 项图;和学习用户和项目的潜在因素是关键。然而,构建基于GNN的社交调度系统面临挑战。例如,user-itemgraph对交互及其相关意见进行编码;社会关系有不同的优势;用户涉及两个图(例如,用户 - 用户社会图和用户 - 项图)。为了同时解决上述三个挑战,在本文中,我们提出了一个新的图神经网络框架(GraphRec)用于社会推荐。特别是,我们提供了一种原则性的方法来共同捕获用户项图中的交互和意见,并提出框架GraphRec,它连贯地模拟两个图和异构强度。对两个真实世界数据集的广泛实验证明了所提出的框架GraphRec的有效性。
translated by 谷歌翻译
由于肾脏的形状和图像强度分布不同,在临床超声图像中自动分割肾脏仍然具有挑战性,尽管半自动方法已经取得了良好的性能。在这项研究中,我们开发了一种新颖的边界距离回归深度神经网络来对肾脏进行分割,这可以通过这样的事实得知,即在图像方面,肾脏边界在外观上相对一致。特别地,我们首先使用预训练的深度神经网络对自然图像进行分类,从超声图像中提取高级图像特征,然后使用这些特征图作为输入,使用边界距离回归网络学习肾边距离图,最后使用预测的边界距离使用像素分类网络以端到端学习方式将地图分类为肾像素或非肾像素。实验结果表明,我们的方法可以有效地提高自动肾脏分割的性能,明显优于基于深度学习的像素分类网络。
translated by 谷歌翻译
由于姿势,面部质量,衣服,化妆等方面的差异很大,野外人物鉴定非常具有挑战性。传统的研究,如面部识别,人员重新识别和说话人识别,往往只关注单一的信息模式,这不足以处理实践中的所有情况。多模态人物识别是一种更有前景的方法,我们可以共同利用面部,头部,身体,音频特征等。在本文中,我们介绍了iQIYI-VID,这是用于多模态识别的最大视频数据集。它由5,000个名人的600K视频片段组成。这些视频片段是从400K小时的各种类型的在线视频中提取的,从电影,综艺节目,电视剧到新闻广播。 Allvideo剪辑通过仔细的人工注释过程,标签的错误率低于0.2%。我们在iQIYI-VIDdataset上评估了人脸识别,人员重新识别和说话人识别的最新模型。实验结果表明,这些模型对野外人员识别任务还远远不够。我们进一步证明了多模态特征的简单融合可以极大地改善人的识别。我们已在线发布数据集,以促进多模式人员识别研究。
translated by 谷歌翻译
在本文中,我们提出了一种多模式方法来同时分析面部运动和几个外围生理信号,以解释在正面和负面情绪上的个体化情感体验,同时考虑他们的个性化静息动态。我们提出了一个特定于人的复发网络来量化人的面部运动和生理数据中存在的动态。使用健壮的头部与3D面部地标定位和跟踪方法来表示面部运动,并且通过提取与潜在的情感体验相关的已知属性来处理生理数据。然后通过提取几个复杂的循环网络度量来评估不同输入模态之间的动态耦合。然后使用这些度量作为特征来训练推理模型,以在他们的静息动态被排除在他们的响应之后预测个体在agiven环境中的情感体验。我们使用多模态数据集验证了我们的方法,包括(i)面部视频和(ii)几个外围生理信号,同时从12名参与者同步记录,同时观看4个引发情绪的视频刺激。情感体验预测结果表明,与仅使用一个或一部分输入模态的预测相比,我们的多模态融合方法将预测精度提高了19%。此外,我们通过考虑个体化静息动力学的影响,获得了情感体验的预测改进。
translated by 谷歌翻译
由于肾脏的形状和图像强度分布不同,在临床超声(US)图像中自动分割肾脏仍然具有挑战性,尽管半自动方法已经取得了良好的性能。在这项研究中,我们建议随后的边界距离回归和像素分类网络来分割肾脏,这是因为肾脏边界在图像上具有相对均匀的纹理图案。特别地,我们首先使用预训练的深度神经网络对自然图像进行分类,从USimages中提取高级图像特征,然后使用边界距离回归网络将这些特征用作学习肾脏边界距离图的输入,最后使用预测的边界距离图。使用端对端学习方式的像素分类网络将肾脏像素或非肾脏像素分类为肾脏像素或非肾脏像素。我们还提出了一种基于肾形状配准的新型数据增强方法,用少量美国图像生成富集的训练数据,手动分割肾脏标签。实验结果表明,我们的方法可以有效地提高自动肾脏分割的性能,明显优于基于深度学习的像素分类网络。
translated by 谷歌翻译
直接学习点云的特征已成为3D理解中的一个活跃的研究方向。现有的基于学习的方法通常从点云构建局部区域,并使用共享的多层感知器(MLP)和最大池来提取相应的特征。然而,这些过程中的大多数并未充分考虑点云的空间分布,从而限制了感知细粒度图案的能力。我们设计了一种新颖的局部空间注意(LSA)模块,根据局部区域的空间分布自适应地生成注意力图。与这些注意力图集成的特征学习过程可以有效地捕获局部几何结构。我们进一步提出构建分支架构的空间特征提取器(SFE),以便更好地将空间信息与网络的每一层中的相关特征进行聚合。实验表明,我们的网络名为LSANet,可以达到与状态相同或更好的性能。评估具有挑战性的基准数据集时的最先进方法。源代码可从以下网址获得://github.com/LinZhuoChen/LSANet。
translated by 谷歌翻译
即插即用(PnP)是一种非凸面框架,它将现代化的先驱(如BM3D或基于深度学习的降噪器)集成到ADMM或其他近端算法中。 PnP的一个优点是,当没有足够的数据进行端到端训练时,可以使用预训练的加速器。尽管最近已经广泛研究了PNP并取得了很大的经验成功,但理论分析甚至解决了最基本的收敛问题。在本文中,我们理论上建立了PNP-FBS和PnP-ADMM的收敛,在一定的Lipschitz条件下,在降噪器上不使用递减步长。然后我们提出真实的光谱正态化,这是一种训练基于深度学习的降噪器的技术,以满足所提出的Lipschitz条件。最后,我们提出验证该理论的实验结果。
translated by 谷歌翻译
在本文中,一种新的统计度量学习被开发出高光谱图像的光谱空间分类。首先,每批中每个类的样本的标准方差用于降低每个类中的类级方差。然后,使用不同类别的平均值之间的距离来惩罚训练样本的类间方差。最后,添加不同类的平均值之间的标准方差作为附加的多样性项,以相互排斥不同的类。实验已在两个真实世界的高光谱图像数据集上进行,实验结果显示了所提出的统计度量学习的有效性。
translated by 谷歌翻译
在本文中,我们提出了一个新的计算机视觉任务,名为视频实例分割。此新任务的目标是同时检测,分割和跟踪视频中的实例。用语言来说,这是第一次将图像实例分割问题扩展到视频域。为了完成这项新任务的研究,我们提出了一个名为YouTube-VIS的大型基准测试,它包括2883个高分辨率YouTube视频,40个类别的标签集和131k高质量的实例掩码。此外,我们为此任务提出了一种名为MaskTrack R-CNN的新算法。我们的新方法引入了一个新的跟踪分支到Mask R-CNN,以同时共同执行检测,分割和跟踪任务。最后,我们对我们的新数据集评估了所提出的方法和几个强大的基线。实验结果清楚地证明了所提算法的优点,并揭示了对未来改进的洞察力。我们相信视频实例细分任务将激励社区沿着研究视频理解的路线。
translated by 谷歌翻译