知识表示学习(KRL)旨在表示低维语义空间中知识图中的实体和关系,这些知识图已广泛用于大规模知识驱动的任务中。在本文中,我们向读者介绍了KRL的动机,并概述了现有的KRL方法。然后,我们对知识获取的三个评价任务,包括知识图完成,三重分类和相关提取,对几种典型的KRL方法进行了广泛的定量比较和分析。我们还回顾了KRL的实际应用,例如语言建模,问答,信息检索和推荐系统。最后,我们讨论了剩余的挑战并展望了KRL的未来发展方向。实验中使用的代码和数据集可以在https://github.com/thunlp/OpenKE中找到。
translated by 谷歌翻译
大多数语言建模方法依赖于大规模数据来统计地学习单词的顺序模式。在本文中,我们认为单词是原子语言单位,但不一定是原子语义单位。受到HowNet的启发,我们使用人类语言中最小语义单位的sememes来表示语言建模后面的隐含语义,即名为驱动语言模型(SDLM)。更具体地说,为了预测下一个词,SDLM首先估计了sememe分布给出了文本背景。之后,它将每个sememe视为一个独特的语义专家,并且这些专家共同识别最可能的感官和相应的词。这样,SDLM启用了语言除了词级操作之外,模型还可以工作到细粒度的语义级语义,并为我们提供更多的功能,以便微调语言模型,提高可解释性以及语言模型的稳健性。语言建模实验和标题生成的下游应用证明了SDLM的显着性。可以通过以下网址访问实验中使用的源代码和数据:// github.com/thunpp/SDLM-pytorch。
translated by 谷歌翻译
Sememes是人类语言中概念的最小语义单位,例如,词义是由一个或多个sememes组成的。语言通常由语言学家用他们的语义手工注释,并形成广泛用于各种NLP任务的语言常识知识库。最近,引入了神秘的sememe预测任务。它包括自动推荐单词的sememes,这有望提高注释效率和一致性。然而,现有的词汇量预测方法通常依赖于词语的外部语境来表示意义,这通常无法处理低频和词汇外单词。为了解决中国人的这个问题,我们提出了一种新颖的框架,以利用内部字符信息和单词的外部上下文信息。我们在中国的sememe知识库HowNet上进行实验,并证明我们的框架大大优于最先进的基线,并且即使对于低频词也能保持稳健的性能。
translated by 谷歌翻译
从图像中自动消除雨水效果有许多应用,例如自动驾驶,无人机驾驶和照片编辑,并且仍然吸引了许多人的注意力。传统方法使用启发式手工制作各种先验,以从图像中移除或分离雨效果。最近提出了基于端到端深度学习的去除方法以提供更大的灵活性和有效性。然而,当遇到大雨的图像时,它们往往不会获得良好的视觉效果。大雨带来了不仅有雨的条纹,还有由于微小雨滴积聚而产生的雾状效应。与以往的去除方法不同,在本文中,我们使用新的雨模型来模拟雨水图像,不仅可以去除雨水条纹,还可以消除类似雾霾的效果。在我们的模型的指导下,我们设计了一个双分支网络来容忍其参数。然后,联合训练SPP结构以改进我们模型的结果,以便灵活地控制去除雾状效果的程度。此外,提出了一种可以定位雨天像素的子网,以指导我们的网络训练。在几个数据集上的广泛实验表明,我们的方法在目标评估和视觉质量方面都优于最先进的技术。
translated by 谷歌翻译
我们介绍了场景素描零射击学习(SSZSL)的一个新问题,这是一项具有挑战性的任务,因为(i)与照片不同,常见语义域(例如,词向量)和草图之间的差距太大,无法利用常见的语义知识作为知识转移的桥梁,以及(ii)与单一对象草图相比,需要更具表现力的特征表示,以适应其高水平的抽象和复杂性。为了克服这些挑战,我们提出了一种深嵌入模型forscene sketch zero-shot learning。特别地,我们提出增强语义向量通过融合多模态语义知识(例如,卡通图像,自然图像,文本描述)和采用基于注意的网络进行场景素描特征学习来进行域对齐。此外,我们提出了一种新的距离度量来改善测试期间的相似性度量。大量的实验和消融研究证明了我们的特定设计的好处。
translated by 谷歌翻译
为了提高不同照度条件下人脸识别的准确性,提出了一种基于差分滤波图像融合(FDFI-LTEIN)的局部纹理增强光照归一化方法,以减弱光照变化引起的影响。首先,通过对数变换扩展了暗区或阴影区域中人脸图像的动态范围。然后,将全局对比度增强人脸图像与高斯滤波器的差异和双边滤波器的差异进行对比,并且使用基于图像的标准偏差(SD)的系数选择规则对滤波后的图像进行加权和合并,这可以在滤除时增强图像纹理信息。最噪音。最后,对融合的面部图像执行局部对比均衡(LCE),以减少由高光或暗区域中的过饱和或低于饱和的像素值引起的影响。扩展耶鲁B人脸数据库和CMU PIEface数据库的实验结果表明,与其他照明归一化方法和基于CNN的深度照明变异人脸识别方法相比,该方法对照明变化更具鲁棒性,并获得更高的识别精度。
translated by 谷歌翻译
面部地标定位是众多面部相关应用中非常关键的一步,例如面部识别,面部姿势估计,面部图像合成等。然而,之前的面部地标定位竞赛(即300-W,300-VW和Menpo挑战)旨在预测68点地标,这些地标无法描述面部构件的结构。为了克服这个问题,我们构建了一个具有挑战性的数据集,名为J-landmark。每个图像都用106点地标手动注释。这个数据集涵盖了姿势和表情的大变化,这给预测准确的地标带来了很多困难。我们与IEEE国际多媒体和博览会(ICME)2019一起在该数据集上举办了一场106点的面部地标定位竞赛1。本次比赛的目的是发现有效而强大的面部地标定位方法。
translated by 谷歌翻译
本文提出了一种基于类标签文本信息的音频分类零镜头学习方法,没有任何来自目标类的音频样本。我们提出了一种基于双线性模型的音频分类系统,该系统将音频特征嵌入和语义类labelembeddings作为输入,并测量音频特征嵌入和类标签嵌入之间的兼容性。我们使用VGGish从录音中提取音频特征嵌入。我们将文本标签视为音频类的语义侧信息,并使用Word2Vec生成类labelembeddings。 ESC-50数据集上的结果表明,所提出的系统可以用小训练数据集进行零射击音频分类。它可以比eachaudio类别的随机猜测(10%)更准确(平均26%)。特别是,自然音频课程的类别达到39.7%。
translated by 谷歌翻译
本文的目的是对来自视频的特征嵌入进行自我监督学习,适用于对应流,即匹配视频上帧之间的对应关系。我们利用视频中外观的自然时空连贯性来创建“指针”模型,该模型通过复制参考帧中的颜色来学习重构目标帧。我们做出了三个贡献:首先,我们引入了一个简单的信息瓶颈,它强制模型学习对应匹配的强大功能,并避免它学习琐碎的解决方案,例如:基于低级颜色信息的匹配。其次,我们建议在视频中通过长时间窗口训练模型。为了使模型对复杂的物体变形,遮挡,即跟踪器漂移的问题更加鲁棒,我们制定了递归模型,用预定的采样和循环一致性进行训练。第三,我们通过首先使用自我监督学习训练动力学数据集来评估该方法,然后直接应用于DAVIS视频分割和JHMDB关键点跟踪。在这两项任务中,我们的方法已经实现了最先进的性能,尤其是在分割方面,我们以前所未有的方式表现出所有以前的方法。
translated by 谷歌翻译
最佳传输(OT)自然地出现在许多机器学习应用中,但是繁重的计算负担限制了其广泛使用。为了解决可扩展性问题,我们提出了一种隐含的基于生成学习的框架,称为SPOT(OptimalTransport的可扩展推进)。具体而言,我们通过参考分布的推进来近似最优运输计划,并将最优运输问题转化为极小极大问题。然后,我们可以使用主要的随机梯度型算法有效地解决OT问题。我们还表明,我们可以使用神经普通微分方程来恢复最优运输计划的密度。合成数据集和真实数据集的数值实验表明,SPOT具有鲁棒性,具有良好的收敛性。 SPOT还允许从最佳传输计划中有效地进行采样,这有利于域适应等下游应用。
translated by 谷歌翻译