标签感建议是通过标记行为预测用户个性化项目的任务。对于具有Last.FM或Movielens等标记功能的许多应用程序至关重要。最近,许多努力致力于通过图形卷积网络(GCN)改进引人注目的推荐系统(TRS),这已成为一般建议的新最新技术。但是,某些解决方案是直接从GCN继承而没有理由的,这很难缓解标签引入的稀疏性,模棱两可和冗余问题,从而增加了培训和退化建议性能的困难。在这项工作中,我们旨在简化GCN的设计,以使其更简洁。我们提出了一个新颖的标签推荐模型,名为Light Folksonomy图协作滤波(LFGCF),该模型仅包括必需的GCN组件。具体而言,LFGCF首先从用户分配标签和项目标记的用户记录中构造了人们图形。然后,我们利用汇总的简单设计来学习人们对人物学图的高级表示形式,并使用在多个层中学习的嵌入的加权总和进行信息更新。我们共享标签嵌入,以弥合用户和项目之间的信息差距。此外,提出了一个名为Transrt的正规化功能,以更好地描述用户的偏好和项目功能。对三个现实世界数据集的广泛超参数实验和消融研究表明,LFGCF使用的参数较少,并且显着优于大多数基线的Tag-Aware Top-N建议。
translated by 谷歌翻译
特征形式的图像补丁的独特表示是许多计算机视觉和机器人任务的关键组成部分,例如图像匹配,图像检索和视觉定位。最先进的描述符,来自手工制作的描述符,例如SIFT到诸如HardNet之类的学习者,通常是高维的; 128个维度甚至更多。维度越高,使用此类描述符的方法的内存消耗和计算时间越大。在本文中,我们研究了多层感知器(MLP),以提取低维但高质量的描述符。我们在无监督,自我监督和监督的设置中彻底分析了我们的方法,并评估了四个代表性描述符的降维结果。我们考虑不同的应用程序,包括视觉定位,补丁验证,图像匹配和检索。实验表明,我们的轻量级MLP比PCA获得了更好的尺寸降低。我们的方法生成的较低维描述符在下游任务中的原始高维描述符,尤其是对于手工制作的任务。该代码将在https://github.com/prbonn/descriptor-dr上找到。
translated by 谷歌翻译
轻巧的飞行时间(TOF)深度传感器很小,便宜,低能量,并且已在移动设备上大量部署在移动设备上,以进行自动对焦,障碍物检测等。但是,由于其特定的测量值(深度分布)在某个像素时的区域而不是深度值,并且分辨率极低,它们不足以用于需要高保真深度(例如3D重建)的应用。在本文中,我们提出了Deltar,这是一种新颖的方法,可以通过与颜色图像合作来赋予高分辨率和准确深度的能力。作为Deltar的核心,提出了一种用于深度分布的特征提取器,并提出了基于注意力的神经体系结构,以有效地从颜色和TOF域中融合信息。为了在现实世界中评估我们的系统,我们设计了一个数据收集设备,并提出了一种校准RGB摄像头和TOF传感器的新方法。实验表明,我们的方法比旨在使用商品级RGB-D传感器的PAR性能实现的现有框架比现有的框架产生更准确的深度。代码和数据可在https://zju3dv.github.io/deltar/上获得。
translated by 谷歌翻译
知识蒸馏是将知识从强大的教师转移到有效的学生模型的有效方法。理想情况下,我们希望老师越好,学生越好。但是,这种期望并不总是成真。通常,由于教师和学生之间的不可忽略的差距,更好的教师模型通过蒸馏导致不良学生。为了弥合差距,我们提出了一种渐进式蒸馏方法,以进行致密检索。产品由教师渐进式蒸馏和数据进行渐进的蒸馏组成,以逐步改善学生。我们对五个广泛使用的基准,MARCO通道,TREC Passage 19,TREC文档19,MARCO文档和自然问题进行了广泛的实验,其中POD在蒸馏方法中实现了密集检索的最新方法。代码和模型将发布。
translated by 谷歌翻译
在交互环境中学习操纵3D对象一直是强化学习(RL)的挑战性问题。特别是,很难训练可以概括具有不同语义类别,多样形状几何形状和多功能功能的对象的策略。最近,视觉负担能力的技术在提供有效的可操作语义方面提供了以对象为中心的信息先验的前景。因此,可以通过知道如何在手柄上施加力来训练有效的政策来打开门。但是,要学习负担能力,它通常需要人为定义的动作基础,这限制了适用的任务范围。在这项研究中,我们通过使用RL训练过程中生成的联系信息来预测感兴趣的接触图,利用视觉负担。然后,这种联系预测过程会导致一个端到端的负担能力学习框架,该框架可以概括不同类型的操纵任务。令人惊讶的是,这种框架的有效性即使在多阶段和多代理场景下也具有。我们对八种类型的操纵任务进行了测试。结果表明,我们的方法优于基线算法,包括基于视觉的负担方法和RL方法,其成功率很大。演示可以在https://sites.google.com/view/rlafford/上找到。
translated by 谷歌翻译
随着编码器架构的开发,研究人员能够使用更广泛的数据来研究文本生成任务。其中,KB到文本旨在将一组知识三元转换为人类可读句子。在原始设置中,任务假定输入三元和文本是从具体知识/信息的角度进行对齐的。在本文中,我们扩展了此设置,并探讨了如何促进训练的模型以生成更有信息的文本,即包含有关三重实体但未通过输入三元组传达的更多信息。为了解决这个问题,我们提出了一种新型的内存增强发电机,该发电机采用存储网络来记住培训期间学到的有用知识,并利用此类信息以及输入三元组在操作或测试阶段生成文本。我们从WebNLG中得出一个数据集,以进行新的环境,并进行广泛的实验,以研究我们的模型的有效性以及发现设置的内在特征。
translated by 谷歌翻译
激光点云(LPC)的非均匀分布和极稀疏的性质给其高效压缩带来了重大挑战。本文提出了一个新颖的端到端,完全物质的深层框架,该框架将原始LPC编码为OCTREE结构,并分层分解OCTREE熵模型。所提出的框架利用层次的潜在变量作为侧面信息来封装兄弟姐妹和祖先依赖性,该依赖性为点云分布的建模提供了足够的上下文信息,同时启用了同一层中的Octree节点的并行编码和解码。此外,我们提出了一个用于压缩潜在变量的残留编码框架,该框架通过渐进的下采样探索了每一层的空间相关性,并用完全属于熵模型对相应的残差进行建模。此外,我们提出了剩余编码的软添加和减法,以提高网络灵活性。 LIDAR基准Semantickitti和MPEG指定数据集福特的综合实验结果表明,我们提出的框架在所有以前的LPC框架中都实现了最先进的性能。此外,我们的端到端,完全物质化的框架被实验证明是高平行和及时效率的,并且与以前的LPC压缩方法相比,与以前的最新方法相比,可以节省超过99.8%的解码时间。
translated by 谷歌翻译
很少有射击分类需要深层神经网络才能仅从有限的培训图像中学习广义表示,这在低数据制度中很有挑战,但很重要。最近,基于剪辑的方法显示出有希望的很少的射击性能受益于对比的语言图像预训练。基于这一点,我们质疑大规模的预训练是否可以减轻少数数据的缺陷,并通过预测的知识帮助代表性学习。在本文中,我们提出了Como,这是对预培训模型的合作,该模型结合了来自各种培训范式的各种先验知识,以获得更好的几次学习。我们的科莫包括:剪辑的语言对比知识,迪诺的视力对抗性知识以及达尔 - E的语言基础知识。具体而言,科莫在两个方面工作:很少的数据扩展和多样化的知识合奏。首先,我们通过零摄影dall-e生成合成图像,以丰富少量训练数据,而无需任何人力。另一方面,我们引入了一个可学习的多知识适配器(MK-apapter),以适应剪辑和恐龙的预测。通过这种合作,COMO可以完全释放不同的预训练方法的潜力,并将其统一以进行几次分类。我们在11个数据集上进行了广泛的实验,以证明我们方法的优势和概括能力。
translated by 谷歌翻译
最近,3D视觉和语言任务吸引了不断增长的研究兴趣。与其他视觉和语言任务相比,3D视觉问题回答(VQA)任务的利用较小,并且更容易受到语言先验和共同参考的歧义。同时,由于规模和注释方法有限,最近提出的几个3D VQA数据集并不能很好地支持3D VQA任务。在这项工作中,我们通过收集一个新的3D VQA数据集(称为FE-3DGQA),正式定义和解决3D接地的VQA任务,并具有多样化且相对自由形式的提问,以及密集和完全接地的边界框注释。为了获得更多可解释的答案,我们标记了出现在复杂的质量检查对中的对象,该对象具有不同的语义类型,包括答案接地的对象(均出现并未出现在问题中),以及用于答案的对象的上下文对象。我们还提出了一个新的3D VQA框架,以有效地预测完全视觉扎根和可解释的答案。广泛的实验证明,我们新收集的基准数据集可有效地用于评估不同方面的各种3D VQA方法,而我们新提出的框架也可以在新的基准数据集中实现最新的性能。新收集的数据集和我们的代码都将在http://github.com/zlccccc/3dgqa上公开获得。
translated by 谷歌翻译
在计算机视觉中学习快速和判别的补丁描述是一个具有挑战性的话题。最近,许多现有的作品通过最大程度地减少三胞胎损失(或其变体)来培训各种描述符学习网络,这有望降低每对的距离之间的距离并增加每对负对之间的距离。但是,由于网络优化器与本地解决方案的不完美收敛性,必须降低这种期望。解决这个问题和开放的计算速度问题,我们为本地描述符学习(称为Desdis)提出了一个描述剂蒸馏框架,该框架称为Desdis,其中学生模型从预先训练的教师模型中获得了知识,并通过设计的教师学生的规律规则来进一步增强。 。这个教师学生的正规化程序是为了限制教师模型的正(也是负)相似性与学生模型的相似性之间的差异,并且从理论上讲,我们可以证明可以通过最大程度地减少加权组合来培训更有效的学生模型三胞胎损失和这个正常工作,而不是通过单独使三胞胎损失最小化的老师。在拟议的desdis下,许多现有的描述符网络可以嵌入为教师模型,因此,可以得出同等重量和轻巧的学生模型,这可以以准确的或速度的速度优于他们的老师。 3个公共数据集的实验结果表明,通过利用三个典型的描述符学习网络作为教师模型,从拟议的DESDIS框架中得出的均等学生模型可以比其教师和其他几种比较方法取得更好的表现。此外,在类似的贴片验证性能下,派生的轻重量模型可以达到8次甚至更快的速度
translated by 谷歌翻译