神经网络分类器已成为当前“火车前的Fine-Tune”范例的De-Facto选择。在本文中,我们调查了K $ -Nearest邻居(K-NN)分类器,这是一种从预先学习时代的无古典无模型学习方法,作为基于现代神经网络的方法的增强。作为懒惰的学习方法,K-Nn简单地聚集了训练集中的测试图像和顶-k邻居之间的距离。我们采用k-nn具有由监督或自我监督方法产生的预训练的视觉表现,分为两个步骤:(1)利用K-NN预测概率作为培训期间容易\〜〜硬示例的迹象。 (2)用增强分类器的预测分布线性地插入k-nn。通过广泛的实验在广泛的分类任务中,我们的研究揭示了K-NN集成与额外见解的一般性和灵活性:(1)K-NN实现竞争结果,有时甚至优于标准的线性分类器。 (2)结合K-NN对参数分类器执行不良和/或低数据制度的任务特别有益。我们希望这些发现将鼓励人们重新考虑预先学习的角色,计算机愿景中的古典方法。我们的代码可用于:https://github.com/kmnp/nn-revisit。
translated by 谷歌翻译
以无监督的方式训练图像标题模型而不利用注释的图像标题对是朝向更广泛的文本和图像语料库的重要步骤。在监督设置中,图像标题对“良好匹配”,其中句子中提到的所有对象都显示在相应的图像中。然而,这些配对在无监督的环境中不可用。为了克服这一点,主要是在克服这方面有效的主要研究学院是根据它们对物体的重叠来构建训练集中的图像和文本的对。与监督设置不同,然而,这些构造的配对不保证具有完全重叠的对象集。我们本文的工作通过从训练集中收获对应于给定句子的对象来克服了这一点,即使它们不属于同一图像也是如此。当用作变压器的输入时,如果不是完整的对象覆盖,并且当由相应的句子监督时,这些物体的混合使得产生的结果通过显着的余量产生艺术无监督方法的最佳状态。在此发现时,我们进一步展示了(1)对象与物体属性之间关系的其他信息也有助于提高性能; (2)我们的方法也很好地延伸到非英语图像标题,这通常遭受稀缺的注释水平。我们的研究结果得到了强大的经验结果。
translated by 谷歌翻译
近年来,对无监督域适应(UDA)的兴趣飙升,导致血腥的新算法。但是,正如快速移动字段中的常见情况一样,基线算法未在它们应该的范围内进行测试。此外,已经注意到验证方法,即估计靶域标签的模型准确性的方法。尽管验证方法是任何UDA火车/ VAL管道的重要组成部分。在本文中,我们通过大规模实验显示1)在Oracle设置中,UDA算法之间的准确性差异小于先前认为,2)最先进的验证方法与准确性没有完全相关3)UDA算法之间的差异被验证方法引起的准确性下降。
translated by 谷歌翻译
基于自我关注机制的顶部,视觉变压器最近在各种视觉任务上表现出显着的性能。虽然实现出色的性能,但它们仍然需要相对密集的计算成本,随着斑块的数量,自我关注头和变压器块增加而剧烈缩放。在本文中,我们争辩说,由于图像的变化大,因此它们对贴片之间的长距离依赖性建模的需要不同。为此,我们介绍了一个Adavit,一个自适应计算框架,学习在每次输入的基础上派生在整个骨干内的修补程序,自我注意力头和变压器块的使用策略,旨在提高视觉变压器的推理效率图像识别的最小精度降低。以端到端的方式与变压器骨架一起优化,轻量级决策网络连接到骨架上,以便在飞行中产生决定。关于ImageNet的广泛实验表明,与最先进的视觉变压器相比,我们的方法对效率的提高超过了2倍的效率,只有0.8%的准确性,实现了在不同的计算预算上的良好效率/准确性权衡权衡。我们进一步对学习使用政策进行了定量和定性分析,并对视觉变压器的冗余提供了更多的见解。
translated by 谷歌翻译
自我关注学习成对相互作用以模型远程依赖性,从而产生了对视频动作识别的巨大改进。在本文中,我们寻求更深入地了解视频中的时间建模的自我关注。我们首先表明通过扁平所有像素通过扁平化的时空信息的缠结建模是次优的,未明确捕获帧之间的时间关系。为此,我们介绍了全球暂时关注(GTA),以脱钩的方式在空间关注之上进行全球时间关注。我们在像素和语义类似地区上应用GTA,以捕获不同水平的空间粒度的时间关系。与计算特定于实例的注意矩阵的传统自我关注不同,GTA直接学习全局注意矩阵,该矩阵旨在编码遍布不同样本的时间结构。我们进一步增强了GTA的跨通道多头方式,以利用通道交互以获得更好的时间建模。对2D和3D网络的广泛实验表明,我们的方法一致地增强了时间建模,并在三个视频动作识别数据集中提供最先进的性能。
translated by 谷歌翻译
BlenderBot 2.0是通过使用Internet搜索模块和多次会话来反映实时信息和记住用户信息来表示开放式聊天聊天的对话模型。尽管如此,模型仍然有改进的空间。为此,我们从三个角度检查了BlenderBot 2.0限制和错误:模型,数据和用户。从数据的角度来看,我们突出了在众包流程期间向工人提供的不明确指南,以及缺乏在收集的数据中炼制仇恨言论的过程,并验证基于互联网的信息的准确性。从用户的角度来看,我们确定了百分之九种类型的展示2.0问题,并彻底调查了它们的原因。此外,对于每个观点来说,提出了实际改进方法,我们讨论了几个潜在的未来研究方向。
translated by 谷歌翻译
个性化新闻推荐旨在通过预测他们点击某些文章的可能性为读者提供有吸引力的文章。为了准确预测这种概率,已经提出了充足的研究,以积极利用物品的内容特征,例如单词,类别或实体。然而,我们观察到,文章的语境特征,例如CTR(点击率),流行度或新鲜度,最近被忽视或未充分利用。为了证明这是这种情况,我们在近期深度学习模型和天真的上下文模型之间进行了广泛的比较,我们设计得令人惊讶地发现后者很容易表现前者。此外,我们的分析表明,近期将过度复杂的深度学习业务应用于上下文功能的趋势实际上妨碍了推荐性能。根据这些知识,我们设计了一个有目的的简单上下文模块,可以通过大的边距提高上一个新闻推荐模型。
translated by 谷歌翻译
机器学习模型需要提供对比解释,因为人们经常寻求理解为什么发生令人费解的预测而不是一些预期的结果。目前的对比解释是实例或原始特征之间的基本比较,这仍然难以解释,因为它们缺乏语义含义。我们认为解释必须与其他概念,假设和协会更加相关。受到认知心理学的感知过程的启发,我们提出了具有对比显着性,反事实合成和对比提示的可靠可解释的AI的XAI感知处理框架和REXNET模型。我们调查了声乐情绪识别的应用,实施了模块化的多任务深度神经网络,以预测言论的情感。从思想和对照研究来看,我们发现,反事实解释是有用的,并进一步增强了语义线索,但不具有显着性解释。这项工作为提供和评估了感知应用提供了可关联的对比解释的AI,提供了深度识别。
translated by 谷歌翻译
在基于特征的同时定位和映射(SLAM)中,LINE具有点特征的稀疏性,使得可以映射周围环境结构。利用线特征的现有方法主要采用了使用线重新投影的测量模型。然而,在3D线映射过程中使用的方向向量不能被校正,因为线路测量模型仅在PL \“{U} CKER坐标中仅采用行的正常向量。结果,在3D期间发生的退化性等问题不能解决线映射过程。为了解决问题,本文提出了一种UV-SLAM,它是使用用于结构映射的消失点的基于不受约束的线路。本文侧重于使用结构规则而没有任何限制,如曼哈顿世界假设。为此,我们使用从线特征获得的消失点。通过图像中的线特征计算的消失点观察与通过方向向量计算的消失点估计计算的差异被定义为残差和添加到基于优化的SLAM的成本函数。此外,通过Fisher信息矩阵等级分析,我们证明了消失点测量S保证了一个独特的映射解决方案。最后,我们证明,与使用公共数据集的最先进的算法相比,本地化准确性和映射质量得到改善。
translated by 谷歌翻译
科学世界正在快速改变,新技术正在开发,新的趋势正在进行频率增加。本文介绍了对学术出版物进行科学分析的框架,这对监测研究趋势并确定潜在的创新至关重要。该框架采用并结合了各种自然语言处理技术,例如Word Embedding和主题建模。嵌入单词嵌入用于捕获特定于域的单词的语义含义。我们提出了两种新颖的科学出版物嵌入,即PUB-G和PUB-W,其能够在各种研究领域学习一般的语义含义以及特定于域的单词。此后,主题建模用于识别这些更大的研究领域内的研究主题集群。我们策划了一个出版物数据集,由两条会议组成,并从1995年到2020年的两项期刊从两个研究领域组成。实验结果表明,与其他基线嵌入式的基于主题连贯性,我们的PUB-G和PUB-W嵌入式与其他基线嵌入式相比优越。
translated by 谷歌翻译