神经网络(NNS)和决策树(DTS)都是机器学习的流行模型,但具有相互排斥的优势和局限性。为了带来两个世界中的最好,提出了各种方法来明确或隐式地集成NN和DTS。在这项调查中,这些方法是在我们称为神经树(NTS)的学校中组织的。这项调查旨在对NTS进行全面审查,并尝试确定它们如何增强模型的解释性。我们首先提出了NTS的彻底分类学,该分类法表达了NNS和DTS的逐步整合和共同进化。之后,我们根据NTS的解释性和绩效分析,并建议解决其余挑战的可能解决方案。最后,这项调查以讨论有条件计算和向该领域的有希望的方向进行讨论结束。该调查中审查的论文列表及其相应的代码可在以下网址获得:https://github.com/zju-vipa/awesome-neural-trees
translated by 谷歌翻译
应付嘈杂标签的大多数现有方法通常假定类别分布良好,因此无法应对训练样本不平衡分布的实际情况的能力不足。为此,本文尽早努力通过长尾分配和标签噪声来解决图像分类任务。在这种情况下,现有的噪声学习方法无法正常工作,因为将噪声样本与干净的尾巴类别的样本区分开来是具有挑战性的。为了解决这个问题,我们提出了一个新的学习范式,基于对弱数据和强数据扩展的推论,以筛选嘈杂的样本,并引入休假散布的正则化,以消除公认的嘈杂样本的效果。此外,我们基于在线先验分布中纳入了一种新颖的预测惩罚,以避免对头等阶层的偏见。与现有的长尾分类方法相比,这种机制在实时捕获班级拟合度方面具有优越性。详尽的实验表明,所提出的方法优于解决噪声标签下长尾分类中分布不平衡问题的最先进算法。
translated by 谷歌翻译
原型零件网络(Protopnet)引起了广泛的关注,并增加了许多随访研究,因为它的自我解释特性可解释人工智能(XAI)。但是,当直接在视觉变压器(VIT)骨架上应用原始网络时,学到的原型存在“分心”问题:它们具有相对较高的可能性,即被背景激活,并且对前景的关注较少。建模长期依赖性的强大能力使得基于变压器的Protopnet难以专注于原型部分,从而严重损害了其固有的解释性。本文提出了原型零件变压器(ProtoPformer),以适当有效地应用基于原型的方法,并使用VIT进行可解释的图像识别。提出的方法介绍了根据VIT的建筑特征捕获和突出目标的代表性整体和部分特征的全局和局部原型。采用了全球原型,以提供对象的全球视图,以指导本地原型集中在前景上,同时消除背景的影响。之后,明确监督局部原型,以专注于它们各自的原型视觉部分,从而提高整体可解释性。广泛的实验表明,我们提出的全球和本地原型可以相互纠正并共同做出最终决策,这些决策分别忠实,透明地从整体和地方的角度缔合过程。此外,ProtoPformer始终取得优于基于原型的原型基线(SOTA)的卓越性能和可视化结果。我们的代码已在https://github.com/zju-vipa/protopformer上发布。
translated by 谷歌翻译
视觉和听觉信息对于确定视频中的显着区域都是有价值的。深度卷积神经网络(CNN)展示了应对视听显着性预测任务的强大能力。由于各种因素,例如拍摄场景和天气,源训练数据和目标测试数据之间通常存在适度的分布差异。域差异导致CNN模型目标测试数据的性能降解。本文提前尝试解决视听显着性预测的无监督域适应问题。我们提出了一种双重域交流学习算法,以减轻源数据和目标数据之间的域差异。首先,建立了一个特定的域歧视分支,以对齐听觉功能分布。然后,这些听觉功能通过跨模式自我发项模块融合到视觉特征中。设计了其他域歧视分支,以减少视觉特征的域差异和融合视听特征所隐含的视听相关性的差异。公共基准测试的实验表明,我们的方法可以减轻域差异引起的性能降解。
translated by 谷歌翻译
弱监督的对象本地化是一项具有挑战性的任务,旨在将对象定位具有粗糙注释(例如图像类别)。现有的深网方法主要基于类激活图,该图的重点是突出显示歧视性局部区域,同时忽略了整个对象。此外,基于变压器的技术不断地重点放在阻碍识别完整对象的能力的背景上。为了解决这些问题,我们提出了一种称为令牌改进变压器(TRT)的重新注意事项机制,该机制捕获了对象级语义,以很好地指导本地化。具体而言,TRT引入了一个名为令牌优先级评分模块(TPSM)的新型模块,以抑制背景噪声的效果,同时重点放在目标对象上。然后,我们将类激活图作为语义意识的输入合并,以将注意力图限制为目标对象。在两个基准测试上进行的广泛实验展示了我们提出的方法与现有方法的优势,该方法具有带有图像类别注释的现有方法。源代码可在\ url {https://github.com/su-hui-zz/reattentiontransformer}中获得。
translated by 谷歌翻译
视频变压器自然会产生比静态视觉变压器更重的计算负担,因为前者在二次复杂性$(t^2n^2)$的当前关注下,$ t $ t $倍的序列比后者长。现有作品将颞轴视为空间轴的简单扩展,重点是通过通用池或局部窗口缩短时空序列,而无需使用时间冗余。但是,视频自然包含相邻框架之间的冗余信息;因此,我们可能会以扩张的方式抑制视觉上相似帧的注意力。基于这一假设,我们提出了圈,长期`\ textbf {\ textit {leap coasitive}}''(la),短期`\ textbf {\ textbf {\ textit {preckentien shiftit {presentiic shift}}}'('( \ textit {p} -Shift)用于视频变压器的模块,带有$(2Tn^2)$复杂性。具体而言,``la''将长期帧分为对,然后通过注意来重构每个离散对。 ``\ textit {p} -shift''在时间邻居之间交换特征,以面对短期动力学的丧失。通过用圈替换香草2D的注意,我们可以将静态变压器调整为视频,其中零额外的参数和可忽视的计算开销($ \ sim $ 2.6 \%)。对标准动力学-400基准的实验表明,我们的圈量变压器可以在CNN和Transformer Sotas之间的准确性,FLOP和参数方面实现竞争性能。我们以\ sloppy \ href {https://github.com/videonetworks/laps-transformer} {\ textit {\ textit {\ color {agenta} {https://github.com/videonetworks/laps-transsfornss/laps-transformer} { }}。
translated by 谷歌翻译
零件级别的属性解析是一项基本但具有挑战性的任务,它需要区域级的视觉理解以提供可解释的身体部位细节。大多数现有方法通过添加具有属性预测头到两阶段检测器的区域卷积神经网络(RCNN)来解决此问题,其中从本地零件框中确定了身体部位的属性。但是,具有极限视觉线索的本地零件框(即仅零件外观)会导致不满意的解析结果,因为身体部位的属性高度依赖于它们之间的全面关系。在本文中,我们建议通过利用丰富的知识来识别嵌入式RCNN(KE-RCNN)来识别属性-hip)和显式知识(例如,``短裤''的一部分不能具有``连帽衫''或``衬里''的属性)。具体而言,KE-RCNN由两个新型组件,即基于隐式知识的编码器(IK-en)和基于知识的显式解码器(EK-DE)组成。前者旨在通过将部分的关系上下文编码到部分框中来增强零件级的表示,而后者则建议通过有关\ textit {part-attribute}关系的先验知识的指导来解码属性。这样,KE-RCNN就是插件播放,可以集成到任何两阶段检测器中,例如attribute-rcnn,cascade-rcnn,基于HRNET的RCNN和基于Swintransformer的RCNN。在两个具有挑战性的基准上进行的广泛实验,例如Fashionpedia和Kinetics-TPS,证明了KE-RCNN的有效性和概括性。特别是,它比所有现有方法都取得了更高的改进,在时尚Pedia上达到了3%的AP,而动力学TPS的ACC约为4%。
translated by 谷歌翻译
改善磁共振(MR)图像数据的分辨率对于计算机辅助诊断和大脑功能分析至关重要。更高的分辨率有助于捕获更详细的内容,但通常会导致较低的信噪比和更长的扫描时间。为此,MR Image超级分辨率已成为近期广泛利益的主题。现有作品建立了广泛的深层模型,该模型具有基于卷积神经网络(CNN)的常规体系结构。在这项工作中,为了进一步推进该研究领域,我们尽早努力建立一个基于变压器的MR图像超分辨率框架,并仔细设计了探索有价值的领域的先验知识。具体而言,我们考虑了包括高频结构的两倍领域先验和模式间环境,并建立了一种新颖的变压器体系结构,称为跨模式高频变压器(COHF-T),以将此类先验引入超分辨率(LR)MR图像的超级分辨。两个数据集的实验表明COHF-T可以实现新的最新性能。
translated by 谷歌翻译
当前弱监督的语义分割(WSSS)框架通常包含分离的掩模 - 细化模型和主要语义区域挖掘模型。这些方法将包含冗余特征提取骨干网和偏置的学习目标,使其计算复杂但是解决WSSS任务的子最优。为了解决这个问题,本文建立了一个紧凑的学习框架,将分类和掩码精细组件嵌入统一的深层模型。通过共享特征提取骨干通,我们的模型能够促进两个组件之间的知识共享,同时保留低计算复杂性。为了鼓励高质量的知识互动,我们提出了一种新颖的替代自我双重教学(ASDT)机制。与传统蒸馏策略不同,我们模型中的两个教师分支的知识通过脉冲宽度调制(PWM)替代地蒸馏到学生分支,该脉冲宽度调制(PWM)产生PW波形选择信号以引导知识蒸馏过程。通过这种方式,学生分支可以帮助阻止模型落入由教师分支提供的不完美知识引起的局部最低解决方案。 Pascal VOC的综合实验2012和Coco-Stuff 10K展示了拟议的替代自我双重教学机制的有效性以及我们方法的新的最新性能。
translated by 谷歌翻译
域适应是神经机器翻译的重要挑战。但是,传统的微调解决方案需要多次额外的培训,并产生高昂的成本。在本文中,我们提出了一种非调节范式,通过基于及时的方法解决域的适应性。具体来说,我们构建了双语短语级数据库,并从中检索相关对作为输入句子的提示。通过利用检索到的短语级提示(REPP),我们有效地提高了翻译质量。实验表明,我们的方法改善了域特异性的机器翻译,可用于6.2 BLEU分数,并改善了在没有额外训练的情况下,精度为11.5%的翻译约束。
translated by 谷歌翻译