We propose Hierarchical ProtoPNet: an interpretable network that explains its reasoning process by considering the hierarchical relationship between classes. Different from previous methods that explain their reasoning process by dissecting the input image and finding the prototypical parts responsible for the classification, we propose to explain the reasoning process for video action classification by dissecting the input video frames on multiple levels of the class hierarchy. The explanations leverage the hierarchy to deal with uncertainty, akin to human reasoning: When we observe water and human activity, but no definitive action it can be recognized as the water sports parent class. Only after observing a person swimming can we definitively refine it to the swimming action. Experiments on ActivityNet and UCF-101 show performance improvements while providing multi-level explanations.
translated by 谷歌翻译
双曲线空间已成为从树状结构和文本到图表的各种数据类型的歧管的流行选择。建立在欧几里德和超球空间的型原型的深度学习成功,最近的一些作品已经提出了用于分类的双曲线原型。这种方法能够在低维输出空间中实现有效的学习,并且可以利用类之间的分层关系,但需要有关类标签的特权信息来定位双曲型原型。在这项工作中,我们提出了双曲线的Busemann学习。我们的方法背后的主要思想是将原型定位在Poincar \ E球的理想边界上,这不需要先前的标签知识。为了能够计算邻近的理想原型,我们介绍了受到惩罚的Busemann损失。我们提供了支持使用理想原型和建议损失的理论,通过证明其在一维案件中的物流回归。凭经验,我们表明我们的方法提供了对分类信心的自然解释,而最近的最近的超球和双曲线原型方法。
translated by 谷歌翻译
When we are faced with challenging image classification tasks, we often explain our reasoning by dissecting the image, and pointing out prototypical aspects of one class or another. The mounting evidence for each of the classes helps us make our final decision. In this work, we introduce a deep network architectureprototypical part network (ProtoPNet), that reasons in a similar way: the network dissects the image by finding prototypical parts, and combines evidence from the prototypes to make a final classification. The model thus reasons in a way that is qualitatively similar to the way ornithologists, physicians, and others would explain to people on how to solve challenging image classification tasks. The network uses only image-level labels for training without any annotations for parts of images. We demonstrate our method on the CUB-200-2011 dataset and the Stanford Cars dataset. Our experiments show that ProtoPNet can achieve comparable accuracy with its analogous non-interpretable counterpart, and when several ProtoPNets are combined into a larger network, it can achieve an accuracy that is on par with some of the best-performing deep models. Moreover, ProtoPNet provides a level of interpretability that is absent in other interpretable deep models. * Contributed equally † DISTRIBUTION STATEMENT A. Approved for public release. Distribution is unlimited.
translated by 谷歌翻译
机器学习已广泛采用在许多领域,包括高赌注应用,如医疗保健,金融和刑事司法。为了满足公平,问责制和透明度的担忧,这些关键域中的机器学习模型的预测必须是可解释的。通过整合深度神经网络的力量以及基于案例的推理来产生准确尚不可解释的图像分类模型来实现这一挑战的一系列挑战。这些模型通常通过将其与培训期间学习的原型进行比较来分类输入图像,以“这看起来这样的形式产生解释”。然而,来自这一工作行的方法使用空间刚性原型,这不能明确地解释姿势变化。在本文中,我们通过提出基于案例的可解释的神经网络来解决这种缺点,该神经网络提供空间柔性原型,称为可变形的原型部件网络(可变形Protopnet)。在可变形的Protopnet中,每个原型由若干原型部分组成,其根据输入图像自适应地改变其相对空间位置。这使得每个原型能够检测具有更高的空间变换容差的对象特征,因为允许原型内的部件移动。因此,可变形的Protopnet可以明确地捕获姿势变化,提高模型精度和所提供的解释的丰富性。与使用原型的其他基于案例的可解释模型相比,我们的方法实现了竞争精度,提供了更大的上下文的解释,并且更容易训练,从而使得更广泛地利用可解释模型来进行计算机视觉的可解释模型。
translated by 谷歌翻译
很少有动作识别旨在仅使用少量标记的训练样本识别新型动作类别。在这项工作中,我们提出了一种新颖的方法,该方法首先将每个视频汇总到由一组全球原型和一组集中原型组成的复合原型中,然后比较基于原型的视频相似性。鼓励每个全局原型总结整个视频中的特定方面,例如动作的开始/演变。由于没有针对全球原型提供明确的注释,因此我们使用一组专注的原型专注于视频中的某些时间戳。我们通过匹配支持视频和查询视频之间的复合原型来比较视频相似性。例如,从相同的角度来比较视频,以比较两个动作是否同样开始。对于集中的原型,由于动作在视频中具有各种时间变化,因此我们采用两分匹配,以比较具有不同时间位置和偏移的动作。实验表明,我们提出的方法在多个基准上实现了最先进的结果。
translated by 谷歌翻译
原型零件网络(Protopnet)引起了广泛的关注,并增加了许多随访研究,因为它的自我解释特性可解释人工智能(XAI)。但是,当直接在视觉变压器(VIT)骨架上应用原始网络时,学到的原型存在“分心”问题:它们具有相对较高的可能性,即被背景激活,并且对前景的关注较少。建模长期依赖性的强大能力使得基于变压器的Protopnet难以专注于原型部分,从而严重损害了其固有的解释性。本文提出了原型零件变压器(ProtoPformer),以适当有效地应用基于原型的方法,并使用VIT进行可解释的图像识别。提出的方法介绍了根据VIT的建筑特征捕获和突出目标的代表性整体和部分特征的全局和局部原型。采用了全球原型,以提供对象的全球视图,以指导本地原型集中在前景上,同时消除背景的影响。之后,明确监督局部原型,以专注于它们各自的原型视觉部分,从而提高整体可解释性。广泛的实验表明,我们提出的全球和本地原型可以相互纠正并共同做出最终决策,这些决策分别忠实,透明地从整体和地方的角度缔合过程。此外,ProtoPformer始终取得优于基于原型的原型基线(SOTA)的卓越性能和可视化结果。我们的代码已在https://github.com/zju-vipa/protopformer上发布。
translated by 谷歌翻译
在本文中,一种称为VigAt的纯粹发行的自下而上的方法,该方法将对象检测器与视觉变压器(VIT)骨干网络一起得出对象和框架功能,以及一个头网络来处理这些功能,以处理事件的任务提出了视频中的识别和解释。VIGAT头由沿空间和时间维度分解的图形注意网络(GAT)组成,以便有效捕获对象或帧之间的局部和长期依赖性。此外,使用从各个GAT块的邻接矩阵得出的加权内(wids),我们表明所提出的体系结构可以识别解释网络决策的最显着对象和框架。进行了全面的评估研究,表明所提出的方法在三个大型公开视频数据集(FCVID,Mini-Kinetics,ActivityNet)上提供了最先进的结果。
translated by 谷歌翻译
由于其弱监督性,多个实例学习(MIL)在许多现实生活中的机器学习应用中都获得了受欢迎程度。但是,解释MIL滞后的相应努力,通常仅限于提出对特定预测至关重要的袋子的实例。在本文中,我们通过引入Protomil,这是一种新型的自我解释的MIL方法,该方法受到基于案例的推理过程的启发,该方法是基于案例的推理过程,该方法在视觉原型上运行。由于将原型特征纳入对象描述中,Protomil空前加入了模型的准确性和细粒度的可解释性,我们在五个公认的MIL数据集上进行了实验。
translated by 谷歌翻译
时间动作细分任务段视频暂时,并预测所有帧的动作标签。充分监督这种细分模型需要密集的框架动作注释,这些注释既昂贵又乏味。这项工作是第一个提出一个组成动作发现(CAD)框架的工作,该框架仅需要视频高级复杂活动标签作为时间动作分割的监督。提出的方法会自动使用活动分类任务发现组成视频动作。具体而言,我们定义了有限数量的潜在作用原型来构建视频级别的双重表示,通过活动分类培训共同学习了这些原型。这种设置赋予我们的方法,可以在多个复杂活动中发现潜在的共享动作。由于缺乏行动水平的监督,我们采用匈牙利匹配算法将潜在的动作原型与地面真理语义类别进行评估联系起来。我们表明,通过高级监督,匈牙利的匹配可以从现有的视频和活动级别扩展到全球水平。全球级别的匹配允许跨活动进行行动共享,这在文献中从未考虑过。广泛的实验表明,我们发现的动作可以帮助执行时间动作细分和活动识别任务。
translated by 谷歌翻译
实际上,许多医疗数据集在疾病标签空间上定义了基本的分类学。但是,现有的医学诊断分类算法通常假定具有语义独立的标签。在这项研究中,我们旨在利用深度学习算法来利用类层次结构,以更准确,可靠的皮肤病变识别。我们提出了一个双曲线网络,以共同学习图像嵌入和类原型。事实证明,双曲线为与欧几里得几何形状更好地建模层次关系提供了一个空间。同时,我们使用从类层次结构编码的距离矩阵限制双曲线原型的分布。因此,学习的原型保留了嵌入空间中的语义类关系,我们可以通过将图像特征分配给最近的双曲线类原型来预测图像的标签。我们使用内部皮肤病变数据集,该数据集由65种皮肤疾病的大约230k皮肤镜图像组成,以验证我们的方法。广泛的实验提供了证据表明,与模型相比,我们的模型可以实现更高的准确性,而在不考虑班级关系的情况下可以实现更高的严重分类错误。
translated by 谷歌翻译
人类的行为通常是组合结构或图案,即受试者,物体,以及两者之间的时空相互作用。因此,发现这种结构是一种有价值的方式,可以推理互动的动态并识别动作。在本文中,我们介绍了一个新的子图设计,以表示和编码视频中每个动作的辨别模式。具体而言,我们呈现多尺度的子图学习(MOTE)框架,该框架,该框架新颖地构建空间时间图并将图形集群相对于节点的数量在每个比例上的紧凑型子图中。从技术上讲,Mudle在每个视频剪辑中产生3D边界框,即管弦,作为曲线节点,并将密集的连接作为管之间的图形边缘。对于每个操作类别,我们通过学习高斯混合层执行在线群集以将图形分解为每种比例的子图,并选择判别子图作为动作原型以进行识别。在某种东西上进行了广泛的实验 - 某种东西 - 某种东西 - 东西-400数据集,并且与最先进的方法相比,报告了卓越的结果。更值得注意的是,我们的柱子达到了最佳报告的准确性为65.0%的东西 - 某种东西的验证集。
translated by 谷歌翻译
在许多分类任务中,可以将一组目标类组织成层次结构。该结构引起类之间的语义距离,并且可以在成本矩阵的形式下汇总,其定义了类集上的有限度量。在本文中,我们建议通过将该度量集成在原型网络的监控中来模拟分层类结构。我们的方法依赖于共同学习特征提取网络和一组类原型,其相对布置在嵌入空间中的相对布置遵循分层度量。我们表明,与传统方法和其他基于原型的策略相比,该方法允许在成本矩阵加权的误差率的一致性提高。此外,当诱导的指标包含对数据结构的洞察力时,我们的方法也提高了整体精度。四种不同公共数据集的实验 - 从农业时间序列分类到深度映像语义分割 - 验证我们的方法。
translated by 谷歌翻译
我们介绍Protopool,一个可解释的图像分类模型,其中包含类的原型池。培训比现有方法更直接,因为它不需要修剪阶段。通过向特定类别引入完全可分辨分配的原型来获得它。此外,我们介绍了一种新的焦点相似度,将模型集中在罕见的前景特征上。我们表明Protopool在Cub-200-2011和斯坦福汽车数据集上获得最先进的准确性,大大减少了原型的数量。我们提供了对方法和用户学习的理论分析,以表明我们的原型比具有竞争方法所获得的原型更具独特。
translated by 谷歌翻译
卷积神经网络(CNN)在一系列医学成像任务中表现出了出色的性能。但是,常规的CNN无法解释其推理过程,因此限制了它们在临床实践中的采用。在这项工作中,我们建议使用基于相似性的比较(Indightr-net)回归的固有解释的CNN,并演示了我们关于糖尿病性视网膜病变的任务的方法。结合到体系结构中的原型层可以可视化图像中与学到的原型最相似的区域。然后将最终预测直观地建模为原型标签的平均值,并由相似性加权。与重新网基的基线相比,我们在无效的网络中实现了竞争性预测性能,这表明没有必要损害性能以实现可解释性。此外,我们使用稀疏性和多样性量化了解释的质量,这两个概念对良好的解释很重要,并证明了几个参数对潜在空间嵌入的影响。
translated by 谷歌翻译
While deep reinforcement learning has proven to be successful in solving control tasks, the "black-box" nature of an agent has received increasing concerns. We propose a prototype-based post-hoc policy explainer, ProtoX, that explains a blackbox agent by prototyping the agent's behaviors into scenarios, each represented by a prototypical state. When learning prototypes, ProtoX considers both visual similarity and scenario similarity. The latter is unique to the reinforcement learning context, since it explains why the same action is taken in visually different states. To teach ProtoX about visual similarity, we pre-train an encoder using contrastive learning via self-supervised learning to recognize states as similar if they occur close together in time and receive the same action from the black-box agent. We then add an isometry layer to allow ProtoX to adapt scenario similarity to the downstream task. ProtoX is trained via imitation learning using behavior cloning, and thus requires no access to the environment or agent. In addition to explanation fidelity, we design different prototype shaping terms in the objective function to encourage better interpretability. We conduct various experiments to test ProtoX. Results show that ProtoX achieved high fidelity to the original black-box agent while providing meaningful and understandable explanations.
translated by 谷歌翻译
最近,行动识别因其在智能监视和人为计算机互动方面的全面和实用应用而受到了越来越多的关注。但是,由于数据稀缺性,很少有射击动作识别并未得到充分的探索,并且仍然具有挑战性。在本文中,我们提出了一种新型的分层组成表示(HCR)学习方法,以进行几次识别。具体而言,我们通过精心设计的层次聚类将复杂的动作分为几个子行动,并将子动作进一步分解为更细粒度的空间注意力亚actions(SAS-Actions)。尽管基类和新颖类之间存在很大的差异,但它们可以在子行动或SAS行为中共享相似的模式。此外,我们在运输问题中采用了地球移动器的距离,以测量视频样本之间的相似性在亚行动表示方面。它计算为距离度量的子行动之间的最佳匹配流,这有利于比较细粒模式。广泛的实验表明,我们的方法在HMDB51,UCF101和动力学数据集上实现了最新结果。
translated by 谷歌翻译
尽管近期图形神经网络(GNN)进展,但解释了GNN的预测仍然具有挑战性。现有的解释方法主要专注于后性后解释,其中采用另一种解释模型提供培训的GNN的解释。后HOC方法未能揭示GNN的原始推理过程的事实引发了建立GNN与内置解释性的需求。在这项工作中,我们提出了原型图形神经网络(Protgnn),其将原型学习与GNNS相结合,并提供了对GNN的解释的新视角。在Protgnn中,解释自然地从基于案例的推理过程衍生,并且实际在分类期间使用。通过将输入与潜伏空间中的一些学习原型的输入进行比较来获得ProtGnn的预测。此外,为了更好地解释性和更高的效率,结合了一种新颖的条件子图采样模块,以指示输入图的哪个部分与ProtGnn +中的每个原型最相似。最后,我们在各种数据集中评估我们的方法并进行具体的案例研究。广泛的结果表明,Protgnn和Protgnn +可以提供固有的解释性,同时实现与非可解释对方的准确性有关的准确性。
translated by 谷歌翻译
ProtoPNet and its follow-up variants (ProtoPNets) have attracted broad research interest for their intrinsic interpretability from prototypes and comparable accuracy to non-interpretable counterparts. However, it has been recently found that the interpretability of prototypes can be corrupted due to the semantic gap between similarity in latent space and that in input space. In this work, we make the first attempt to quantitatively evaluate the interpretability of prototype-based explanations, rather than solely qualitative evaluations by some visualization examples, which can be easily misled by cherry picks. To this end, we propose two evaluation metrics, termed consistency score and stability score, to evaluate the explanation consistency cross images and the explanation robustness against perturbations, both of which are essential for explanations taken into practice. Furthermore, we propose a shallow-deep feature alignment (SDFA) module and a score aggregation (SA) module to improve the interpretability of prototypes. We conduct systematical evaluation experiments and substantial discussions to uncover the interpretability of existing ProtoPNets. Experiments demonstrate that our method achieves significantly superior performance to the state-of-the-arts, under both the conventional qualitative evaluations and the proposed quantitative evaluations, in both accuracy and interpretability. Codes are available at https://github.com/hqhQAQ/EvalProtoPNet.
translated by 谷歌翻译
我们提出了一种新颖的少量射击动作识别框架,它增强了特定于类特征的特征歧视性,同时学习高阶时间表示。我们的方法的重点是一种新的时空浓缩模块,可以使用专用的本地补丁级别和全局帧级别富集子模块聚合空间和时间上下文。本地补丁级别的浓缩捕获了基于外观的动作特征。另一方面,全局帧级富集明确地编码了广泛的时间上下文,从而随着时间的推移捕获相关对象特征。然后利用产生的时空富集的表示来学习查询和支持动作子序列之间的关系匹配。我们在补丁级丰富的功能上进一步引入了查询类相似性分类器,通过在所提出的框架中加强特征学习来增强特定于类的特征歧视性。实验是在四次拍摄动作识别基准测试中执行:动力学,SSV2,HMDB51和UCF101。我们广泛的消融研究揭示了拟议贡献的好处。此外,我们的方法在所有四个基准上设置了一种新的最先进的。在挑战SSV2基准测试中,与文献中的最佳现有方法相比,我们的方法在分类准确性中实现了3.5%的绝对增益。我们的代码和型号将公开发布。
translated by 谷歌翻译
无人驾驶飞机(UAV)跟踪对于诸如交货和农业等广泛应用具有重要意义。该领域的先前基准分析主要集中在小规模的跟踪问题上,同时忽略了数据模式的类型,目标类别和方案的多样性以及所涉及的评估协议的数量,从而极大地隐藏了深度无人机跟踪的巨大功能。在这项工作中,我们提出了迄今为止最大的公共无人机跟踪基准Webuav-3M,以促进深度无人机跟踪器的开发和评估。 Webuav-3M在4,500个视频中包含超过330万帧,并提供223个高度多样化的目标类别。每个视频都通过有效且可扩展的半自动目标注释(SATA)管道密集注释。重要的是,要利用语言和音频的互补优势,我们通过提供自然语言规格和音频描述来丰富Webuav-3M。我们认为,这种增加将大大促进未来的研究,以探索语言功能和音频提示,用于多模式无人机跟踪。此外,构建了scenario约束(UTUSC)评估协议和七个具有挑战性的场景子测验集,以使社区能够开发,适应和评估各种类型的高级跟踪器。我们提供了43个代表性跟踪器的广泛评估和详细分析,并设想了深度无人机跟踪及其他领域的未来研究方向。数据集,工具包和基线结果可在\ url {https://github.com/983632847/webuav-3m}中获得。
translated by 谷歌翻译