双曲线空间已成为从树状结构和文本到图表的各种数据类型的歧管的流行选择。建立在欧几里德和超球空间的型原型的深度学习成功,最近的一些作品已经提出了用于分类的双曲线原型。这种方法能够在低维输出空间中实现有效的学习,并且可以利用类之间的分层关系,但需要有关类标签的特权信息来定位双曲型原型。在这项工作中,我们提出了双曲线的Busemann学习。我们的方法背后的主要思想是将原型定位在Poincar \ E球的理想边界上,这不需要先前的标签知识。为了能够计算邻近的理想原型,我们介绍了受到惩罚的Busemann损失。我们提供了支持使用理想原型和建议损失的理论,通过证明其在一维案件中的物流回归。凭经验,我们表明我们的方法提供了对分类信心的自然解释,而最近的最近的超球和双曲线原型方法。
translated by 谷歌翻译
实际上,许多医疗数据集在疾病标签空间上定义了基本的分类学。但是,现有的医学诊断分类算法通常假定具有语义独立的标签。在这项研究中,我们旨在利用深度学习算法来利用类层次结构,以更准确,可靠的皮肤病变识别。我们提出了一个双曲线网络,以共同学习图像嵌入和类原型。事实证明,双曲线为与欧几里得几何形状更好地建模层次关系提供了一个空间。同时,我们使用从类层次结构编码的距离矩阵限制双曲线原型的分布。因此,学习的原型保留了嵌入空间中的语义类关系,我们可以通过将图像特征分配给最近的双曲线类原型来预测图像的标签。我们使用内部皮肤病变数据集,该数据集由65种皮肤疾病的大约230k皮肤镜图像组成,以验证我们的方法。广泛的实验提供了证据表明,与模型相比,我们的模型可以实现更高的准确性,而在不考虑班级关系的情况下可以实现更高的严重分类错误。
translated by 谷歌翻译
从有限的例子中学习和推广,我,e,几次拍摄的学习,对许多真实世界视觉应用的核心重要性是核心重要性。实现少量学习的主要方法是实现来自不同类别的样本是独特的嵌入的嵌入。最近的研究表明,通过双曲线几何嵌入较低的分层和结构化数据,使其适合几次拍摄的学习。在本文中,我们建议学习上下文知识的双曲标准,以表征与学习集合的点与设置距离相关联的点之间的距离。为此,我们将度量标准作为双曲线空间的切线束上的加权总和,并制定自适应地并基于点的星座获得重量的机制。这不仅使得公制本地,而且依赖于手头的任务,这意味着度量根据它比较的样本。我们经验证明,这种度量在异常值存在下产生鲁棒性,并实现基线模型的切实改善。这包括五个流行的少量分类基准,即迷你想象,分层 - 想象成,CALTECH-UCSD鸟-200-2011(幼崽),CIFAR-FS和FC100的最先进的结果。
translated by 谷歌翻译
在许多分类任务中,可以将一组目标类组织成层次结构。该结构引起类之间的语义距离,并且可以在成本矩阵的形式下汇总,其定义了类集上的有限度量。在本文中,我们建议通过将该度量集成在原型网络的监控中来模拟分层类结构。我们的方法依赖于共同学习特征提取网络和一组类原型,其相对布置在嵌入空间中的相对布置遵循分层度量。我们表明,与传统方法和其他基于原型的策略相比,该方法允许在成本矩阵加权的误差率的一致性提高。此外,当诱导的指标包含对数据结构的洞察力时,我们的方法也提高了整体精度。四种不同公共数据集的实验 - 从农业时间序列分类到深度映像语义分割 - 验证我们的方法。
translated by 谷歌翻译
Hierarchical semantic structures, naturally existing in real-world datasets, can assist in capturing the latent distribution of data to learn robust hash codes for retrieval systems. Although hierarchical semantic structures can be simply expressed by integrating semantically relevant data into a high-level taxon with coarser-grained semantics, the construction, embedding, and exploitation of the structures remain tricky for unsupervised hash learning. To tackle these problems, we propose a novel unsupervised hashing method named Hyperbolic Hierarchical Contrastive Hashing (HHCH). We propose to embed continuous hash codes into hyperbolic space for accurate semantic expression since embedding hierarchies in hyperbolic space generates less distortion than in hyper-sphere space and Euclidean space. In addition, we extend the K-Means algorithm to hyperbolic space and perform the proposed hierarchical hyperbolic K-Means algorithm to construct hierarchical semantic structures adaptively. To exploit the hierarchical semantic structures in hyperbolic space, we designed the hierarchical contrastive learning algorithm, including hierarchical instance-wise and hierarchical prototype-wise contrastive learning. Extensive experiments on four benchmark datasets demonstrate that the proposed method outperforms the state-of-the-art unsupervised hashing methods. Codes will be released.
translated by 谷歌翻译
双曲线空间可以连续嵌入分层结构。双曲神经网络(HNNS)通过将欧几里德特征提升到用于分类的双曲线空间来利用这种代表性,优于具有已知分层结构的数据集上的欧几里德神经网络(ENNS)。但是,HNNS低于标准基准测试,具有不明确的层次结构,极大地限制了HNNS的实际适用性。我们的主要洞察力是,由于将欧几里德特征连接到双曲线分类器的混合架构引起,HNNS对渐变较差的较差的普通分类性能。我们通过简单地在训练HNN时简单地剪切欧几里德特征幅度来提出有效的解决方案。我们的实验结果表明,剪辑的HNNS成为超级双曲分类器:它们不仅始终如一地优于位于分层数据上的HNN,而且在MNIST,CIFAR10,CIFAR100和ImageNet基准上与ENN一起举行,具有更好的对抗鲁棒性和分销外检测。
translated by 谷歌翻译
最大化类之间的分离构成了机器学习中众所周知的归纳偏见和许多传统算法的支柱。默认情况下,深网不配备这种电感偏差,因此通过差异优化提出了许多替代解决方案。当前的方法倾向于共同优化分类和分离:将输入与类向量对齐,并角度分离载体。本文提出了一个简单的替代方法:通过在计算SoftMax激活之前添加一个固定的矩阵乘法,将最大分离作为网络中的电感偏差编码。我们方法背后的主要观察结果是,分离不需要优化,可以在训练之前以封闭形式解决并插入网络。我们概述了一种递归方法,以获取由任何数量类别的最大可分离矢量组成的矩阵,可以通过可忽略的工程工作和计算开销添加。尽管它的性质很简单,但这个矩阵乘法提供了真正的影响。我们表明,我们的建议直接提高分类,长尾识别,分布式检测和开放式识别,从CIFAR到Imagenet。我们从经验上发现,最大分离最有效地作为固定偏见。使矩阵可学习不会增加表现。在GitHub上,封闭形式的实现和代码是在GitHub上。
translated by 谷歌翻译
We propose Hierarchical ProtoPNet: an interpretable network that explains its reasoning process by considering the hierarchical relationship between classes. Different from previous methods that explain their reasoning process by dissecting the input image and finding the prototypical parts responsible for the classification, we propose to explain the reasoning process for video action classification by dissecting the input video frames on multiple levels of the class hierarchy. The explanations leverage the hierarchy to deal with uncertainty, akin to human reasoning: When we observe water and human activity, but no definitive action it can be recognized as the water sports parent class. Only after observing a person swimming can we definitively refine it to the swimming action. Experiments on ActivityNet and UCF-101 show performance improvements while providing multi-level explanations.
translated by 谷歌翻译
学习一种潜在的嵌入以了解数据分布的潜在性质,通常是在曲率为零的欧几里得空间中提出的。但是,在嵌入空间中构成的几何约束的成功表明,弯曲空间可能会编码更多的结构信息,从而导致更好的判别能力,从而获得更丰富的表示。在这项工作中,我们研究了弯曲空间的好处,用于分析数据中的异常或分布对象。这是通过通过三个几何约束来考虑嵌入的,即球形几何(具有正曲率),双曲几何形状(具有负曲率)或混合几何形状(具有正曲率和负曲率)。鉴于手头的任务,可以在统一的设计中互换选择三个几何约束。为弯曲空间中的嵌入量身定制,我们还制定功能以计算异常得分。提出了两种类型的几何模块(即,几何模块和两个几何模型)提出了插入原始的欧几里得分类器,并从弯曲的嵌入式中计算出异常分数。我们在各种视觉识别场景中评估所得设计,包括图像检测(多类OOD检测和一级异常检测)和分割(多类异常分段和一级异常分段)。经验结果表明,通过对各种情况的一致改进,我们的提案的有效性。
translated by 谷歌翻译
大多数情况下的对象识别已被接近作为一种热门问题,这些问题对待课程是离散和无关的。必须将每个图像区域分配给一组对象的一个​​成员,包括背景类,忽略对象类型中的任何相似之处。在这项工作中,我们比较了从一种热处理中学到的类嵌入式的错误统计数据,其中来自自然语言处理或知识图中广泛应用于开放世界对象检测的语义结构嵌入。在多个知识嵌入和距离指标上的广泛实验结果表明基于知识的类表示,与挑战COCO和CITYCAPES对象检测基准相比,与一个热方法相比,与一个热方法相比,在表现上进行了更多的语义接地错误分类。通过提出基于Keypoint的基于和基于变换器的对象检测架构的知识嵌入式设计,我们将研究结果概括为多个物体检测架构。
translated by 谷歌翻译
Metric-based meta-learning is one of the de facto standards in few-shot learning. It composes of representation learning and metrics calculation designs. Previous works construct class representations in different ways, varying from mean output embedding to covariance and distributions. However, using embeddings in space lacks expressivity and cannot capture class information robustly, while statistical complex modeling poses difficulty to metric designs. In this work, we use tensor fields (``areas'') to model classes from the geometrical perspective for few-shot learning. We present a simple and effective method, dubbed hypersphere prototypes (HyperProto), where class information is represented by hyperspheres with dynamic sizes with two sets of learnable parameters: the hypersphere's center and the radius. Extending from points to areas, hyperspheres are much more expressive than embeddings. Moreover, it is more convenient to perform metric-based classification with hypersphere prototypes than statistical modeling, as we only need to calculate the distance from a data point to the surface of the hypersphere. Following this idea, we also develop two variants of prototypes under other measurements. Extensive experiments and analysis on few-shot learning tasks across NLP and CV and comparison with 20+ competitive baselines demonstrate the effectiveness of our approach.
translated by 谷歌翻译
由于其几何特性,双曲线空间可以支持树木和图形结构化数据的高保真嵌入。结果,已经开发了各种双曲线网络,这些网络在许多任务上都超过了欧几里得网络:例如双曲线图卷积网络(GCN)在某些图形学习任务上的表现可以胜过香草GCN。但是,大多数现有的双曲线网络都是复杂的,计算昂贵的,并且在数值上不稳定 - 由于这些缺点,它们无法扩展到大图。提出了越来越多的双曲线网络,越来越不清楚什么关键组成部分使模型行为。在本文中,我们提出了HYLA,这是一种简单而最小的方法,用于在网络中使用双曲线空间:Hyla地图一次从双曲空空间从嵌入荷兰的嵌入到欧几里得空间,并通过双曲线空间中的Laplacian操作员的特征函数。我们在图形学习任务上评估HYLA,包括节点分类和文本分类,其中HYLA可以与任何图神经网络一起使用。当与线性模型一起使用时,HYLA对双曲线网络和其他基线显示出显着改善。
translated by 谷歌翻译
Graph convolutional networks (GCNs) are powerful frameworks for learning embeddings of graph-structured data. GCNs are traditionally studied through the lens of Euclidean geometry. Recent works find that non-Euclidean Riemannian manifolds provide specific inductive biases for embedding hierarchical or spherical data. However, they cannot align well with data of mixed graph topologies. We consider a larger class of pseudo-Riemannian manifolds that generalize hyperboloid and sphere. We develop new geodesic tools that allow for extending neural network operations into geodesically disconnected pseudo-Riemannian manifolds. As a consequence, we derive a pseudo-Riemannian GCN that models data in pseudo-Riemannian manifolds of constant nonzero curvature in the context of graph neural networks. Our method provides a geometric inductive bias that is sufficiently flexible to model mixed heterogeneous topologies like hierarchical graphs with cycles. We demonstrate the representational capabilities of this method by applying it to the tasks of graph reconstruction, node classification and link prediction on a series of standard graphs with mixed topologies. Empirical results demonstrate that our method outperforms Riemannian counterparts when embedding graphs of complex topologies.
translated by 谷歌翻译
标签层次结构通常作为生物分类法或语言数据集的一部分可用。几项作品利用这些作品来学习层次结构意识到功能,以改善分类器,以在维持或减少总体错误的同时犯有语义有意义的错误。在本文中,我们提出了一种学习层次结构意识特征(HAF)的新方法,该方法利用分类器在每个层次结构级别上的分类器受到约束,以生成与标签层次结构一致的预测。分类器的训练是通过最大程度地减少从细粒分类器获​​得的目标软标签的Jensen Shannon差异来训练。此外,我们采用了简单的几何损失,该损失限制了特征空间几何形状以捕获标签空间的语义结构。 HAF是一种训练时间方法,可以改善错误,同时保持TOP-1错误,从而解决了跨凝性损失的问题,该问题将所有错误视为平等。我们在三个层次数据集上评估HAF,并在Inaturalist-19和Cifar-100数据集上实现最新结果。源代码可从https://github.com/07agarg/haf获得
translated by 谷歌翻译
零拍学习(ZSL)旨在通过利用所见类和看不见的类之间共享的语义描述来识别看不见的类。当前的方法表明,通过将语义嵌入将视觉空间投射到视觉空间中是类原型,从而有效地学习视觉语义对齐是有效的。但是,这样的投影函数仅与可见的类有关。当应用于看不见的类时,原型通常由于域移位而次优。在本文中,我们建议通过称为LPL的占位符学习原型,以消除看到和看不见的阶级之间的域转移。具体来说,我们将看到的课程结合在一起,以使新课程成为视觉和语义空间中看不见的班级的占位符。占位持有人放置在看到的班级之间,鼓励人们高度分散所见类的原型。插入良好的看不见的空间也可以保留更多的空间。从经验上讲,分离良好的原型有助于抵消由域转移引起的视觉声音错位。此外,我们利用一种新颖的面向语义的微调来保证占位符的语义可靠性。在五个基准数据集上进行的广泛实验证明了LPL在最新方法上的显着性能提高。代码可在https://github.com/zaiquanyang/lpl上找到。
translated by 谷歌翻译
Supervision for metric learning has long been given in the form of equivalence between human-labeled classes. Although this type of supervision has been a basis of metric learning for decades, we argue that it hinders further advances of the field. In this regard, we propose a new regularization method, dubbed HIER, to discover the latent semantic hierarchy of training data, and to deploy the hierarchy to provide richer and more fine-grained supervision than inter-class separability induced by common metric learning losses. HIER achieved this goal with no annotation for the semantic hierarchy but by learning hierarchical proxies in hyperbolic spaces. The hierarchical proxies are learnable parameters, and each of them is trained to serve as an ancestor of a group of data or other proxies to approximate the semantic hierarchy among them. HIER deals with the proxies along with data in hyperbolic space since geometric properties of the space are well-suited to represent their hierarchical structure. The efficacy of HIER was evaluated on four standard benchmarks, where it consistently improved performance of conventional methods when integrated with them, and consequently achieved the best records, surpassing even the existing hyperbolic metric learning technique, in almost all settings.
translated by 谷歌翻译
双曲线神经网络由于对几个图形问题的有希望的结果,包括节点分类和链接预测,因此最近引起了极大的关注。取得成功的主要原因是双曲空间在捕获图数据集的固有层次结构方面的有效性。但是,在非层次数据集方面,它们在概括,可伸缩性方面受到限制。在本文中,我们对双曲线网络进行了完全正交的观点。我们使用Poincar \'e磁盘对双曲线几何形状进行建模,并将其视为磁盘本身是原始的切线空间。这使我们能够用欧几里院近似替代非尺度的M \“ Obius Gyrovector操作,因此将整个双曲线模型简化为具有双曲线归一化功能的欧几里得模型。它仍然在Riemannian歧管中起作用,因此我们称其为伪poincar \'e框架。我们将非线性双曲线归一化应用于当前的最新均质和多关系图网络,与欧几里得和双曲线对应物相比,性能的显着改善。这项工作的主要影响在于其在欧几里得空间中捕获层次特征的能力,因此可以替代双曲线网络而不会损失性能指标,同时利用欧几里得网络的功能,例如可解释性和有效执行各种模型组件。
translated by 谷歌翻译
产品空间的嵌入方法是用于复杂数据结构的低失真和低维表示的强大技术。在这里,我们解决了Euclidean,球形和双曲线产品的产品空间形式的线性分类新问题。首先,我们描述了使用测地仪和黎曼·歧木的线性分类器的新型制剂,其使用大气和黎曼指标在向量空间中推广直线和内部产品。其次,我们证明了$ D $ -dimential空间形式的线性分类器的任何曲率具有相同的表现力,即,它们可以粉碎恰好$ d + 1 $积分。第三,我们在产品空间形式中正式化线性分类器,描述了第一个已知的Perceptron和支持这些空间的传染媒介机分类器,并为感知者建立严格的融合结果。此外,我们证明了vapnik-chervonenkis尺寸在尺寸的产品空间形式的线性分类器的维度为\ {至少} $ d + 1 $。我们支持我们的理论发现,在多个数据集上模拟,包括合成数据,图像数据和单细胞RNA测序(SCRNA-SEQ)数据。结果表明,与相同维度的欧几里德空间中的欧几里德空间中,SCRNA-SEQ数据的低维产品空间形式的分类为SCRNA-SEQ数据提供了$ \ SIM15 \%$的性能改进。
translated by 谷歌翻译
3D对象的点云具有固有的组成性质,可以将简单的部分组装成逐渐复杂的形状以形成整个对象。明确捕获这种部分整体层次结构是一个长期的目标,以建立有效的模型,但其树状的性质使这项任务变得难以捉摸。在本文中,我们建议将点云分类器的特征嵌入双曲线空间中,并明确规范空间以说明零件整体结构。双曲线空间是唯一可以成功嵌入层次结构的树状性质的空间。这导致了对点云分类的最先进的监督模型的性能的实质性改善。
translated by 谷歌翻译
Few-shot learning has become essential for producing models that generalize from few examples. In this work, we identify that metric scaling and metric task conditioning are important to improve the performance of few-shot algorithms. Our analysis reveals that simple metric scaling completely changes the nature of few-shot algorithm parameter updates. Metric scaling provides improvements up to 14% in accuracy for certain metrics on the mini-Imagenet 5-way 5-shot classification task. We further propose a simple and effective way of conditioning a learner on the task sample set, resulting in learning a task-dependent metric space. Moreover, we propose and empirically test a practical end-to-end optimization procedure based on auxiliary task co-training to learn a task-dependent metric space. The resulting few-shot learning model based on the task-dependent scaled metric achieves state of the art on mini-Imagenet. We confirm these results on another few-shot dataset that we introduce in this paper based on CIFAR100. Our code is publicly available at https://github.com/ElementAI/TADAM.
translated by 谷歌翻译