Many machine learning tasks such as multiple instance learning, 3D shape recognition and fewshot image classification are defined on sets of instances. Since solutions to such problems do not depend on the order of elements of the set, models used to address them should be permutation invariant. We present an attention-based neural network module, the Set Transformer, specifically designed to model interactions among elements in the input set. The model consists of an encoder and a decoder, both of which rely on attention mechanisms. In an effort to reduce computational complexity, we introduce an attention scheme inspired by inducing point methods from sparse Gaussian process literature. It reduces computation time of self-attention from quadratic to linear in the number of elements in the set. We show that our model is theoretically attractive and we evaluate it on a range of tasks, demonstrating increased performance compared to recent methods for set-structured data.
translated by 谷歌翻译
我们为在多个置换不变的集合上学习功能提出了一个一般的深度体系结构。我们还展示了如何通过维度等值的任何维度元素概括到任何维度元素的集合。我们证明了我们的体系结构是这些功能的通用近似值,并显示了有关各种任务的现有方法的卓越结果,包括计数任务,对齐任务,可区分性任务和统计距离测量。最后的任务在机器学习中非常重要。尽管我们的方法非常笼统,但我们证明它可以产生KL差异和相互信息的近似估计值,这些信息比以前专门设计以近似这些统计距离的技术更准确。
translated by 谷歌翻译
学习将输入集映射到其元素元素序列上的任务对于神经网络而言是一项挑战。设置到序列问题发生在自然语言处理,计算机视觉和结构预测中,其中大集合元素之间的相互作用定义了最佳输出。模型必须表现出关系推理,处理不同的基础性并管理组合复杂性。以前的基于注意力的方法需要$ n $层的设定转换,以明确表示$ n $ th订单关系。我们的目的是增强他们通过附加相互依赖组件有效地对高阶相互作用进行有效建模的能力。我们提出了一种新型的神经集编码方法,称为“集合相互依赖变压器”,能够将集合的置换不变表示与其在任何基数集合中的元素联系起来。我们将其与置换学习模块结合到一个完整的三部分设定模型中,并在许多任务上演示其最先进的性能。这些范围从组合优化问题,到在合成和已建立的NLP数据集上的置换学习挑战到句子排序的挑战,到产品目录结构预测的新颖领域。此外,研究了网络概括到看不见的序列长度的能力,并提供了对现有方法学习高阶相互作用能力的比较经验分析。
translated by 谷歌翻译
In this work, we present Point Transformer, a deep neural network that operates directly on unordered and unstructured point sets. We design Point Transformer to extract local and global features and relate both representations by introducing the local-global attention mechanism, which aims to capture spatial point relations and shape information. For that purpose, we propose SortNet, as part of the Point Transformer, which induces input permutation invariance by selecting points based on a learned score. The output of Point Transformer is a sorted and permutation invariant feature list that can directly be incorporated into common computer vision applications. We evaluate our approach on standard classification and part segmentation benchmarks to demonstrate competitive results compared to the prior work. Code is publicly available at: https://github.com/engelnico/point-transformer INDEX TERMS 3D point processing, Artificial neural networks, Computer vision, Feedforward neural networks, Transformer
translated by 谷歌翻译
先前的作品已经为神经集功能建立了固体基础,以及有效的体系结构,这些架构保留了在集合上操作的必要属性,例如对集合元素的排列不变。随后,已经确定了在保持输出上保持一致性保证的同时,依次处理任何随机设置分区方案的任何置换的能力,但已建立了网络体系结构的选项有限。我们进一步研究了神经集编码功能中的MBC特性,建立了一种将任意非MBC模型转换为满足MBC的方法。在此过程中,我们为普遍MBC(UMBC)类的集合功能提供了一个框架。此外,我们探讨了通过我们的框架实现的有趣的辍学策略,并研究了其对测试时间分配变化下的概率校准的影响。我们通过单位测试支持的证据来验证UMBC,还提供了有关玩具数据,清洁和损坏的云云分类的定性/定量实验,并在Imagenet上摊销了聚类。结果表明了UMBC的实用性,我们进一步发现我们的辍学策略改善了不确定性校准。
translated by 谷歌翻译
现有的置换不变方法可以根据聚合范围(即全球聚合和局部局部)分为两类。尽管全局聚合方法,e。 g。,PointNet和Deep Sets,参与更简单的结构,它们的性能比PointNet ++和Point Transformer等局部聚合较差。如果存在具有简单结构,竞争性能甚至更少参数的全球聚合方法,那么它仍然是一个空旷的问题。在本文中,我们提出了一个基于双MLP点产品的新型全局聚合置换不变的网络,称为DUMLP-PIN,该网络能够用于提取集合输入的功能,包括无序或非结构的像素,属性,atter和Point和Point和Point云数据集。我们严格地证明,DUMLP-PIN实现的任何置换不变函数都可以通过点产生方式分解为两个或多个置换量的函数,因为给定输入集的基数大于阈值。我们还表明,在某些条件下,可以将DUMLP针视为具有强大限制的深度集。 DUMLP-PIN的性能在具有不同数据集的几个不同任务上进行了评估。实验结果表明,我们的DUMLP-PIN在像素集和属性集的两个分类问题上取得了最佳结果。在点云分类和零件分割上,DUMLP-PIN的准确性非常接近SO-FAR最佳表现最佳的本地聚合方法,仅差异1-2%,而所需参数的数量显着降低了分类分别超过85%和69%的分割。该代码可在https://github.com/jaronthu/dumlp-pin上公开获得。
translated by 谷歌翻译
通常通过将许多输入张量汇总为单个表示形式来处理神经网络中神经网络中的处理集或其他无序的,潜在的变化大小的输入。尽管从简单的汇总到多头关注已经存在许多聚合方法,但从理论和经验的角度来看,它们的代表力都受到限制。在搜索主要功能更强大的聚合策略时,我们提出了一种基于优化的方法,称为平衡聚​​集。我们表明,许多现有的聚合方法可以作为平衡聚集的特殊情况恢复,并且在某些重要情况下,它效率更高。在许多现有的架构和应用中,平衡聚集可以用作置换式替换。我们在三个不同的任务上验证其效率:中值估计,班级计数和分子性质预测。在所有实验中,平衡聚集的性能都比我们测试的其他聚合技术更高。
translated by 谷歌翻译
内核选择在确定高斯过程(GP)模型中的性能方面发挥着核心作用,因为所选择的内核在之前的GP下确定了电感偏差和在GP下的功能的先前支持。这项工作解决了为高维GP回归模型构建自定义内核功能的挑战。从最近的深度学习进步中汲取灵感,我们介绍了一个名为Kitt的新方法:通过变压器识别内核识别。 KITT利用基于变压器的架构,以在0.1秒内生成内核建议,这比传统的内核搜索算法快几个数量级。我们使用从已知内核的词汇表中从前线生成的合成数据训练我们的模型。通过利用自我关注机制的性质,KITT能够处理具有任意尺寸的输入的数据集。我们证明,KITT选择的内核会在各种回归基准集合中产生强烈的表现。
translated by 谷歌翻译
置换不变的神经网络是从集合进行预测的有前途的工具。但是,我们表明,现有的置换式体系结构,深度集和固定的变压器可能会在深度时消失或爆炸。此外,层规范(SET变压器中选择的归一化)可能会通过删除对预测有用的信息来损害性能。为了解决这些问题,我们介绍了白皮剩余连接的干净路径原理,并开发了设置规范,这是针对集合量身定制的标准化。有了这些,我们构建了Deep Sets ++和SET Transformer ++,该模型比其在各种任务套件上的原始配对品具有可比性或更好的性能。我们还引入了Flow-RBC,这是一种新的单细胞数据集和置换不变预测的现实应用。我们在此处开放数据和代码:https://github.com/rajesh-lab/deep_permunt_invariant。
translated by 谷歌翻译
神经过程(NP)是一种流行的元学习方法。与高斯工艺(GPS)类似,NPS将分布定义在功能上,并可以估计其预测中的不确定性。但是,与GPS不同,NP及其变体遭受不足的折磨,并且通常具有棘手的可能性,这限制了其在顺序决策中的应用。我们提出了变形金刚神经过程(TNP),这是NP家族的新成员,将不确定性感知的元学习作为序列建模问题。我们通过基于自回旋的可能性目标学习TNP,并通过新颖的基于变压器的建筑实例化。该模型架构尊重问题结构固有的归纳偏差,例如对观察到的数据点的不变性以及与未观察到的点的等效性。我们进一步研究了TNP框架内的旋钮,以额外的计算来折衷解码分布的表达。从经验上讲,我们表明TNP在各种基准问题上实现最新性能,在元回归,图像完成,上下文多武器匪徒和贝叶斯优化方面表现优于所有先前的NP变体。
translated by 谷歌翻译
Future surveys such as the Legacy Survey of Space and Time (LSST) of the Vera C. Rubin Observatory will observe an order of magnitude more astrophysical transient events than any previous survey before. With this deluge of photometric data, it will be impossible for all such events to be classified by humans alone. Recent efforts have sought to leverage machine learning methods to tackle the challenge of astronomical transient classification, with ever improving success. Transformers are a recently developed deep learning architecture, first proposed for natural language processing, that have shown a great deal of recent success. In this work we develop a new transformer architecture, which uses multi-head self attention at its core, for general multi-variate time-series data. Furthermore, the proposed time-series transformer architecture supports the inclusion of an arbitrary number of additional features, while also offering interpretability. We apply the time-series transformer to the task of photometric classification, minimising the reliance of expert domain knowledge for feature selection, while achieving results comparable to state-of-the-art photometric classification methods. We achieve a logarithmic-loss of 0.507 on imbalanced data in a representative setting using data from the Photometric LSST Astronomical Time-Series Classification Challenge (PLAsTiCC). Moreover, we achieve a micro-averaged receiver operating characteristic area under curve of 0.98 and micro-averaged precision-recall area under curve of 0.87.
translated by 谷歌翻译
We study the problem of designing models for machine learning tasks defined on sets. In contrast to traditional approach of operating on fixed dimensional vectors, we consider objective functions defined on sets that are invariant to permutations. Such problems are widespread, ranging from estimation of population statistics [1], to anomaly detection in piezometer data of embankment dams [2], to cosmology [3,4]. Our main theorem characterizes the permutation invariant functions and provides a family of functions to which any permutation invariant objective function must belong. This family of functions has a special structure which enables us to design a deep network architecture that can operate on sets and which can be deployed on a variety of scenarios including both unsupervised and supervised learning tasks. We also derive the necessary and sufficient conditions for permutation equivariance in deep models. We demonstrate the applicability of our method on population statistic estimation, point cloud classification, set expansion, and outlier detection.
translated by 谷歌翻译
大多数设置深度学习的预测模型,使用Set-Scifariant操作,但它们实际上在MultiSet上运行。我们表明设置的函数不能代表多种功能上的某些功能,因此我们介绍了更适当的多种式概念概念。我们确定现有的深度设置预测网络(DSPN)可以是多机构的,而不会被设定的标准规模阻碍,并通过近似隐式差分改进它,允许更好地优化,同时更快和节省存储器。在一系列玩具实验中,我们表明,多机构的角度是有益的,在大多数情况下,我们对DSPN的变化达到了更好的结果。关于CLEVR对象性质预测,由于通过隐含分化所取得的益处,我们在最先进的评估指标中从8%到77%的最先进的槽注意力从8%提高到77%。
translated by 谷歌翻译
Learning object-centric representations of complex scenes is a promising step towards enabling efficient abstract reasoning from low-level perceptual features. Yet, most deep learning approaches learn distributed representations that do not capture the compositional properties of natural scenes. In this paper, we present the Slot Attention module, an architectural component that interfaces with perceptual representations such as the output of a convolutional neural network and produces a set of task-dependent abstract representations which we call slots. These slots are exchangeable and can bind to any object in the input by specializing through a competitive procedure over multiple rounds of attention. We empirically demonstrate that Slot Attention can extract object-centric representations that enable generalization to unseen compositions when trained on unsupervised object discovery and supervised property prediction tasks.
translated by 谷歌翻译
学习神经集功能在许多应用中越来越重要,例如产品推荐和AI辅助药物发现中的复合选择。在功能值Oracle下,大多数现有的作品研究方法学方法学方法学都需要昂贵的监督信号。这使得仅在最佳子集(OS)Oracle下仅进行弱监督的应用程序使其不切实际,而研究的研究令人惊讶地忽略了。在这项工作中,我们提出了一个原则上但实用的最大似然学习框架,称为等效性,该框架同时满足OS ORACLE下的以下学习设置功能:i)置入了模型的设定质量函数的置换率; ii)许可不同地面套件; iii)最低先验;和iv)可伸缩性。我们框架的主要组成部分涉及:对设定质量函数的基于能量的处理,深空式体系结构来处理置换不变性,平均场变异推理及其摊销变体。由于这些高级体系结构的优雅组合,对三个现实世界应用的实证研究(包括亚马逊产品推荐,设置异常检测和虚拟筛选的复合选择)表明,EquivSet的表现优于基本线的大幅度。
translated by 谷歌翻译
如何从多个实例中汇总信息是一个关键问题多重实例学习。先前的神经模型实施了众所周知的编码器策略的不同变体,根据该变体,所有输入特征均编码单个高维嵌入,然后将其解码以生成输出。在这项工作中,受Choquet能力的启发,我们提出了能力网络。与编码器解码器不同,容量网络会生成多个可解释的中间结果,这些结果可以在语义上有意义的空间中汇总以获得最终输出。我们的实验表明,实施这种简单的电感偏置会导致在广泛的实验中对不同编码器架构的改进。此外,可解释的中间结果使能力网络可通过设计来解释,从而允许语义上有意义的检查,评估和正规化网络内部设备。
translated by 谷歌翻译
节点分类是关系学习中的一个核心任务,在两个密钥原理上具有当前最先进的静脉:(i)预测是节点邻居的排序的禁用 - 不变,并且(ii)预测是函数节点的$ r $ -hop邻域拓扑和属性,$ r \ geq 2 $。图形神经网络和集体推理方法(例如,信仰传播)依赖于最多$ r $-hops的信息。在这项工作中,我们研究了使用更强大的置换不变功能,有时可以避免对分类器的需求收集超过$ 1 $ -hop的信息。为此,我们介绍了一个新的架构,集旋转,概括了德·德斯集(Zaheer等,2017),一种简单而广泛使用的置换不变表示。设置捻线仪理论上提高了DeadSets的表现力,使其捕获更高阶依赖性,同时保持其简单性和低计算成本。经验上,我们看到了在若干任务中的Deplsets套装以及各种图形神经网络和集体推理方案的准确性改进,同时展示了其实现简单和计算效率。
translated by 谷歌翻译
拓扑数据分析(TDA)的主要挑战之一是从机器学习算法直接可用的持久图中提取功能。实际上,持久性图是R2中的本质上(多级)点,并且不能以直接的方式视为向量。在本文中,我们介绍了持平性器,这是一个接受持久图作为输入的第一变压器神经网络架构。坚持不懈的体系结构显着优于古典合成基准数据集上以前的拓扑神经网络架构。此外,它满足了通用近似定理。这使我们能够介绍一种用于拓扑机学习的第一解释方法,我们在两个示例中探讨。
translated by 谷歌翻译
高斯流程提供了一个优雅的框架,用于在功能上指定先验和后验分布。但是,它们在计算上也很昂贵,并且受其协方差函数的表达性限制。我们提出了基于扩散模型的新方法神经扩散过程(NDP),该方法学会了从功能上分布中采样。使用新颖的注意力块,我们可以将随机过程(例如交换性)的属性直接融合到NDP的体系结构中。我们从经验上表明,NDP能够捕获与高斯过程的真正贝叶斯后部接近的功能分布。这可以实现各种下游任务,包括高参数边缘化和贝叶斯优化。
translated by 谷歌翻译
在这项工作中,我们介绍了内核化变压器,这是一个通用,可扩展的,数据驱动的框架,用于学习变压器中的内核功能。我们的框架将变压器内核作为光谱特征图之间的点产物近似,并通过学习光谱分布来学习内核。这不仅有助于学习通用的内核端到端,而且还可以减少变压器从二次到线性的时间和空间复杂性。我们表明,在准确性和计算效率方面,内核化的变压器实现了与现有的有效变压器体系结构相当的性能。我们的研究还表明,内核的选择对性能有重大影响,而内核学习变体是固定内核变压器的竞争替代方案,无论是长时间的序列任务。
translated by 谷歌翻译