如何从多个实例中汇总信息是一个关键问题多重实例学习。先前的神经模型实施了众所周知的编码器策略的不同变体,根据该变体,所有输入特征均编码单个高维嵌入,然后将其解码以生成输出。在这项工作中,受Choquet能力的启发,我们提出了能力网络。与编码器解码器不同,容量网络会生成多个可解释的中间结果,这些结果可以在语义上有意义的空间中汇总以获得最终输出。我们的实验表明,实施这种简单的电感偏置会导致在广泛的实验中对不同编码器架构的改进。此外,可解释的中间结果使能力网络可通过设计来解释,从而允许语义上有意义的检查,评估和正规化网络内部设备。
translated by 谷歌翻译
通常通过将许多输入张量汇总为单个表示形式来处理神经网络中神经网络中的处理集或其他无序的,潜在的变化大小的输入。尽管从简单的汇总到多头关注已经存在许多聚合方法,但从理论和经验的角度来看,它们的代表力都受到限制。在搜索主要功能更强大的聚合策略时,我们提出了一种基于优化的方法,称为平衡聚​​集。我们表明,许多现有的聚合方法可以作为平衡聚集的特殊情况恢复,并且在某些重要情况下,它效率更高。在许多现有的架构和应用中,平衡聚集可以用作置换式替换。我们在三个不同的任务上验证其效率:中值估计,班级计数和分子性质预测。在所有实验中,平衡聚集的性能都比我们测试的其他聚合技术更高。
translated by 谷歌翻译
Many machine learning tasks such as multiple instance learning, 3D shape recognition and fewshot image classification are defined on sets of instances. Since solutions to such problems do not depend on the order of elements of the set, models used to address them should be permutation invariant. We present an attention-based neural network module, the Set Transformer, specifically designed to model interactions among elements in the input set. The model consists of an encoder and a decoder, both of which rely on attention mechanisms. In an effort to reduce computational complexity, we introduce an attention scheme inspired by inducing point methods from sparse Gaussian process literature. It reduces computation time of self-attention from quadratic to linear in the number of elements in the set. We show that our model is theoretically attractive and we evaluate it on a range of tasks, demonstrating increased performance compared to recent methods for set-structured data.
translated by 谷歌翻译
Pre-publication draft of a book to be published byMorgan & Claypool publishers. Unedited version released with permission. All relevant copyrights held by the author and publisher extend to this pre-publication draft.
translated by 谷歌翻译
Multiple instance learning (MIL) is a variation of supervised learning where a single class label is assigned to a bag of instances. In this paper, we state the MIL problem as learning the Bernoulli distribution of the bag label where the bag label probability is fully parameterized by neural networks. Furthermore, we propose a neural network-based permutation-invariant aggregation operator that corresponds to the attention mechanism. Notably, an application of the proposed attention-based operator provides insight into the contribution of each instance to the bag label. We show empirically that our approach achieves comparable performance to the best MIL methods on benchmark MIL datasets and it outperforms other methods on a MNIST-based MIL dataset and two real-life histopathology datasets without sacrificing interpretability.
translated by 谷歌翻译
置换不变的神经网络是从集合进行预测的有前途的工具。但是,我们表明,现有的置换式体系结构,深度集和固定的变压器可能会在深度时消失或爆炸。此外,层规范(SET变压器中选择的归一化)可能会通过删除对预测有用的信息来损害性能。为了解决这些问题,我们介绍了白皮剩余连接的干净路径原理,并开发了设置规范,这是针对集合量身定制的标准化。有了这些,我们构建了Deep Sets ++和SET Transformer ++,该模型比其在各种任务套件上的原始配对品具有可比性或更好的性能。我们还引入了Flow-RBC,这是一种新的单细胞数据集和置换不变预测的现实应用。我们在此处开放数据和代码:https://github.com/rajesh-lab/deep_permunt_invariant。
translated by 谷歌翻译
大多数设置深度学习的预测模型,使用Set-Scifariant操作,但它们实际上在MultiSet上运行。我们表明设置的函数不能代表多种功能上的某些功能,因此我们介绍了更适当的多种式概念概念。我们确定现有的深度设置预测网络(DSPN)可以是多机构的,而不会被设定的标准规模阻碍,并通过近似隐式差分改进它,允许更好地优化,同时更快和节省存储器。在一系列玩具实验中,我们表明,多机构的角度是有益的,在大多数情况下,我们对DSPN的变化达到了更好的结果。关于CLEVR对象性质预测,由于通过隐含分化所取得的益处,我们在最先进的评估指标中从8%到77%的最先进的槽注意力从8%提高到77%。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
神经算术逻辑模块已成为一个不断增长的领域,尽管仍然是一个利基领域。这些模块是神经网络,旨在在学习算术和/或逻辑操作中实现系统的概括,例如$ \ {+, - ,\ times,\ div,\ leq,\ leq,\ textrm {and} \} $,同时也可以解释。本文是首次讨论该领域进度的现状,从神经算术逻辑单元(NALU)开始解释关键作品。为了关注Nalu的缺点,我们提供了深入的分析,以理论有关最近模块的设计选择。在实验设置和发现上进行了模块之间的交叉比较,我们在基本实验中强调了不一致,导致无法直接比较跨论文。为了减轻现有的不一致之处,我们创建了一个基准,比较了所有现有的算术nalms。我们通过对NALU的现有应用和需要进一步探索的研究方向进行新的讨论来结束。
translated by 谷歌翻译
节点分类是关系学习中的一个核心任务,在两个密钥原理上具有当前最先进的静脉:(i)预测是节点邻居的排序的禁用 - 不变,并且(ii)预测是函数节点的$ r $ -hop邻域拓扑和属性,$ r \ geq 2 $。图形神经网络和集体推理方法(例如,信仰传播)依赖于最多$ r $-hops的信息。在这项工作中,我们研究了使用更强大的置换不变功能,有时可以避免对分类器的需求收集超过$ 1 $ -hop的信息。为此,我们介绍了一个新的架构,集旋转,概括了德·德斯集(Zaheer等,2017),一种简单而广泛使用的置换不变表示。设置捻线仪理论上提高了DeadSets的表现力,使其捕获更高阶依赖性,同时保持其简单性和低计算成本。经验上,我们看到了在若干任务中的Deplsets套装以及各种图形神经网络和集体推理方案的准确性改进,同时展示了其实现简单和计算效率。
translated by 谷歌翻译
我们为在多个置换不变的集合上学习功能提出了一个一般的深度体系结构。我们还展示了如何通过维度等值的任何维度元素概括到任何维度元素的集合。我们证明了我们的体系结构是这些功能的通用近似值,并显示了有关各种任务的现有方法的卓越结果,包括计数任务,对齐任务,可区分性任务和统计距离测量。最后的任务在机器学习中非常重要。尽管我们的方法非常笼统,但我们证明它可以产生KL差异和相互信息的近似估计值,这些信息比以前专门设计以近似这些统计距离的技术更准确。
translated by 谷歌翻译
图形神经网络(GNN)已成功用于许多涉及图形结构数据的问题,从而实现了最新的性能。 GNN通常采用消息通话方案,其中每个节点都使用置换不变的聚合函数从其邻居中汇总信息。标准良好的选择(例如平均值或总和函数)具有有限的功能,因为它们无法捕获邻居之间的相互作用。在这项工作中,我们使用信息理论框架正式化了这些交互,该框架特别包括协同信息。在此定义的驱动下,我们介绍了图排序注意(山羊)层,这是一种新型的GNN组件,可捕获邻域中的节点之间的相互作用。这是通过通过注意机制学习局部节点顺序并使用复发性神经网络聚合器来处理订购表示的来实现的。这种设计使我们能够利用置换敏感的聚合器,同时维持所提出的山羊层的排列量表。山羊模型展示了其在捕获复杂信息(例如中心中心性和节点的有效大小)中的建模图指标中提高的性能。在实用用例中,通过在几个现实世界节点分类基准中成功证实了其出色的建模能力。
translated by 谷歌翻译
像长期短期内存网络(LSTMS)和门控复发单元(GRUS)相同的经常性神经网络(RNN)是建模顺序数据的流行选择。它们的门控机构允许以来自传入观测的新信息在隐藏状态中编码的先前历史。在许多应用程序中,例如医疗记录,观察时间是不规则的并且携带重要信息。然而,LSTM和GRUS在观察之间假设恒定的时间间隔。为了解决这一挑战,我们提出了连续的经常性单位(CRU)-A神经结构,可以自然地处理观察之间的不规则时间间隔。 CRU的浇注机制采用卡尔曼滤波器的连续制剂,并且根据线性随机微分方程(SDE)和(2)潜伏状态在新观察进入时,在(1)之间的连续潜在传播之间的交替。在实证研究,我们表明CRU可以比神经常规差分方程(神经颂歌)的模型更好地插值不规则时间序列。我们还表明,我们的模型可以从IM-AGES推断动力学,并且卡尔曼有效地单挑出候选人的候选人,从而从嘈杂的观察中获得有价值的状态更新。
translated by 谷歌翻译
Deep Learning and Machine Learning based models have become extremely popular in text processing and information retrieval. However, the non-linear structures present inside the networks make these models largely inscrutable. A significant body of research has focused on increasing the transparency of these models. This article provides a broad overview of research on the explainability and interpretability of natural language processing and information retrieval methods. More specifically, we survey approaches that have been applied to explain word embeddings, sequence modeling, attention modules, transformers, BERT, and document ranking. The concluding section suggests some possible directions for future research on this topic.
translated by 谷歌翻译
在本文中,我们试图通过引入深度学习模型的句法归纳偏见来建立两所学校之间的联系。我们提出了两个归纳偏见的家族,一个家庭用于选区结构,另一个用于依赖性结构。选区归纳偏见鼓励深度学习模型使用不同的单位(或神经元)分别处理长期和短期信息。这种分离为深度学习模型提供了一种方法,可以从顺序输入中构建潜在的层次表示形式,即更高级别的表示由高级表示形式组成,并且可以分解为一系列低级表示。例如,在不了解地面实际结构的情况下,我们提出的模型学会通过根据其句法结构组成变量和运算符的表示来处理逻辑表达。另一方面,依赖归纳偏置鼓励模型在输入序列中找到实体之间的潜在关系。对于自然语言,潜在关系通常被建模为一个定向依赖图,其中一个单词恰好具有一个父节点和零或几个孩子的节点。将此约束应用于类似变压器的模型之后,我们发现该模型能够诱导接近人类专家注释的有向图,并且在不同任务上也优于标准变压器模型。我们认为,这些实验结果为深度学习模型的未来发展展示了一个有趣的选择。
translated by 谷歌翻译
有效地对远程依赖性建模是序列建模的重要目标。最近,使用结构化状态空间序列(S4)层的模型在许多远程任务上实现了最先进的性能。 S4层将线性状态空间模型(SSM)与深度学习技术结合在一起,并利用HIPPO框架进行在线功能近似以实现高性能。但是,该框架导致了架构约束和计算困难,使S4方法变得复杂,可以理解和实施。我们重新审视这样的想法,即遵循河马框架对于高性能是必要的。具体而言,我们替换了许多独立的单输入单输出(SISO)SSM的库S4层与一个多输入的多输出(MIMO)SSM一起使用,并具有降低的潜在尺寸。 MIMO系统的缩小潜在维度允许使用有效的并行扫描,从而简化了将S5层应用于序列到序列转换所需的计算。此外,我们将S5 SSM的状态矩阵初始化,其近似与S4 SSMS使用的河马级矩阵近似,并表明这是MIMO设置的有效初始化。 S5与S4在远程任务上的表现相匹配,包括在远程竞技场基准的套件中平均达到82.46%,而S4的80.48%和最佳的变压器变体的61.41%。
translated by 谷歌翻译
众所周知,端到端的神经NLP体系结构很难理解,这引起了近年来为解释性建模的许多努力。模型解释的基本原则是忠诚,即,解释应准确地代表模型预测背后的推理过程。这项调查首先讨论了忠诚的定义和评估及其对解释性的意义。然后,我们通过将方法分为五类来介绍忠实解释的最新进展:相似性方法,模型内部结构的分析,基于反向传播的方法,反事实干预和自我解释模型。每个类别将通过其代表性研究,优势和缺点来说明。最后,我们从它们的共同美德和局限性方面讨论了上述所有方法,并反思未来的工作方向忠实的解释性。对于有兴趣研究可解释性的研究人员,这项调查将为该领域提供可访问且全面的概述,为进一步探索提供基础。对于希望更好地了解自己的模型的用户,该调查将是一项介绍性手册,帮助选择最合适的解释方法。
translated by 谷歌翻译
The prevalent approach to sequence to sequence learning maps an input sequence to a variable length output sequence via recurrent neural networks. We introduce an architecture based entirely on convolutional neural networks. 1 Compared to recurrent models, computations over all elements can be fully parallelized during training to better exploit the GPU hardware and optimization is easier since the number of non-linearities is fixed and independent of the input length. Our use of gated linear units eases gradient propagation and we equip each decoder layer with a separate attention module. We outperform the accuracy of the deep LSTM setup of Wu et al. (2016) on both WMT'14 English-German and WMT'14 English-French translation at an order of magnitude faster speed, both on GPU and CPU.
translated by 谷歌翻译
在这项工作中,我们审查并评估了一个具有公开可用和广泛使用的数据集的深度学习知识追踪(DLKT)模型,以及学习编程的新型学生数据集。评估的DLKT模型已重新实现,用于评估先前报告的结果的可重复性和可复制性。我们测试在与模型的主要架构上独立于模型的比较模型中找到的不同输入和输出层变化,以及在某些研究中隐含地和明确地使用的不同最大尝试计数选项。几个指标用于反映评估知识追踪模型的质量。评估的知识追踪模型包括Vanilla-DKT,两个长短期内存深度知识跟踪(LSTM-DKT)变体,两个动态键值存储器网络(DKVMN)变体,以及自我细致的知识跟踪(SAKT)。我们评估Logistic回归,贝叶斯知识跟踪(BKT)和简单的非学习模型作为基准。我们的结果表明,DLKT模型一般优于非DLKT模型,DLKT模型之间的相对差异是微妙的,并且在数据集之间经常变化。我们的研究结果还表明,通常的纯模型,例如平均预测,比更复杂的知识追踪模型更好地表现出更好的性能,尤其是在准确性方面。此外,我们的公制和封路数据分析显示,用于选择最佳模型的度量标准对模型的性能有明显的影响,并且该度量选择可以影响模型排名。我们还研究了输入和输出层变化的影响,过滤出长期尝试序列,以及随机性和硬件等非模型属性。最后,我们讨论模型性能可重量和相关问题。我们的模型实现,评估代码和数据作为本工作的一部分发布。
translated by 谷歌翻译
Interacting systems are prevalent in nature, from dynamical systems in physics to complex societal dynamics. The interplay of components can give rise to complex behavior, which can often be explained using a simple model of the system's constituent parts. In this work, we introduce the neural relational inference (NRI) model: an unsupervised model that learns to infer interactions while simultaneously learning the dynamics purely from observational data. Our model takes the form of a variational auto-encoder, in which the latent code represents the underlying interaction graph and the reconstruction is based on graph neural networks. In experiments on simulated physical systems, we show that our NRI model can accurately recover ground-truth interactions in an unsupervised manner. We further demonstrate that we can find an interpretable structure and predict complex dynamics in real motion capture and sports tracking data.
translated by 谷歌翻译