众所周知,张量网络回归模型在呈指数型的特征空间上运行,但是关于它们能够有效地利用此空间的有效性仍然存在问题。使用Novikov等人的多项式特征,我们提出相互作用分解作为一种工具,可以评估不同回归器的相对重要性,其函数是其多项式程度的函数。我们将这种分解应用于在MNIST和时尚MNIST数据集中训练的张量环和树张量网络模型,并发现多达75%的交互作用度对这些模型有意义地贡献了。我们还引入了一种新型的张量网络模型,该模型仅在相互作用的一小部分上进行明确训练,并发现这些模型能够仅使用指数特征空间的一小部分匹配甚至优于整个模型。这表明标准张量网络模型以低效率的方式利用其多项式回归器,较低的程度术语被大大不足。
translated by 谷歌翻译
量子多体系统的状态是在高维的希尔伯特空间中定义的,可以对子系统之间的丰富而复杂的相互作用进行建模。在机器学习中,复杂的多个多线性相关性也可能存在于输入功能中。在本文中,我们提出了一个量子启发的多线性模型,称为残留张量列(RESTT),以捕获单个模型中从低阶到高阶的特征的多次多线性相关性。 RESTT能够在高维空间中建立强大的决策边界,以解决拟合和分类任务。特别是,我们证明了完全连接的层和Volterra系列可以将其视为特殊情况。此外,我们得出了根据平均场分析来稳定RESTT训练的权重初始化规则。我们证明,这样的规则比TT的规则放松得多,这意味着休息可以轻松解决现有TT模型中存在的消失和爆炸梯度问题。数值实验表明,RESTT的表现优于最先进的张量网络,并在MNIST和时尚MNIST数据集上进行基准深度学习模型。此外,RESTT在两个实践示例上的统计方法比其他有限数据的统计方法更好,这些方法具有复杂的功能相互作用。
translated by 谷歌翻译
尽管过度拟合并且更普遍地,双重下降在机器学习中无处不在,但增加了最广泛使用的张量网络的参数数量,但矩阵乘积状态(MPS)通常会导致先前研究中的测试性能单调改善。为了更好地理解由MPS参数参数的体系结构的概括属性,我们构建了人工数据,这些数据可以由MPS精确建模并使用不同数量的参数训练模型。我们观察到一维数据的模型过于拟合,但也发现,对于更复杂的数据而言,过度拟合的意义较低,而对于MNIST图像数据,我们找不到任何过拟合的签名。我们推测,MPS的概括属性取决于数据的属性:具有一维数据(MPS ANSATZ是最合适的)MPS容易拟合的数据,而使用更复杂的数据,该数据不能完全适合MPS,过度拟合过度。可能不那么重要。
translated by 谷歌翻译
Understanding the functional principles of information processing in deep neural networks continues to be a challenge, in particular for networks with trained and thus non-random weights. To address this issue, we study the mapping between probability distributions implemented by a deep feed-forward network. We characterize this mapping as an iterated transformation of distributions, where the non-linearity in each layer transfers information between different orders of correlation functions. This allows us to identify essential statistics in the data, as well as different information representations that can be used by neural networks. Applied to an XOR task and to MNIST, we show that correlations up to second order predominantly capture the information processing in the internal layers, while the input layer also extracts higher-order correlations from the data. This analysis provides a quantitative and explainable perspective on classification.
translated by 谷歌翻译
在当前的嘈杂中间尺度量子(NISQ)时代,量子机学习正在成为基于程序门的量子计算机的主要范式。在量子机学习中,对量子电路的门进行了参数化,并且参数是根据数据和电路输出的测量来通过经典优化来调整的。参数化的量子电路(PQC)可以有效地解决组合优化问题,实施概率生成模型并进行推理(分类和回归)。该专着为具有概率和线性代数背景的工程师的观众提供了量子机学习的独立介绍。它首先描述了描述量子操作和测量所必需的必要背景,概念和工具。然后,它涵盖了参数化的量子电路,变异量子本质层以及无监督和监督的量子机学习公式。
translated by 谷歌翻译
最近已证明不变性在机器学习模型中是强大的归纳偏见。这样的一类预测模型是张量网络。我们引入了一种新的数值算法来构建在任意离散组的正常矩阵表示的作用下不变的张量的基础。该方法的数量级可以比以前的方法快几个数量级。然后将组不变的张量合并为一个组不变张量火车网络,该网络可用作监督机器学习模型。考虑到特定于问题的不知道,我们将该模型应用于蛋白质结合分类问题,并根据最新的深度学习方法获得了预测准确性。
translated by 谷歌翻译
我们介绍了Netket的版本3,机器学习工具箱适用于许多身体量子物理学。Netket围绕神经网络量子状态构建,并为其评估和优化提供有效的算法。这个新版本是基于JAX的顶部,一个用于Python编程语言的可差分编程和加速的线性代数框架。最重要的新功能是使用机器学习框架的简明符号来定义纯Python代码中的任意神经网络ANS \“凝固的可能性,这允许立即编译以及渐变的隐式生成自动化。Netket 3还带来了GPU和TPU加速器的支持,对离散对称组的高级支持,块以缩放多程度的自由度,Quantum动态应用程序的驱动程序,以及改进的模块化,允许用户仅使用部分工具箱是他们自己代码的基础。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
在本文中,我们在不同研究领域使用的三种模型之间存在联系:来自正式语言和语言学的加权有限自动机〜(WFA),机器学习中使用的经常性神经网络,以及张量网络,包括一组高处的优化技术量子物理学和数值分析中使用的顺序张量。我们首先介绍WFA与张力列车分解,特定形式的张量网络之间的内在关系。该关系允许我们展示由WFA计算的函数的Hankel矩阵的新型低级结构,并设计利用这种结构的有效光谱学习算法来扩展到非常大的Hankel矩阵。我们将解开基本连接在WFA和第二阶逆转神经网络之间〜(2-RNN):在离散符号的序列的情况下,具有线性激活功能的WFA和2-RNN是表现性的。利用该等效结果与加权自动机的经典频谱学习算法相结合,我们介绍了在连续输入向量序列上定义的线性2-RNN的第一可提供学习算法。本算法依赖于Hankel Tensor的低等级子块,可以从中可以从中恢复线性2-RNN的参数。在综合性和现实世界数据的仿真研究中评估了所提出的学习算法的性能。
translated by 谷歌翻译
可解释的人工智能(XAI)的新兴领域旨在为当今强大但不透明的深度学习模型带来透明度。尽管本地XAI方法以归因图的形式解释了个体预测,从而确定了重要特征的发生位置(但没有提供有关其代表的信息),但全局解释技术可视化模型通常学会的编码的概念。因此,两种方法仅提供部分见解,并留下将模型推理解释的负担。只有少数当代技术旨在将本地和全球XAI背后的原则结合起来,以获取更多信息的解释。但是,这些方法通常仅限于特定的模型体系结构,或对培训制度或数据和标签可用性施加其他要求,这实际上使事后应用程序成为任意预训练的模型。在这项工作中,我们介绍了概念相关性传播方法(CRP)方法,该方法结合了XAI的本地和全球观点,因此允许回答“何处”和“ where”和“什么”问题,而没有其他约束。我们进一步介绍了相关性最大化的原则,以根据模型对模型的有用性找到代表性的示例。因此,我们提高了对激活最大化及其局限性的共同实践的依赖。我们证明了我们方法在各种环境中的能力,展示了概念相关性传播和相关性最大化导致了更加可解释的解释,并通过概念图表,概念组成分析和概念集合和概念子区和概念子区和概念子集和定量研究对模型的表示和推理提供了深刻的见解。它们在细粒度决策中的作用。
translated by 谷歌翻译
In recent times, Variational Quantum Circuits (VQC) have been widely adopted to different tasks in machine learning such as Combinatorial Optimization and Supervised Learning. With the growing interest, it is pertinent to study the boundaries of the classical simulation of VQCs to effectively benchmark the algorithms. Classically simulating VQCs can also provide the quantum algorithms with a better initialization reducing the amount of quantum resources needed to train the algorithm. This manuscript proposes an algorithm that compresses the quantum state within a circuit using a tensor ring representation which allows for the implementation of VQC based algorithms on a classical simulator at a fraction of the usual storage and computational complexity. Using the tensor ring approximation of the input quantum state, we propose a method that applies the parametrized unitary operations while retaining the low-rank structure of the tensor ring corresponding to the transformed quantum state, providing an exponential improvement of storage and computational time in the number of qubits and layers. This approximation is used to implement the tensor ring VQC for the task of supervised learning on Iris and MNIST datasets to demonstrate the comparable performance as that of the implementations from classical simulator using Matrix Product States.
translated by 谷歌翻译
Graph neural networks (GNNs) are widely used for modeling complex interactions between entities represented as vertices of a graph. Despite recent efforts to theoretically analyze the expressive power of GNNs, a formal characterization of their ability to model interactions is lacking. The current paper aims to address this gap. Formalizing strength of interactions through an established measure known as separation rank, we quantify the ability of certain GNNs to model interaction between a given subset of vertices and its complement, i.e. between sides of a given partition of input vertices. Our results reveal that the ability to model interaction is primarily determined by the partition's walk index -- a graph-theoretical characteristic that we define by the number of walks originating from the boundary of the partition. Experiments with common GNN architectures corroborate this finding. As a practical application of our theory, we design an edge sparsification algorithm named Walk Index Sparsification (WIS), which preserves the ability of a GNN to model interactions when input edges are removed. WIS is simple, computationally efficient, and markedly outperforms alternative methods in terms of induced prediction accuracy. More broadly, it showcases the potential of improving GNNs by theoretically analyzing the interactions they can model.
translated by 谷歌翻译
FIG. 1. Schematic diagram of a Variational Quantum Algorithm (VQA). The inputs to a VQA are: a cost function C(θ), with θ a set of parameters that encodes the solution to the problem, an ansatz whose parameters are trained to minimize the cost, and (possibly) a set of training data {ρ k } used during the optimization. Here, the cost can often be expressed in the form in Eq. ( 3), for some set of functions {f k }. Also, the ansatz is shown as a parameterized quantum circuit (on the left), which is analogous to a neural network (also shown schematically on the right). At each iteration of the loop one uses a quantum computer to efficiently estimate the cost (or its gradients). This information is fed into a classical computer that leverages the power of optimizers to navigate the cost landscape C(θ) and solve the optimization problem in Eq. ( 1). Once a termination condition is met, the VQA outputs an estimate of the solution to the problem. The form of the output depends on the precise task at hand. The red box indicates some of the most common types of outputs.
translated by 谷歌翻译
为了分析多维数据的丰富,已经开发了张量的框架。传统上,矩阵奇异值分解(SVD)用于从包含矢量化数据的矩阵中提取最主导的特征。虽然SVD对可以适当表示为矩阵的数据非常有用,但是矢量化步骤导致我们丢失了数据内在的高维关系。为了便于高效的多维特征提取,我们利用了使用基于投影的分类算法,使用T-SVDM,矩阵SVD的张量模拟。我们的作品扩展了T-SVDM框架和分类算法,最初提出了所有数量的尺寸。然后,我们使用Starplus FMRI DataSet将此算法应用于分类任务。我们的数值实验表明,基于张于FMRI分类的卓越方法,而不是基于最佳的等效矩阵的方法。我们的结果说明了我们选择的张量框架的优势,提供了对参数的有益选择的洞察力,并且可以进一步开发用于分类更复杂的成像数据。我们在https://github.com/elizabethnewman/tensor-fmri提供我们的Python实现。
translated by 谷歌翻译
虽然注意力成为深度学习的重要机制,但仍然有限的直觉,为什么它工作得很好。在这里,我们表明,在某些数据条件下,变压器注意力与Kanerva稀疏分布式内存(SDM)的某些数据条件密切相关,一种生物合理的关联内存模型。我们确认在预先培训的GPT2变压器模型中满足这些条件。我们讨论了注意力SDM地图的影响,并提供了对关注的新计算和生物学解释。
translated by 谷歌翻译
我们介绍了深张量网络,这些网络是基于权重矩阵的张量网络表示的成倍宽的神经网络。我们评估图像分类(MNIST,FashionMnist)和序列预测(蜂窝自动机)任务的建议方法。在图像分类案例中,深度张量网络改善了我们的矩阵产品状态基线,并在MNIST上达到0.49%的错误率,而时尚人士的错误率为8.3%。在序列预测情况下,我们证明了与一层张量网络方法相比,参数数量的指数改善。在这两种情况下,我们都讨论了非均匀和均匀的张量网络模型,并表明后者可以很好地推广到不同的输入尺寸。
translated by 谷歌翻译
这项正在进行的工作旨在为统计学习提供统一的介绍,从诸如GMM和HMM等经典模型到现代神经网络(如VAE和扩散模型)缓慢地构建。如今,有许多互联网资源可以孤立地解释这一点或新的机器学习算法,但是它们并没有(也不能在如此简短的空间中)将这些算法彼此连接起来,或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统,尽管对那些已经熟悉材料的人(如这些帖子的作者)不满意,但对新手的入境造成了重大障碍。同样,我的目的是将各种模型(尽可能)吸收到一个用于推理和学习的框架上,表明(以及为什么)如何以最小的变化将一个模型更改为另一个模型(其中一些是新颖的,另一些是文献中的)。某些背景当然是必要的。我以为读者熟悉基本的多变量计算,概率和统计以及线性代数。这本书的目标当然不是​​完整性,而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后,目标是补充而不是替换,诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本,该文本现在已经15岁了。
translated by 谷歌翻译
部分微分方程(PDE)用于对科学和工程中的各种动力系统进行建模。深度学习的最新进展使我们能够以新的方式解决维度的诅咒,从而在更高的维度中解决它们。但是,深度学习方法受到训练时间和记忆的约束。为了解决这些缺点,我们实施了张量神经网络(TNN),这是一种量子启发的神经网络体系结构,利用张量网络的想法来改进深度学习方法。我们证明,与经典密集神经网络(DNN)相比,TNN提供了明显的参数节省,同时获得了与经典密集的神经网络相同的准确性。此外,我们还展示了如何以相同的精度来比DNN更快地训练TNN。我们通过将它们应用于求解抛物线PDE,特别是Black-Scholes-Barenblatt方程,该方程广泛用于金融定价理论,基于基准测试。还讨论了进一步的例子,例如汉密尔顿 - 雅各比 - 贝尔曼方程。
translated by 谷歌翻译
神经网络经常将许多无关的概念包装到一个神经元中 - 一种令人困惑的现象被称为“多疾病”,这使解释性更具挑战性。本文提供了一个玩具模型,可以完全理解多义,这是由于模型在“叠加”中存储其他稀疏特征的结果。我们证明了相变的存在,与均匀多型的几何形状的令人惊讶的联系以及与对抗性例子联系的证据。我们还讨论了对机械解释性的潜在影响。
translated by 谷歌翻译
The success of machine learning algorithms generally depends on data representation, and we hypothesize that this is because different representations can entangle and hide more or less the different explanatory factors of variation behind the data. Although specific domain knowledge can be used to help design representations, learning with generic priors can also be used, and the quest for AI is motivating the design of more powerful representation-learning algorithms implementing such priors. This paper reviews recent work in the area of unsupervised feature learning and deep learning, covering advances in probabilistic models, auto-encoders, manifold learning, and deep networks. This motivates longer-term unanswered questions about the appropriate objectives for learning good representations, for computing representations (i.e., inference), and the geometrical connections between representation learning, density estimation and manifold learning.
translated by 谷歌翻译