尽管过度拟合并且更普遍地,双重下降在机器学习中无处不在,但增加了最广泛使用的张量网络的参数数量,但矩阵乘积状态(MPS)通常会导致先前研究中的测试性能单调改善。为了更好地理解由MPS参数参数的体系结构的概括属性,我们构建了人工数据,这些数据可以由MPS精确建模并使用不同数量的参数训练模型。我们观察到一维数据的模型过于拟合,但也发现,对于更复杂的数据而言,过度拟合的意义较低,而对于MNIST图像数据,我们找不到任何过拟合的签名。我们推测,MPS的概括属性取决于数据的属性:具有一维数据(MPS ANSATZ是最合适的)MPS容易拟合的数据,而使用更复杂的数据,该数据不能完全适合MPS,过度拟合过度。可能不那么重要。
translated by 谷歌翻译
众所周知,张量网络回归模型在呈指数型的特征空间上运行,但是关于它们能够有效地利用此空间的有效性仍然存在问题。使用Novikov等人的多项式特征,我们提出相互作用分解作为一种工具,可以评估不同回归器的相对重要性,其函数是其多项式程度的函数。我们将这种分解应用于在MNIST和时尚MNIST数据集中训练的张量环和树张量网络模型,并发现多达75%的交互作用度对这些模型有意义地贡献了。我们还引入了一种新型的张量网络模型,该模型仅在相互作用的一小部分上进行明确训练,并发现这些模型能够仅使用指数特征空间的一小部分匹配甚至优于整个模型。这表明标准张量网络模型以低效率的方式利用其多项式回归器,较低的程度术语被大大不足。
translated by 谷歌翻译
受限的玻尔兹曼机器(RBMS)提供了一种用于无监督的机器学习的多功能体系结构,原则上可以以任意准确性近似任何目标概率分布。但是,RBM模型通常由于其计算复杂性而无法直接访问,并调用了Markov-Chain采样以分析学习概率分布。因此,对于培训和最终应用,希望拥有既准确又有效的采样器。我们强调,这两个目标通常相互竞争,无法同时实现。更具体地说,我们确定并定量地表征了RBM学习的三个制度:独立学习,精度提高而不会失去效率;相关学习,较高的精度需要较低的效率;和退化,精度和效率都不再改善甚至恶化。这些发现基于数值实验和启发式论点。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
机器学习模型的概括对数据,模型和学习算法具有复杂的依赖性。我们研究训练和测试性能,以及它们在不同数据集样本上的差异给出的概括差距,以理解其``典型''行为。我们得出了差距的表达式,作为模型之间协方差的函数参数分布和列车损耗以及平均测试性能的另一种表达,显示了测试概括仅取决于数据平均参数分布和数据平均损失。我们显示,对于大型模型参数分布,修改的概括差距为始终是非负的。通过进一步专门针对由随机梯度下降(SGD)产生的参数分布,以及一些近似值和建模考虑,我们能够预测有关通用差距和模型训练和测试性能如何变化为一个方面的一些方面SGD噪声的功能。我们基于RESNET体系结构对CIFAR10分类任务进行经验评估这些预测。
translated by 谷歌翻译
Learning curves provide insight into the dependence of a learner's generalization performance on the training set size. This important tool can be used for model selection, to predict the effect of more training data, and to reduce the computational complexity of model training and hyperparameter tuning. This review recounts the origins of the term, provides a formal definition of the learning curve, and briefly covers basics such as its estimation. Our main contribution is a comprehensive overview of the literature regarding the shape of learning curves. We discuss empirical and theoretical evidence that supports well-behaved curves that often have the shape of a power law or an exponential. We consider the learning curves of Gaussian processes, the complex shapes they can display, and the factors influencing them. We draw specific attention to examples of learning curves that are ill-behaved, showing worse learning performance with more training data. To wrap up, we point out various open problems that warrant deeper empirical and theoretical investigation. All in all, our review underscores that learning curves are surprisingly diverse and no universal model can be identified.
translated by 谷歌翻译
基于内核的量子分类器是用于复杂数据的超线化分类的最有趣,最强大的量子机学习技术,可以在浅深度量子电路(例如交换测试分类器)中轻松实现。出乎意料的是,通过引入差异方案,可以将支持向量机固有而明确地实现,以将SVM理论的二次优化问题映射到量子古典的变分优化问题。该方案使用参数化的量子电路(PQC)实现,以创建一个不均匀的权重向量,以索引量子位,可以在线性时间内评估训练损失和分类得分。我们训练该变量量子近似支持向量机(VQASVM)的经典参数,该参数可以转移到其他VQASVM决策推理电路的许多副本中,以分类新查询数据。我们的VQASVM算法对基于云的量子计算机的玩具示例数据集进行了实验,以进行可行性评估,并进行了数值研究以评估其在标准的IRIS花朵数据集上的性能。虹膜数据分类的准确性达到98.8%。
translated by 谷歌翻译
有多少种不同的方式来手写数字3?为了量化该问题,想象一下,通过采样附加图像,在开始重复之前扩展手写数字Mnist的数据集。我们呼吁收集所有结果的数字3“完整集”。为了研究完整集的属性,我们介绍了张量网络架构,该架构同时实现分类(鉴别)和采样任务。定性地,我们的培训网络代表了完整集的指示功能。因此,它可以用于表征数据本身。我们通过研究与MNIST的数字相关联的完整集。使用我们网络的量子机械解释,我们通过计算其纠缠熵来表征全套。我们还研究其几何属性,例如平均汉明距离,有效尺寸和尺寸。后者回答了上面的问题 - 写作Mnist风格的黑白三分之一的总数为2 ^ {72} $。
translated by 谷歌翻译
现代量子机学习(QML)方法涉及在训练数据集上进行各种优化参数化量子电路,并随后对测试数据集(即,泛化)进行预测。在这项工作中,我们在培训数量为N $培训数据点后,我们在QML中对QML的普遍表现进行了全面的研究。我们表明,Quantum机器学习模型的泛化误差与$ T $培训门的尺寸在$ \ sqrt {t / n} $上缩放。当只有$ k \ ll t $ gates在优化过程中经历了大量变化时,我们证明了泛化误差改善了$ \ sqrt {k / n} $。我们的结果意味着将Unitaries编制到通常使用指数训练数据的量子计算行业的多项式栅极数量,这是一项通常使用指数尺寸训练数据的大量应用程序。我们还表明,使用量子卷积神经网络的相位过渡的量子状态的分类只需要一个非常小的训练数据集。其他潜在应用包括学习量子误差校正代码或量子动态模拟。我们的工作将新的希望注入QML领域,因为较少的培训数据保证了良好的概括。
translated by 谷歌翻译
Understanding the functional principles of information processing in deep neural networks continues to be a challenge, in particular for networks with trained and thus non-random weights. To address this issue, we study the mapping between probability distributions implemented by a deep feed-forward network. We characterize this mapping as an iterated transformation of distributions, where the non-linearity in each layer transfers information between different orders of correlation functions. This allows us to identify essential statistics in the data, as well as different information representations that can be used by neural networks. Applied to an XOR task and to MNIST, we show that correlations up to second order predominantly capture the information processing in the internal layers, while the input layer also extracts higher-order correlations from the data. This analysis provides a quantitative and explainable perspective on classification.
translated by 谷歌翻译
我们介绍了深张量网络,这些网络是基于权重矩阵的张量网络表示的成倍宽的神经网络。我们评估图像分类(MNIST,FashionMnist)和序列预测(蜂窝自动机)任务的建议方法。在图像分类案例中,深度张量网络改善了我们的矩阵产品状态基线,并在MNIST上达到0.49%的错误率,而时尚人士的错误率为8.3%。在序列预测情况下,我们证明了与一层张量网络方法相比,参数数量的指数改善。在这两种情况下,我们都讨论了非均匀和均匀的张量网络模型,并表明后者可以很好地推广到不同的输入尺寸。
translated by 谷歌翻译
量子内核方法被认为是将量子计算机应用于机器学习问题的承诺大道。但是,最近的结果在确定机器学习方法的性能方面忽略了核心角色超级参数。在这项工作中,我们显示了如何优化量子内核的带宽可以从随机猜测提高内核方法的性能,以与最佳经典方法竞争。没有乘语优化,内核值随着Qubit计数呈指数级增长,这是最近观察结果的原因,即Quantum核心方法的性能随着量程计数而减小。我们通过使用多个量子内核和经典数据集的广泛数值实验来重现这些负面结果并显示,如果核心带宽被优化,则随着Qubit计数的增长而改善了性能。我们在古典和量子内核的带宽之间绘制了连接,并在这两种情况下显示了类似的行为。
translated by 谷歌翻译
FIG. 1. Schematic diagram of a Variational Quantum Algorithm (VQA). The inputs to a VQA are: a cost function C(θ), with θ a set of parameters that encodes the solution to the problem, an ansatz whose parameters are trained to minimize the cost, and (possibly) a set of training data {ρ k } used during the optimization. Here, the cost can often be expressed in the form in Eq. ( 3), for some set of functions {f k }. Also, the ansatz is shown as a parameterized quantum circuit (on the left), which is analogous to a neural network (also shown schematically on the right). At each iteration of the loop one uses a quantum computer to efficiently estimate the cost (or its gradients). This information is fed into a classical computer that leverages the power of optimizers to navigate the cost landscape C(θ) and solve the optimization problem in Eq. ( 1). Once a termination condition is met, the VQA outputs an estimate of the solution to the problem. The form of the output depends on the precise task at hand. The red box indicates some of the most common types of outputs.
translated by 谷歌翻译
大型多层神经网络的概括性能越来越兴趣,可以接受训练以达到零训练错误,同时对测试数据进行良好的推广。该制度被称为“第二次下降”,似乎与常规观点相矛盾,即最佳模型复杂性应反映出不足和过度拟合之间的最佳平衡,即偏见差异权衡。本文介绍了双重下降的VC理论分析,并表明可以通过经典的VC将军范围来充分解释。我们说明了分析性VC结合的应用,用于对分类问题进行两次下降进行建模,并使用多种学习方法(例如SVM,最小二乘正方形和多层观察者分类器)的经验结果。此外,我们讨论了对深度学习社区中VC理论结果误解的几个原因。
translated by 谷歌翻译
Hybrid quantum-classical systems make it possible to utilize existing quantum computers to their fullest extent. Within this framework, parameterized quantum circuits can be regarded as machine learning models with remarkable expressive power. This Review presents the components of these models and discusses their application to a variety of data-driven tasks, such as supervised learning and generative modeling. With an increasing number of experimental demonstrations carried out on actual quantum hardware and with software being actively developed, this rapidly growing field is poised to have a broad spectrum of real-world applications.
translated by 谷歌翻译
深度学习(DL),尤其是深神经网络(DNN),默认情况下纯粹是数据驱动的,通常不需要物理。这是DL的优势,但在应用于科学和工程问题时,它的主要局限性之一就是必不可少的物理特性和所需的准确性。其原始形式的DL方法也无法尊重基本的数学模型或即使在大数据制度中也可以达到所需的准确性。但是,许多数据驱动的科学和工程问题(例如反问题)通常具有有限的实验或观察数据,而在这种情况下,DL会过分拟合数据。我们认为,利用基础数学模型中编码的信息,不仅可以补偿低数据制度中缺少的信息,而且还提供了将DL方法与基础物理学配备的机会,从而促进了更好的概括。本文开发了一种模型受限的深度学习方法及其变体TNET,该方法能够学习隐藏在培训数据和基础数学模型中的信息,以解决由部分微分方程控制的反问题。我们为提出的方法提供了构造和一些理论结果。我们表明,数据随机化可以增强网络的平滑度及其概括。全面的数值结果不仅确认了理论发现,而且还表明,即使仅20个训练数据样本,一维卷积的训练数据样本,50次反向2D热电导率问题,100和50对于时间依赖的2D汉堡方程和逆初始条件和50 2D Navier-Stokes方程。 TNET溶液可以像Tikhonov溶液一样准确,同时几个数量级。由于模型受限项,复制和随机化,这可能是可能的。
translated by 谷歌翻译
强大的机器学习模型的开发中的一个重要障碍是协变量的转变,当训练和测试集的输入分布时发生的分配换档形式在条件标签分布保持不变时发生。尽管现实世界应用的协变量转变普遍存在,但在现代机器学习背景下的理论理解仍然缺乏。在这项工作中,我们检查协变量的随机特征回归的精确高尺度渐近性,并在该设置中提出了限制测试误差,偏差和方差的精确表征。我们的结果激发了一种自然部分秩序,通过协变速转移,提供足够的条件来确定何时何时损害(甚至有助于)测试性能。我们发现,过度分辨率模型表现出增强的协会转变的鲁棒性,为这种有趣现象提供了第一个理论解释之一。此外,我们的分析揭示了分销和分发外概率性能之间的精确线性关系,为这一令人惊讶的近期实证观察提供了解释。
translated by 谷歌翻译
深度神经网络已成功地应用于广泛的问题,在这些问题中,过度参数产生了部分随机的权重矩阵。重量矩阵奇异向量与搬运工 - 托马斯分布的比较表明,在奇异值频谱中随机性和学习的信息之间存在边界。受此发现的启发,我们引入了一种用于噪声滤波的算法,该算法既去除奇异值,又减小了较大的奇异值的大小,以抵消噪声和频谱信息部分之间的水平排斥的影响。对于在存在标签噪声的情况下训练的网络,我们确实发现,由于噪声过滤,概括性能大大提高。
translated by 谷歌翻译
已知量子计算机可以在某些专业设置中使用经典的最先进的机器学习方法提供加速。例如,已证明量子内核方法可以在离散对数问题的学习版本上提供指数加速。了解量子模型的概括对于实现实际利益问题的类似加速至关重要。最近的结果表明,量子特征空间的指数大小阻碍了概括。尽管这些结果表明,量子模型在量子数数量较大时无法概括,但在本文中,我们表明这些结果依赖于过度限制性的假设。我们通过改变称为量子内核带宽的超参数来考虑更广泛的模型。我们分析了大量限制,并为可以以封闭形式求解的量子模型的概括提供了明确的公式。具体而言,我们表明,更改带宽的值可以使模型从不能概括到任何目标函数到对准目标的良好概括。我们的分析表明,带宽如何控制内核积分操作员的光谱,从而如何控制模型的电感偏置。我们从经验上证明,我们的理论正确地预测带宽如何影响质量模型在具有挑战性的数据集上的概括,包括远远超出我们理论假设的数据集。我们讨论了结果对机器学习中量子优势的含义。
translated by 谷歌翻译
密度矩阵描述了量子系统的统计状态。它是一种强大的形式主义,代表量子系统的量子和经典不确定性,并表达不同的统计操作,例如测量,系统组合和期望作为线性代数操作。本文探讨了密度矩阵如何用作构建块,以构建机器学习模型,利用它们直接组合线性代数和概率的能力。本文的主要结果之一是表示与随机傅里叶功能耦合的密度矩阵可以近似任意概率分布超过$ \ mathbb {r} ^ n $。基于此发现,该纸张为密度估计,分类和回归构建了不同的模型。这些模型是可疑的,因此可以将它们与其他可分辨率的组件(例如深度学习架构)集成,并使用基于梯度的优化来学习其参数。此外,本文提出了基于估计和模型平均的优化培训策略。该模型在基准任务中进行评估,并报告并讨论结果。
translated by 谷歌翻译