智能论文笔记

To Supervise or Not: How to Effectively Learn Wireless Interference Management Models?

Bingqing Song , Haoran Sun , Wenqiang Pu , Sijia Liu , Mingyi Hong

分类：机器学习

2021-12-28

机器学习在解决无线干扰管理问题方面取得了成功。已经培训了不同种类的深神经网络（DNN），以完成功率控制，波束成形和准入控制等关键任务。基于DNNS的干扰管理模型有两个流行的培训范式：监督学习（即，由优化算法产生的拟合标签）和无监督的学习（即，直接优化一些系统性能测量）。虽然这两种范式都在实践中广泛应用，但由于对这些方法缺乏任何理论理解，但目前尚不清楚如何系统地理解和比较他们的性能。在这项工作中，我们开展理论研究，为这两个训练范例提供了一些深入的了解。首先，我们展示了一些令人惊讶的结果，即对于一些特殊的功率控制问题，无监督的学习可以表现比监督对手更糟糕，因为它更有可能陷入一些低质量的本地解决方案。然后，我们提供了一系列理论结果，以进一步了解两种方法的性质。一般来说，我们表明，当有高质量的标签可用时，监督学习不太可能陷入解决方案，而不是无监督的对应物。此外，我们开发了一种半监督的学习方法，可以妥善整合这两个训练范例，可以有效地利用有限数量的标签来找到高质量的解决方案。为了我们的知识，这些是第一种在基于学习的无线通信系统设计中了解不同培训方法的第一组理论结果。

translated by 谷歌翻译

Theoretical insights into the optimization landscape of over-parameterized shallow neural networks

Mahdi Soltanolkotabi , Adel Javanmard , Jason D. Lee

分类：机器学习 | (统计)机器学习

2017-07-16

在本文中，我们研究了学习最适合培训数据集的浅层人工神经网络的问题。我们在过度参数化的制度中研究了这个问题，在该制度中，观测值的数量少于模型中的参数数量。我们表明，通过二次激活，训练的优化景观这种浅神经网络具有某些有利的特征，可以使用各种局部搜索启发式方法有效地找到全球最佳模型。该结果适用于输入/输出对的任意培训数据。对于可区分的激活函数，我们还表明，适当初始化的梯度下降以线性速率收敛到全球最佳模型。该结果着重于选择输入的可实现模型。根据高斯分布和标签是根据种植的重量系数生成的。

translated by 谷歌翻译

Gradient Descent Finds Global Minima of Deep Neural Networks

Simon S. Du , Jason D. Lee , Haochuan Li , Liwei Wang , Xiyu Zhai

分类：

2018-11-09

Gradient descent finds a global minimum in training deep neural networks despite the objective function being non-convex. The current paper proves gradient descent achieves zero training loss in polynomial time for a deep overparameterized neural network with residual connections (ResNet). Our analysis relies on the particular structure of the Gram matrix induced by the neural network architecture. This structure allows us to show the Gram matrix is stable throughout the training process and this stability implies the global optimality of the gradient descent algorithm. We further extend our analysis to deep residual convolutional neural networks and obtain a similar convergence result.

translated by 谷歌翻译

Global Optimality Beyond Two Layers: Training Deep ReLU Networks via Convex Programs

Tolga Ergen , Mert Pilanci

分类：机器学习 | 人工智能 | (统计)机器学习

2021-10-11

了解深度神经网络成功背后的基本机制是现代机器学习文学中的关键挑战之一。尽管尝试了很多，但尚未开发扎实的理论分析。在本文中，我们开发了一种新颖的统一框架，以通过凸优化镜头揭示隐藏的正则化机制。首先表明，具有重量衰减正则化的多个三层relu子网的训练可以等同地作为较高尺寸空间中的凸优化问题来等效地投射，其中稀疏通过组$ \ ell_1 $ -norm正常化强制实施。因此，Relu网络可以被解释为高维特征选择方法。更重要的是，我们证明，当网络宽度固定时，可以通过标准凸优化求解器全局优化等同的凸起问题通过具有多项式复杂度的标准凸优化求解器。最后，我们通过涉及合成和真实数据集的实验来数值验证我们的理论结果。

translated by 谷歌翻译

Optimal Solutions for Joint Beamforming and Antenna Selection: From Branch and Bound to Machine Learning

Sagar Shrestha , Xiao Fu , Mingyi Hong

分类：机器学习

2022-06-11

这项工作将重新审视关节波束形成（BF）和天线选择（AS）问题，以及其在不完美的通道状态信息（CSI）下的稳健光束成型（RBF）版本。在射频链的数量（RF）链的数量小于发射器上的天线元件的情况下，出现了此类问题，这已成为大型阵列时代的关键考虑。关节（r）bf \＆作为问题是一个混合整数和非线性程序，因此发现{\ it最佳解决方案}通常是昂贵的，即使不是完全不可能。绝大多数先前的作品都使用基于连续优化的近似来解决这些问题 - 但是这些近似不能确保解决方案的最佳性甚至可行性。这项工作的主要贡献是三倍。首先，提出了一个有效的{\ it分支和绑定}（b \＆b）解决感兴趣问题的框架。利用现有的BF和RBF求解器，表明B \＆B框架保证了所考虑的问题的全球最优性。其次，为了加快潜在昂贵的B \＆B算法，提出了一种基于机器学习（ML）的方案，以帮助跳过B \＆B搜索树的中间状态。学习模型具有{\ it图形神经网络}（GNN）的设计，该设计对无线通信中通常遇到的挑战有抵抗力，即，培训和测试中问题大小的变化（例如，用户数量）的变化（例如，用户数量）阶段。第三，提出了全面的性能特征，表明基于GNN的方法在合理的条件下保留了B \＆B的全球最佳性，其复杂性可降低。数值模拟还表明，基于ML的加速度通常可以相对于B \＆b实现速度的速度。

translated by 谷歌翻译

Informed Learning by Wide Neural Networks: Convergence, Generalization and Sampling Complexity

Jianyi Yang , Shaolei Ren

分类：机器学习

2022-07-02

通过将域知识与标记的样本集成在一起，知情的机器学习已经出现，以提高广泛应用的学习绩效。尽管如此，对注射领域知识的作用的严格理解尚未探索。在本文中，我们考虑了一个知情的深度神经网络（DNN），并将过度参数化和域知识纳入其培训目标功能，并研究域知识如何以及为什么会使绩效受益。具体而言，我们定量地证明了领域知识的两个好处在知情学习中 - 正规化基于标签的监督并补充标签样品 - 并揭示了人口风险的标签和知识不完美性之间的权衡。基于理论分析，我们提出了一个广义知情的培训目标，以更好地利用知识的好处，并平衡标签和知识不完美，这是由人口风险约束的验证。我们对抽样复杂性的分析阐明了如何选择超参数进行知情学习的灯光，并进一步证明了知识知情学习的优势。

translated by 谷歌翻译

Memorization and Optimization in Deep Neural Networks with Minimum Over-parameterization

Simone Bombari , Mohammad Hossein Amani , Marco Mondelli

分类： (统计)机器学习 | 机器学习

2022-05-20

神经切线内核（NTK）已成为提供记忆，优化和泛化的强大工具，可保证深度神经网络。一项工作已经研究了NTK频谱的两层和深网，其中至少具有$ \ omega（n）$神经元的层，$ n $是培训样本的数量。此外，有越来越多的证据表明，只要参数数量超过样品数量，具有亚线性层宽度的深网是强大的记忆和优化器。因此，一个自然的开放问题是NTK是否在如此充满挑战的子线性设置中适应得很好。在本文中，我们以肯定的方式回答了这个问题。我们的主要技术贡献是对最小的深网的最小NTK特征值的下限，最小可能的过度参数化：参数的数量大约为$ \ omega（n）$，因此，神经元的数量仅为$ $ $ \ omega（\ sqrt {n}）$。为了展示我们的NTK界限的适用性，我们为梯度下降训练提供了两个有关记忆能力和优化保证的结果。

translated by 谷歌翻译

On the Stability Properties and the Optimization Landscape of Training Problems with Squared Loss for Neural Networks and General Nonlinear Conic Approximation Schemes

Constantin Christof

分类：机器学习

2020-11-06

我们研究了神经网络中平方损耗训练问题的优化景观和稳定性，但通用非线性圆锥近似方案。据证明，如果认为非线性圆锥近似方案是（以适当定义的意义）比经典线性近似方法更具表现力，并且如果存在不完美的标签向量，则在方位损耗的训练问题必须在其中不稳定感知其解决方案集在训练数据中的标签向量上不连续地取决于标签向量。我们进一步证明对这些不稳定属性负责的效果也是马鞍点出现的原因和杂散的局部最小值，这可能是从全球解决方案的任意遥远的，并且既不训练问题也不是训练问题的不稳定性通常，杂散局部最小值的存在可以通过向目标函数添加正则化术语来克服衡量近似方案中参数大小的目标函数。无论可实现的可实现性是否满足，后一种结果都被证明是正确的。我们表明，我们的分析特别适用于具有可变宽度的自由结插值方案和深层和浅层神经网络的培训问题，其涉及各种激活功能的任意混合（例如，二进制，六骨，Tanh，arctan，软标志， ISRU，Soft-Clip，SQNL，Relu，Lifley Relu，Soft-Plus，Bent Identity，Silu，Isrlu和ELU）。总之，本文的发现说明了神经网络和一般非线性圆锥近似仪器的改进近似特性以直接和可量化的方式与必须解决的优化问题的不期望的性质链接，以便训练它们。

translated by 谷歌翻译

A Single-Loop Smoothed Gradient Descent-Ascent Algorithm for Nonconvex-Concave Min-Max Problems

Jiawei Zhang , Peijun Xiao , Ruoyu Sun , Zhi-Quan Luo

分类：机器学习

2020-10-29

在许多机器学习应用程序中出现了非convex-concave min-max问题，包括最大程度地减少一组非凸函数的最大程度，并对神经网络的强大对抗训练。解决此问题的一种流行方法是梯度下降（GDA）算法，不幸的是，在非凸性的情况下可以表现出振荡。在本文中，我们引入了一种“平滑”方案，该方案可以与GDA结合以稳定振荡并确保收敛到固定溶液。我们证明，稳定的GDA算法可以实现$ O（1/\ epsilon^2）$迭代复杂性，以最大程度地减少有限的非convex函数收集的最大值。此外，平滑的GDA算法达到了$ O（1/\ epsilon^4）$ toseration复杂性，用于一般的nonconvex-concave问题。提出了这种稳定的GDA算法的扩展到多块情况。据我们所知，这是第一个实现$ o（1/\ epsilon^2）$的算法，用于一类NonConvex-Concave问题。我们说明了稳定的GDA算法在健壮训练中的实际效率。

translated by 谷歌翻译

Recent Theoretical Advances in Non-Convex Optimization

Marina Danilova , Pavel Dvurechensky , Alexander Gasnikov , Eduard Gorbunov , Sergey Guminov , Dmitry Kamzolov , Innokentiy Shibaev

分类：机器学习

2020-12-11

近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加，我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始，显示一般非凸面问题无法在合理的时间内有效地解决。然后，我们提供了一个问题列表，可以通过利用问题的结构来有效地找到全球最小化器，因为可能的问题。处理非凸性的另一种方法是放宽目标，从找到全局最小，以找到静止点或局部最小值。对于该设置，我们首先为确定性一阶方法的收敛速率提出了已知结果，然后是最佳随机和随机梯度方案的一般理论分析，以及随机第一阶方法的概述。之后，我们讨论了非常一般的非凸面问题，例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能，这仍然允许获得一阶的理论融合保证方法。然后，我们考虑更高阶和零序/衍生物的方法及其收敛速率，以获得非凸优化问题。

translated by 谷歌翻译

On generalization bounds for deep networks based on loss surface implicit regularization

Masaaki Imaizumi , Johannes Schmidt-Hieber

分类： (统计)机器学习 | 机器学习

2022-01-12

古典统计学习理论表示，拟合太多参数导致过度舒服和性能差。尽管大量参数矛盾，但是现代深度神经网络概括了这一发现，并构成了解释深度学习成功的主要未解决的问题。随机梯度下降（SGD）引起的隐式正规被认为是重要的，但其特定原则仍然是未知的。在这项工作中，我们研究了当地最小值周围的能量景观的局部几何学如何影响SGD的统计特性，具有高斯梯度噪声。我们争辩说，在合理的假设下，局部几何形状力强制SGD保持接近低维子空间，这会引起隐式正则化并导致深神经网络的泛化误差界定更严格的界限。为了获得神经网络的泛化误差界限，我们首先引入局部最小值周围的停滞迹象，并施加人口风险的局部基本凸性财产。在这些条件下，推导出SGD的下界，以保留在这些停滞套件中。如果发生停滞，我们会导出涉及权重矩阵的光谱规范的深神经网络的泛化误差的界限，但不是网络参数的数量。从技术上讲，我们的证据基于控制SGD中的参数值的变化以及基于局部最小值周围的合适邻域的熵迭代的参数值和局部均匀收敛。我们的工作试图通过统一收敛更好地连接非凸优化和泛化分析。

translated by 谷歌翻译

Efficient Global Optimization of Two-layer ReLU Networks: Quadratic-time Algorithms and Adversarial Training

Yatong Bai , Tanmay Gautam , Somayeh Sojoudi

分类：机器学习

2022-01-06

人工神经网络（ANN）训练景观的非凸起带来了固有的优化困难。虽然传统的背传播随机梯度下降（SGD）算法及其变体在某些情况下是有效的，但它们可以陷入杂散的局部最小值，并且对初始化和普通公共表敏感。最近的工作表明，随着Relu激活的ANN的培训可以重新重整为凸面计划，使希望能够全局优化可解释的ANN。然而，天真地解决凸训练制剂具有指数复杂性，甚至近似启发式需要立方时间。在这项工作中，我们描述了这种近似的质量，并开发了两个有效的算法，这些算法通过全球收敛保证培训。第一算法基于乘法器（ADMM）的交替方向方法。它解决了精确的凸形配方和近似对应物。实现线性全局收敛，并且初始几次迭代通常会产生具有高预测精度的解决方案。求解近似配方时，每次迭代时间复杂度是二次的。基于“采样凸面”理论的第二种算法更简单地实现。它解决了不受约束的凸形制剂，并收敛到大约全球最佳的分类器。当考虑对抗性培训时，ANN训练景观的非凸起加剧了。我们将稳健的凸优化理论应用于凸训练，开发凸起的凸起制剂，培训Anns对抗对抗投入。我们的分析明确地关注一个隐藏层完全连接的ANN，但可以扩展到更复杂的体系结构。

translated by 谷歌翻译

Continuous vs. Discrete Optimization of Deep Neural Networks

Omer Elkabetz , Nadav Cohen

分类：机器学习 | 人工智能 | 神经与进化计算

2021-07-14

在深度学习中的优化分析是连续的，专注于（变体）梯度流动，或离散，直接处理（变体）梯度下降。梯度流程可符合理论分析，但是风格化并忽略计算效率。它代表梯度下降的程度是深度学习理论的一个开放问题。目前的论文研究了这个问题。将梯度下降视为梯度流量初始值问题的近似数值问题，发现近似程度取决于梯度流动轨迹周围的曲率。然后，我们表明，在具有均匀激活的深度神经网络中，梯度流动轨迹享有有利的曲率，表明它们通过梯度下降近似地近似。该发现允许我们将深度线性神经网络的梯度流分析转换为保证梯度下降，其几乎肯定会在随机初始化下有效地收敛到全局最小值。实验表明，在简单的深度神经网络中，具有传统步长的梯度下降确实接近梯度流。我们假设梯度流动理论将解开深入学习背后的奥秘。

translated by 谷歌翻译

Deep learning architectures for nonlinear operator functions and nonlinear inverse problems

Maarten V. de Hoop , Matti Lassas , Christopher A. Wong

分类：机器学习

2019-12-23

我们为特殊神经网络架构，称为运营商复发性神经网络的理论分析，用于近似非线性函数，其输入是线性运算符。这些功能通常在解决方案算法中出现用于逆边值问题的问题。传统的神经网络将输入数据视为向量，因此它们没有有效地捕获与对应于这种逆问题中的数据的线性运算符相关联的乘法结构。因此，我们介绍一个类似标准的神经网络架构的新系列，但是输入数据在向量上乘法作用。由较小的算子出现在边界控制中的紧凑型操作员和波动方程的反边值问题分析，我们在网络中的选择权重矩阵中促进结构和稀疏性。在描述此架构后，我们研究其表示属性以及其近似属性。我们还表明，可以引入明确的正则化，其可以从所述逆问题的数学分析导出，并导致概括属性上的某些保证。我们观察到重量矩阵的稀疏性改善了概括估计。最后，我们讨论如何将运营商复发网络视为深度学习模拟，以确定诸如用于从边界测量的声波方程中重建所未知的WAVESTED的边界控制的算法算法。

translated by 谷歌翻译

Provable Convergence of Nesterov's Accelerated Gradient Method for Over-Parameterized Neural Networks

Xin Liu , Zhisong Pan , Wei Tao

分类：机器学习 | 人工智能

2021-07-05

神经网络在许多领域取得了巨大的经验成功。已经观察到，通过一阶方法训练的随机初始化的神经网络能够实现接近零的训练损失，尽管其损失景观是非凸的并且不平滑的。这种现象很少有理论解释。最近，通过分析过参数化制度中的梯度下降〜（GD）和重球方法〜（HB）的梯度来弥合实践和理论之间的这种差距。在这项工作中，通过考虑Nesterov的加速梯度方法〜（nag），我们通过恒定的动量参数进行进一步进展。我们通过Relu激活分析其用于过度参数化的双层完全连接神经网络的收敛性。具体而言，我们证明了NAG的训练误差以非渐近线性收敛率$（1- \θ（1 / \ sqrt {\ kappa}））收敛到零（1 / \ sqrt {\ kappa}）^ t $ the $ t $迭代，其中$ \ Kappa> 1 $由神经网络的初始化和架构决定。此外，我们在NAG和GD和HB的现有收敛结果之间提供了比较。我们的理论结果表明，NAG实现了GD的加速度，其会聚率与HB相当。此外，数值实验验证了我们理论分析的正确性。

translated by 谷歌翻译

Subquadratic Overparameterization for Shallow Neural Networks

Chaehwan Song , Ali Ramezani-Kebrya , Thomas Pethick , Armin Eftekhari , Volkan Cevher

分类：机器学习 | (统计)机器学习

2021-11-02

过度分辨率是指选择神经网络的宽度，使得学习算法可以在非凸训练中可被估计零损失的重要现象。现有理论建立了各种初始化策略，培训修改和宽度缩放等全局融合。特别地，最先进的结果要求宽度以二次逐步缩放，并在实践中使用的标准初始化策略下进行培训数据的数量，以获得最佳泛化性能。相比之下，最新的结果可以获得线性缩放，需要导致导致“懒惰训练”的初始化，或者仅训练单层。在这项工作中，我们提供了一个分析框架，使我们能够采用标准的初始化策略，可能避免懒惰的训练，并在基本浅色神经网络中同时培训所有层，同时获得网络宽度的理想子标缩放。我们通过Polyak-Lojasiewicz条件，平滑度和数据标准假设实现了Desiderata，并使用随机矩阵理论的工具。

translated by 谷歌翻译

Nonparametric regression using deep neural networks with ReLU activation function

Johannes Schmidt-Hieber

分类：

2017-08-22

Consider the multivariate nonparametric regression model. It is shown that estimators based on sparsely connected deep neural networks with ReLU activation function and properly chosen network architecture achieve the minimax rates of convergence (up to log nfactors) under a general composition assumption on the regression function. The framework includes many well-studied structural constraints such as (generalized) additive models. While there is a lot of flexibility in the network architecture, the tuning parameter is the sparsity of the network. Specifically, we consider large networks with number of potential network parameters exceeding the sample size. The analysis gives some insights into why multilayer feedforward neural networks perform well in practice. Interestingly, for ReLU activation function the depth (number of layers) of the neural network architectures plays an important role and our theory suggests that for nonparametric regression, scaling the network depth with the sample size is natural. It is also shown that under the composition assumption wavelet estimators can only achieve suboptimal rates.

translated by 谷歌翻译

Approximation Power of Deep Neural Networks: an explanatory mathematical survey

Mohammad Motamed

分类：机器学习 | (统计)机器学习

2022-07-19

这项调查的目的是介绍对深神经网络的近似特性的解释性回顾。具体而言，我们旨在了解深神经网络如何以及为什么要优于其他经典线性和非线性近似方法。这项调查包括三章。在第1章中，我们回顾了深层网络及其组成非线性结构的关键思想和概念。我们通过在解决回归和分类问题时将其作为优化问题来形式化神经网络问题。我们简要讨论用于解决优化问题的随机梯度下降算法以及用于解决优化问题的后传播公式，并解决了与神经网络性能相关的一些问题，包括选择激活功能，成本功能，过度适应问题和正则化。在第2章中，我们将重点转移到神经网络的近似理论上。我们首先介绍多项式近似中的密度概念，尤其是研究实现连续函数的Stone-WeierStrass定理。然后，在线性近似的框架内，我们回顾了馈电网络的密度和收敛速率的一些经典结果，然后在近似Sobolev函数中进行有关深网络复杂性的最新发展。在第3章中，利用非线性近似理论，我们进一步详细介绍了深度和近似网络与其他经典非线性近似方法相比的近似优势。

translated by 谷歌翻译

Learning and Generalization in Overparameterized Neural Networks, Going Beyond Two Layers

Zeyuan Allen-Zhu , Yuanzhi Li , Yingyu Liang

分类：

2018-11-12

The fundamental learning theory behind neural networks remains largely open. What classes of functions can neural networks actually learn? Why doesn't the trained network overfit when it is overparameterized?In this work, we prove that overparameterized neural networks can learn some notable concept classes, including two and three-layer networks with fewer parameters and smooth activations. Moreover, the learning can be simply done by SGD (stochastic gradient descent) or its variants in polynomial time using polynomially many samples. The sample complexity can also be almost independent of the number of parameters in the network.On the technique side, our analysis goes beyond the so-called NTK (neural tangent kernel) linearization of neural networks in prior works. We establish a new notion of quadratic approximation of the neural network (that can be viewed as a second-order variant of NTK), and connect it to the SGD theory of escaping saddle points.

translated by 谷歌翻译

Supervised Dictionary Learning with Auxiliary Covariates

Joowon Lee , Hanbaek Lyu , Weixin Yao

分类： (统计)机器学习 | 机器学习

2022-06-14

监督字典学习（SDL）是一种经典的机器学习方法，同时寻求特征提取和分类任务，不一定是先验的目标。 SDL的目的是学习类歧视性词典，这是一组潜在特征向量，可以很好地解释特征以及观察到的数据的标签。在本文中，我们提供了SDL的系统研究，包括SDL的理论，算法和应用。首先，我们提供了一个新颖的框架，该框架将“提升” SDL作为组合因子空间中的凸问题，并提出了一种低级别的投影梯度下降算法，该算法将指数成倍收敛于目标的全局最小化器。我们还制定了SDL的生成模型，并根据高参数制度提供真实参数的全局估计保证。其次，我们被视为一个非convex约束优化问题，我们为SDL提供了有效的块坐标下降算法，该算法可以保证在$ O（\ varepsilon^{ - 1}（\ log）中找到$ \ varepsilon $ - 定位点（\ varepsilon \ varepsilon^{ - 1}）^{2}）$ iterations。对于相应的生成模型，我们为受约束和正则化的最大似然估计问题建立了一种新型的非反应局部一致性结果，这可能是独立的。第三，我们将SDL应用于监督主题建模和胸部X射线图像中的肺炎检测中，以进行不平衡的文档分类。我们还提供了模拟研究，以证明当最佳的重建性和最佳判别词典之间存在差异时，SDL变得更加有效。

translated by 谷歌翻译