Deep learning has arguably achieved tremendous success in recent years. In simple words, deep learning uses the composition of many nonlinear functions to model the complex dependency between input features and labels. While neural networks have a long history, recent advances have greatly improved their performance in computer vision, natural language processing, etc. From the statistical and scientific perspective, it is natural to ask: What is deep learning? What are the new characteristics of deep learning, compared with classical methods? What are the theoretical foundations of deep learning? To answer these questions, we introduce common neural network models (e.g., convolutional neural nets, recurrent neural nets, generative adversarial nets) and training techniques (e.g., stochastic gradient descent, dropout, batch normalization) from a statistical point of view. Along the way, we highlight new characteristics of deep learning (including depth and over-parametrization) and explain their practical and theoretical benefits. We also sample recent results on theories of deep learning, many of which are only suggestive. While a complete understanding of deep learning remains elusive, we hope that our perspectives and discussions serve as a stimulus for new statistical research.
translated by 谷歌翻译
在本文中,我们提出了一种用于交互式新闻的启发式推荐系统,称为基于图的广泛行为感知网络(G-BBAN)。与大多数现有工作不同,我们的网络会考虑用户可能潜在执行的六种行为,包括取消单击,点击,关注,评论和共享。此外,我们将图理论的核心和验证概念引入系统,以衡量每个用户的利益集中度,我们展示如果考虑的话,可以帮助进一步提高绩效。我们的推荐系统有三个关键步骤。首先,我们构建一个结构化的依赖于用户的交互行为图,将多级和多类数据作为预处理步骤。该图构建了将通过表示学习在G-BBAN中使用的数据源和知识信息。其次,对于图上的每个用户节点,我们计算其核心和灵敏度,然后将该对添加为与该用户关联的新特征。根据核心和敏感性的定义,这种依赖于用户的特征提供了对他/她的兴趣的集中程度的有用见解,并影响了个性化推荐的准确性和多样性之间的权衡。最后,我们通过实体语义和环境语义来表示信息(新闻)信息;设计称为G-CNN的多通道卷积神经网络学习语义信息,设计基于注意力的LSTM来学习用户的行为表示;结合先前的浓度特征并输入另外两个完全连接的层以完成分类任务。整个网络由最终的G-BBAN组成。通过与基线和自身的几个变量进行比较,我们提出的方法在广泛的实验中表现出优越的性能。
translated by 谷歌翻译
This paper considers the problem of solving systems of quadratic equations, namely, recovering an object of interest x ∈ R n from m quadratic equations / samples yi = (a i x) 2 , 1 ≤ i ≤ m. This problem, also dubbed as phase retrieval, spans multiple domains including physical sciences and machine learning. We investigate the efficacy of gradient descent (or Wirtinger flow) designed for the nonconvex least squares problem. We prove that under Gaussian designs, gradient descent-when randomly initialized-yields an-accurate solution in O log n + log(1//) iterations given nearly minimal samples, thus achieving near-optimal computational and sample complexities at once. This provides the first global convergence guarantee concerning vanilla gradient descent for phase retrieval, without the need of (i) carefully-designed initialization, (ii) sample splitting, or (iii) sophisticated saddle-point escaping schemes. All of these are achieved by exploiting the statistical models in analyzing optimization algorithms, via a leave-one-out approach that enables the decoupling of certain statistical dependency between the gradient descent iterates and the data.
translated by 谷歌翻译
We consider the problem of recovering low-rank matrices from random rank-one measurements, which spans numerous applications including covariance sketching, phase retrieval, quantum state to-mography, and learning shallow polynomial neural networks, among others. Our approach is to directly estimate the low-rank factor by minimizing a nonconvex quadratic loss function via vanilla gradient descent, following a tailored spectral initialization. When the true rank is small, this algorithm is guaranteed to converge to the ground truth (up to global ambiguity) with near-optimal sample complexity and computational complexity. To the best of our knowledge, this is the first guarantee that achieves near-optimality in both metrics. In particular, the key enabler of near-optimal computational guarantees is an implicit regularization phenomenon: without explicit regularization, both spectral initialization and the gradient descent iterates automatically stay within a region incoherent with the measurement vectors. This feature allows one to employ much more aggressive step sizes compared with the ones suggested in prior literature, without the need of sample splitting.
translated by 谷歌翻译
本文关注的是成对比较中top-$ K $排名的问题。给定$ n $项目的集合以及它们之间的几个成对比较,人们希望识别接收最高等级的$ K $项目集合。为了解决这个问题,我们采用了逻辑参数模型--- Bradley-Terry-Luce模型,其中每个项目都被赋予了一个潜在偏好分数,并且每个成对比较的结果仅取决于所涉及的两个项目的相对分数。最近的工作在表征几种经典方法(包括谱方法和最大似然估计量(MLE))的性能(例如,估计得分的均方误差)方面取得了显着进展。然而,他们关于最高$ K $排名的立场仍未解决。我们证明,在自然随机抽样模型下,单独的光谱方法,或单独的正则化MLE,就样本复杂性而言是最小极大的 - 确保精确的$ K $识别所需的配对比较的数量,对于固定的动态范围制度。这是通过对得分估计的入门误差进行最优控制来完成的。我们通过数值实验补充了我们的理论研究,证实了这两种方法产生的低入门误差用于估计潜在得分。我们的理论是通过一种新颖的留一法手来建立的,这对于分析迭代和非迭代过程都是有效的。在此过程中,我们推导出概率转移矩阵的基本特征向量扰动界,它与Davis-Kahan $ \ sin \ Theta $定理forsymmetric矩阵相似。这也允许我们缩小频谱方法的$ \ ell_2 $误差上限和极小极大下限之间的差距。
translated by 谷歌翻译
Web服务组合(WSC)是Webservices的一个特别有前途的应用程序,其中具有特定功能的多个单独服务被组合以完成更复杂的任务,其必须同时满足功能要求和优化服务质量(QoS)属性。此外,大量的技术进步产生的数据需要在服务之间交换。数据密集型Web服务(操作和处理这些数据)对实现数据密集型流程非常感兴趣,例如分布式数据密集型Web服务组合(DWSC)。研究人员提出了满足所有上述因素的进化计算(EC)全自动WSC技术。其中一些使用Memetic算法(MA)通过提高其搜索解决方案邻域区域的开发能力来提高EC的性能。但是,这些工作效率不高或效率不高。本文提出了一种基于MA的方法,以有效和高效的方式解决分布式DWSC的问题。特别是,我们开发了一种MA,它将CIS与灵活的局部搜索技术混合,并结合了服务距离。使用基准数据集进行评估,比较现有的最先进方法。结果表明,我们提出的方法总体上具有最高的质量和可接受的执行时间。
translated by 谷歌翻译
为了解决医学图像在图像超分辨率重建过程中由于缺乏高频细节而导致严重模糊的问题,提出了一种基于密集神经网络和混合注意机制的医学图像超分辨率方法。所提出的方法将混合注意块添加到密集神经网络(DenseNet),使得神经网络可以将更多的注意力集中在具有足够高频细节的区域和信道上。去除Batchnormalization层以避免高频纹理细节的丢失。最后得到的高分辨率医学图像是利用网络末端的反卷层作为上采样算子获得的。实验结果表明,该方法对峰值信号的改善分别为0.05db~11.25dB和0.6%~14.04%。 - 噪声比(PSNR)度量和结构相似性指数(SSIM)度量,分别与主流图像超分辨率方法进行比较。这项工作为医学图像超分辨率重建的理论研究提供了新的思路。
translated by 谷歌翻译
最近,材料显微图像语义分割的进展受到在大数据集上训练的高容量模型的驱动。然而,由于需要人力,所以用像素级标签收集显微图像是非常昂贵的。在本文中,我们提出了一种方法,用于从材料3d模拟模型中快速创建具有像素级标签的显微图像。通常,直接从那些3d模拟模型中提取的图像不够逼真。但是,很容易获得语义标签。我们引入样式转移技术,使模拟图像数据更接近真实的微观数据。我们通过使用来自实验的实际图像数据和来自Monte Carlo PottsModels的模拟图像数据来验证所呈现的方法,其模拟多晶的生长。实验表明,利用获取的模拟图像数据和样式转换技术来补充多晶铁的实际图像,可以显着提高图像处理的平均精度。此外,用模拟图像数据训练的模型和仅1/3的真实数据优于在完整的实际图像数据上训练的模型。在这种多晶材料的研究中,这种方法可以减少从显微镜获取和标记图像的压力。此外,它可以应用于其他材料图像的数量。
translated by 谷歌翻译
通过开发复杂的图像先验或设计深(er)架构,最近提出了各种图像超分辨率(SR)方法并且实现了非常有前途的性能。一个自然的问题是,这些方法是否可以重新形成一个统一的框架,这个框架是否有助于SR重建?在本文中,我们提出了一种基于集成学习的简单但有效的单图像SR方法,该方法可以产生比从任何SR方法(或称为组件超级解析器)获得的更好的性能。基于在执行SR重建时更好的组件超级解析器应该具有更大的集合权重的假设,我们提出了用于推断最优集合权重的最大后验(MAP)估计框架。特别地,我们引入了一个参考数据集,它由高分辨率(HR)和低分辨率(LR)图像对组成,用于测量不同组件超级分辨率的超分辨率能力(先验知识)。为了获得optimalesesemble权重,我们建议结合重建约束,其表明退化的HR图像应该等于LRobservation的权重,以及集合权重的先验知识到MAP估计框架中。此外,所提出的优化问题可以通过分析解决方案来解决。我们通过与不同的竞争方法进行比较来研究所提出方法的性能,包括基于最先进的非深度学习方法,四种最新的基于深度学习的方法和一种基于集成学习的方法,并证明它在三个公共数据集上的有效性和优越性。 。
translated by 谷歌翻译
我们研究后勤强盗,其中奖励是二元成功概率$ \ exp(\ beta a ^ \ top \ theta)/(1 + \ exp(\ beta a ^ \ top \ theta))$ andactions $ a $和systems $ \ theta $在$ d $ -dimensional单位球内。虽然先前后悔限制了解决斜率参数$ \ beta $的logistic banditexhibit指数依赖的算法,但我们建立了与Thompson采样无关的格式。 beta $。特别是,我们确定,当可行动作的集合与可能的系数向量集合相同时,Thompsonsampling的贝叶斯遗憾是$ \ tilde {O}(d \ sqrt {T})$。我们还建立了一个$ \ tilde {O}(\ sqrt {d \ etaT} / \ lambda)$ bound,它适用范围更广,其中$ \ lambda $是最差情况下的最佳对数,$ \ eta $是“脆弱性维度,“一个新的统计数据,用于捕捉一个模型的最优行动对其他模型的满足程度。我们通过证明,对于任何$ \ epsilon> 0 $,没有算法可以实现$ \ mathrm {poly}(d,1 / \ lambda)\ cdot T ^ {1- \ epsilon} $,我们证明了脆弱性维度起着非常重要的作用。后悔。
translated by 谷歌翻译