从随机字段或纹理中提取信息是科学中无处不在的任务,从探索性数据分析到分类和参数估计。从物理学到生物学,它往往通过功率谱分析来完成,这通常过于有限,或者使用需要大型训练的卷积神经网络(CNNS)并缺乏解释性。在本文中,我们倡导使用散射变换(Mallat 2012),这是一种强大的统计数据,它来自CNNS的数学思想,但不需要任何培训,并且是可解释的。我们表明它提供了一种相对紧凑的汇总统计数据,具有视觉解释,并在广泛的科学应用中携带大多数相关信息。我们向该估算者提供了非技术性介绍,我们认为它可以使数据分析有利于多种科学领域的模型和参数推断。有趣的是,了解散射变换的核心操作允许人们解读CNN的内部工作的许多关键方面。
translated by 谷歌翻译
A wavelet scattering network computes a translation invariant image representation, which is stable to deformations and preserves high frequency information for classification. It cascades wavelet transform convolutions with non-linear modulus and averaging operators. The first network layer outputs SIFT-type descriptors whereas the next layers provide complementary invariant information which improves classification. The mathematical analysis of wavelet scattering networks explain important properties of deep convolution networks for classification.A scattering representation of stationary processes incorporates higher order moments and can thus discriminate textures having same Fourier power spectrum. State of the art classification results are obtained for handwritten digits and texture discrimination, with a Gaussian kernel SVM and a generative PCA classifier.
translated by 谷歌翻译
本文介绍了一个固定的厄贡点过程的统计模型,该模型是根据在方形窗口中观察到的单个实现估计的。使用随机几何形状中的现有方法,很难用大量颗粒形成复杂的几何形状进行建模。受到采样最大渗透模型的梯度下降算法的最新作品的启发,我们描述了一个模型,该模型允许快速采样新的配置,从而再现了给定观察的统计数据。从初始随机配置开始,其粒子根据能量的梯度移动,以匹配一组规定的矩(功能)。我们的矩是通过相谐波操作员在点模式的小波变换上定义的。它们允许一个人捕获粒子之间的多尺度相互作用,同时按照模型的结构的尺度明确控制矩数。我们介绍了具有各种几何结构的点过程的数值实验,并通过光谱和拓扑数据分析评估模型的质量。
translated by 谷歌翻译
我们开发了一种多尺度方法,以从实验或模拟中观察到的物理字段或配置的数据集估算高维概率分布。通过这种方式,我们可以估计能量功能(或哈密顿量),并有效地在从统计物理学到宇宙学的各个领域中生成多体系统的新样本。我们的方法 - 小波条件重新归一化组(WC-RG) - 按比例进行估算,以估算由粗粒磁场来调节的“快速自由度”的条件概率的模型。这些概率分布是由与比例相互作用相关的能量函数建模的,并以正交小波为基础表示。 WC-RG将微观能量函数分解为各个尺度上的相互作用能量之和,并可以通过从粗尺度到细度来有效地生成新样品。近相变,它避免了直接估计和采样算法的“临界减速”。理论上通过结合RG和小波理论的结果来解释这一点,并为高斯和$ \ varphi^4 $字段理论进行数值验证。我们表明,多尺度WC-RG基于能量的模型比局部电位模型更通用,并且可以在所有长度尺度上捕获复杂的多体相互作用系统的物理。这是针对反映宇宙学中暗物质分布的弱透镜镜头的,其中包括与长尾概率分布的长距离相互作用。 WC-RG在非平衡系统中具有大量的潜在应用,其中未知基础分布{\ it先验}。最后,我们讨论了WC-RG和深层网络体系结构之间的联系。
translated by 谷歌翻译
Many scientific fields study data with an underlying structure that is a non-Euclidean space. Some examples include social networks in computational social sciences, sensor networks in communications, functional networks in brain imaging, regulatory networks in genetics, and meshed surfaces in computer graphics. In many applications, such geometric data are large and complex (in the case of social networks, on the scale of billions), and are natural targets for machine learning techniques. In particular, we would like to use deep neural networks, which have recently proven to be powerful tools for a broad range of problems from computer vision, natural language processing, and audio analysis. However, these tools have been most successful on data with an underlying Euclidean or grid-like structure, and in cases where the invariances of these structures are built into networks used to model them.Geometric deep learning is an umbrella term for emerging techniques attempting to generalize (structured) deep neural models to non-Euclidean domains such as graphs and manifolds. The purpose of this paper is to overview different examples of geometric deep learning problems and present available solutions, key difficulties, applications, and future research directions in this nascent field.
translated by 谷歌翻译
The success of machine learning algorithms generally depends on data representation, and we hypothesize that this is because different representations can entangle and hide more or less the different explanatory factors of variation behind the data. Although specific domain knowledge can be used to help design representations, learning with generic priors can also be used, and the quest for AI is motivating the design of more powerful representation-learning algorithms implementing such priors. This paper reviews recent work in the area of unsupervised feature learning and deep learning, covering advances in probabilistic models, auto-encoders, manifold learning, and deep networks. This motivates longer-term unanswered questions about the appropriate objectives for learning good representations, for computing representations (i.e., inference), and the geometrical connections between representation learning, density estimation and manifold learning.
translated by 谷歌翻译
图像生物标准化倡议(IBSI)旨在通过标准化从图像中提取图像生物标志物(特征)的计算过程来提高射致研究的再现性。我们之前建立了169个常用特征的参考值,创建了标准的射频图像处理方案,并开发了用于垄断研究的报告指南。但是,若干方面没有标准化。在这里,我们提出了在射频中使用卷积图像过滤器的参考手册的初步版本。滤波器,例如高斯滤波器的小波或拉普拉斯,在强调特定图像特征(如边缘和Blob)中发挥重要组成部分。已发现从过滤滤波器响应图派生的功能可重复差。此参考手册构成了持续工作的基础,用于标准化卷积滤波器中的覆盖物中的持续工作,并在这项工作进行时更新。
translated by 谷歌翻译
我们介绍了一种确定全局特征解耦的方法,并显示其适用于提高数据分析性能的适用性,并开放了新的场所以进行功能传输。我们提出了一种新的形式主义,该形式主义是基于沿特征梯度遵循轨迹来定义对子曼群的转换的。通过这些转换,我们定义了一个归一化,我们证明,它允许解耦可区分的特征。通过将其应用于采样矩,我们获得了用于正骨的准分析溶液,正尾肌肉是峰度的归一化版本,不仅与平均值和方差相关,而且还与偏度相关。我们将此方法应用于原始数据域和过滤器库的输出中,以基于全局描述符的回归和分类问题,与使用经典(未删除)描述符相比,性能得到一致且显着的改进。
translated by 谷歌翻译
在2015年和2019年之间,地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”,研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用,并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人,仍然在测试阶段,承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中,在研究和开发的那些中,最相关的新工具以及对其性能的评估。
translated by 谷歌翻译
Pre-publication draft of a book to be published byMorgan & Claypool publishers. Unedited version released with permission. All relevant copyrights held by the author and publisher extend to this pre-publication draft.
translated by 谷歌翻译
我们考虑了使用显微镜或X射线散射技术产生的图像数据自组装的模型的贝叶斯校准。为了说明BCP平衡结构中的随机远程疾病,我们引入了辅助变量以表示这种不确定性。然而,这些变量导致了高维图像数据的综合可能性,通常可以评估。我们使用基于测量运输的可能性方法以及图像数据的摘要统计数据来解决这一具有挑战性的贝叶斯推理问题。我们还表明,可以计算出有关模型参数的数据中的预期信息收益(EIG),而无需额外的成本。最后,我们介绍了基于二嵌段共聚物薄膜自组装和自上而下显微镜表征的ohta-kawasaki模型的数值案例研究。为了进行校准,我们介绍了一些基于域的能量和傅立叶的摘要统计数据,并使用EIG量化了它们的信息性。我们证明了拟议方法研究数据损坏和实验设计对校准结果的影响的力量。
translated by 谷歌翻译
Research in Graph Signal Processing (GSP) aims to develop tools for processing data defined on irregular graph domains. In this paper we first provide an overview of core ideas in GSP and their connection to conventional digital signal processing, along with a brief historical perspective to highlight how concepts recently developed in GSP build on top of prior research in other areas. We then summarize recent advances in developing basic GSP tools, including methods for sampling, filtering or graph learning. Next, we review progress in several application areas using GSP, including processing and analysis of sensor network data, biological data, and applications to image processing and machine learning.
translated by 谷歌翻译
图像表示是计算机视觉和模式识别中的一个重要主题。它在一系列应用中扮演了了解视觉内容的基本作用。据报道,基于矩的图像表示在满足其由于其有益的数学特性而满足语义描述的核心条件,特别是几何不变性和独立性。本文介绍了对图像表示的正交矩的全面调查,涵盖了快速/准确计算,鲁棒性/不变性优化,定义扩展和应用程序的最新进步。我们还为各种广泛使用的正交瞬间创建一个软件包,并在同一基地中评估此类方法。提出的理论分析,软件实施和评估结果可以支持社区,特别是在开发新颖的技术和促进现实世界的应用方面。
translated by 谷歌翻译
信号处理是几乎任何传感器系统的基本组件,具有不同科学学科的广泛应用。时间序列数据,图像和视频序列包括可以增强和分析信息提取和量化的代表性形式的信号。人工智能和机器学习的最近进步正在转向智能,数据驱动,信号处理的研究。该路线图呈现了最先进的方法和应用程序的关键概述,旨在突出未来的挑战和对下一代测量系统的研究机会。它涵盖了广泛的主题,从基础到工业研究,以简明的主题部分组织,反映了每个研究领域的当前和未来发展的趋势和影响。此外,它为研究人员和资助机构提供了识别新前景的指导。
translated by 谷歌翻译
人类认知中的普遍学习架构存在是由神经科学的实验结果支持的广泛传播的猜想。虽然没有指定低级实施,但据信人类感知和学习的摘要概述需要三个基本属性:(a)基于内存的知识表示,(b)基于内存的知识表示,(c)逐步学习和知识压实。我们从系统理论上探讨了这种学习架构的设计,开发了具有三个主要组件的闭环系统:(i)多分辨率分析预处理器,(ii)组不变特征提取器,以及(iii)基于渐进知识的学习模块。多分辨率反馈循环用于学习,即使系统参数适应在线观察。设计(i)和(ii),我们建立在基于小波的多分辨率分析和集团卷积运营商的属性的建立理论上。关于(iii),我们介绍了一种新的学习算法,该算法构建多项分辨率的逐步增长的知识表示。该算法是基于退火优化的在线确定性退火(ODA)算法的延伸,使用无梯度随机近似求解。 ODA具有固有的鲁棒性和正常化属性,并提供了逐步提高学习模型的复杂性的方法,即根据需要,通过直观的分叉现象,神经元的数量。所提出的多分辨率方法是分层,逐步,知识的和可解释的。我们说明了在最先进的学习算法和深度学习方法的上下文中所提出的架构的性质。
translated by 谷歌翻译
Network-based analyses of dynamical systems have become increasingly popular in climate science. Here we address network construction from a statistical perspective and highlight the often ignored fact that the calculated correlation values are only empirical estimates. To measure spurious behaviour as deviation from a ground truth network, we simulate time-dependent isotropic random fields on the sphere and apply common network construction techniques. We find several ways in which the uncertainty stemming from the estimation procedure has major impact on network characteristics. When the data has locally coherent correlation structure, spurious link bundle teleconnections and spurious high-degree clusters have to be expected. Anisotropic estimation variance can also induce severe biases into empirical networks. We validate our findings with ERA5 reanalysis data. Moreover we explain why commonly applied resampling procedures are inappropriate for significance evaluation and propose a statistically more meaningful ensemble construction framework. By communicating which difficulties arise in estimation from scarce data and by presenting which design decisions increase robustness, we hope to contribute to more reliable climate network construction in the future.
translated by 谷歌翻译
神经网络的经典发展主要集中在有限维欧基德空间或有限组之间的学习映射。我们提出了神经网络的概括,以学习映射无限尺寸函数空间之间的运算符。我们通过一类线性积分运算符和非线性激活函数的组成制定运营商的近似,使得组合的操作员可以近似复杂的非线性运算符。我们证明了我们建筑的普遍近似定理。此外,我们介绍了四类运算符参数化:基于图形的运算符,低秩运算符,基于多极图形的运算符和傅里叶运算符,并描述了每个用于用每个计算的高效算法。所提出的神经运营商是决议不变的:它们在底层函数空间的不同离散化之间共享相同的网络参数,并且可以用于零击超分辨率。在数值上,与现有的基于机器学习的方法,达西流程和Navier-Stokes方程相比,所提出的模型显示出卓越的性能,而与传统的PDE求解器相比,与现有的基于机器学习的方法有关的基于机器学习的方法。
translated by 谷歌翻译
Low-rank matrix approximations, such as the truncated singular value decomposition and the rank-revealing QR decomposition, play a central role in data analysis and scientific computing. This work surveys and extends recent research which demonstrates that randomization offers a powerful tool for performing low-rank matrix approximation. These techniques exploit modern computational architectures more fully than classical methods and open the possibility of dealing with truly massive data sets.This paper presents a modular framework for constructing randomized algorithms that compute partial matrix decompositions. These methods use random sampling to identify a subspace that captures most of the action of a matrix. The input matrix is then compressed-either explicitly or implicitly-to this subspace, and the reduced matrix is manipulated deterministically to obtain the desired low-rank factorization. In many cases, this approach beats its classical competitors in terms of accuracy, speed, and robustness. These claims are supported by extensive numerical experiments and a detailed error analysis.The specific benefits of randomized techniques depend on the computational environment. Consider the model problem of finding the k dominant components of the singular value decomposition of an m × n matrix. (i) For a dense input matrix, randomized algorithms require O(mn log(k)) floating-point operations (flops) in contrast with O(mnk) for classical algorithms. (ii) For a sparse input matrix, the flop count matches classical Krylov subspace methods, but the randomized approach is more robust and can easily be reorganized to exploit multi-processor architectures. (iii) For a matrix that is too large to fit in fast memory, the randomized techniques require only a constant number of passes over the data, as opposed to O(k) passes for classical algorithms. In fact, it is sometimes possible to perform matrix approximation with a single pass over the data.
translated by 谷歌翻译
小波散射变换创造了几何不变和变形稳定性。在多个信号域中,与其他非学习表示形式相比,它可以产生更多的判别性表示,并且在某些任务中,尤其是在有限的标记数据和高度结构化的信号中,它都超越了学习的表示。通常选择散射转换中使用的小波过滤器,以通过参数化的母小波创建紧密的框架。在这项工作中,我们研究了这种标准的小波滤网构造是否最佳。为了关注Morlet小波,我们建议学习过滤器的量表,方向和纵横比,以产生散射变换的特定问题参数化。我们表明,我们学到的散射转换版本在标准散射变换上在小样本分类设置中产生了显着的性能增长。此外,我们的经验结果表明,传统的滤纸结构对于提取有效表示的散射转换可能并不总是必要的。
translated by 谷歌翻译
浑浊或形成是工业常规用于行业的概念,以解决非织造物和论文的均匀性的偏差。基于图像数据测量浑浊索引是工业质量保证的常见任务。量化云的两个最流行的方式是基于一方面的功率谱或相关功能,另一方面是拉普拉斯金字塔。在这里,我们全面地回顾了第一种方法的数学基础,得出了浑浊指数,并证明了其实际估计。我们证明了拉普拉斯金字塔以及表征云的其他量,如相互作用范围和小角度散射的强度与功率谱非常密切相关。最后,我们表明,功率谱易于分析图像,并且具有比替代方案更多的信息。
translated by 谷歌翻译