智能论文笔记

Multiple Hypothesis Testing Framework for Spatial Signals

Martin Gölz , Abdelhak M. Zoubir , Visa Koivunen

分类：机器学习

2021-08-27

识别空间有趣，不同或对抗性行为的区域的问题是许多涉及分布式多传感器系统的实际应用。在这项工作中，我们开发了一个由多个假设检验的一般框架，以识别此类区域。假定在受监视的环境中假定离散的空间网格。确定与不同假设相关的空间网格点，同时在预先指定的水平控制错误发现率时。使用大型传感器网络获得测量。我们提出了一种新颖的，数据驱动的方法，以基于矩的光谱方法来估计局部错误发现率。我们的方法对基本物理现象的特定空间传播模型不可知。它依靠广泛适用的密度模型来用于本地汇总统计。在两次传感器之间，将位置分配给基于插值的局部错误发现率相关的不同假设相关的区域。我们方法的好处是通过应用在空间传播无线电波的应用中说明的。

translated by 谷歌翻译

Machine learning meets false discovery rate

Ariane Marandon , Lihua Lei , David Mary , Etienne Roquain

分类： (统计)机器学习

2022-08-13

经典的错误发现率（FDR）控制程序提供了强大而可解释的保证，而它们通常缺乏灵活性。另一方面，最近的机器学习分类算法是基于随机森林（RF）或神经网络（NN）的算法，具有出色的实践表现，但缺乏解释和理论保证。在本文中，我们通过引入新的自适应新颖性检测程序（称为Adadetect）来使这两个相遇。它将多个测试文献的最新作品范围扩展到高维度的范围，尤其是Yang等人的范围。（2021）。显示ADADETECT既可以强烈控制FDR，又具有在特定意义上模仿甲骨文之一的力量。理论结果，几个基准数据集上的数值实验以及对天体物理数据的应用，我们的方法的兴趣和有效性得到了证明。特别是，虽然可以将AdadEtect与任何分类器结合使用，但它在带有RF的现实世界数据集以及带有NN的图像上特别有效。

translated by 谷歌翻译

Pitfalls of Climate Network Construction: A Statistical Perspective

Moritz Haas , Bedartha Goswami , Ulrike von Luxburg

分类：机器学习 | (统计)机器学习

2022-11-05

Network-based analyses of dynamical systems have become increasingly popular in climate science. Here we address network construction from a statistical perspective and highlight the often ignored fact that the calculated correlation values are only empirical estimates. To measure spurious behaviour as deviation from a ground truth network, we simulate time-dependent isotropic random fields on the sphere and apply common network construction techniques. We find several ways in which the uncertainty stemming from the estimation procedure has major impact on network characteristics. When the data has locally coherent correlation structure, spurious link bundle teleconnections and spurious high-degree clusters have to be expected. Anisotropic estimation variance can also induce severe biases into empirical networks. We validate our findings with ERA5 reanalysis data. Moreover we explain why commonly applied resampling procedures are inappropriate for significance evaluation and propose a statistically more meaningful ensemble construction framework. By communicating which difficulties arise in estimation from scarce data and by presenting which design decisions increase robustness, we hope to contribute to more reliable climate network construction in the future.

translated by 谷歌翻译

Advances in Multi-Variate Analysis Methods for New Physics Searches at the Large Hadron Collider

Anna Stakia , Tommaso Dorigo , Giovanni Banelli , Daniela Bortoletto , Alessandro Casa , Pablo de Castro , Christophe Delaere , Julien Donini , Livio Finos , Michele Gallinaro

分类：机器学习

2021-05-16

在2015年和2019年之间，地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”，研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用，并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人，仍然在测试阶段，承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中，在研究和开发的那些中，最相关的新工具以及对其性能的评估。

translated by 谷歌翻译

Bayesian model calibration for block copolymer self-assembly: Likelihood-free inference and expected information gain computation via measure transport

Ricardo Baptista , Lianghao Cao , Joshua Chen , Omar Ghattas , Fengyi Li , Youssef M. Marzouk , J. Tinsley Oden

分类： (统计)机器学习

2022-06-22

我们考虑了使用显微镜或X射线散射技术产生的图像数据自组装的模型的贝叶斯校准。为了说明BCP平衡结构中的随机远程疾病，我们引入了辅助变量以表示这种不确定性。然而，这些变量导致了高维图像数据的综合可能性，通常可以评估。我们使用基于测量运输的可能性方法以及图像数据的摘要统计数据来解决这一具有挑战性的贝叶斯推理问题。我们还表明，可以计算出有关模型参数的数据中的预期信息收益（EIG），而无需额外的成本。最后，我们介绍了基于二嵌段共聚物薄膜自组装和自上而下显微镜表征的ohta-kawasaki模型的数值案例研究。为了进行校准，我们介绍了一些基于域的能量和傅立叶的摘要统计数据，并使用EIG量化了它们的信息性。我们证明了拟议方法研究数据损坏和实验设计对校准结果的影响的力量。

translated by 谷歌翻译

Finding structure with randomness: Probabilistic algorithms for constructing approximate matrix decompositions

Nathan Halko , Per-Gunnar Martinsson , Joel A. Tropp

分类：

2009-09-22

Low-rank matrix approximations, such as the truncated singular value decomposition and the rank-revealing QR decomposition, play a central role in data analysis and scientific computing. This work surveys and extends recent research which demonstrates that randomization offers a powerful tool for performing low-rank matrix approximation. These techniques exploit modern computational architectures more fully than classical methods and open the possibility of dealing with truly massive data sets.This paper presents a modular framework for constructing randomized algorithms that compute partial matrix decompositions. These methods use random sampling to identify a subspace that captures most of the action of a matrix. The input matrix is then compressed-either explicitly or implicitly-to this subspace, and the reduced matrix is manipulated deterministically to obtain the desired low-rank factorization. In many cases, this approach beats its classical competitors in terms of accuracy, speed, and robustness. These claims are supported by extensive numerical experiments and a detailed error analysis.The specific benefits of randomized techniques depend on the computational environment. Consider the model problem of finding the k dominant components of the singular value decomposition of an m × n matrix. (i) For a dense input matrix, randomized algorithms require O(mn log(k)) floating-point operations (flops) in contrast with O(mnk) for classical algorithms. (ii) For a sparse input matrix, the flop count matches classical Krylov subspace methods, but the randomized approach is more robust and can easily be reorganized to exploit multi-processor architectures. (iii) For a matrix that is too large to fit in fast memory, the randomized techniques require only a constant number of passes over the data, as opposed to O(k) passes for classical algorithms. In fact, it is sometimes possible to perform matrix approximation with a single pass over the data.

translated by 谷歌翻译

A hybrid model-based and learning-based approach for classification using limited number of training samples

Alireza Nooraiepour , Waheed U. Bajwa , Narayan B. Mandayam

分类：机器学习

2021-06-25

给定有限数量的训练数据样本的分类的基本任务被考虑了具有已知参数统计模型的物理系统。基于独立的学习和统计模型的分类器面临使用小型训练集实现分类任务的主要挑战。具体地，单独依赖基于物理的统计模型的分类器通常遭受它们无法适当地调整底层的不可观察的参数，这导致系统行为的不匹配表示。另一方面，基于学习的分类器通常依赖于来自底层物理过程的大量培训数据，这在最实际的情况下可能不可行。本文提出了一种混合分类方法 - 被称为亚牙线的菌丝 - 利用基于物理的统计模型和基于学习的分类器。所提出的解决方案基于猜想，即通过融合它们各自的优势，刺鼠线将减轻与基于学习和统计模型的分类器的各个方法相关的挑战。所提出的混合方法首先使用可用（次优）统计估计程序来估计不可观察的模型参数，随后使用基于物理的统计模型来生成合成数据。然后，培训数据样本与基于学习的分类器中的合成数据结合到基于神经网络的域 - 对抗训练。具体地，为了解决不匹配问题，分类器将从训练数据和合成数据的映射学习到公共特征空间。同时，培训分类器以在该空间内找到判别特征，以满足分类任务。

translated by 谷歌翻译

Data blurring: sample splitting a single sample

James Leiner , Boyan Duan , Larry Wasserman , Aaditya Ramdas

分类： (统计)机器学习

2021-12-21

假设我们观察一个随机向量$ x $从一个具有未知参数的已知家庭中的一些分发$ p $。我们问以下问题：什么时候可以将$ x $分为两部分$ f（x）$和$ g（x）$，使得两部分都足以重建$ x $自行，但两者都可以恢复$ x $完全，$（f（x），g（x））$的联合分布是贸易的吗？作为一个例子，如果$ x =（x_1，\ dots，x_n）$和$ p $是一个产品分布，那么对于任何$ m <n $，我们可以将样本拆分以定义$ f（x）=（x_1 ，\ dots，x_m）$和$ g（x）=（x_ {m + 1}，\ dots，x_n）$。 Rasines和Young（2021）提供了通过使用$ x $的随机化实现此任务的替代路线，并通过加性高斯噪声来实现高斯分布数据的有限样本中的选择后推断和非高斯添加剂模型的渐近。在本文中，我们提供更一般的方法，可以通过借助贝叶斯推断的思路在有限样本中实现这种分裂，以产生（频繁的）解决方案，该解决方案可以被视为数据分裂的连续模拟。我们称我们的方法数据模糊，作为数据分割，数据雕刻和P值屏蔽的替代方案。我们举例说明了一些原型应用程序的方法，例如选择趋势过滤和其他回归问题的选择后推断。

translated by 谷歌翻译

Robust subgroup discovery

Hugo Manuel Proença , Peter Grünwald , Thomas Bäck , Matthijs van Leeuwen

分类：机器学习 | 人工智能 | (统计)机器学习

2021-03-25

我们介绍了强大的子组发现的问题，即，找到一个关于一个或多个目标属性的脱颖而出的子集的一组可解释的描述，2）是统计上的鲁棒，并且3）非冗余。许多尝试已经挖掘了局部强壮的子组或解决模式爆炸，但我们是第一个从全球建模角度同时解决这两个挑战的爆炸。首先，我们制定广泛的模型类别的子组列表，即订购的子组，可以组成的单次组和多变量目标，该目标可以由标称或数字变量组成，并且包括其定义中的传统Top-1子组发现。这种新颖的模型类允许我们使用最小描述长度（MDL）原理来形式地形化最佳强大的子组发现，在那里我们分别为标称和数字目标的最佳归一化最大可能性和贝叶斯编码而度假。其次，正如查找最佳子组列表都是NP-Hard，我们提出了SSD ++，一个贪婪的启发式，找到了很好的子组列表，并保证了根据MDL标准的最重要的子组在每次迭代中添加，这被显示为等同于贝叶斯一个样本比例，多项式或子组之间的多项式或T检验，以及数据集边际目标分布以及多假设检测罚款。我们经验上显示了54个数据集，即SSD ++优于先前的子组设置发现方法和子组列表大小。

translated by 谷歌翻译

Probabilistic Semantic Data Association for Collaborative Human-Robot Sensing

Shohei Wakayama , Nisar Ahmed

分类：机器人

2021-10-18

在协作人类机器人语义传感问题中，例如为了进行科学探索，机器人可能会通过人类伴侣提供过度质疑的信息，从而导致次优的状态估计和团队绩效差。当人类不能被视为牙齿时，机器人需要更新状态信念，以正确解释人类语义观察与导致这些观察的现实世界状态之间可能存在的差异。这项工作为在一般环境中针对语义可能性的概率语义数据关联（PSDA）概率进行了严格的在线计算制定了策略，这与以前的工作不同，这些工作开发了针对特定设置的天真或启发式近似。新的PSDA方法纳入了混合贝叶斯数据融合方案中，该方案将高斯混合先验用于对象状态和SoftMax函数用于语义人类传感器观察可能性，并在Monte Carlo模拟中证明了合作的多对象搜索任务的范围人类感测特征（例如错误的检测率）。结果表明，每当语义人类传感器数据包含重要的目标参考歧义性，用于自主对象搜索和本地化时，PSDA会导致在广泛条件下对观察关联概率的强大估计。

translated by 谷歌翻译

Adjusted chi-square test for degree-corrected block models

Linfan Zhang , Arash A. Amini

分类： (统计)机器学习

2020-12-30

我们提出了对学度校正随机块模型（DCSBM）的合适性测试。该测试基于调整后的卡方统计量，用于测量$ n $多项式分布的组之间的平等性，该分布具有$ d_1，\ dots，d_n $观测值。在网络模型的背景下，多项式的数量（$ n $）的数量比观测值数量（$ d_i $）快得多，与节点$ i $的度相对应，因此设置偏离了经典的渐近学。我们表明，只要$ \ {d_i \} $的谐波平均值生长到无穷大，就可以使统计量在NULL下分配。顺序应用时，该测试也可以用于确定社区数量。该测试在邻接矩阵的压缩版本上进行操作，因此在学位上有条件，因此对大型稀疏网络具有高度可扩展性。我们结合了一个新颖的想法，即在测试$ K $社区时根据$（k+1）$ - 社区分配来压缩行。这种方法在不牺牲计算效率的情况下增加了顺序应用中的力量，我们证明了它在恢复社区数量方面的一致性。由于测试统计量不依赖于特定的替代方案，因此其效用超出了顺序测试，可用于同时测试DCSBM家族以外的各种替代方案。特别是，我们证明该测试与具有社区结构的潜在可变性网络模型的一般家庭一致。

translated by 谷歌翻译

Fast Optimal Estimation with Intractable Models using Permutation-Invariant Neural Networks

Matthew Sainsbury-Dale , Andrew Zammit-Mangion , Raphaël Huser

分类： (统计)机器学习

2022-08-27

神经网络最近显示出对无似然推理的希望，从而为经典方法提供了魔力的速度。但是，当从独立重复估计参数时，当前的实现是次优的。在本文中，我们使用决策理论框架来争辩说，如果这些模型的模拟很简单，则理想地放置了置换不变的神经网络，可用于为任意模型构造贝叶斯估计器。我们说明了这些估计量在传统空间模型以及高度参数化的空间发射模型上的潜力，并表明它们在其网络设计中不适当地说明复制的神经估计量相当大。同时，它们比基于传统可能性的估计量具有很高的竞争力和更快的速度。我们将估计量应用于红海中海面温度的空间分析，在训练之后，我们获得参数估计值，并通过引导采样对估计值进行不确定性定量，从一秒钟的数百个空间场中获取。

translated by 谷歌翻译

Multiple Testing and Variable Selection along the path of the Least Angle Regression

J. -M. Azaïs , Y. De Castro

分类： (统计)机器学习

2019-06-28

我们在高斯噪声的假设下使用最小的角度回归（LARS）算法来研究多次测试和变量选择。已知LARS制造分段仿射溶液路径，改变点称为Lars路径的结。我们的结果的关键是在Lars选定的变量上有一定数量的结合形式的结缔组织的确切联合法的表达，即Lars结的所谓的选择后联合法。数值实验表明了我们的研究结果的完美契合。本文提出了三个主要贡献。首先，我们在噪声水平可能未知的情况下，建立在常规设计案例中输入模型的变量测试程序。这些测试程序被称为广义$ T $ -Spacing测试（GTST），我们证明它们具有精确的非渐近水平（即，I.，I型错误被完全控制）。这延长了（Taylor等，2014）的工作，其中间距测试适用于连续结和已知方差。其次，我们在一般设计案例中介绍了一个新的精确多个假阴性测试，当噪声水平可能未知时。我们证明，该测试程序具有一般设计和未知噪声水平的完全非渐近水平。第三，我们在正交设计假设下确切地控制了虚假的发现率。提供了Monte Carlo模拟和实际数据实验，以说明我们在这种情况下的结果。基于递归函数，我们介绍了基于递归函数的Lars算法等效制定。

translated by 谷歌翻译

A Survey on Over-the-Air Computation

Alphan Sahin , Rui Yang

分类：人工智能

2022-10-20

Communication and computation are often viewed as separate tasks. This approach is very effective from the perspective of engineering as isolated optimizations can be performed. On the other hand, there are many cases where the main interest is a function of the local information at the devices instead of the local information itself. For such scenarios, information theoretical results show that harnessing the interference in a multiple-access channel for computation, i.e., over-the-air computation (OAC), can provide a significantly higher achievable computation rate than the one with the separation of communication and computation tasks. Besides, the gap between OAC and separation in terms of computation rate increases with more participating nodes. Given this motivation, in this study, we provide a comprehensive survey on practical OAC methods. After outlining fundamentals related to OAC, we discuss the available OAC schemes with their pros and cons. We then provide an overview of the enabling mechanisms and relevant metrics to achieve reliable computation in the wireless channel. Finally, we summarize the potential applications of OAC and point out some future directions.

translated by 谷歌翻译

Split Happens! Imprecise and Negative Information in Gaussian Mixture Random Finite Set Filtering

Keith A. LeGrand , Silvia Ferrari

分类：机器人

2022-07-22

在对象跟踪和状态估计问题中，诸如不精确测量和缺乏检测之类的模棱两可的证据可以包含有价值的信息，因此可以利用以进一步完善概率信念状态。特别是，可以利用有关传感器有限视野的知识，以结合观察到对象的位置的证据。本文提出了一种系统的方法，用于结合视野几何形状，位置以及对象包含/排除证据中的知识，并将其纳入对象状态密度和随机有限设置的多对象基础性分布中。最终的状态估计问题是非线性的，并使用基于递归成分拆分的新的高斯混合物近似来解决。基于此近似，在跟踪问题中仅使用自然语言语句作为输入来得出并证明一种新型的高斯混合物Bernoulli滤波器，以进行不精确的测量。本文还考虑了代表性选择的多对象分布的界面视野和基数分布之间的关系，该分布可用于传感器计划，这是通过涉及多重bernoulli过程的问题所证明的，最多可用于一个。 - 五百个潜在的对象。

translated by 谷歌翻译

An Introduction to Modern Statistical Learning

Joseph G. Makin

分类：机器学习

2022-07-20

这项正在进行的工作旨在为统计学习提供统一的介绍，从诸如GMM和HMM等经典模型到现代神经网络（如VAE和扩散模型）缓慢地构建。如今，有许多互联网资源可以孤立地解释这一点或新的机器学习算法，但是它们并没有（也不能在如此简短的空间中）将这些算法彼此连接起来，或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统，尽管对那些已经熟悉材料的人（如这些帖子的作者）不满意，但对新手的入境造成了重大障碍。同样，我的目的是将各种模型（尽可能）吸收到一个用于推理和学习的框架上，表明（以及为什么）如何以最小的变化将一个模型更改为另一个模型（其中一些是新颖的，另一些是文献中的）。某些背景当然是必要的。我以为读者熟悉基本的多变量计算，概率和统计以及线性代数。这本书的目标当然不是完整性，而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后，目标是补充而不是替换，诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本，该文本现在已经15岁了。

translated by 谷歌翻译

Two-Stage Robust and Sparse Distributed Statistical Inference for Large-Scale Data

Emadaldin Mozafari-Majd , Visa Koivunen

分类： (统计)机器学习 | 机器学习

2022-08-17

在本文中，我们解决了在涉及大规模数据的设置中进行统计推断的问题，这些数据可能是高度的，并且被异常值污染。数据的大量和维度需要分布式处理和存储解决方案。我们提出了一个两阶段分布和强大的统计推断程序，通过促进稀疏性来应对高维模型。在第一阶段（称为模型选择）中，相关预测因子是通过将强大的LASSO估计器应用于不同数据子集的局部选择。然后，从每个计算节点中的变量选择通过投票方案融合，以找到完整数据集的稀疏基础。它以强大的方式识别相关变量。在第二阶段，采用了开发的统计上健壮的和计算高效的引导方法。实际推断构建体间隔，找到参数估计并量化标准偏差。与第1阶段类似，将局部推理的结果传达给融合中心并在此组合。通过使用分析方法，我们建立了鲁棒和计算有效的引导方法的有利统计特性，包括固定数量的预测因子和鲁棒性的一致性。提出的两阶段的鲁棒和分布式推理程序在变量选择中表现出可靠的性能和鲁棒性，即使数据是高度且受异常值污染的，找到置信区间和标准偏差的自举近似。

translated by 谷歌翻译

Identifying the latent space geometry of network models through analysis of curvature

Shane Lubold , Arun G. Chandrasekhar , Tyler H. McCormick

分类： (统计)机器学习

2020-12-19

A common approach to modeling networks assigns each node to a position on a low-dimensional manifold where distance is inversely proportional to connection likelihood. More positive manifold curvature encourages more and tighter communities; negative curvature induces repulsion. We consistently estimate manifold type, dimension, and curvature from simply connected, complete Riemannian manifolds of constant curvature. We represent the graph as a noisy distance matrix based on the ties between cliques, then develop hypothesis tests to determine whether the observed distances could plausibly be embedded isometrically in each of the candidate geometries. We apply our approach to data-sets from economics and neuroscience.

translated by 谷歌翻译

Clustering of longitudinal data: A tutorial on a variety of approaches

Niek Den Teuling , Steffen Pauws , Edwin van den Heuvel

分类：机器学习 | (统计)机器学习

2021-11-10

在过去二十年中，识别具有不同纵向数据趋势的群体的方法已经成为跨越许多研究领域的兴趣。为了支持研究人员，我们总结了文献关于纵向聚类的指导。此外，我们提供了一种纵向聚类方法，包括基于基团的轨迹建模（GBTM），生长混合模拟（GMM）和纵向K平均值（KML）。该方法在基本级别引入，并列出了强度，限制和模型扩展。在最近数据收集的发展之后，将注意这些方法的适用性赋予密集的纵向数据（ILD）。我们展示了使用R.中可用的包在合成数据集上的应用程序的应用。

translated by 谷歌翻译

Descriptive vs. inferential community detection: pitfalls, myths and half-truths

Tiago P. Peixoto

分类： (统计)机器学习

2021-11-30

社区检测是网络科学中最重要的方法领域之一，在过去的几十年里引起了大量关注的方法之一。该区域处理网络的自动部门到基础构建块中，目的是提供其大规模结构的概要。尽管它的重要性和广泛的采用普及，所谓的最先进和实际在各种领域实际使用的方法之间存在明显的差距。在这里，我们试图通过根据是否具有“描述性”或“推论”目标来划分现有方法来解决这种差异。虽然描述性方法在基于社区结构的直观概念的网络中找到模式的模式，但是推理方法阐述了精确的生成模型，并尝试将其符合数据。通过这种方式，他们能够为网络形成机制提供见解，并以统计证据支持的方式与随机性的单独结构。我们审查如何使用推论目标采用描述性方法被陷入困境和误导性答案，因此应该一般而言。我们认为推理方法更通常与更清晰的科学问题一致，产生更强大的结果，并且应该是一般的首选。我们试图消除一些神话和半真半假在实践中使用社区检测时，努力改善这些方法的使用以及对结果的解释。

translated by 谷歌翻译