智能论文笔记

A category theory framework for Bayesian learning

Kotaro Kamiya , John Welliaveetil

分类：人工智能 | 机器学习

2021-11-29

由Spivak和Fong和Cruttwell等人的基础作品的启发，我们介绍了一个分类的框架来形式化贝叶斯推断和学习。在这里玩的两个关键想法是Cruttwell等人建造的贝叶斯反转和仿函数的概念。在这种情况下，我们发现贝叶斯学习是学习范例的最简单案例。然后，我们获得批量和顺序贝叶斯更新的分类配方，同时还验证了两个在特定示例中一致。

translated by 谷歌翻译

Interpreting Dynamical Systems as Bayesian Reasoners

Nathaniel Virgo , Martin Biehl , Simon McGregor

分类：人工智能

2021-12-27

积极推论的中央概念是，物理系统参数概率的内部状态在外部世界的状态下衡量。这些可以被视为代理人的信仰，以贝叶斯先前或后部表示。在这里，我们开始发展一般理论，这将告诉我们何时适合将国家解释为以这种方式代表信仰。我们专注于系统可以被解释为执行贝叶斯滤波或贝叶斯推断的情况。我们使用类别理论的技术提供对存在这种解释的方法的形式定义。

translated by 谷歌翻译

The d-separation criterion in Categorical Probability

Tobias Fritz , Andreas Klingler

分类： (统计)机器学习

2022-07-12

D分隔标准通过某些条件独立性检测到关节概率分布与定向无环图的兼容性。在这项工作中，我们通过引入因果模型的分类定义，D分隔的分类概念，并证明了D-Exaration Criterion的抽象版本，从而在分类概率理论的背景下研究了这个问题。这种方法有两个主要好处。首先，分类D分隔是基于拓扑连接的非常直观的标准。其次，我们的结果适用于度量理论概率（具有标准的鲍尔空间），因此提供了与局部和全球马尔可夫属性等效性具有因果关系兼容性的简洁证明。

translated by 谷歌翻译

Space-time tradeoffs of lenses and optics via higher category theory

Bruno Gavranović

分类：机器学习

2022-09-19

光学和镜头是抽象的分类小工具，它们以双向数据流对系统进行建模。在本文中，我们观察到，光学的表示定义（通过从外部观察它们的行为来识别两个光学的定义 - 不适用于操作，面向软件的方法，不仅可以观察到光学，而且还要构建其内部设置。我们确定了笛卡尔光学和镜头的表示异构类别之间的操作差异：它们的不同组成规则和相应的时空权衡，将它们定位在光谱的两个相对端。通过这些动机，我们将现有的分类结构及其关系提升到了两类水平，表明相关的操作问题变得可见。我们定义2类别$ \ textbf {2-optic}（\ Mathcal {c}）$，其2细胞明确跟踪Optics的内部配置。我们显示1类别$ \ textbf {Optic}（\ Mathcal {c}）$通过本地列出此2类别的连接组件而产生。我们表明，将镜头嵌入到笛卡尔光学器件中的渗透器从函子削弱到oplax函子，其oplaxator现在检测到不同的组成规则。我们确定显示该函子在任何标准2类中构成邻接的一部分的困难。我们确定了一个猜想，即笛卡尔透镜和光学之间的众所周知的同构是由于其双分类对应物之间的LAX 2-插条而产生的。除了介绍新研究外，本文还旨在对该主题进行访问。

translated by 谷歌翻译

A Layered Architecture for Universal Causality

Sridhar Mahadevan

分类：人工智能 | 机器学习

2022-12-18

We propose a layered hierarchical architecture called UCLA (Universal Causality Layered Architecture), which combines multiple levels of categorical abstraction for causal inference. At the top-most level, causal interventions are modeled combinatorially using a simplicial category of ordinal numbers. At the second layer, causal models are defined by a graph-type category. The non-random ``surgical" operations on causal structures, such as edge deletion, are captured using degeneracy and face operators from the simplicial layer above. The third categorical abstraction layer corresponds to the data layer in causal inference. The fourth homotopy layer comprises of additional structure imposed on the instance layer above, such as a topological space, which enables evaluating causal models on datasets. Functors map between every pair of layers in UCLA. Each functor between layers is characterized by a universal arrow, which defines an isomorphism between every pair of categorical layers. These universal arrows define universal elements and representations through the Yoneda Lemma, and in turn lead to a new category of elements based on a construction introduced by Grothendieck. Causal inference between each pair of layers is defined as a lifting problem, a commutative diagram whose objects are categories, and whose morphisms are functors that are characterized as different types of fibrations. We illustrate the UCLA architecture using a range of examples, including integer-valued multisets that represent a non-graphical framework for conditional independence, and causal models based on graphs and string diagrams using symmetric monoidal categories. We define causal effect in terms of the homotopy colimit of the nerve of the category of elements.

translated by 谷歌翻译

Compositional Active Inference II: Polynomial Dynamics. Approximate Inference Doctrines

Toby St. Clere Smithe

分类：人工智能

2022-08-25

我们使用新的近似推理学说的概念来开发活性推断的组成理论。为了展示此类函子，我们首先使用多项式函数的语言的概括来提供必要类型的组成界面：与结构的多项式索引类别，我们构建了不同的单核生物，我们构建了差异性的差异类别和动态``层次推理系统''，其中近似推理学说具有语义。然后，我们描述``外部参数化''的统计游戏，并使用它们来构建两个在计算神经科学文献中发现的近似推理学说，我们称之为“ laplace”和``hebb-laplace''教义：前者是前者产生动态系统的，这些系统会产生动态系统，这些系统会产生动态系统，这些系统是制作动态系统的。优化高斯模型的后代；后者产生的系统还优化了确定其预测的参数（或“权重”）。

translated by 谷歌翻译

HTML版本

Categorical Stochastic Processes and Likelihood

Dan Shiebler

分类：人工智能

2020-05-10

在这项工作中，我们采取了一种关于概率建模与函数近似关系的理论观点。我们首先将功能组合的两个扩展定义为随机过程从属区域：一个基于COMONAD（OMEGA X-）下的CO-KLEISLI类别，基于具有LAWVERE理论的类别的参数化。我们展示了这些扩展如何与STOC类和其他马尔可夫类别相关联。接下来，我们应用Para施工以将随机过程扩展到参数化统计模型，我们定义了一种构成这些模型的似函数的方法。我们结束了了解最大似然估计程序如何定义从统计模型类别到学习者类别的身份对象媒体。伴随本文的代码可以在https://github.com/dshieble/categor_stochastopastic_processes_and_likelione找到

translated by 谷歌翻译

Indeterminacy in Latent Variable Models: Characterization and Strong Identifiability

Quanhan Xi , Benjamin Bloem-Reddy

分类： (统计)机器学习 | 机器学习

2022-06-02

大多数现代的潜在变量和概率生成模型，例如变异自动编码器（VAE），即使有无限的数据也无法解决，这些模型也无法解决。此类模型的最新应用表明需要强烈可识别的模型，其中观察结果与唯一的潜在代码相对应。在维持灵活性的同时，取得了进展，最著名的是IVAE（Arxiv：1907.04809 [stat.ml]），该模型排除了许多（但不是全部 - 不确定）。我们构建了一个完整的理论框架，用于分析潜在变量模型的不确定性，并根据生成器函数的属性和潜在变量先验分布精确表征它们。为了说明，我们应用框架以更好地了解最近的可识别性结果的结构。然后，我们研究如何指定强烈识别的潜在变量模型，并构建两个这样的模型。一种是对ivae的直接修饰。另一个想法从最佳运输和导致新颖的模型和连接到最近的工作。

translated by 谷歌翻译

An Introduction to Modern Statistical Learning

Joseph G. Makin

分类：机器学习

2022-07-20

这项正在进行的工作旨在为统计学习提供统一的介绍，从诸如GMM和HMM等经典模型到现代神经网络（如VAE和扩散模型）缓慢地构建。如今，有许多互联网资源可以孤立地解释这一点或新的机器学习算法，但是它们并没有（也不能在如此简短的空间中）将这些算法彼此连接起来，或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统，尽管对那些已经熟悉材料的人（如这些帖子的作者）不满意，但对新手的入境造成了重大障碍。同样，我的目的是将各种模型（尽可能）吸收到一个用于推理和学习的框架上，表明（以及为什么）如何以最小的变化将一个模型更改为另一个模型（其中一些是新颖的，另一些是文献中的）。某些背景当然是必要的。我以为读者熟悉基本的多变量计算，概率和统计以及线性代数。这本书的目标当然不是完整性，而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后，目标是补充而不是替换，诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本，该文本现在已经15岁了。

translated by 谷歌翻译

Information Processing Equalities and the Information-Risk Bridge

Robert C. Williamson , Zac Cranko

分类：机器学习 | (统计)机器学习

2022-07-25

我们介绍了统计实验的两种新的信息度量，它们概括和包含$ \ phi $ -diverences，积分概率指标，$ \ mathfrak {n} $ - distances（mmd）和$（f，\ gamma）$ divergences $ divergences在两个或多个分布之间。这使我们能够在信息的度量与统计决策问题的贝叶斯风险之间得出简单的几何关系，从而将变异的$ \ phi $ -divergence代表扩展到多个分布，以完全对称的方式。在马尔可夫运营商的行动下，新的分歧家庭被关闭，该家族产生了信息处理平等，这是经典数据处理不平等的完善和概括。这种平等使人深入了解假设类别在经典风险最小化中的重要性。

translated by 谷歌翻译

Topos and Stacks of Deep Neural Networks

Jean-Claude Belfiore , Daniel Bennequin

分类：人工智能

2021-06-28

每个已知的人工深神经网络（DNN）都对应于规范Grothendieck的拓扑中的一个物体。它的学习动态对应于此拓扑中的形态流动。层中的不变结构（例如CNNS或LSTMS）对应于Giraud的堆栈。这种不变性应该是对概括属性的原因，即从约束下的学习数据中推断出来。纤维代表语义前类别（Culioli，Thom），在该类别上定义了人工语言，内部逻辑，直觉主义者，古典或线性（Girard）。网络的语义功能是其能够用这种语言表达理论的能力，以回答输出数据中有关输出的问题。语义信息的数量和空间是通过类比与2015年香农和D.Bennequin的Shannon熵的同源解释来定义的。他们概括了Carnap和Bar-Hillel（1952）发现的措施。令人惊讶的是，上述语义结构通过封闭模型类别的几何纤维对象进行了分类，然后它们产生了DNNS及其语义功能的同位不变。故意类型的理论（Martin-Loef）组织了这些物体和它们之间的纤维。 Grothendieck的导数分析了信息内容和交流。

translated by 谷歌翻译

Categoroids: Universal Conditional Independence

Sridhar Mahadevan

分类：人工智能 | 机器学习

2022-08-23

有条件的独立性已被广泛用于AI，因果推理，机器学习和统计数据。我们介绍分类生物，这是一种代数结构，用于表征条件独立性的普遍特性。分类物被定义为两个类别的混合体：一个编码由对象和箭头定义的预订的晶格结构；第二个二个参数化涉及定义条件独立性结构的三角体对象和形态，桥梁形态提供了二进制和三元结构之间的接口。我们使用公理集的三个众所周知的示例来说明分类生物：绘画，整数价值多组和分离型。 FOUNDOROIDS将一个分类型映射到另一个分类，从而保留了由共同域中所有三种类型的箭头定义的关系。我们描述了跨官能素的自然转化，该函数是跨常规物体和三角形对象的自然变化，以构建条件独立性的通用表示。我们使用分类器之间的辅助和单核，以抽象地表征条件独立性的图形和非图形表示的忠诚。

translated by 谷歌翻译

On The Universality of Diagrams for Causal Inference and The Causal Reproducing Property

Sridhar Mahadevan

分类：人工智能

2022-07-06

我们提出了普遍因果关系，这是一个基于类别理论的总体框架，该框架定义了基于因果推理的普遍特性，该属性独立于所使用的基本代表性形式主义。更正式的是，普遍的因果模型被定义为由对象和形态组成的类别，它们代表因果影响，以及进行干预措施（实验）和评估其结果（观察）的结构。函子在类别之间的映射和自然变换映射在相同两个类别的一对函子之间。我们框架中的抽象因果图是使用类别理论的通用构造构建的，包括抽象因果图的限制或共限制，或更普遍的KAN扩展。我们提出了普遍因果推断的两个基本结果。第一个结果称为普遍因果定理（UCT），与图的通用性有关，这些结果被视为函数映射对象和关系从抽象因果图的索引类别到一个实际因果模型，其节点由随机变量标记为实际因果模型和边缘代表功能或概率关系。 UCT指出，任何因果推论都可以以规范的方式表示为代表对象的抽象因果图的共同限制。 UCT取决于滑轮理论的基本结果。第二个结果是因果繁殖特性（CRP），指出对象x对另一个对象y的任何因果影响都可以表示为两个抽象因果图之间的自然转化。 CRP来自Yoneda引理，这是类别理论中最深层的结果之一。 CRP属性类似于复制元素希尔伯特空间中的繁殖属性，该元素是机器学习中内核方法的基础。

translated by 谷歌翻译

Foundations of Structural Causal Models with Cycles and Latent Variables

Stephan Bongers , Patrick Forré , Jonas Peters , Joris M. Mooij

分类：人工智能 | 机器学习

2016-11-18

也称为（非参数）结构方程模型（SEMS）的结构因果模型（SCM）被广泛用于因果建模目的。特别是，也称为递归SEM的无循环SCMS，形成了一个研究的SCM的良好的子类，概括了因果贝叶斯网络来允许潜在混淆。在本文中，我们调查了更多普通环境中的SCM，允许存在潜在混杂器和周期。我们展示在存在周期中，无循环SCM的许多方便的性质通常不会持有：它们并不总是有解决方案;它们并不总是诱导独特的观察，介入和反事实分布;边缘化并不总是存在，如果存在边缘模型并不总是尊重潜在的投影;他们并不总是满足马尔可夫财产;他们的图表并不总是与他们的因果语义一致。我们证明，对于SCM一般，这些属性中的每一个都在某些可加工条件下保持。我们的工作概括了SCM的结果，迄今为止仅针对某些特殊情况所知的周期。我们介绍了将循环循环设置扩展到循环设置的简单SCM的类，同时保留了许多方便的无环SCM的性能。用本文，我们的目标是为SCM提供统计因果建模的一般理论的基础。

translated by 谷歌翻译

Graph Convolutional Neural Networks as Parametric CoKleisli morphisms

Bruno Gavranović , Mattia Villani

分类：机器学习

2022-12-01

We define the bicategory of Graph Convolutional Neural Networks $\mathbf{GCNN}_n$ for an arbitrary graph with $n$ nodes. We show it can be factored through the already existing categorical constructions for deep learning called $\mathbf{Para}$ and $\mathbf{Lens}$ with the base category set to the CoKleisli category of the product comonad. We prove that there exists an injective-on-objects, faithful 2-functor $\mathbf{GCNN}_n \to \mathbf{Para}(\mathsf{CoKl}(\mathbb{R}^{n \times n} \times -))$. We show that this construction allows us to treat the adjacency matrix of a GCNN as a global parameter instead of a a local, layer-wise one. This gives us a high-level categorical characterisation of a particular kind of inductive bias GCNNs possess. Lastly, we hypothesize about possible generalisations of GCNNs to general message-passing graph neural networks, connections to equivariant learning, and the (lack of) functoriality of activation functions.

translated by 谷歌翻译

Relative Probability on Finite Outcome Spaces: A Systematic Examination of its Axiomatization, Properties, and Applications

Max Sklar

分类： (统计)机器学习 | 机器学习

2022-12-30

This work proposes a view of probability as a relative measure rather than an absolute one. To demonstrate this concept, we focus on finite outcome spaces and develop three fundamental axioms that establish requirements for relative probability functions. We then provide a library of examples of these functions and a system for composing them. Additionally, we discuss a relative version of Bayesian inference and its digital implementation. Finally, we prove the topological closure of the relative probability space, highlighting its ability to preserve information under limits.

translated by 谷歌翻译

Bayesian Learning with Wasserstein Barycenters

Julio Backhoff-Veraguas , Joaquin Fontbona , Gonzalo Rios , Felipe Tobar

分类： (统计)机器学习 | 机器学习

2018-05-28

We introduce and study a novel model-selection strategy for Bayesian learning, based on optimal transport, along with its associated predictive posterior law: the Wasserstein population barycenter of the posterior law over models. We first show how this estimator, termed Bayesian Wasserstein barycenter (BWB), arises naturally in a general, parameter-free Bayesian model-selection framework, when the considered Bayesian risk is the Wasserstein distance. Examples are given, illustrating how the BWB extends some classic parametric and non-parametric selection strategies. Furthermore, we also provide explicit conditions granting the existence and statistical consistency of the BWB, and discuss some of its general and specific properties, providing insights into its advantages compared to usual choices, such as the model average estimator. Finally, we illustrate how this estimator can be computed using the stochastic gradient descent (SGD) algorithm in Wasserstein space introduced in a companion paper arXiv:2201.04232v2 [math.OC], and provide a numerical example for experimental validation of the proposed method.

translated by 谷歌翻译

The Geometry of Adversarial Training in Binary Classification

Leon Bungert , Nicolás García Trillos , Ryan Murray

分类：机器学习 | (统计)机器学习

2021-11-26

我们在非参数二进制分类的一个对抗性训练问题之间建立了等价性，以及规范器是非识别范围功能的正则化风险最小化问题。由此产生的正常风险最小化问题允许在图像分析和基于图形学习中常常研究的$ L ^ 1 + $（非本地）$ \ Operatorvers {TV} $的精确凸松弛。这种重构揭示了丰富的几何结构，这反过来允许我们建立原始问题的最佳解决方案的一系列性能，包括存在最小和最大解决方案（以合适的意义解释），以及常规解决方案的存在（也以合适的意义解释）。此外，我们突出了对抗性训练和周长最小化问题的联系如何为涉及周边/总变化的正规风险最小化问题提供一种新颖的直接可解释的统计动机。我们的大部分理论结果与用于定义对抗性攻击的距离无关。

translated by 谷歌翻译

Stochastic Normalizing Flows for Inverse Problems: a Markov Chains Viewpoint

Paul Hagemann , Johannes Hertrich , Gabriele Steidl

分类：机器学习

2021-09-23

为了克服拓扑限制并提高常规流量架构，吴，K \“ohler和No \'e的表达性引入了随机采样方法的随机标准化流程，该流程与随机取样方法相结合的确定性，可学习的流动变换。在本文中，我们考虑随机标准化流量一个马尔可夫链的观点。特别是，我们通过马尔可夫内核替换过渡密度，并通过氡-Nikodym衍生物建立证据，允许以声音方式结合没有密度的分布。此外，我们概括了从后部分布中抽样的结果逆问题所需。通过数值实施例证明了所提出的条件随机标准化流程的性能。

translated by 谷歌翻译

Safe Testing

Peter Grünwald , Rianne de Heide , Wouter Koolen

分类：机器学习

2019-06-18

我们基于电子价值开发假设检测理论，这是一种与p值不同的证据，允许毫不费力地结合来自常见场景中的几项研究的结果，其中决定执行新研究可能取决于以前的结果。基于E-V值的测试是安全的，即它们在此类可选的延续下保留I型错误保证。我们将增长速率最优性（GRO）定义为可选的连续上下文中的电力模拟，并且我们展示了如何构建GRO E-VARIABLE，以便为复合空缺和替代，强调模型的常规测试问题，并强调具有滋扰参数的模型。 GRO E值采取具有特殊前瞻的贝叶斯因子的形式。我们使用几种经典示例说明了该理论，包括一个样本安全T检验（其中右哈尔前方的右手前锋为GE）和2x2差价表（其中GRE之前与标准前沿不同）。分享渔业，奈曼和杰弗里斯·贝叶斯解释，电子价值观和相应的测试可以提供所有三所学校的追随者可接受的方法。

translated by 谷歌翻译