调整Bjerkevik和Lesnick给出的Multiparameter持久模块给出的定义,我们介绍了合并树的交织距离的$ \ ell ^ p $ intertepe扩展。我们表明我们的距离是一个指标,它是上限于相关条形码之间的$ p $ -wasserstein距离。对于[1,\ infty] $中的每个$ p \,我们证明,对于蜂窝浮度过滤,该距离是稳定的,并且它是满足该稳定性的通用(即最大)距离。在$ p = \ infty $案例中,这为合并树上的交织距离提供了一种新颖的普遍性证明。
translated by 谷歌翻译
储层计算系统是使用驱动的动力系统构建的,在该系统中,外部输入可以改变系统的发展状态。这些范例用于信息处理,机器学习和计算。在此框架中需要解决的一个基本问题是输入与系统状态之间的统计关系。本文提供的条件可以保证驱动系统的渐近措施的存在和唯一性,并表明当输入和输出过程的集合赋予了Wasserstein距离时,它们对输入过程的依赖性是连续的。这些发展中的主要工具是将这些不变的度量表征为在这种情况下出现并在论文中进行了大量研究的自然定义的FOIA算子的固定点。这些固定点是通过在驱动系统中施加新引入的随机状态合同性来获得的,该系统在示例中很容易验证。可以通过非国家缩减的系统来满足随机状态的合同性,这通常是为了保证储层计算中的回声状态属性的需求。结果,即使不存在Echo State属性,也可能会得到满足。
translated by 谷歌翻译
对表示形式的研究对于任何形式的交流都是至关重要的,我们有效利用它们的能力至关重要。本文介绍了一种新颖的理论 - 代表性系统理论 - 旨在从三个核心角度从三个核心角度进行抽象地编码各种表示:语法,综合及其属性。通过介绍建筑空间的概念,我们能够在一个统一的范式下编码这些核心组件中的每个核心组件。使用我们的代表性系统理论,有可能在结构上将一个系统中的表示形式转换为另一个系统的表示形式。我们结构转化技术的固有方面是根据表示的属性(例如它们的相对认知有效性或结构复杂性)的代表选择。提供一般结构转化技术的主要理论障碍是缺乏终止算法。代表系统理论允许在没有终止算法的情况下衍生部分变换。由于代表性系统理论提供了一种通用编码代表系统的通用方法,因此消除了进一步的关键障碍:需要设计特定于系统的结构转换算法,这是当不同系统采用不同的形式化方法时所必需的。因此,代表性系统理论是第一个提供统一方法来编码表示形式,通过结构转换支持表示形式的第一个通用框架,并具有广泛的实用应用。
translated by 谷歌翻译
每个已知的人工深神经网络(DNN)都对应于规范Grothendieck的拓扑中的一个物体。它的学习动态对应于此拓扑中的形态流动。层中的不变结构(例如CNNS或LSTMS)对应于Giraud的堆栈。这种不变性应该是对概括属性的原因,即从约束下的学习数据中推断出来。纤维代表语义前类别(Culioli,Thom),在该类别上定义了人工语言,内部逻辑,直觉主义者,古典或线性(Girard)。网络的语义功能是其能够用这种语言表达理论的能力,以回答输出数据中有关输出的问题。语义信息的数量和空间是通过类比与2015年香农和D.Bennequin的Shannon熵的同源解释来定义的。他们概括了Carnap和Bar-Hillel(1952)发现的措施。令人惊讶的是,上述语义结构通过封闭模型类别的几何纤维对象进行了分类,然后它们产生了DNNS及其语义功能的同位不变。故意类型的理论(Martin-Loef)组织了这些物体和它们之间的纤维。 Grothendieck的导数分析了信息内容和交流。
translated by 谷歌翻译
适当地表示数据库中的元素,以便可以准确匹配查询是信息检索的核心任务;最近,通过使用各种指标将数据库的图形结构嵌入层次结构的方式中来实现。持久性同源性是一种在拓扑数据分析中常用的工具,能够严格地以其层次结构和连接结构来表征数据库。计算各种嵌入式数据集上的持续同源性表明,一些常用的嵌入式无法保留连接性。我们表明,那些成功保留数据库拓扑的嵌入通过引入两种扩张不变的比较措施来捕获这种效果,尤其是解决了对流形的度量扭曲问题。我们为它们的计算提供了一种算法,该算法大大降低了现有方法的时间复杂性。我们使用这些措施来执行基于拓扑的信息检索的第一个实例,并证明了其在持久同源性的标准瓶颈距离上的性能提高。我们在不同数据品种的数据库中展示了我们的方法,包括文本,视频和医学图像。
translated by 谷歌翻译
给定真实的假设类$ \ mathcal {h} $,我们在什么条件下调查有一个差异的私有算法,它从$ \ mathcal {h} $给出的最佳假设.I.i.d.数据。灵感来自最近的成果的二进制分类的相关环境(Alon等,2019; Bun等,2020),其中显示了二进制类的在线学习是必要的,并且足以追随其私人学习,Jung等人。 (2020)显示,在回归的设置中,$ \ mathcal {h} $的在线学习是私人可读性所必需的。这里的在线学习$ \ mathcal {h} $的特点是其$ \ eta $-sequentient胖胖子的优势,$ {\ rm sfat} _ \ eta(\ mathcal {h})$,适用于所有$ \ eta> 0 $。就足够的私人学习条件而言,Jung等人。 (2020)显示$ \ mathcal {h} $私下学习,如果$ \ lim _ {\ eta \ downarrow 0} {\ rm sfat} _ \ eta(\ mathcal {h})$是有限的,这是一个相当限制的健康)状况。我们展示了在轻松的条件下,\ LIM \ INF _ {\ eta \ downarrow 0} \ eta \ cdot {\ rm sfat} _ \ eta(\ mathcal {h})= 0 $,$ \ mathcal {h} $私人学习,为\ \ rm sfat} _ \ eta(\ mathcal {h})$ \ eta \ dockarrow 0 $ divering建立第一个非参数私人学习保证。我们的技术涉及一种新颖的过滤过程,以输出非参数函数类的稳定假设。
translated by 谷歌翻译
本文通过引入几何深度学习(GDL)框架来构建通用馈电型型模型与可区分的流形几何形状兼容的通用馈电型模型,从而解决了对非欧国人数据进行处理的需求。我们表明,我们的GDL模型可以在受控最大直径的紧凑型组上均匀地近似任何连续目标函数。我们在近似GDL模型的深度上获得了最大直径和上限的曲率依赖性下限。相反,我们发现任何两个非分类紧凑型歧管之间始终都有连续的函数,任何“局部定义”的GDL模型都不能均匀地近似。我们的最后一个主要结果确定了数据依赖性条件,确保实施我们近似的GDL模型破坏了“维度的诅咒”。我们发现,任何“现实世界”(即有限)数据集始终满足我们的状况,相反,如果目标函数平滑,则任何数据集都满足我们的要求。作为应用,我们确认了以下GDL模型的通用近似功能:Ganea等。 (2018)的双波利馈电网络,实施Krishnan等人的体系结构。 (2015年)的深卡尔曼 - 滤波器和深度玛克斯分类器。我们构建了:Meyer等人的SPD-Matrix回归剂的通用扩展/变体。 (2011)和Fletcher(2003)的Procrustean回归剂。在欧几里得的环境中,我们的结果暗示了Kidger和Lyons(2020)的近似定理和Yarotsky和Zhevnerchuk(2019)无估计近似率的数据依赖性版本的定量版本。
translated by 谷歌翻译
我们考虑了$ d $维图像的新拓扑效率化,该图像通过在计算持久性之前与各种过滤器进行卷积。将卷积滤波器视为图像中的图案,结果卷积的持久图描述了图案在整个图像中分布的方式。我们称之为卷积持久性的管道扩展了拓扑结合图像数据中模式的能力。的确,我们证明(通常说)对于任何两个图像,人们都可以找到某些过滤器,它们会为其产生不同的持久图,以便给定图像的所有可能的卷积持久性图的收集是一个不变的不变性。通过表现出卷积的持久性是另一种拓扑不变的持续性副学变换的特殊情况,这证明了这一点。卷积持久性的其他优势是提高噪声的稳定性和鲁棒性,对数据依赖性矢量化的更大灵活性以及对具有较大步幅向量的卷积的计算复杂性降低。此外,我们还有一套实验表明,即使人们使用随机过滤器并通过仅记录其总持久性,卷积大大提高了持久性的预测能力,即使一个人使用随机过滤器并将结果图进行量化。
translated by 谷歌翻译
Tools of Topological Data Analysis provide stable summaries encapsulating the shape of the considered data. Persistent homology, the most standard and well studied data summary, suffers a number of limitations; its computations are hard to distribute, it is hard to generalize to multifiltrations and is computationally prohibitive for big data-sets. In this paper we study the concept of Euler Characteristics Curves, for one parameter filtrations and Euler Characteristic Profiles, for multi-parameter filtrations. While being a weaker invariant in one dimension, we show that Euler Characteristic based approaches do not possess some handicaps of persistent homology; we show efficient algorithms to compute them in a distributed way, their generalization to multifiltrations and practical applicability for big data problems. In addition we show that the Euler Curves and Profiles enjoys certain type of stability which makes them robust tool in data analysis. Lastly, to show their practical applicability, multiple use-cases are considered.
translated by 谷歌翻译
我们派生并分析了一种用于估计有限簇树中的所有分裂的通用,递归算法以及相应的群集。我们进一步研究了从内核密度估计器接收级别设置估计时该通用聚类算法的统计特性。特别是,我们推出了有限的样本保证,一致性,收敛率以及用于选择内核带宽的自适应数据驱动策略。对于这些结果,我们不需要与H \“{o}连续性等密度的连续性假设,而是仅需要非参数性质的直观几何假设。
translated by 谷歌翻译
Motivated by alignment of correlated sparse random graphs, we introduce a hypothesis testing problem of deciding whether or not two random trees are correlated. We obtain sufficient conditions under which this testing is impossible or feasible. We propose MPAlign, a message-passing algorithm for graph alignment inspired by the tree correlation detection problem. We prove MPAlign to succeed in polynomial time at partial alignment whenever tree detection is feasible. As a result our analysis of tree detection reveals new ranges of parameters for which partial alignment of sparse random graphs is feasible in polynomial time. We then conjecture that graph alignment is not feasible in polynomial time when the associated tree detection problem is impossible. If true, this conjecture together with our sufficient conditions on tree detection impossibility would imply the existence of a hard phase for graph alignment, i.e. a parameter range where alignment cannot be done in polynomial time even though it is known to be feasible in non-polynomial time.
translated by 谷歌翻译
有条件的独立性已被广泛用于AI,因果推理,机器学习和统计数据。我们介绍分类生物,这是一种代数结构,用于表征条件独立性的普遍特性。分类物被定义为两个类别的混合体:一个编码由对象和箭头定义的预订的晶格结构;第二个二个参数化涉及定义​​条件独立性结构的三角体对象和形态,桥梁形态提供了二进制和三元结构之间的接口。我们使用公理集的三个众所周知的示例来说明分类生物:绘画,整数价值多组和分离型。 FOUNDOROIDS将一个分类型映射到另一个分类,从而保留了由共同域中所有三种类型的箭头定义的关系。我们描述了跨官能素的自然转化,该函数是跨常规物体和三角形对象的自然变化,以构建条件独立性的通用表示。我们使用分类器之间的辅助和单核,以抽象地表征条件独立性的图形和非图形表示的忠诚。
translated by 谷歌翻译
Image segmentation is a largely researched field where neural networks find vast applications in many facets of technology. Some of the most popular approaches to train segmentation networks employ loss functions optimizing pixel-overlap, an objective that is insufficient for many segmentation tasks. In recent years, their limitations fueled a growing interest in topology-aware methods, which aim to recover the correct topology of the segmented structures. However, so far, none of the existing approaches achieve a spatially correct matching between the topological features of ground truth and prediction. In this work, we propose the first topologically and feature-wise accurate metric and loss function for supervised image segmentation, which we term Betti matching. We show how induced matchings guarantee the spatially correct matching between barcodes in a segmentation setting. Furthermore, we propose an efficient algorithm to compute the Betti matching of images. We show that the Betti matching error is an interpretable metric to evaluate the topological correctness of segmentations, which is more sensitive than the well-established Betti number error. Moreover, the differentiability of the Betti matching loss enables its use as a loss function. It improves the topological performance of segmentation networks across six diverse datasets while preserving the volumetric performance. Our code is available in https://github.com/nstucki/Betti-matching.
translated by 谷歌翻译
让F:R ^ N - > R是前馈RELU神经网络。众所周知,对于任何选择参数,F是连续和分段(仿射)线性的。我们为有系统调查提供了一些基础,用于系统的架构如何影响其可能的决策区域的几何和拓扑以进行二进制分类任务。在差分拓扑中顺利函数的经典进展之后,我们首先定义通用,横向relu神经网络的概念,并显示几乎所有的Relu网络都是通用的和横向的。然后,我们在F的域中定义了一个部分取向的线性1-复合物,并识别该复合物的属性,从而产生妨碍决策区域的有界连接分量的障碍物。我们使用该阻塞来证明具有单个隐藏的尺寸层(N + 1)的通用横向Relu网络F:R ^ N - > R的决策区域可以不具有多于一个有界连接的组件。
translated by 谷歌翻译
生成的对抗网络后面的数学力量提高了具有挑战性的理论问题。通过表征产生的分布的几何特性的重要问题,我们在有限的样本和渐近制度中对Wassersein Gans(WGAN)进行了彻底分析。我们研究了潜伏空间是单变量的特定情况,并且不管输出空间的尺寸如何有效。我们特别地显示出用于固定的样本大小,最佳WGAN与连接路径紧密相连,最小化采样点之间的平方欧几里德距离的总和。我们还强调了WGAN能够接近的事实(对于1-Wasserstein距离)目标分布,因为样本大小趋于无穷大,在给定的会聚速率下,并且提供了生成的Lipschitz函数的家族适当地增长。我们在半离散环境中获得了在最佳运输理论上传递新结果。
translated by 谷歌翻译
我们考虑代表代理模型的问题,该模型使用我们称之为CSTREES的阶段树模型的适当子类对离散数据编码离散数据的原因模型。我们表明,可以通过集合表达CSTREE编码的上下文专用信息。由于并非所有阶段树模型都承认此属性,CSTREES是一个子类,可提供特定于上下文的因果信息的透明,直观和紧凑的表示。我们证明了CSTREEES承认全球性马尔可夫属性,它产生了模型等价的图形标准,概括了Verma和珍珠的DAG模型。这些结果延伸到一般介入模型设置,使CSTREES第一族的上下文专用模型允许介入模型等价的特征。我们还为CSTREE的最大似然估计器提供了一种封闭式公式,并使用它来表示贝叶斯信息标准是该模型类的本地一致的分数函数。在模拟和实际数据上分析了CSTHEELE的性能,在那里我们看到与CSTREELE而不是一般上演树的建模不会导致预测精度的显着损失,同时提供了特定于上下文的因果信息的DAG表示。
translated by 谷歌翻译
我们使用运输公制(Delon和Desolneux 2020)中的单变量高斯混合物中的任意度量空间$ \ MATHCAL {X} $研究数据表示。我们得出了由称为\ emph {Probabilistic Transfersers}的小神经网络实现的特征图的保证。我们的保证是记忆类型:我们证明了深度约为$ n \ log(n)$的概率变压器和大约$ n^2 $ can bi-h \'{o} lder嵌入任何$ n $ - 点数据集从低度量失真的$ \ Mathcal {x} $,从而避免了维数的诅咒。我们进一步得出了概率的bi-lipschitz保证,可以兑换失真量和随机选择的点与该失真的随机选择点的可能性。如果$ \ MATHCAL {X} $的几何形状足够规律,那么我们可以为数据集中的所有点获得更强的Bi-Lipschitz保证。作为应用程序,我们从Riemannian歧管,指标和某些类型的数据集中获得了神经嵌入保证金组合图。
translated by 谷歌翻译
我们检查机器学习中出现的组合概念与立方/单纯几何形状中的拓扑概念之间的连接。这些连接使得从几何形状导出到机器学习的结果。我们的第一个主要结果是基于Tracy Hall(2004)的几何结构,其局部炮击的交叉多容院不能延伸。我们使用它来得出最大类别的VC尺寸3,没有角落。从过去11年来,这反驳了在机器学习中的几个工作。特别地,它意味着最佳类别的最佳未标记的样本压缩方案的所有先前结构都是错误的。在积极的一面,我们为最大类提供了一个未标记的样品压缩方案的新建。我们打开我们的未标记的样品压缩方案是否延伸到充足(A.K.A.不平衡或极值)课程,这代表了最大类的自然和深远的概括。在解决这个问题方面,我们就关联立方体复合物的1骷髅的独特宿前方向提供了几何特征。
translated by 谷歌翻译
我们提出了五个基本的认知科学基本宗旨,我们在相关文献中认真地将其确定为该哲学的主要基本原则。然后,我们开发一个数学框架来讨论符合这些颁布宗旨的认知系统(人造和自然)。特别是我们注意,我们的数学建模并不将内容符号表示形式归因于代理商,并且代理商的大脑,身体和环境的建模方式使它们成为更大整体的不可分割的一部分。目的是为认知创造数学基础,该基础符合颁布主义。我们看到这样做的两个主要好处:(1)它使计算机科学家,AI研究人员,机器人主义者,认知科学家和心理学家更容易获得颁发的思想,并且(2)它为哲学家提供了一种可以使用的数学工具,可以使用它澄清他们的观念并帮助他们的辩论。我们的主要概念是一种感觉运动系统,这是过渡系统研究概念的特殊情况。我们还考虑了相关的概念,例如标记的过渡系统和确定性自动机。我们分析了一个名为“足够的概念”,并表明它是“从颁布主义的角度来看”中“认知数学数学”中基础概念的一个很好的候选者。我们通过证明对最小的完善(在某种意义上与生物体对环境的最佳调整相对应)的独特定理来证明其重要性,并证明充分性与已知的概念相对应,例如足够的历史信息空间。然后,我们开发其他相关概念,例如不足程度,普遍覆盖,等级制度,战略充足。最后,我们将其全部绑架到颁布的宗旨。
translated by 谷歌翻译
图表学习方法的理论分析通常假设输入图的完全观察。由于实践中的可扩展性问题,这种假设可能对处理任何大小的图表都不有用。在这项工作中,我们在部分观察设置中开发了图形分类问题的理论框架(即,子图采样)。在图形限制理论中配备了洞察力,我们提出了一种新的图形分类模型,用于在随机采样的子图和新颖的拓扑上工作,以表征模型的可颂扬性。我们的理论框架在图形上提供了迷你批量学习的理论验证,并导致新的学习 - 理论上的泛化界限以及尺寸概括地,而不是输入的假设。
translated by 谷歌翻译