集成不同学科的数据集很难,因为数据通常在含义,规模和可靠性中的定性不同。当两个数据集描述相同的实体时,许多科学问题可以围绕这种不同数据保守的(DIS)是否保守。我们的方法,清晰度,量化数据集的一致性,识别出现不一致的地方,并辅助其解释。我们使用三种不同的比较来说明这一点:基因甲基化与表达,语言的演变声音与单词使用,以及国家级经济指标与文化信仰。非参数方法对噪声和缩放的差异很强大,并且只有关于如何生成数据的弱假设。它通过将相似性分解为两个组件:类似于聚类的“结构”组件,以及这些结构之间的底层的“关系”。这允许使用从“结构”的可预测性的两个相似性矩阵之间的“结构比较”。在适合每个数据集的重新采样的帮助下评估重要性。本软件清晰度,可作为来自https://github.com/danjlawson/trarity的R包。
translated by 谷歌翻译
系统发育比较方法在我们的领域是新的,并且对于大多数语言学家来说,至少有一点谜团。然而,导致他们在比较生物学中发现的道路与平衡抽样的方法论历史如此类似,这只是一个历史的事故,即他们没有被典型的专家发现。在这里,我们澄清了系统发育比较方法背后的基本逻辑及其对重点采样的深刻智力传统的基本相关性。然后我们介绍将在日常类型的研究中使用类型的概念,方法和工具,使类型学家能够在日常类型的研究中使用这些方法。系统发育比较方法和平衡采样的关键共性是他们试图因系谱而应对统计非独立性。虽然采样永远不会实现独立性,但需要大多数比较数据被丢弃,系统发育比较方法在保留和使用所有数据的同时实现独立性。我们讨论了系统发育信号的基本概念;关于树木的不确定性;典型的类型学平均值和比例对族谱敏感;跨语言家庭的比较;和体现的影响。广泛的补充材料说明了实际分析的计算工具,我们说明了与帕马尼云根腭膜对比的类型学案例研究讨论的方法。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
基于变压器的语言模型最近在许多自然语言任务中取得了显着的结果。但是,通常通过利用大量培训数据来实现排行榜的性能,并且很少通过将明确的语言知识编码为神经模型。这使许多人质疑语言学对现代自然语言处理的相关性。在本文中,我介绍了几个案例研究,以说明理论语言学和神经语言模型仍然相互关联。首先,语言模型通过提供一个客观的工具来测量语义距离,这对语言学家很有用,语义距离很难使用传统方法。另一方面,语言理论通过提供框架和数据源来探究我们的语言模型,以了解语言理解的特定方面,从而有助于语言建模研究。本论文贡献了三项研究,探讨了语言模型中语法 - 听觉界面的不同方面。在论文的第一部分中,我将语言模型应用于单词类灵活性的问题。我将Mbert作为语义距离测量的来源,我提供了有利于将单词类灵活性分析为方向过程的证据。在论文的第二部分中,我提出了一种方法来测量语言模型中间层的惊奇方法。我的实验表明,包含形态句法异常的句子触发了语言模型早期的惊喜,而不是语义和常识异常。最后,在论文的第三部分中,我适应了一些心理语言学研究,以表明语言模型包含了论证结构结构的知识。总而言之,我的论文在自然语言处理,语言理论和心理语言学之间建立了新的联系,以为语言模型的解释提供新的观点。
translated by 谷歌翻译
本文报告了在应用多维缩放(MDS)技术中以创建语言研究中的语义地图的最先进。 MDS指的是一种统计技术,其表示对象(词汇项,语言上下文,语言等)作为空间中的点,使得对象之间的密切相似性对应于表示表示中的对应点之间的距离。我们专注于使用MDS与在跨语言变异研究中使用的并行语料库数据相结合。我们首先介绍了MD的数学基础,然后略微概述过去的研究,采用MDS技术与并行语料库数据结合使用。我们提出了一组术语,以简便地描述特定MDS应用程序的关键参数。然后,我们表明,这种计算方法是理论中立的,即它可以用来在各种语言理论框架中回答研究问题。最后,我们展示了这在语言学中的MDS研究中的两条发展程度的发展。
translated by 谷歌翻译
在许多科学应用中出现了从一组共同样本中获得两种(或更多)类型的测量的数据集。此类数据的探索性分析中的一个常见问题是识别有密切相关的不同数据类型的特征组。 Bimodule是来自两种数据类型的特征集的一对(A,B),因此A和B中的特征之间的汇总相关很大。如果A与B中的特征显着相关的特征集合,则BIMODULE(A,B)是稳定的,反之亦然。在本文中,我们提出并研究了基于迭代测试的程序(BSP),以识别Bi-View数据中稳定的双模型。我们进行了一项彻底的模拟研究,以评估BSP的性能,并使用GTEX项目的最新数据提出了表达定量性状基因座(EQTL)分析问题的扩展应用。此外,我们将BSP应用于气候数据,以确定北美地区年温度变化影响降水的区域。
translated by 谷歌翻译
历史流程表现出显着的多样性。尽管如此,学者们长期以来一直试图识别模式,并将历史行动者分类和对一些成功的影响。随机过程框架提供了一种结构化方法,用于分析大型历史数据集,允许检测有时令人惊讶的模式,鉴定内源性和外源对过程的相关因果作用者,以及不同历史案例的比较。随机过程的数据,分析工具和组织理论框架的组合使历史和考古中的传统叙事方法补充了传统的叙事方法。
translated by 谷歌翻译
在本文中,我们使用一系列建模技术来调查抽象手机是否可以从接触语音声音中出现。实际上,该研究代表了尝试从语言使用的抽象出现的基于使用的语言学理论设备的尝试。我们的任务侧重于最简单的这样的假设抽象。我们测试了两个关于语言知识在语言上的语言知识的反对原则:基于内存的学习(MBL)和纠错学习(ECL)。泛化的过程得到了抽象语言学家与之运作,我们探讨了MBL和ECL是否可以产生类似语言抽象的语言知识。每个模型都有一个由一个扬声器产生的大量预处理语音。我们评估了这些简单模型所学到的一致性或稳定性以及它们引起抽象类别的能力。两种类型的模型在这些测试方面的票价不同。我们表明ECL模型可以从输入中可靠地识别了ECL模型可以学习抽象,并且至少可以从输入中可靠地识别到传统类型中的电话库存和分组。
translated by 谷歌翻译
Network-based analyses of dynamical systems have become increasingly popular in climate science. Here we address network construction from a statistical perspective and highlight the often ignored fact that the calculated correlation values are only empirical estimates. To measure spurious behaviour as deviation from a ground truth network, we simulate time-dependent isotropic random fields on the sphere and apply common network construction techniques. We find several ways in which the uncertainty stemming from the estimation procedure has major impact on network characteristics. When the data has locally coherent correlation structure, spurious link bundle teleconnections and spurious high-degree clusters have to be expected. Anisotropic estimation variance can also induce severe biases into empirical networks. We validate our findings with ERA5 reanalysis data. Moreover we explain why commonly applied resampling procedures are inappropriate for significance evaluation and propose a statistically more meaningful ensemble construction framework. By communicating which difficulties arise in estimation from scarce data and by presenting which design decisions increase robustness, we hope to contribute to more reliable climate network construction in the future.
translated by 谷歌翻译
我们介绍了一个新型的多层加权网络模型,该模型除了本地信号外,还考虑了全局噪声。该模型类似于多层随机块模型(SBM),但关键区别在于,跨层之间的块之间的相互作用在整个系统中是常见的,我们称之为环境噪声。单个块还以这些固定的环境参数为特征,以表示不属于其他任何地方的成员。这种方法允许将块同时聚类和类型化到信号或噪声中,以便更好地理解其在整个系统中的作用,而现有块模型未考虑。我们采用了分层变异推断的新颖应用来共同检测和区分块类型。我们称此模型为多层加权网络称为随机块(具有)环境噪声模型(SBANM),并开发了相关的社区检测算法。我们将此方法应用于费城神经发育队列中的受试者,以发现与精神病有关的具有共同心理病理学的受试者社区。
translated by 谷歌翻译
大脑中的功能连接通常由加权网络表示,其中节点表示大脑中的位置,并且边缘表示这些位置之间的连接强度。分析这些数据的一个挑战是各个边缘水平的推断并不是特别生物学上的意义;解释在所谓的功能区域或节点组和它们之间的连接级别更有用;这通常被称为神经影像学文献中的“图表感知”推断。然而,汇集功能区域导致信息损失和更低的准确性。另一个挑战是主题内的边缘权重之间的相关性,这使得基于独立假设不可靠的推断。我们通过线性混合效果模型来解决这两种挑战,该挑战涉及功能区域和边缘依赖性,同时仍然建模各个边缘权重,以避免丢失信息。该模型允许将两种群体(例如患者和健康对照)进行比较,无论是在功能区水平和各个边缘水平,都导致生物学上有意义的解释。我们将该模型符合精神分裂症和健康控制的休息状态FMRI数据,获得与精神分裂症文献一致的可解释结果。
translated by 谷歌翻译
语言是协调问题的强大解决方案:他们提供了稳定的,有关我们所说的单词如何对应于我们头脑中的信仰和意图的共同期望。然而,在变量和非静止社会环境中的语言使用需要语言表征来灵活:旧词在飞行中获取新的临时或合作伙伴特定含义。在本文中,我们介绍了柴(通过推理的连续分层适应),一个分层贝叶斯的协调理论和会议组织,旨在在这两个基本观察之间调和长期张力。我们认为,沟通的中央计算问题不仅仅是传输,如在经典配方中,而是在多个时间尺度上持续学习和适应。合作伙伴特定的共同点迅速出现在数型互动中的社会推论中,而社群范围内的社会公约是稳定的前锋,这些前锋已经抽象出与多个合作伙伴的互动。我们展示了新的实证数据,展示了我们的模型为多个现象提供了对先前账户挑战的计算基础:(1)与同一合作伙伴的重复互动的更有效的参考表达的融合(2)将合作伙伴特定的共同基础转移到陌生人,并(3)交际范围的影响最终会形成。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
在2015年和2019年之间,地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”,研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用,并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人,仍然在测试阶段,承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中,在研究和开发的那些中,最相关的新工具以及对其性能的评估。
translated by 谷歌翻译
该研究解决了在用线性鉴别学习建模拐点形态时出现的一系列方法问题。以半成本德国名词系统为例,我们说明了如何对表单和意义的代表作出的决策如何影响模型性能。我们澄清,为了建模频率效应在学习中,必须利用增量学习而不是学习的肠胃。我们还讨论如何设置模型,以近似语境中的流动词的学习。此外,我们说明了如何在这种方法中如何以相当大的细节建模。通常,该模型为已知的单词提供了优异的存储器,但适当地对未经展示数据进行了更有限的性能,符合德国原住民的德国名词拐点和泛化性能的半生产力。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
语言在句法结构上有很大差异。世界上约40%的语言具有主语对象顺序,约40%的语言具有对象 - 对象 - 动词顺序。广泛的工作试图解释跨语言的单词顺序变化。但是,现有的方法无法用单个语言的单词顺序解释频率分布和演变。我们建议,单词顺序的变化反映了平衡依赖性区域和信息局部性的竞争压力的不同方式,当元素在语法上相关或彼此之间有上下文信息时,语言偏爱将它们放在一起。使用来自17个语言家族的80种语言的数据和系统发育建模,我们证明了语言的发展以平衡这些压力,因此单词顺序变化伴随着句法结构的频率分布的变化,这些句法结构的频率分布会说话,以维持整体效率。因此,单词顺序的可变性反映了语言解决这些进化压力的不同方式。我们确定了该关节优化产生的相关特征,尤其是对同一动词共同表达对象和对象的频率。我们的发现表明,跨语言的句法结构和用法共同适应有限的认知资源,以支持有效的沟通。
translated by 谷歌翻译
A common approach to modeling networks assigns each node to a position on a low-dimensional manifold where distance is inversely proportional to connection likelihood. More positive manifold curvature encourages more and tighter communities; negative curvature induces repulsion. We consistently estimate manifold type, dimension, and curvature from simply connected, complete Riemannian manifolds of constant curvature. We represent the graph as a noisy distance matrix based on the ties between cliques, then develop hypothesis tests to determine whether the observed distances could plausibly be embedded isometrically in each of the candidate geometries. We apply our approach to data-sets from economics and neuroscience.
translated by 谷歌翻译
社区检测是网络科学中最重要的方法领域之一,在过去的几十年里引起了大量关注的方法之一。该区域处理网络的自动部门到基础构建块中,目的是提供其大规模结构的概要。尽管它的重要性和广泛的采用普及,所谓的最先进和实际在各种领域实际使用的方法之间存在明显的差距。在这里,我们试图通过根据是否具有“描述性”或“推论”目标来划分现有方法来解决这种差异。虽然描述性方法在基于社区结构的直观概念的网络中找到模式的模式,但是推理方法阐述了精确的生成模型,并尝试将其符合数据。通过这种方式,他们能够为网络形成机制提供见解,并以统计证据支持的方式与随机性的单独结构。我们审查如何使用推论目标采用描述性方法被陷入困境和误导性答案,因此应该一般而言。我们认为推理方法更通常与更清晰的科学问题一致,产生更强大的结果,并且应该是一般的首选。我们试图消除一些神话和半真半假在实践中使用社区检测时,努力改善这些方法的使用以及对结果的解释。
translated by 谷歌翻译