历史流程表现出显着的多样性。尽管如此,学者们长期以来一直试图识别模式,并将历史行动者分类和对一些成功的影响。随机过程框架提供了一种结构化方法,用于分析大型历史数据集,允许检测有时令人惊讶的模式,鉴定内源性和外源对过程的相关因果作用者,以及不同历史案例的比较。随机过程的数据,分析工具和组织理论框架的组合使历史和考古中的传统叙事方法补充了传统的叙事方法。
translated by 谷歌翻译
我们合并计算力学的因果状态(预测等同历史)的定义与再现 - 内核希尔伯特空间(RKHS)表示推断。结果是一种广泛适用的方法,可直接从系统行为的观察中迁移因果结构,无论它们是否超过离散或连续事件或时间。结构表示 - 有限或无限状态内核$ \ epsilon $ -Machine - 由减压变换提取,其提供了有效的因果状态及其拓扑。以这种方式,系统动态由用于在因果状态上的随机(普通或部分)微分方程表示。我们介绍了一种算法来估计相关的演化运营商。平行于Fokker-Plank方程,它有效地发展了因果状态分布,并通过RKHS功能映射在原始数据空间中进行预测。我们展示了这些技术,以及他们的预测能力,在离散时间的离散时间离散 - 有限的无限值Markov订单流程,其中有限状态隐藏马尔可夫模型与(i)有限或(ii)不可数 - 无限因果态和(iii)连续时间,由热驱动的混沌流产生的连续值处理。该方法在存在不同的外部和测量噪声水平和非常高的维数据存在下鲁棒地估计因果结构。
translated by 谷歌翻译
系统发育比较方法在我们的领域是新的,并且对于大多数语言学家来说,至少有一点谜团。然而,导致他们在比较生物学中发现的道路与平衡抽样的方法论历史如此类似,这只是一个历史的事故,即他们没有被典型的专家发现。在这里,我们澄清了系统发育比较方法背后的基本逻辑及其对重点采样的深刻智力传统的基本相关性。然后我们介绍将在日常类型的研究中使用类型的概念,方法和工具,使类型学家能够在日常类型的研究中使用这些方法。系统发育比较方法和平衡采样的关键共性是他们试图因系谱而应对统计非独立性。虽然采样永远不会实现独立性,但需要大多数比较数据被丢弃,系统发育比较方法在保留和使用所有数据的同时实现独立性。我们讨论了系统发育信号的基本概念;关于树木的不确定性;典型的类型学平均值和比例对族谱敏感;跨语言家庭的比较;和体现的影响。广泛的补充材料说明了实际分析的计算工具,我们说明了与帕马尼云根腭膜对比的类型学案例研究讨论的方法。
translated by 谷歌翻译
在过去的几年中,计算机视觉的显着进步总的来说是归因于深度学习,这是由于大量标记数据的可用性所推动的,并与GPU范式的爆炸性增长配对。在订阅这一观点的同时,本书批评了该领域中所谓的科学进步,并在基于信息的自然法则的框架内提出了对愿景的调查。具体而言,目前的作品提出了有关视觉的基本问题,这些问题尚未被理解,引导读者走上了一个由新颖挑战引起的与机器学习基础共鸣的旅程。中心论点是,要深入了解视觉计算过程,有必要超越通用机器学习算法的应用,而要专注于考虑到视觉信号的时空性质的适当学习理论。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
Advocates of algorithmic techniques like data mining argue that these techniques eliminate human biases from the decision-making process. But an algorithm is only as good as the data it works with. Data is frequently imperfect in ways that allow these algorithms to inherit the prejudices of prior decision makers. In other cases, data may simply reflect the widespread biases that persist in society at large. In still others, data mining can discover surprisingly useful regularities that are really just preexisting patterns of exclusion and inequality. Unthinking reliance on data mining can deny historically disadvantaged and vulnerable groups full participation in society. Worse still, because the resulting discrimination is almost always an unintentional emergent property of the algorithm's use rather than a conscious choice by its programmers, it can be unusually hard to identify the source of the problem or to explain it to a court. This Essay examines these concerns through the lens of American antidiscrimination law-more particularly, through Title
translated by 谷歌翻译
Recent progress in artificial intelligence (AI) has renewed interest in building systems that learn and think like people. Many advances have come from using deep neural networks trained end-to-end in tasks such as object recognition, video games, and board games, achieving performance that equals or even beats humans in some respects. Despite their biological inspiration and performance achievements, these systems differ from human intelligence in crucial ways. We review progress in cognitive science suggesting that truly human-like learning and thinking machines will have to reach beyond current engineering trends in both what they learn, and how they learn it. Specifically, we argue that these machines should (a) build causal models of the world that support explanation and understanding, rather than merely solving pattern recognition problems; (b) ground learning in intuitive theories of physics and psychology, to support and enrich the knowledge that is learned; and (c) harness compositionality and learning-to-learn to rapidly acquire and generalize knowledge to new tasks and situations. We suggest concrete challenges and promising routes towards these goals that can combine the strengths of recent neural network advances with more structured cognitive models.
translated by 谷歌翻译
因果关系是理解世界的科学努力的基本组成部分。不幸的是,在心理学和社会科学中,因果关系仍然是禁忌。由于越来越多的建议采用因果方法进行研究的重要性,我们重新制定了心理学研究方法的典型方法,以使不可避免的因果理论与其余的研究渠道协调。我们提出了一个新的过程,该过程始于从因果发现和机器学习的融合中纳入技术的发展,验证和透明的理论形式规范。然后,我们提出将完全指定的理论模型的复杂性降低到与给定目标假设相关的基本子模型中的方法。从这里,我们确定利息量是否可以从数据中估算出来,如果是的,则建议使用半参数机器学习方法来估计因果关系。总体目标是介绍新的研究管道,该管道可以(a)促进与测试因果理论的愿望兼容的科学询问(b)鼓励我们的理论透明代表作为明确的数学对象,(c)将我们的统计模型绑定到我们的统计模型中该理论的特定属性,因此减少了理论到模型间隙通常引起的规范不足问题,以及(d)产生因果关系和可重复性的结果和估计。通过具有现实世界数据的教学示例来证明该过程,我们以摘要和讨论来结论。
translated by 谷歌翻译
基于AI和机器学习的决策系统已在各种现实世界中都使用,包括医疗保健,执法,教育和金融。不再是牵强的,即设想一个未来,自治系统将推动整个业务决策,并且更广泛地支持大规模决策基础设施以解决社会最具挑战性的问题。当人类做出决定时,不公平和歧视的问题普遍存在,并且当使用几乎没有透明度,问责制和公平性的机器做出决定时(或可能会放大)。在本文中,我们介绍了\ textit {Causal公平分析}的框架,目的是填补此差距,即理解,建模,并可能解决决策设置中的公平性问题。我们方法的主要见解是将观察到数据中存在的差异的量化与基本且通常是未观察到的因果机制收集的因果机制的收集,这些机制首先会产生差异,挑战我们称之为因果公平的基本问题分析(FPCFA)。为了解决FPCFA,我们研究了分解差异和公平性的经验度量的问题,将这种变化归因于结构机制和人群的不同单位。我们的努力最终达到了公平地图,这是组织和解释文献中不同标准之间关系的首次系统尝试。最后,我们研究了进行因果公平分析并提出一本公平食谱的最低因果假设,该假设使数据科学家能够评估不同影响和不同治疗的存在。
translated by 谷歌翻译
COVID-19的大流行提出了对多个领域决策者的流行预测的重要性,从公共卫生到整个经济。虽然预测流行进展经常被概念化为类似于天气预测,但是它具有一些关键的差异,并且仍然是一项非平凡的任务。疾病的传播受到人类行为,病原体动态,天气和环境条件的多种混杂因素的影响。由于政府公共卫生和资助机构的倡议,捕获以前无法观察到的方面的丰富数据来源的可用性增加了研究的兴趣。这尤其是在“以数据为中心”的解决方案上进行的一系列工作,这些解决方案通过利用非传统数据源以及AI和机器学习的最新创新来增强我们的预测能力的潜力。这项调查研究了各种数据驱动的方法论和实践进步,并介绍了一个概念框架来导航它们。首先,我们列举了与流行病预测相关的大量流行病学数据集和新的数据流,捕获了各种因素,例如有症状的在线调查,零售和商业,流动性,基因组学数据等。接下来,我们将讨论关注最近基于数据驱动的统计和深度学习方法的方法和建模范式,以及将机械模型知识域知识与统计方法的有效性和灵活性相结合的新型混合模型类别。我们还讨论了这些预测系统的现实部署中出现的经验和挑战,包括预测信息。最后,我们重点介绍了整个预测管道中发现的一些挑战和开放问题。
translated by 谷歌翻译
语言在句法结构上有很大差异。世界上约40%的语言具有主语对象顺序,约40%的语言具有对象 - 对象 - 动词顺序。广泛的工作试图解释跨语言的单词顺序变化。但是,现有的方法无法用单个语言的单词顺序解释频率分布和演变。我们建议,单词顺序的变化反映了平衡依赖性区域和信息局部性的竞争压力的不同方式,当元素在语法上相关或彼此之间有上下文信息时,语言偏爱将它们放在一起。使用来自17个语言家族的80种语言的数据和系统发育建模,我们证明了语言的发展以平衡这些压力,因此单词顺序变化伴随着句法结构的频率分布的变化,这些句法结构的频率分布会说话,以维持整体效率。因此,单词顺序的可变性反映了语言解决这些进化压力的不同方式。我们确定了该关节优化产生的相关特征,尤其是对同一动词共同表达对象和对象的频率。我们的发现表明,跨语言的句法结构和用法共同适应有限的认知资源,以支持有效的沟通。
translated by 谷歌翻译
2021年8月,圣达菲研究所举办了一个关于集体智力的研讨会,是智力项目基础的一部分。该项目旨在通过促进智能性质的跨学科研究来推进人工智能领域。该研讨会汇集了计算机科学家,生物学家,哲学家,社会科学家和其他人,以分享他们对多种代理人之间的互动产生的洞察力的见解 - 是否这些代理商是机器,动物或人类。在本报告中,我们总结了每个会谈和随后的讨论。我们还借出了许多关键主题,并确定未来研究的重要前沿。
translated by 谷歌翻译
基于签名的技术使数学洞察力洞悉不断发展的数据的复杂流之间的相互作用。这些见解可以自然地转化为理解流数据的数值方法,也许是由于它们的数学精度,已被证明在数据不规则而不是固定的情况下分析流的数据以及数据和数据的尺寸很有用样本量均为中等。了解流的多模式数据是指数的:$ d $ d $的字母中的$ n $字母中的一个单词可以是$ d^n $消息之一。签名消除了通过采样不规则性引起的指数级噪声,但仍然存在指数量的信息。这项调查旨在留在可以直接管理指数缩放的域中。在许多问题中,可伸缩性问题是一个重要的挑战,但需要另一篇调查文章和进一步的想法。这项调查描述了一系列环境集足够小以消除大规模机器学习的可能性,并且可以有效地使用一小部分免费上下文和原则性功能。工具的数学性质可以使他们对非数学家的使用恐吓。本文中介绍的示例旨在弥合此通信差距,并提供从机器学习环境中绘制的可进行的工作示例。笔记本可以在线提供这些示例中的一些。这项调查是基于伊利亚·雪佛兰(Ilya Chevryev)和安德烈·科米利津(Andrey Kormilitzin)的早期论文,它们在这种机械开发的较早时刻大致相似。本文说明了签名提供的理论见解是如何在对应用程序数据的分析中简单地实现的,这种方式在很大程度上对数据类型不可知。
translated by 谷歌翻译
讨论了与科学,工程,建筑和人为因素相关的月球表面上的运输设施问题。未来十年制造的后勤决策可能对财务成功至关重要。除了概述一些问题及其与数学和计算的关系外,本文还为决策者,科学家和工程师提供了有用的资源。
translated by 谷歌翻译
语言是协调问题的强大解决方案:他们提供了稳定的,有关我们所说的单词如何对应于我们头脑中的信仰和意图的共同期望。然而,在变量和非静止社会环境中的语言使用需要语言表征来灵活:旧词在飞行中获取新的临时或合作伙伴特定含义。在本文中,我们介绍了柴(通过推理的连续分层适应),一个分层贝叶斯的协调理论和会议组织,旨在在这两个基本观察之间调和长期张力。我们认为,沟通的中央计算问题不仅仅是传输,如在经典配方中,而是在多个时间尺度上持续学习和适应。合作伙伴特定的共同点迅速出现在数型互动中的社会推论中,而社群范围内的社会公约是稳定的前锋,这些前锋已经抽象出与多个合作伙伴的互动。我们展示了新的实证数据,展示了我们的模型为多个现象提供了对先前账户挑战的计算基础:(1)与同一合作伙伴的重复互动的更有效的参考表达的融合(2)将合作伙伴特定的共同基础转移到陌生人,并(3)交际范围的影响最终会形成。
translated by 谷歌翻译
社区检测是网络科学中最重要的方法领域之一,在过去的几十年里引起了大量关注的方法之一。该区域处理网络的自动部门到基础构建块中,目的是提供其大规模结构的概要。尽管它的重要性和广泛的采用普及,所谓的最先进和实际在各种领域实际使用的方法之间存在明显的差距。在这里,我们试图通过根据是否具有“描述性”或“推论”目标来划分现有方法来解决这种差异。虽然描述性方法在基于社区结构的直观概念的网络中找到模式的模式,但是推理方法阐述了精确的生成模型,并尝试将其符合数据。通过这种方式,他们能够为网络形成机制提供见解,并以统计证据支持的方式与随机性的单独结构。我们审查如何使用推论目标采用描述性方法被陷入困境和误导性答案,因此应该一般而言。我们认为推理方法更通常与更清晰的科学问题一致,产生更强大的结果,并且应该是一般的首选。我们试图消除一些神话和半真半假在实践中使用社区检测时,努力改善这些方法的使用以及对结果的解释。
translated by 谷歌翻译
保证案件旨在为其最高主张的真理提供合理的信心,这通常涉及安全或保障。那么一个自然的问题是,案件提供了“多少”信心?我们认为,置信度不能简化为单个属性或测量。取而代之的是,我们建议它应该基于以三种不同观点的属性为基础:正面,消极和残留疑问。积极的观点考虑了该案件的证据和总体论点结合起来的程度,以表明其主张的信念是正当的。我们为理由设置了一个高标准,要求它是不可行的。对此的主要积极度量是健全性,它将论点解释为逻辑证明。对证据的信心可以概率地表达,我们使用确认措施来确保证据的“权重”跨越了一定的阈值。此外,可以通过使用概率逻辑的参数步骤从证据中汇总概率,以产生我们所谓的索赔概率估值。负面观点记录了对案件的怀疑和挑战,通常表示为叛逆者及其探索和解决。保证开发商必须防止确认偏见,并应在制定案件时大力探索潜在的叛逆者,并应记录下来及其解决方案,以避免返工并帮助审阅者。残留疑问:世界不确定,因此并非所有潜在的叛逆者都可以解决。我们探索风险,可能认为它们是可以接受或不可避免的。但是,至关重要的是,这些判断是有意识的判断,并且在保证案例中记录下来。本报告详细介绍了这些观点,并指示了我们的保证2.0的原型工具集如何协助他们的评估。
translated by 谷歌翻译
马尔可夫链是一类概率模型,在定量科学中已广泛应用。这部分是由于它们的多功能性,但是可以通过分析探测的便利性使其更加复杂。本教程为马尔可夫连锁店提供了深入的介绍,并探索了它们与图形和随机步行的联系。我们利用从线性代数和图形论的工具来描述不同类型的马尔可夫链的过渡矩阵,特别着眼于探索与这些矩阵相对应的特征值和特征向量的属性。提出的结果与机器学习和数据挖掘中的许多方法有关,我们在各个阶段描述了这些方法。本文并没有本身就成为一项新颖的学术研究,而是提出了一些已知结果的集合以及一些新概念。此外,该教程的重点是向读者提供直觉,而不是正式的理解,并且仅假定对线性代数和概率理论的概念的基本曝光。因此,来自各种学科的学生和研究人员可以访问它。
translated by 谷歌翻译
这篇理论文章研究了如何在计算机中构建类似人类的工作记忆和思维过程。应该有两个工作记忆存储,一个类似于关联皮层中的持续点火,另一个类似于大脑皮层中的突触增强。这些商店必须通过环境刺激或内部处理产生的新表示不断更新。它们应该连续更新,并以一种迭代的方式进行更新,这意味着在下一个状态下,应始终保留一组共同工作中的某些项目。因此,工作记忆中的一组概念将随着时间的推移逐渐发展。这使每个状态都是对先前状态的修订版,并导致连续的状态与它们所包含的一系列表示形式重叠和融合。随着添加新表示形式并减去旧表示形式,在这些更改过程中,有些保持活跃几秒钟。这种持续活动,类似于人工复发性神经网络中使用的活动,用于在整个全球工作区中传播激活能量,以搜索下一个关联更新。结果是能够朝着解决方案或目标前进的联想连接的中间状态链。迭代更新在这里概念化为信息处理策略,一种思想流的计算和神经生理决定因素以及用于设计和编程人工智能的算法。
translated by 谷歌翻译