智能论文笔记

Investigating and Modeling the Dynamics of Long Ties

Ding Lyu , Yuan Yuan , Lin Wang , Xiaofan Wang , Alex Pentland

分类：机器学习

2021-09-22

长期联系，桥梁不同社区的社会关系被广泛认为在社会网络中传播新颖信息中发挥关键作用。然而，一些现有的网络理论和预测模型表明，长圆圈可能会迅速溶解或最终变得多余，从而提出质疑长期长期的长期值。我们对现实世界动态网络的实证分析表明，与这种推理相反，长期关系比其他社会关系更有可能持续存在，而且它们中的许多人在不被嵌入在当地网络而不嵌入社会桥梁时不断起作用。使用新颖的成本效益分析模型与机器学习相结合，我们表明长期关系是非常有益的，这本能地激励人们花费额外的努力来维护它们。这部分解释了为什么长的关系比许多现有理论和模型所建议的更持久性。总体而言，我们的研究表明，需要促进长期关系的社会干预的必要性，例如混合各种背景的人。

translated by 谷歌翻译

Statistical embedding: Beyond principal components

Dag Tjøstheim , Martin Jullum , Anders Løland

分类： (统计)机器学习 | 机器学习

2021-06-03

最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中，其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中，我们涵盖了非线性方法，例如主曲线，多维缩放，局部线性方法，ISOMAP，基于图形的方法和扩散映射，基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关，特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中，以使数据适合传统技术，例如群集和分类技术。可以说，这是算法机器学习方法与统计建模（所谓的随机块建模）之间的对比度。在论文中，我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $，即可视化中。提出了三种方法：基于第一部分，第二和第三部分中的方法，$ t $ -sne，UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎，另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。

translated by 谷歌翻译

Rethinking the positive role of cluster structure in complex networks for link prediction tasks

Shanfan Zhang , Wenjiao Zhang , Zhan Bu

分类：人工智能

2022-11-04

Clustering is a fundamental problem in network analysis that finds closely connected groups of nodes and separates them from other nodes in the graph, while link prediction is to predict whether two nodes in a network are likely to have a link. The definition of both naturally determines that clustering must play a positive role in obtaining accurate link prediction tasks. Yet researchers have long ignored or used inappropriate ways to undermine this positive relationship. In this article, We construct a simple but efficient clustering-driven link prediction framework(ClusterLP), with the goal of directly exploiting the cluster structures to obtain connections between nodes as accurately as possible in both undirected graphs and directed graphs. Specifically, we propose that it is easier to establish links between nodes with similar representation vectors and cluster tendencies in undirected graphs, while nodes in a directed graphs can more easily point to nodes similar to their representation vectors and have greater influence in their own cluster. We customized the implementation of ClusterLP for undirected and directed graphs, respectively, and the experimental results using multiple real-world networks on the link prediction task showed that our models is highly competitive with existing baseline models. The code implementation of ClusterLP and baselines we use are available at https://github.com/ZINUX1998/ClusterLP.

translated by 谷歌翻译

Investigating internal migration with network analysis and latent space representations: An application to Turkey

Furkan Gürsoy , Bertan Badur

分类：机器学习

2022-01-10

人类移民模式影响了地理人口特征的重新分配，因为这种分布与社会和经济结果密切相关，研究内部移民的结构和动态在这种系统的理解和设计政策方面发挥着至关重要的作用。我们从2008年到2020年对土耳其内部迁徙的结构和动态进行了深入的调查。我们确定一套经典移民法律，并通过各种签名网络分析，自我网络分析，代表学习，时间来检查它们稳定性分析，社区检测和网络可视化。调查结果表明，根据经典的迁移法，大多数迁移链接都是与涉及经济活动大的几个例外的地理界限，主要迁移流量与相反方向的迁移流量相反，有明确定义的迁移路线，有明确定义的迁移路线，迁移系统通常在调查期间稳定。除了这些一般结果外，还提供独特和特定的洞察土耳其。总体而言，我们在文献中首次雇用的新型工具集可以调查复杂的网络视角和揭示不同地理位置的未来迁移研究。

translated by 谷歌翻译

Known by the company we keep: `Triadic influence' as a proxy for compatibility in social relationships

Miguel Ruíz-García , Juan Ozaita , María Pereda , Antonio Alfonso , Pablo Brañas-Garza. Jose A. Cuesta , Ángel Sánchez

分类： (统计)机器学习

2022-09-08

社会互动网络是建立文明的基材。通常，我们与我们喜欢的人建立新的纽带，或者认为通过第三方的干预，我们的关系损害了。尽管它们的重要性和这些过程对我们的生活产生的巨大影响，但对它们的定量科学理解仍处于起步阶段，这主要是由于很难收集大量的社交网络数据集，包括个人属性。在这项工作中，我们对13所学校的真实社交网络进行了彻底的研究，其中3,000多名学生和60,000名宣布正面关系和负面关系，包括对所有学生的个人特征的测试。我们引入了一个度量标准 - “三合会影响”，该指标衡量了最近的邻居在其接触关系中的影响。我们使用神经网络来预测关系，并根据他们的个人属性或三合会的影响来提取两个学生是朋友或敌人的可能性。或者，我们可以使用网络结构的高维嵌入来预测关系。值得注意的是，三合会影响（一个简单的一维度量）在预测两个学生之间的关系方面达到了最高的准确性。我们假设从神经网络中提取的概率 - 三合会影响的功能和学生的个性 - 控制真实社交网络的演变，为这些系统的定量研究开辟了新的途径。

translated by 谷歌翻译

Identifying the latent space geometry of network models through analysis of curvature

Shane Lubold , Arun G. Chandrasekhar , Tyler H. McCormick

分类： (统计)机器学习

2020-12-19

A common approach to modeling networks assigns each node to a position on a low-dimensional manifold where distance is inversely proportional to connection likelihood. More positive manifold curvature encourages more and tighter communities; negative curvature induces repulsion. We consistently estimate manifold type, dimension, and curvature from simply connected, complete Riemannian manifolds of constant curvature. We represent the graph as a noisy distance matrix based on the ties between cliques, then develop hypothesis tests to determine whether the observed distances could plausibly be embedded isometrically in each of the candidate geometries. We apply our approach to data-sets from economics and neuroscience.

translated by 谷歌翻译

Pitfalls of Climate Network Construction: A Statistical Perspective

Moritz Haas , Bedartha Goswami , Ulrike von Luxburg

分类：机器学习 | (统计)机器学习

2022-11-05

Network-based analyses of dynamical systems have become increasingly popular in climate science. Here we address network construction from a statistical perspective and highlight the often ignored fact that the calculated correlation values are only empirical estimates. To measure spurious behaviour as deviation from a ground truth network, we simulate time-dependent isotropic random fields on the sphere and apply common network construction techniques. We find several ways in which the uncertainty stemming from the estimation procedure has major impact on network characteristics. When the data has locally coherent correlation structure, spurious link bundle teleconnections and spurious high-degree clusters have to be expected. Anisotropic estimation variance can also induce severe biases into empirical networks. We validate our findings with ERA5 reanalysis data. Moreover we explain why commonly applied resampling procedures are inappropriate for significance evaluation and propose a statistically more meaningful ensemble construction framework. By communicating which difficulties arise in estimation from scarce data and by presenting which design decisions increase robustness, we hope to contribute to more reliable climate network construction in the future.

translated by 谷歌翻译

Disentangling homophily, community structure and triadic closure in networks

Tiago P. Peixoto

分类： (统计)机器学习

2021-01-07

网络慷慨地，相似节点的趋势和传递性，连接两个节点的趋势如果它们共享公共邻居，则在网络分析中被混为特性，因为一个机制可以驱动另一个机制。在这里，我们提出了一种能够区分两个机制的生成模型和相应的推理过程。我们的方法基于随机块模型（SBM）的变化，增加了三合一封闭边缘，其推断可以识别负责网络中每个边缘存在的最合理的机制，以及基础社区结构本身。我们展示该方法如何避免通过网络中的三角形形成的单独引起的虚假社区的检测，以及它在与没有三合会的纯版本的纯版本相比，如何提高边缘预测的性能。

translated by 谷歌翻译

The Past as a Stochastic Process

David H. Wolpert , Michael H. Price , Stefani A. Crabtree , Timothy A. Kohler , Jurgen Jost , James Evans , Peter F. Stadler , Hajime Shimao , Manfred D. Laubichler

分类：机器学习

2021-12-11

历史流程表现出显着的多样性。尽管如此，学者们长期以来一直试图识别模式，并将历史行动者分类和对一些成功的影响。随机过程框架提供了一种结构化方法，用于分析大型历史数据集，允许检测有时令人惊讶的模式，鉴定内源性和外源对过程的相关因果作用者，以及不同历史案例的比较。随机过程的数据，分析工具和组织理论框架的组合使历史和考古中的传统叙事方法补充了传统的叙事方法。

translated by 谷歌翻译

Insurgency as Complex Network: Image Co-Appearance and Hierarchy in the PKK

Ollie Ballinger

分类：人工智能 | 计算机视觉 | 机器学习

2022-07-14

尽管人们对叛乱团体结构对冲突结果的重要性越来越多，但那里的实证研究很少。尽管此问题源于激进群体结构的数据的无法获取性，但叛乱分子经常在Internet上发布大量图像数据。在本文中，我开发了一种新的方法，该方法通过自动化基于在照片中使用深度学习的照片中的共同出现的社交网络图来自动创建社交网络图，从而利用了这种丰富但未充分利用的数据来源。我使用库尔德人武装组织在土耳其的库尔德人激进组织在线发布的1915张ob告图像，我证明了个人在由此产生的共同出现网络中的中心地位与他们在叛乱组织中的排名密切相关。

translated by 谷歌翻译

Multi-modal Networks Reveal Patterns of Operational Similarity of Terrorist Organizations

Gian Maria Campedelli , Iain J. Cruickshank , Kathleen M. Carley

分类：机器学习

2021-12-15

捕获恐怖主义群体中运营相似性的动态至关重要，为反恐和智力监测提供可操作的见解。然而，尽管其理论和实用相关性，目前缺乏研究解决这个问题。我们解决这个问题，提出了一种用于检测分享类似行为的恐怖组群集群的新的计算框架，专注于集团的年曲目的部署策略，攻击目标和利用武器。特别考虑到从1997年到2018年签署至少50次攻击的那些组织，总共占全球42,000多个活动的105组，我们提供三套结果。首先，我们表明，多年来，全球恐怖主义的特点是越来越多的运营凝聚力。其次，我们强调，在2009年至2018年，群体之间共聚类的年度达到稳定性，表明过去十年中相似模式的时间一致性。第三，我们证明，两个组织之间的操作相似性由三个因素驱动：（a）其整体活动; （b）业务曲目的多样性差异; （c）多样性和活动的综合衡量标准的差异。团体的运营偏好，地理性交和思想亲和力在确定操作相似性方面没有一致的作用。

translated by 谷歌翻译

Minorities in networks and algorithms

Fariba Karimi , Marcos Oliveira , Markus Strohmaier

分类：人工智能

2022-06-14

在本章中，我们概述了数据驱动和理论知觉的社交网络复杂模型及其在理解社会不平等和边缘化方面的潜力。我们专注于网络和基于网络的算法以及它们如何影响少数群体引起的不平等现象。特别是，我们研究了同质和混合偏见如何塑造大小社交网络，影响少数民族的感知并影响协作模式。我们还讨论了网络和网络的动态过程以及规范和健康不平等的形成。此外，我们认为网络建模是揭示排名和社会推荐算法对少数群体可见性的影响至关重要的。最后，我们强调了这个新兴研究主题中的主要挑战和未来机会。

translated by 谷歌翻译

Applying Machine Learning to Life Insurance: some knowledge sharing to master it

Antoine Chancel , Laura Bradier , Antoine Ly , Razvan Ionescu , Laurene Martin

分类： (统计)机器学习 | 机器学习

2022-09-05

机器学习渗透到许多行业，这为公司带来了新的利益来源。然而，在人寿保险行业中，机器学习在实践中并未被广泛使用，因为在过去几年中，统计模型表明了它们的风险评估效率。因此，保险公司可能面临评估人工智能价值的困难。随着时间的流逝，专注于人寿保险行业的修改突出了将机器学习用于保险公司的利益以及通过释放数据价值带来的利益。本文回顾了传统的生存建模方法论，并通过机器学习技术扩展了它们。它指出了与常规机器学习模型的差异，并强调了特定实现在与机器学习模型家族中面对审查数据的重要性。在本文的补充中，已经开发了Python库。已经调整了不同的开源机器学习算法，以适应人寿保险数据的特殊性，即检查和截断。此类模型可以轻松地从该SCOR库中应用，以准确地模拟人寿保险风险。

translated by 谷歌翻译

From partners to populations: A hierarchical Bayesian account of coordination and convention

Robert D. Hawkins , Michael Franke , Michael C. Frank , Adele E. Goldberg , Kenny Smith , Thomas L. Griffiths , Noah D. Goodman

分类：自然语言处理 | 人工智能

2021-04-12

语言是协调问题的强大解决方案：他们提供了稳定的，有关我们所说的单词如何对应于我们头脑中的信仰和意图的共同期望。然而，在变量和非静止社会环境中的语言使用需要语言表征来灵活：旧词在飞行中获取新的临时或合作伙伴特定含义。在本文中，我们介绍了柴（通过推理的连续分层适应），一个分层贝叶斯的协调理论和会议组织，旨在在这两个基本观察之间调和长期张力。我们认为，沟通的中央计算问题不仅仅是传输，如在经典配方中，而是在多个时间尺度上持续学习和适应。合作伙伴特定的共同点迅速出现在数型互动中的社会推论中，而社群范围内的社会公约是稳定的前锋，这些前锋已经抽象出与多个合作伙伴的互动。我们展示了新的实证数据，展示了我们的模型为多个现象提供了对先前账户挑战的计算基础：（1）与同一合作伙伴的重复互动的更有效的参考表达的融合（2）将合作伙伴特定的共同基础转移到陌生人，并（3）交际范围的影响最终会形成。

translated by 谷歌翻译

Opinion Leader Detection in Online Social Networks Based on Output and Input Links

Zahra Ghorbani , Seyed Hossein Khasteh , Saeid Ghafouri

分类：人工智能

2022-08-28

对网络中的用户如何根据邻居的意见更新他们的意见的理解吸引了网络科学领域的极大兴趣，并且越来越多的文献认识到了这个问题的重要性。在这篇研究论文中，我们提出了有指导网络中意见形成的新动态模型。在此模型中，每个节点的意见被更新为邻居意见的加权平均值，而权重代表社会影响力。我们将一种新的中心度度量定义为基于影响和整合性的社会影响度量。我们使用两个意见形成模型来衡量这种新方法：（i）degroot模型和（ii）我们自己提出的模型。先前发表的研究没有考虑合格，并且仅考虑计算社会影响时节点的影响。在我们的定义中，与高度和较低程度的节点相关的较低度和高度的节点具有较高的中心性。作为这项研究的主要贡献，我们提出了一种算法，用于在社交网络中找到一小部分节点，该节点可能会对其他节点的观点产生重大影响。关于现实世界数据的实验表明，所提出的算法显着优于先前发布的最新方法。

translated by 谷歌翻译

The Role of "Live" in Livestreaming Markets: Evidence Using Orthogonal Random Forest

Ziwei Cong , Jia Liu , Puneet Manchanda

分类： (统计)机器学习 | 机器学习

2021-07-04

关于日益增长的直播媒介的一种普遍信念是，其价值在于其“实时”组成部分。我们通过比较实时事件需求的价格弹性如何在直播中和之后的生活中进行了比较，从而研究了这种信念。我们使用来自大型直播平台的独特且丰富的数据来做到这一点，该数据使消费者可以在流中期后购买录制版本的直播版本。在我们背景下的一个挑战是，存在高维混杂因素，其与治疗政策（即价格）和兴趣结果（即需求）的关系是复杂的，并且仅部分知道。我们通过使用广义正交随机森林框架来解决这一挑战，以进行异质治疗效果估计。我们发现在整个事件生命周期中，需求价格弹性的时间弹性都显着。具体而言，随着时间的流逝，需求变得越来越敏感，直到直播一天，那天就变成了无弹性。在生活后的时期，对录制版本的需求仍然对价格敏感，但远低于在播放前的时期。我们进一步表明，价格弹性的这种时间变化是由此类事件固有的质量不确定性以及在直播过程中与内容创建者进行实时互动的机会所驱动的。

translated by 谷歌翻译

Mixed Logit Models and Network Formation

Harsh Gupta , Mason A. Porter

分类： (统计)机器学习

2020-06-30

网络形成的研究在经济学，社会学和许多其他领域都普遍存在。在本文中，我们将网络形成建模为网络中节点以连接其他节点的“选择”。我们使用离散选择模型研究这些“选择”，其中代理在两个或多个离散的替代方案之间选择。我们采用“重复选择”（RC）模型来研究网络形成。我们认为RC模型克服了多项式logit（MNL）模型的重要局限性，该模型为研究网络形成提供了一个框架，并且非常适合研究网络形成。我们还说明了如何使用RC模型使用合成和现实世界网络准确研究网络形成。使用合成网络，我们还比较了MNL模型和RC模型的性能。我们发现RC模型比MNL模型更准确地估算合成网络的数据生成过程。我们对一个定性有趣的方案进行了案例研究 - 新专利更有可能引用较旧，更被引用和类似专利的事实 - RC模型使我们能够获得有趣的见解。

translated by 谷歌翻译

Mapping the Internet: Modelling Entity Interactions in Complex Heterogeneous Networks

Simon Mandlik , Tomas Pevny

分类：机器学习

2021-04-19

即使机器学习算法已经在数据科学中发挥了重要作用，但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式，或数据集中的异质，分层或完全缺少的数据片段，因此很难应用此类方法。作为解决方案，我们提出了一个用于样本表示，模型定义和培训的多功能，统一的框架，称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲，为HMILL的关键组件的设计合理，我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论，该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性，它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外，我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张，我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中，我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中，基于建议的框架的解决方案可实现与专业方法相当的性能。

translated by 谷歌翻译

Understanding mobility in networks: A node embedding approach

Matheus F. C. Barros , Carlos H. G. Ferreira , Bruno Pereira dos Santos , Lourenço A. P. Júnior , Marco Mellia , Jussara M. Almeida

分类：机器学习

2021-11-11

由能够连接和交换消息的越来越多的移动设备而激励，我们提出了一种旨在模拟和分析网络中节点移动性的方法。我们注意到文献中的许多现有解决方案依赖于直接在节点联系人图表上计算的拓扑测量，旨在捕获节点在有利于原型设计，设计和部署移动网络的连接和移动模式方面的重要性。但是，每个措施都具有其特异性，并且无法概括最终随时间变化的节点重要性概念。与以前的方法不同，我们的方法基于节点嵌入方法，该方法模型和推出在保留其空间和时间特征的同时在移动性和连接模式中对节点的重要性。我们专注于基于一丝小组会议的案例研究。结果表明，我们的方法提供了提取不同移动性和连接模式的丰富表示，这可能有助于移动网络中的各种应用和服务。

translated by 谷歌翻译

A Survey on Echo Chambers on Social Media: Description, Detection and Mitigation

Faisal Alatawi , Lu Cheng , Anique Tahir , Mansooreh Karami , Bohan Jiang , Tyler Black , Huan Liu

分类：机器学习

2021-12-09

社交媒体的回声室是一个重要的问题，可以引起许多负面后果，最近影响对Covid-19的响应。回声室促进病毒的阴谋理论，发现与疫苗犹豫不决，较少遵守面具授权，以及社会疏散的实践。此外，回声室的问题与政治极化等其他相关问题相连，以及误导的传播。回声室被定义为用户网络，用户只与支持其预先存在的信仰和意见的意见相互作用，并且他们排除和诋毁其他观点。本调查旨在从社会计算的角度检查社交媒体上的回声室现象，并为可能的解决方案提供蓝图。我们调查了相关文献，了解回声室的属性以及它们如何影响个人和社会。此外，我们展示了算法和心理的机制，这导致了回声室的形成。这些机制可以以两种形式表现出：（1）社交媒体推荐系统的偏见和（2）内部偏见，如确认偏见和精梳性。虽然减轻内部偏见是非常挑战的，但努力消除推荐系统的偏见。这些推荐系统利用我们自己的偏见来个性化内容建议，以使我们参与其中才能观看更多广告。因此，我们进一步研究了回声室检测和预防的不同计算方法，主要基于推荐系统。

translated by 谷歌翻译