Models for the processes by which ideas and influence propagate through a social network have been studied in a number of domains, including the diffusion of medical and technological innovations, the sudden and widespread adoption of various strategies in game-theoretic settings, and the effects of "word of mouth" in the promotion of new products. Motivated by the design of viral marketing strategies, Domingos and Richardson posed a fundamental algorithmic problem for such social network processes: if we can try to convince a subset of individuals to adopt a new product or innovation, and the goal is to trigger a large cascade of further adoptions, which set of individuals should we target?We consider this problem in several of the most widely studied models in social network analysis. The optimization problem of selecting the most influential nodes is NP-hard here. The two conference papers upon which this article is based (KDD 2003 and ICALP 2005) provide the first provable approximation guarantees for efficient algorithms. Using an The present article is an expanded version of two conference papers [51,52], which appeared in KDD 2003 and ICALP 2005, respectively.
translated by 谷歌翻译
在随着时间变化的组合环境中的在线决策激励,我们研究了将离线算法转换为其在线对应物的问题。我们专注于使用贪婪算法对局部错误的贪婪算法进行恒定因子近似的离线组合问题。对于此类问题,我们提供了一个通用框架,该框架可有效地将稳健的贪婪算法转换为使用Blackwell的易近算法。我们证明,在完整信息设置下,由此产生的在线算法具有$ O(\ sqrt {t})$(近似)遗憾。我们进一步介绍了Blackwell易接近性的强盗扩展,我们称之为Bandit Blackwell的可接近性。我们利用这一概念将贪婪的稳健离线算法转变为匪(t^{2/3})$(近似)$(近似)的遗憾。展示了我们框架的灵活性,我们将脱机之间的转换应用于收入管理,市场设计和在线优化的几个问题,包括在线平台中的产品排名优化,拍卖中的储备价格优化以及supperular tossodular最大化。 。我们还将还原扩展到连续优化的类似贪婪的一阶方法,例如用于最大化连续强的DR单调下调功能,这些功能受到凸约束的约束。我们表明,当应用于这些应用程序时,我们的转型会导致新的后悔界限或改善当前已知界限。我们通过为我们的两个应用进行数值模拟来补充我们的理论研究,在这两种应用中,我们都观察到,转换的数值性能在实际情况下优于理论保证。
translated by 谷歌翻译
随机块模型(SBM)是一个随机图模型,其连接不同的顶点组不同。它被广泛用作研究聚类和社区检测的规范模型,并提供了肥沃的基础来研究组合统计和更普遍的数据科学中出现的信息理论和计算权衡。该专着调查了最近在SBM中建立社区检测的基本限制的最新发展,无论是在信息理论和计算方案方面,以及各种恢复要求,例如精确,部分和弱恢复。讨论的主要结果是在Chernoff-Hellinger阈值中进行精确恢复的相转换,Kesten-Stigum阈值弱恢复的相变,最佳的SNR - 单位信息折衷的部分恢复以及信息理论和信息理论之间的差距计算阈值。该专着给出了在寻求限制时开发的主要算法的原则推导,特别是通过绘制绘制,半定义编程,(线性化)信念传播,经典/非背带频谱和图形供电。还讨论了其他块模型的扩展,例如几何模型和一些开放问题。
translated by 谷歌翻译
The stochastic block model (SBM) is a random graph model with planted clusters. It is widely employed as a canonical model to study clustering and community detection, and provides generally a fertile ground to study the statistical and computational tradeoffs that arise in network and data sciences.This note surveys the recent developments that establish the fundamental limits for community detection in the SBM, both with respect to information-theoretic and computational thresholds, and for various recovery requirements such as exact, partial and weak recovery (a.k.a., detection). The main results discussed are the phase transitions for exact recovery at the Chernoff-Hellinger threshold, the phase transition for weak recovery at the Kesten-Stigum threshold, the optimal distortion-SNR tradeoff for partial recovery, the learning of the SBM parameters and the gap between information-theoretic and computational thresholds.The note also covers some of the algorithms developed in the quest of achieving the limits, in particular two-round algorithms via graph-splitting, semi-definite programming, linearized belief propagation, classical and nonbacktracking spectral methods. A few open problems are also discussed.
translated by 谷歌翻译
我们研究了基于消费者的决策积极学习非参数选择模型的问题。我们提出一个负面结果,表明这种选择模型可能无法识别。为了克服可识别性问题,我们介绍了选择模型的有向无环图(DAG)表示,从某种意义上说,该模型可以捕获有关选择模型的更多信息,从而可以从理论上识别信息。然后,我们考虑在主动学习环境中学习与此DAG表示的近似的问题。我们设计了一种有效的主动学习算法,以估计非参数选择模型的DAG表示,该模型在多项式时间内运行时,当随机均匀地绘制频繁排名。我们的算法通过主动和反复提供各种项目并观察所选项目来了解最受欢迎的频繁偏好项目的分布。我们表明,与相应的非活动学习估计算法相比,我们的算法可以更好地恢复有关消费者偏好的合成和公开数据集的一组频繁偏好。这证明了我们的算法和主动学习方法的价值。
translated by 谷歌翻译
Influence Maximization (IM) is a classical combinatorial optimization problem, which can be widely used in mobile networks, social computing, and recommendation systems. It aims at selecting a small number of users such that maximizing the influence spread across the online social network. Because of its potential commercial and academic value, there are a lot of researchers focusing on studying the IM problem from different perspectives. The main challenge comes from the NP-hardness of the IM problem and \#P-hardness of estimating the influence spread, thus traditional algorithms for overcoming them can be categorized into two classes: heuristic algorithms and approximation algorithms. However, there is no theoretical guarantee for heuristic algorithms, and the theoretical design is close to the limit. Therefore, it is almost impossible to further optimize and improve their performance. With the rapid development of artificial intelligence, the technology based on Machine Learning (ML) has achieved remarkable achievements in many fields. In view of this, in recent years, a number of new methods have emerged to solve combinatorial optimization problems by using ML-based techniques. These methods have the advantages of fast solving speed and strong generalization ability to unknown graphs, which provide a brand-new direction for solving combinatorial optimization problems. Therefore, we abandon the traditional algorithms based on iterative search and review the recent development of ML-based methods, especially Deep Reinforcement Learning, to solve the IM problem and other variants in social networks. We focus on summarizing the relevant background knowledge, basic principles, common methods, and applied research. Finally, the challenges that need to be solved urgently in future IM research are pointed out.
translated by 谷歌翻译
大多数算法研究到目前为止,多智能经纪信息设计的研究专注于没有代理商外部性的限制情况;一些例外调查了真正的战略游戏,如零和游戏和二价格拍卖,但只关注最佳的公共信令。本文启动了\ emph {public}和\ emph {privy}信号传导的算法信息设计,其中of基本的外部性,即单例拥塞游戏,在今天的数字经济中的应用范围广,机器调度,路由,对于公共和私人信令等,我们表明,当资源数量是常数时,可以有效地计算最佳信息设计。为了我们的知识,这是一系列高效的\ EMPH {精确}算法,用于在简明地代表的许多玩家游戏中的信息设计。我们的结果符合新颖的技术,如开发某些“减少形式”,以便在公共信令中紧凑地表征均衡或代表私人信令中的球员边际信仰。当有许多资源时,我们会显示计算难扰性结果。为了克服多个均衡问题,这里我们介绍了均衡 - \ EMPH {忽视}硬度的新概念,这条规定了计算良好信令方案的任何可能性,而不管均衡选择规则如何。
translated by 谷歌翻译
我们考虑了最大化的影响(IM)问题:'如果我们能说服社交网络中的一部分个人采用新产品或创新,目的是触发大量的进一步收养级联我们应该定位吗?正式地,这是在社交网络中选择$ K $种子节点的任务,以使网络中预期的影响节点(在某些影响下传播模型)最大化。在文献中已经广泛研究了这个问题,并提出了几种解决方案方法。但是,大多数基于模拟的方法涉及耗时的蒙特卡洛模拟,以计算种子节点在整个网络中的影响。这限制了这些方法在大型社交网络上的适用性。在本文中,我们有兴趣以时间效率的方式解决影响最大化的问题。我们提出了一种社区意识的分歧和纠纷策略,涉及(i)学习社交网络的固有社区结构,(ii)通过解决每个社区的影响最大化问题,以及(iii)选择最终的影响力来生成候选解决方案。使用新颖的渐进预算计划来自候选解决方案的个人。我们提供有关现实世界社交网络的实验,表明所提出的算法在经验运行时和启发式算法方面优于基于仿真的算法。我们还研究了社区结构对算法性能的影响。我们的实验表明,具有较高模块化的社区结构导致所提出的算法在运行时和影响方面表现更好。
translated by 谷歌翻译
Graph clustering is a fundamental problem in unsupervised learning, with numerous applications in computer science and in analysing real-world data. In many real-world applications, we find that the clusters have a significant high-level structure. This is often overlooked in the design and analysis of graph clustering algorithms which make strong simplifying assumptions about the structure of the graph. This thesis addresses the natural question of whether the structure of clusters can be learned efficiently and describes four new algorithmic results for learning such structure in graphs and hypergraphs. All of the presented theoretical results are extensively evaluated on both synthetic and real-word datasets of different domains, including image classification and segmentation, migration networks, co-authorship networks, and natural language processing. These experimental results demonstrate that the newly developed algorithms are practical, effective, and immediately applicable for learning the structure of clusters in real-world data.
translated by 谷歌翻译
Monte Carlo Tree Search (MCTS) is a recently proposed search method that combines the precision of tree search with the generality of random sampling. It has received considerable interest due to its spectacular success in the difficult problem of computer Go, but has also proved beneficial in a range of other domains. This paper is a survey of the literature to date, intended to provide a snapshot of the state of the art after the first five years of MCTS research. We outline the core algorithm's derivation, impart some structure on the many variations and enhancements that have been proposed, and summarise the results from the key game and non-game domains to which MCTS methods have been applied. A number of open research questions indicate that the field is ripe for future work.
translated by 谷歌翻译
我们探索了一个新的强盗实验模型,其中潜在的非组织序列会影响武器的性能。上下文 - 统一算法可能会混淆,而那些执行正确的推理面部信息延迟的算法。我们的主要见解是,我们称之为Deconfounst Thompson采样的算法在适应性和健壮性之间取得了微妙的平衡。它的适应性在易于固定实例中带来了最佳效率,但是在硬性非平稳性方面显示出令人惊讶的弹性,这会导致其他自适应算法失败。
translated by 谷歌翻译
许多复杂网络的结构包括其拓扑顶部的边缘方向性和权重。可以无缝考虑这些属性组合的网络分析是可取的。在本文中,我们研究了两个重要的这样的网络分析技术,即中心和聚类。采用信息流基于集群的模型,该模型本身就是在计算中心的信息定理措施时构建。我们的主要捐款包括马尔可夫熵中心的广义模型,灵活地调整节点度,边缘权重和方向的重要性,具有闭合形式的渐近分析。它导致一种新颖的两级图形聚类算法。中心分析有助于推理我们对给定图形的方法的适用性,并确定探索当地社区结构的“查询”节点,从而导致群集聚类机制。熵中心计算由我们的聚类算法摊销,使其计算得高效:与使用马尔可夫熵中心为聚类的先前方法相比,我们的实验表明了多个速度的速度。我们的聚类算法自然地继承了适应边缘方向性的灵活性,以及​​边缘权重和节点度之间的不同解释和相互作用。总的来说,本文不仅具有显着的理论和概念贡献,还转化为实际相关性的文物,产生新的,有效和可扩展的中心计算和图形聚类算法,其有效通过广泛的基准测试进行了验证。
translated by 谷歌翻译
社区检测是网络科学中最重要的方法领域之一,在过去的几十年里引起了大量关注的方法之一。该区域处理网络的自动部门到基础构建块中,目的是提供其大规模结构的概要。尽管它的重要性和广泛的采用普及,所谓的最先进和实际在各种领域实际使用的方法之间存在明显的差距。在这里,我们试图通过根据是否具有“描述性”或“推论”目标来划分现有方法来解决这种差异。虽然描述性方法在基于社区结构的直观概念的网络中找到模式的模式,但是推理方法阐述了精确的生成模型,并尝试将其符合数据。通过这种方式,他们能够为网络形成机制提供见解,并以统计证据支持的方式与随机性的单独结构。我们审查如何使用推论目标采用描述性方法被陷入困境和误导性答案,因此应该一般而言。我们认为推理方法更通常与更清晰的科学问题一致,产生更强大的结果,并且应该是一般的首选。我们试图消除一些神话和半真半假在实践中使用社区检测时,努力改善这些方法的使用以及对结果的解释。
translated by 谷歌翻译
我们研究动态算法,以便在$ N $插入和删除流中最大化单调子模块功能的问题。我们显示任何维护$(0.5+ epsilon)$ - 在基数约束下的近似解决方案的算法,对于任何常数$ \ epsilon> 0 $,必须具有$ \ mathit {polynomial} $的摊销查询复杂性$ n $。此外,需要线性摊销查询复杂性,以维持0.584美元 - 批量的解决方案。这与近期[LMNF + 20,MON20]的最近动态算法相比,达到$(0.5- \ epsilon)$ - 近似值,与$ \ mathsf {poly} \ log(n)$摊销查询复杂性。在正面,当流是仅插入的时候,我们在基数约束下的问题和近似的Matroid约束下提供有效的算法,近似保证$ 1-1 / e-\ epsilon $和摊销查询复杂性$ \ smash {o (\ log(k / \ epsilon)/ \ epsilon ^ 2)} $和$ \ smash {k ^ {\ tilde {o}(1 / \ epsilon ^ 2)} \ log n} $,其中$ k $表示基数参数或Matroid的等级。
translated by 谷歌翻译
在机器学习中最大化的是一项基本任务,在本文中,我们研究了经典的Matroid约束下的删除功能强大版本。在这里,目标是提取数据集的小尺寸摘要,即使在对手删除了一些元素之后,该数据集包含高价值独立集。我们提出了恒定因素近似算法,其空间复杂性取决于矩阵的等级$ k $和已删除元素的数字$ d $。在集中式设置中,我们提出$(4.597+o(\ varepsilon))$ - 近似算法,带有摘要大小$ o(\ frac {k+d} {\ varepsilon^2} \ log \ log \ frac \ frac {k} })$将$(3.582 + o(\ varepsilon))$(k + \ frac {d} {\ varepsilon^2} \ log \ frac {k} {k} {\ varepsilon}) $摘要大小是单调的。在流设置中,我们提供$(9.435 + o(\ varepsilon))$ - 带有摘要大小和内存$ o的近似算法$(k + \ frac {d} {\ varepsilon^2} \ log \ log \ frac {k} {k} {k} {k} {k} {k} { \ varepsilon})$;然后,将近似因子提高到单调盒中的$(5.582+o(\ varepsilon))$。
translated by 谷歌翻译
Pearl's Do Colculus是一种完整的公理方法,可以从观察数据中学习可识别的因果效应。如果无法识别这种效果,则有必要在系统中执行经常昂贵的干预措施以学习因果效应。在这项工作中,我们考虑了设计干预措施以最低成本来确定所需效果的问题。首先,我们证明了这个问题是NP-HARD,随后提出了一种可以找到最佳解或对数因子近似值的算法。这是通过在我们的问题和最小击球设置问题之间建立联系来完成的。此外,我们提出了几种多项式启发式算法来解决问题的计算复杂性。尽管这些算法可能会偶然发现亚最佳解决方案,但我们的模拟表明它们在随机图上产生了小的遗憾。
translated by 谷歌翻译
大多数在线平台都在努力从与用户的互动中学习,许多人从事探索:为了获取新信息而做出潜在的次优选择。我们研究探索与竞争之间的相互作用:这样的平台如何平衡学习探索和用户的竞争。在这里,用户扮演三个不同的角色:他们是产生收入的客户,他们是学习的数据来源,并且是自私的代理商,可以在竞争平台中进行选择。我们考虑了一种风格化的双重垄断模型,其中两家公司面临着相同的多军强盗问题。用户一一到达,并在两家公司之间进行选择,因此,只有在选择它的情况下,每个公司都在其强盗问题上取得进展。通过理论结果和数值模拟的混合,我们研究了竞争是否会激发更好的Bandit算法的采用,以及它是否导致用户增加福利。我们发现,Stark竞争会导致公司致力于导致低福利的“贪婪”强盗算法。但是,通过向公司提供一些“免费”用户来激励更好的探索策略并增加福利来削弱竞争。我们调查了削弱竞争的两个渠道:放松用户的理性并为一家公司带来首次推广优势。我们的发现与“竞争与创新”关系密切相关,并阐明了数字经济中的第一步优势。
translated by 谷歌翻译
我们提出了改进的算法,并为身份测试$ n $维分布的问题提供了统计和计算下限。在身份测试问题中,我们将作为输入作为显式分发$ \ mu $,$ \ varepsilon> 0 $,并访问对隐藏分布$ \ pi $的采样甲骨文。目标是区分两个分布$ \ mu $和$ \ pi $是相同的还是至少$ \ varepsilon $ -far分开。当仅从隐藏分布$ \ pi $中访问完整样本时,众所周知,可能需要许多样本,因此以前的作品已经研究了身份测试,并额外访问了各种有条件采样牙齿。我们在这里考虑一个明显弱的条件采样甲骨文,称为坐标Oracle,并在此新模型中提供了身份测试问题的相当完整的计算和统计表征。我们证明,如果一个称为熵的分析属性为可见分布$ \ mu $保留,那么对于任何使用$ \ tilde {o}(n/\ tilde {o}),有一个有效的身份测试算法Varepsilon)$查询坐标Oracle。熵的近似张力是一种经典的工具,用于证明马尔可夫链的最佳混合时间边界用于高维分布,并且最近通过光谱独立性为许多分布族建立了最佳的混合时间。我们将算法结果与匹配的$ \ omega(n/\ varepsilon)$统计下键进行匹配的算法结果补充,以供坐标Oracle下的查询数量。我们还证明了一个计算相变:对于$ \ {+1,-1,-1 \}^n $以上的稀疏抗抗铁磁性模型,在熵失败的近似张力失败的状态下,除非RP = np,否则没有有效的身份测试算法。
translated by 谷歌翻译
K-MEDIAN和K-MEACE是聚类算法的两个最受欢迎的目标。尽管有密集的努力,但对这些目标的近似性很好地了解,特别是在$ \ ell_p $ -metrics中,仍然是一个重大的开放问题。在本文中,我们在$ \ ell_p $ -metrics中显着提高了文献中已知的近似因素的硬度。我们介绍了一个名为Johnson覆盖假说(JCH)的新假设,这大致断言设定系统上的良好的Max K-Coverage问题难以近似于1-1 / e,即使是成员图形设置系统是Johnson图的子图。然后,我们展示了Cohen-Addad和Karthik引入的嵌入技术的概括(Focs'19),JCH意味着K-MEDIAN和K-MERION在$ \ ell_p $ -metrics中的近似结果的近似值的硬度为近距离对于一般指标获得的人。特别地,假设JCH我们表明很难近似K-Meator目标:$ \ Bullet $离散情况:$ \ ell_1 $ 3.94 - $ \ ell_2中的1.73因素为1.73倍$$ - 这分别在UGC下获得了1.56和1.17的先前因子。 $ \ bullet $持续案例:$ \ ell_1 $ 2210 - $ \ ell_2 $的$ \ ell_1 $ 210。$ \ ell_2 $-metric;这在UGC下获得的$ \ ell_2 $的$ \ ell_2 $的先前因子提高了1.07。对于K-Median目标,我们还获得了类似的改进。此外,我们使用Dinure等人的工作证明了JCH的弱版本。 (Sicomp'05)在超图顶点封面上,恢复Cohen-Addad和Karthik(Focs'19 Focs'19)上面的所有结果(近)相同的不可识别因素,但现在在标准的NP $ \ NEQ $ P假设下(代替UGC)。
translated by 谷歌翻译
在本文中,我们提出了一个自然的单个偏好(IP)稳定性的概念,该概念要求每个数据点平均更接近其自身集群中的点,而不是其他群集中的点。我们的概念可以从几个角度的动机,包括游戏理论和算法公平。我们研究了与我们提出的概念有关的几个问题。我们首先表明,确定给定数据集通常允许进行IP稳定的聚类通常是NP-HARD。结果,我们探索了在某些受限度量空间中查找IP稳定聚类的有效算法的设计。我们提出了一种poly Time算法,以在实际线路上找到满足精确IP稳定性的聚类,并有效地算法来找到针对树度量的IP稳定2聚类。我们还考虑放松稳定性约束,即,与其他任何集群相比,每个数据点都不应太远。在这种情况下,我们提供具有不同保证的多时间算法。我们在实际数据集上评估了一些算法和几种标准聚类方法。
translated by 谷歌翻译