In this paper, we study the \underline{R}obust \underline{o}ptimization for \underline{se}quence \underline{Net}worked \underline{s}ubmodular maximization (RoseNets) problem. We interweave the robust optimization with the sequence networked submodular maximization. The elements are connected by a directed acyclic graph and the objective function is not submodular on the elements but on the edges in the graph. Under such networked submodular scenario, the impact of removing an element from a sequence depends both on its position in the sequence and in the network. This makes the existing robust algorithms inapplicable. In this paper, we take the first step to study the RoseNets problem. We design a robust greedy algorithm, which is robust against the removal of an arbitrary subset of the selected elements. The approximation ratio of the algorithm depends both on the number of the removed elements and the network topology. We further conduct experiments on real applications of recommendation and link prediction. The experimental results demonstrate the effectiveness of the proposed algorithm.
translated by 谷歌翻译
在本文中,我们研究了经典的少量最大化问题,但在非自适应和适应性环境下都受到群体公平限制。已经表明,许多机器学习应用程序的效用函数,包括数据汇总,影响社交网络中的最大化和个性化建议,都满足了子义的属性。因此,在许多应用程序的核心中可以找到受到各种限制的最大化函数。在高水平上,少量最大化旨在选择一组大多数代表性项目(例如,数据点)。但是,大多数现有算法的设计并未包含公平的约束,从而导致某些特定组的不足或过分代表。这激发了我们研究公平的supsodular最大化问题,我们旨在选择一组项目,以最大化(可能是非单调的)suppodular效用功能,但要受群体公平约束。为此,我们为此问题开发了第一个常数因子近似算法。我们的算法的设计足够强大,可以扩展到更复杂的自适应设置下解决suppodular的最大化问题。此外,我们将研究进一步扩展到整合全球基础性约束。
translated by 谷歌翻译
在机器学习中最大化的是一项基本任务,在本文中,我们研究了经典的Matroid约束下的删除功能强大版本。在这里,目标是提取数据集的小尺寸摘要,即使在对手删除了一些元素之后,该数据集包含高价值独立集。我们提出了恒定因素近似算法,其空间复杂性取决于矩阵的等级$ k $和已删除元素的数字$ d $。在集中式设置中,我们提出$(4.597+o(\ varepsilon))$ - 近似算法,带有摘要大小$ o(\ frac {k+d} {\ varepsilon^2} \ log \ log \ frac \ frac {k} })$将$(3.582 + o(\ varepsilon))$(k + \ frac {d} {\ varepsilon^2} \ log \ frac {k} {k} {\ varepsilon}) $摘要大小是单调的。在流设置中,我们提供$(9.435 + o(\ varepsilon))$ - 带有摘要大小和内存$ o的近似算法$(k + \ frac {d} {\ varepsilon^2} \ log \ log \ frac {k} {k} {k} {k} {k} {k} { \ varepsilon})$;然后,将近似因子提高到单调盒中的$(5.582+o(\ varepsilon))$。
translated by 谷歌翻译
Models for the processes by which ideas and influence propagate through a social network have been studied in a number of domains, including the diffusion of medical and technological innovations, the sudden and widespread adoption of various strategies in game-theoretic settings, and the effects of "word of mouth" in the promotion of new products. Motivated by the design of viral marketing strategies, Domingos and Richardson posed a fundamental algorithmic problem for such social network processes: if we can try to convince a subset of individuals to adopt a new product or innovation, and the goal is to trigger a large cascade of further adoptions, which set of individuals should we target?We consider this problem in several of the most widely studied models in social network analysis. The optimization problem of selecting the most influential nodes is NP-hard here. The two conference papers upon which this article is based (KDD 2003 and ICALP 2005) provide the first provable approximation guarantees for efficient algorithms. Using an The present article is an expanded version of two conference papers [51,52], which appeared in KDD 2003 and ICALP 2005, respectively.
translated by 谷歌翻译
顺序决策问题的目的是设计一种自适应选择一组项目的交互式策略,每个选择都是基于过去的反馈,以最大程度地提高所选项目的预期效用。已经表明,许多现实世界应用的实用程序功能都是自适应的。但是,大多数关于自适应下调优化的现有研究都集中在平均案例上。不幸的是,在最糟糕的案例实现下,具有良好平均表现的政策可能表现较差。在这项研究中,我们建议研究两种自适应下调优化问题的变体,即最坏情况下的自适应下二一个最大化和鲁棒的下二一个最大化。第一个问题旨在找到一项最大化最坏情况的政策,后者旨在找到一项政策(如果有的话),同时可以同时实现接近最佳的平均效用和最差的效用。我们引入了一类新的随机函数,称为\ emph {worst-case subsodular函数}。对于最严重的自适应性次传导性最大化问题,但要受到$ p $系统约束的约束,我们制定了一种自适应的最坏情况贪婪的贪婪政策,该政策实现了$ \ frac {1} {p+1} $近似值案例实用程序如果效用函数是最差的子模型。对于稳健的自适应下调最大化问题,但受到基数约束(分区矩阵约束),如果效用函数既是最坏情况下的casase subsodular and Adaptive subsodular,否 - \ frac {1} {2}}} $(分别$ 1/3 $)在最坏情况下和平均案例设置下同时。我们还描述了我们的理论结果的几种应用,包括池碱积极学习,随机的下套装覆盖和自适应病毒营销。
translated by 谷歌翻译
对于最大化单调的问题,子模块功能相对于基数限制为$ K $ k $ k $ k $ $ n $ n $,我们提供了一种在其经验性能和其上实现最先进的算法理论属性,就适应性复杂性,查询复杂性和近似率而言;也就是说,它获得了高概率,查询复杂度$ O(n)$的期望,适应$ o(\ log(n))$,近似1-1 / e $的近似比。主要算法由可能是独立兴趣的两个组件组装。我们的算法的第一个组件LineArseq,可用作提高许多算法的查询复杂性的预处理算法。此外,LineArseq的变体显示为具有O $ O(n / k))$的自适应复杂性,其小于文献中的任何先前算法的自适应复杂性。第二组件是一个并行阈值处理过程阈值问题,用于添加具有高于恒定阈值的增益的元素。最后,我们展示了我们的主要算法在运行时,自适应轮次,总查询和客观值方面经验胜过,以前的最先进的算法,以六个子模块物理函数快速评估。
translated by 谷歌翻译
Evolutionary algorithms (EAs) are general-purpose optimization algorithms, inspired by natural evolution. Recent theoretical studies have shown that EAs can achieve good approximation guarantees for solving the problem classes of submodular optimization, which have a wide range of applications, such as maximum coverage, sparse regression, influence maximization, document summarization and sensor placement, just to name a few. Though they have provided some theoretical explanation for the general-purpose nature of EAs, the considered submodular objective functions are defined only over sets or multisets. To complement this line of research, this paper studies the problem class of maximizing monotone submodular functions over sequences, where the objective function depends on the order of items. We prove that for each kind of previously studied monotone submodular objective functions over sequences, i.e., prefix monotone submodular functions, weakly monotone and strongly submodular functions, and DAG monotone submodular functions, a simple multi-objective EA, i.e., GSEMO, can always reach or improve the best known approximation guarantee after running polynomial time in expectation. Note that these best-known approximation guarantees can be obtained only by different greedy-style algorithms before. Empirical studies on various applications, e.g., accomplishing tasks, maximizing information gain, search-and-tracking and recommender systems, show the excellent performance of the GSEMO.
translated by 谷歌翻译
我们研究在线交互式强盗设置中的非模块化功能。我们是受到某些元素之间自然互补性的应用程序的动机:这仅使用只能代表元素之间竞争力的下函数来表达这一点。我们通过两种方式扩展了纯粹的下二次方法。首先,我们假设该物镜可以分解为单调下模量和超模块函数的总和,称为BP物镜。在这里,互补性自然是由超模型成分建模的。我们开发了UCB风格的算法,在每一轮比赛中,在采取行动以平衡对未知目标(探索)和选择似乎有希望的行动(剥削)的行动之间揭示的嘈杂收益。根据全知识的贪婪基线来定义遗憾和超模块化曲率,我们表明该算法最多可以在$ o(\ sqrt {t})$ hore $ t $ t $ t $ the $ t $ t $ the $ t $ t $ the $ the。其次,对于那些不承认BP结构的功能,我们提供了类似的遗憾保证,从其表现比率角度来看。这适用于几乎但不完全是子模型的功能。我们在数值上研究了Movielens数据集上电影推荐的任务,并选择用于分类的培训子集。通过这些示例,我们证明了该算法的性能以及将这些问题视为单次生管的缺点。
translated by 谷歌翻译
多路径定向问题询问机器人团队的路径最大化收集的总奖励,同时满足路径长度上的预算约束。这个问题模拟了许多多机器人路由任务,例如探索未知的环境和环境监控信息。在本文中,我们专注于如何使机器人团队在对抗环境中运行时对故障的强大。我们介绍了强大的多路径定向事问题(RMOP),在那里我们寻求最糟糕的案例保证,反对能够在大多数$ \ Alpha $机器人处攻击的对手。我们考虑两个问题的两个版本:RMOP离线和RMOP在线。在离线版本中,当机器人执行其计划时,没有通信或重新扫描,我们的主要贡献是一种具有界限近似保证的一般近似方案,其取决于$ \ alpha $和单个机器人导向的近似因子。特别是,我们表明该算法在成本函数是模块化时产生(i)恒因子近似; (ii)在成本函数是子模具时,$ \ log $因子近似; (iii)当成本函数是子模块时的恒因子近似,但是允许机器人通过有界金额超过其路径预算。在在线版本中,RMOP被建模为双人顺序游戏,并基于蒙特卡罗树搜索(MCT),以后退地平线方式自适应解决。除了理论分析之外,我们还对海洋监测和隧道信息收集应用进行仿真研究,以证明我们的方法的功效。
translated by 谷歌翻译
在随着时间变化的组合环境中的在线决策激励,我们研究了将离线算法转换为其在线对应物的问题。我们专注于使用贪婪算法对局部错误的贪婪算法进行恒定因子近似的离线组合问题。对于此类问题,我们提供了一个通用框架,该框架可有效地将稳健的贪婪算法转换为使用Blackwell的易近算法。我们证明,在完整信息设置下,由此产生的在线算法具有$ O(\ sqrt {t})$(近似)遗憾。我们进一步介绍了Blackwell易接近性的强盗扩展,我们称之为Bandit Blackwell的可接近性。我们利用这一概念将贪婪的稳健离线算法转变为匪(t^{2/3})$(近似)$(近似)的遗憾。展示了我们框架的灵活性,我们将脱机之间的转换应用于收入管理,市场设计和在线优化的几个问题,包括在线平台中的产品排名优化,拍卖中的储备价格优化以及supperular tossodular最大化。 。我们还将还原扩展到连续优化的类似贪婪的一阶方法,例如用于最大化连续强的DR单调下调功能,这些功能受到凸约束的约束。我们表明,当应用于这些应用程序时,我们的转型会导致新的后悔界限或改善当前已知界限。我们通过为我们的两个应用进行数值模拟来补充我们的理论研究,在这两种应用中,我们都观察到,转换的数值性能在实际情况下优于理论保证。
translated by 谷歌翻译
典型的自适应顺序决策问题的目标是根据一些部分观察来设计一个交互策略,该策略根据一些部分观察来顺序选择一组项目,以最大化预期的实用程序。已经表明,许多实际应用的实用功能,包括基于汇集的主动学习和自适应影响最大化,满足自适应子骨科的特性。然而,大多数关于自适应子模块最大化的研究重点关注完全自适应设置,即,必须等待从\ emph {all}过去选择之前的反馈。虽然这种方法可以充分利用过去过去的反馈,但是与非自适应解决方案相比,完成选择过程可能需要更长的时间来完成选择过程,其中在任何观察发生之前发生所有选择。在本文中,我们探讨了部分自适应子模块最大化的问题,其中允许同时在批处理中进行多种选择并一起观察它们的实现。我们的方法享有适应性的好处,同时减少了从过去选择等待观察的时间。据我们所知,没有结果对于非单调自适应子膜最大化问题的部分适应性政策。我们在基数限制和背包约束下研究了这个问题,并对这两种情况制定了有效和高效的解决方案。我们还分析了批量查询复杂性,即策略所需的批量次数,以便在一些额外的假设下完成选择过程。
translated by 谷歌翻译
本文考虑了最近流行的超越最坏情况算法分析模型,其与在线算法设计集成了机器学习预测。我们在此模型中考虑在线Steiner树问题,用于指向和无向图。据了解施泰纳树在线设置中具有强大的下限,并且任何算法的最坏情况都远非可取。本文考虑了预测哪个终端在线到达的算法。预测可能是不正确的,并且算法的性能由错误预测的终端的数量进行参数化。这些保证确保算法通过具有良好预测的在线下限,并且随着预测误差的增长,竞争比率优雅地降低。然后,我们观察到该理论是预测将经验发生的事情。我们在终端从分发中绘制的图表中显示了终端,即使具有适度正确的预测,新的在线算法也具有很强的性能。
translated by 谷歌翻译
在大型和快速增长的数据上运行机器学习算法通常是计算昂贵的,减少数据集大小的一个常见技巧,从而降低了机器学习算法的计算成本,是\ EMPH {概率采样}。它通过从具有已知概率的原始数据集中的每个数据点包括来自原始数据的每个数据点来创建采样的数据集。虽然在减少数据集上运行机器学习算法的好处是显而易见的,但一个主要问题是,在使用完整数据集时,从样本获得的解决方案的性能可能比最佳解决方案的性能更差。在本文中,我们在自适应子骨析最大化的背景下检查由概率采样引起的性能损失。我们考虑一个简单的概率采样方法,它在[0,1] $中选择概率$ r \的每个数据点。如果我们设置采样率$ r = 1 $,我们的问题会减少基于原始完整数据集的解决方案。我们将采样间隙定义为从完整数据集获得的最佳解决方案之间的最大比率和从独立系统获得的样本获得的最佳解决方案。 %它捕获了由概率采样引起的最佳解决方案的性能损失。我们的主要贡献是表明,如果实用程序函数是policywise子模块,那么对于给定的采样率$ r $,采样差距是上限和下限的1美元/ r $。我们的结果立即含义是,如果我们可以基于采样的数据集找到$ \ alpha $-uppatimation解决方案(以$ r $以$ r $上采样),那么该解决方案实现了$ \ alpha r $近似率使用完整数据集时的最佳解决方案。
translated by 谷歌翻译
A diffusion auction is a market to sell commodities over a social network, where the challenge is to incentivize existing buyers to invite their neighbors in the network to join the market. Existing mechanisms have been designed to solve the challenge in various settings, aiming at desirable properties such as non-deficiency, incentive compatibility and social welfare maximization. Since the mechanisms are employed in dynamic networks with ever-changing structures, buyers could easily generate fake nodes in the network to manipulate the mechanisms for their own benefits, which is commonly known as the Sybil attack. We observe that strategic agents may gain an unfair advantage in existing mechanisms through such attacks. To resist this potential attack, we propose two diffusion auction mechanisms, the Sybil tax mechanism (STM) and the Sybil cluster mechanism (SCM), to achieve both Sybil-proofness and incentive compatibility in the single-item setting. Our proposal provides the first mechanisms to protect the interests of buyers against Sybil attacks with a mild sacrifice of social welfare and revenue.
translated by 谷歌翻译
信号处理和机器学习中的许多问题都可以正面被形式化为弱子模块优化任务。对于此类问题,保证了一种简单的贪婪算法(\ textsc {greedy}),以找到实现目标的解决方案,其中值不到1-e ^ { - 1 / c} $的最佳值,其中$ c $乘法弱潜水解度常数。由于查询大规模系统的高成本,在当代应用中,\ Textsc {贪婪}的复杂性变得令人望而却步。在这项工作中,我们研究了随机采样策略的绩效和复杂性之间的权衡,以减少\ textsc的查询复杂性{greedy}。具体而言,我们通过两个度量来量化统一采样策略对\ textsc {贪婪}的性能的影响:(i)识别最佳子集的概率,(ii)相对于最佳解决方案的次优。后者意味着具有固定采样尺寸的均匀采样策略实现了非平凡的近似因子;但是,我们表明,通过压倒性概率,这些方法无法找到最佳子集。我们的分析表明,通过连续增加搜索空间的大小,可以避免具有固定样本大小的均匀采样策略的失败。建立这种洞察力,我们提出了一种简单的渐进式随机贪婪算法,并研究其近似保证。此外,我们展示了提出的方法在维度减少应用中的提出方法以及用于聚类和对象跟踪的特征选择任务。
translated by 谷歌翻译
我们研究动态算法,以便在$ N $插入和删除流中最大化单调子模块功能的问题。我们显示任何维护$(0.5+ epsilon)$ - 在基数约束下的近似解决方案的算法,对于任何常数$ \ epsilon> 0 $,必须具有$ \ mathit {polynomial} $的摊销查询复杂性$ n $。此外,需要线性摊销查询复杂性,以维持0.584美元 - 批量的解决方案。这与近期[LMNF + 20,MON20]的最近动态算法相比,达到$(0.5- \ epsilon)$ - 近似值,与$ \ mathsf {poly} \ log(n)$摊销查询复杂性。在正面,当流是仅插入的时候,我们在基数约束下的问题和近似的Matroid约束下提供有效的算法,近似保证$ 1-1 / e-\ epsilon $和摊销查询复杂性$ \ smash {o (\ log(k / \ epsilon)/ \ epsilon ^ 2)} $和$ \ smash {k ^ {\ tilde {o}(1 / \ epsilon ^ 2)} \ log n} $,其中$ k $表示基数参数或Matroid的等级。
translated by 谷歌翻译
多样性最大化是数据汇总,Web搜索和推荐系统中广泛应用的基本问题。给定$ n $元素的$ x $元素,它要求选择一个$ k \ ll n $元素的子集$ s $,具有最大\ emph {多样性},这是由$ s $中元素之间的差异量化的。在本文中,我们关注流媒体环境中公平限制的多样性最大化问题。具体而言,我们考虑了最大值的多样性目标,该目标选择了一个子集$ s $,该子集$ s $最大化了其中任何一对不同元素之间的最小距离(不同)。假设集合$ x $通过某些敏感属性(例如性别或种族)将$ m $ discoint组分为$ m $ discoint组,确保\ emph {fairness}要求所选的子集$ s $包含每个组$ i的$ k_i $ e元素\在[1,m] $中。流算法应在一个通过中顺序处理$ x $,并返回具有最大\ emph {多样性}的子集,同时保证公平约束。尽管对多样性的最大化进行了广泛的研究,但唯一可以与最大值多样性目标和公平性约束的唯一已知算法对数据流非常低效。由于多样性最大化通常是NP-HARD,因此我们提出了两个在数据流中最大化的公平多样性的近似算法,其中第一个是$ \ frac {1- \ varepsilon} {4} {4} $ - 近似于$ m = 2 $,其中$ \ varepsilon \ in(0,1)$,第二个实现了$ \ frac {1- \ varepsilon} {3m+2} $ - 任意$ m $的近似值。现实世界和合成数据集的实验结果表明,两种算法都提供了与最新算法相当的质量解决方案,同时在流式设置中运行多个数量级。
translated by 谷歌翻译
已经研究了分层群集,并广泛使用作为数据分析的方法。最近,Dasgupta [2016]定义了精确的目标函数。给定一套$ n $数据点,每两个项目$ w_ {i,j} $ w_ {i,j} $ i和$ j $表示他们的相似性/ dive相似性,目标是建立递归(树)将数据点(项目)分区成连续较小的簇。他定义了一棵树$ t $的成本函数为$ compt(t)= \ sum_ {i,j \在[n]} \ big(w_ {i,j} \ times | t_ {i,j} | \大)$ where $ t_ {i,j} $是subtree植根于$ i $和$ j $最不常见的祖先,并呈现了这种聚类的第一个近似算法。然后Moseley和Wang [2017]考虑了Dasgupta的双重目标函数,以适应性的重量,并显示出随机分区和平均连锁有近似比1/3 $的近似值为1/3美元,这一系列工程为0.585 $ [Alon等al。 2020]。后来Cohen-Addad等。 [2019]认为与Dasgupta的客观函数相同,但对于基于不同的基于指标,称为$ Rev(T)$。结果表明,随机分区和平均连锁有2/3美元的比例仅为0.667078 $ 0.667078 $ [Charikar等人。 SODA2020]。我们的第一个主要结果是考虑$ Rev(T)$,并提出更精致的算法和仔细分析,实现近似值0.71604 $。我们还为基于异化的聚类介绍了一个新的目标函数。对于任何树$ t $,让$ h_ {i,j} $是$ i $和$ j $的常见祖先的数量。直观地,预计相似的项目将在尽可能深处留在同一群体内。因此,对于基于不同的指标,我们建议每棵树$ t $的成本,我们想要最小化,是$ cost_h(t)= \ sum_ {i,j \在[n]} \ big(w_ {我,j} \ times h_ {i,j} \ big)$。我们为此目标提供1.3977美元的价值。
translated by 谷歌翻译
最近的经验工作表明,即使所有广告商以非歧视性方式出价,在线广告也可以在用户交付广告时展示偏见。我们研究了广告拍卖的设计,鉴于公平的出价,保证有关展览会产生公平的结果。遵循DWORK和ILVENTO(2019)和CHAWLA等人的作品。 (2020年),我们的目标是设计一种真实的拍卖,这些拍卖会满足其结果的“个人公平”:非正式地说,相似彼此的用户应该获得类似的广告分配。在本框架内,我们量化了社会福利最大化和公平性之间的权衡。这项工作提出了两个概念贡献。首先,我们将公平约束表达为一种稳定条件:所有广告商的任何两个用户都分配了乘法相似的值,必须为每个广告商接受类似的相似分配。该值稳定性约束表示为函数,该函数将值向量之间的乘法距离映射到相应分配之间的最大允许$ \ {\ infty} $距离。标准拍卖不满足这种价值稳定性。其次,我们介绍了一个新的一类分配算法,称为反比例分配,实现公平和社会福利之间的近似最佳权衡,以实现广泛和表现力的价值稳定条件。这些分配算法是真实的,并且先前的,并且实现了最佳(无约会)社会福利的恒定因素近似。特别地,近似比与系统中的广告商的数量无关。在这方面,这些分配算法极大地超越了以前的工作中实现的保证。我们还将结果扩展到更广泛的公平概念,以至于我们称之为公平性。
translated by 谷歌翻译
我们研究了基于消费者的决策积极学习非参数选择模型的问题。我们提出一个负面结果,表明这种选择模型可能无法识别。为了克服可识别性问题,我们介绍了选择模型的有向无环图(DAG)表示,从某种意义上说,该模型可以捕获有关选择模型的更多信息,从而可以从理论上识别信息。然后,我们考虑在主动学习环境中学习与此DAG表示的近似的问题。我们设计了一种有效的主动学习算法,以估计非参数选择模型的DAG表示,该模型在多项式时间内运行时,当随机均匀地绘制频繁排名。我们的算法通过主动和反复提供各种项目并观察所选项目来了解最受欢迎的频繁偏好项目的分布。我们表明,与相应的非活动学习估计算法相比,我们的算法可以更好地恢复有关消费者偏好的合成和公开数据集的一组频繁偏好。这证明了我们的算法和主动学习方法的价值。
translated by 谷歌翻译