共同进化算法具有广泛的应用程序,例如硬件设计,棋盘游戏策略的演变以及修补软件错误。但是,这些算法知之甚少,并且应用通常受到病理行为的限制,例如梯度丧失,相对过度归纳化和平庸的客观性停滞。开发一种可以预测共同进化算法有效和可靠的解决方案的理论是一个开放的挑战。本文为开发基于人群的竞争共同进化算法的运行时分析提供了第一步。我们提供了一个数学框架,用于描述和推理共同进化过程的性能。框架的示例应用显示了一个方案,其中简单的共同进化算法在多项式预期时间中获得了解决方案。最后,我们描述了共同进化算法需要指数时间的设置,并以压倒性的高可能性获得解决方案。
translated by 谷歌翻译
在进化计算中使用非豁免主义时的一个希望是放弃当前最佳解决方案的能力,艾滋病们离开本地最佳效果。为了提高我们对这种机制的理解,我们对基本的非精英进化算法(EA),$(\ mu,\ lambda)$ ea进行严格的运行时分析,在最基本的基准函数上,具有本地最佳的基本基准函数跳跃功能。我们证明,对于参数和问题的所有合理值,$(\ mu,\ lambda)$ ~ea的预期运行时间除了下订单条款之外,至少与其Elitist对应的预期运行时间,$(\ mu + \ lambda)$〜ea(我们对跳转功能进行第一个运行时分析以允许此比较)。因此,$(\ mu,\ lambda)$ ~ea将本地最优方式留给劣质解决方案的能力不会导致运行时优势。我们补充了这个下限的下限,即对于参数的广泛范围,与我们的下限不同,与下顺序不同。这是一个在多模态问题上的非精英算法的第一个运行时结果,除了下订单术语。
translated by 谷歌翻译
进化算法(EAS)是通用优化仪,其具有父母和后代群体的大小或突变率。众所周知,EAS的性能可能在这些参数上急剧上依赖。最近的理论研究表明,自调节参数控制机制在算法运行期间调整参数的调节参数可以在离散问题上可被显着优于最佳静态参数。然而,大多数这些研究有关的Elitist EAB,我们没有明确的答案,以及是否可以申请非Elitist EA。我们研究了一个最着名的参数控制机制,第五个成功规则,控制后代人口尺寸$ \ lambda $ \ llambda $ ea。众所周知,$(1,\ lambda)$ ea有一个尖锐的阈值,关于$ \ lambda $的选择,其中基准函数的预期运行时间onemax从多项式变为指数时间。因此,目前尚不清楚参数控制机制是否能够找到和维护$ \ lambda $的合适值。对于OneMax,我们表明答案是至关重要的,这取决于成功率$ s $(即一+ 1)美元成功规则)。我们证明,如果成功率适当小,则自我调整$(1,\ Lambda)$ EA优化ONEMAX以美元(n)$预期的几代人和$ O(n \ log n)$预期评估任何一元无偏见的黑匣子算法最好的运行时。一个小的成功率至关重要:我们还表明,如果成功率太大,则该算法对onemax具有指数运行计划和具有相似特征的其他功能。
translated by 谷歌翻译
第五个成功规则是控制进化算法参数的最着名和最广泛接受的技术之一。虽然它经常在字面意义上应用,但一个共同的解释将五分之一的成功规则视为一系列基于成功的更新规则,这些规则由更新强度$ F $和成功率决定。在这方面,我们分析了(1 + 1)进化算法在领导者上的性能取决于这两个超参数。我们的主要结果表明,为小型更新优势获得最佳性能$ f = 1 + o(1)$和成功率$ 1 / e $。我们还证明,除了下订单术语之外,通过该参数设置获得的运行时间,通过最佳的健身依赖率实现的相同。我们对(1 + 1)进化算法的重新采样变体显示了类似的结果,该算法强制实施每次迭代至少一位。
translated by 谷歌翻译
跳跃功能是随机搜索启发式理论中的{最多研究的非单峰基准,特别是进化算法(EA)。他们对我们的理解显着改善了EASE逃离当地最优的理解。然而,他们的特殊结构 - 离开本地最佳的结构只能直接跳到全球最优 - 引发代表性这种结果的问题。出于这个原因,我们提出了一个扩展的$ \ textsc {jump} _ {k,\ delta} $ jump函数,其中包含宽度$ \ delta $的低适合度vally以距离$ k $从全局最佳v $开始。我们证明了几个以前的结果延伸到这一更普遍的类:对于所有{$ k \ le \ frac {n ^ {1/3}} {\ ln {n}} $}和$ \ delta <k $,最佳$(1 + 1)$〜EA的突变率是$ \ FRAC {\ delta} $,并且快速$(1 + 1)$〜EA运行比经典$(1 + 1)$更快〜ea在$ \ delta $中的一个超级指数。但是,我们还观察到一些已知结果不概括:随机本地搜索算法具有停滞检测,其比$ \ textsc的$ k $ k $ k $ k $ k $ k $ k $ x $ \ textsc {跳} _K $,在某些$ \ textsc {jump} _ {k,\ delta} $实例上以$ n $的因子多项式慢。计算地,新类允许使用更宽的健身谷的实验,特别是当它们远离全球最佳时。
translated by 谷歌翻译
为了更好地了解进化算法(EAS)如何应对恒定健身的平台的理论理解,我们提出了$ N $ -dimensional高原$ _K $函数作为天然基准,分析$(1 + 1)$的不同变体EA优化它。高原$ _K $函数在最佳的半径k $的半径k $的第二个最佳健身高原。作为进化算法,我们使用任意无偏的突变算子以$(1 + 1)$ EA。用$ \ alpha $ \ alpha $ \ alpha的随机数量在这个运算符的应用中,并假设$ \ pr [\ alpha = 1] $至少具有一些小的子常值,我们展示了所有常量的令人惊讶的结果$ k \ ge 2 $,运行时$ t $遵循靠近几何一个的分布,其中成功概率等于翻转的概率为1 $和$ k $ bits除以高原的大小。因此,预期的运行时是该号码的倒数,因此只取决于翻转1美元和$ k $位之间的概率,而不是突变运算符的其他特征。我们的结果也意味着这里标准位突变的最佳突变率约为k /(en)$。我们的主要分析工具是在搜索点空间和汉明级空间上的马尔可夫链的综合分析,这是一种对其他高原问题也有用的方法。
translated by 谷歌翻译
$(1 +(\ lambda,\ lambda))$遗传算法是一种较年轻的进化算法,试图从劣质解决方案中获利。关于单峰的健身功能的严格运行时分析表明它确实可以比古典进化算法更快,但在这些简单的问题上,收益只有中等。在这项工作中,我们在多模式问题类中进行了该算法的第一个运行时分析,跳跃功能基准。我们展示了使用正确的参数,\ ollga优化任何跳跃尺寸$ 2 \ Le K \ Le N / 4 $的任何跳跃功能,在预期的时间$ O(n ^ {(k + 1)/ 2} e ^ {o( k)}} k ^ { - k / 2}),它显着且已经持续了〜$ k $优于基于标准的突变的算法与他们的$ \ theta(n ^ k)$运行时与它们的标准交叉的算法$ \ tilde {o}(n ^ {k-1})$运行时保证。对于离开局部跳跃功能的局部最佳的孤立问题,我们确定了导致$(n / k)^ {k / 2} e ^ {\ theta(k)} $的运行时间的最佳参数。这表明有关如何设置\ ollga的参数的一般建议,这可能会缓解该算法的进一步使用。
translated by 谷歌翻译
In noisy evolutionary optimization, sampling is a common strategy to deal with noise. By the sampling strategy, the fitness of a solution is evaluated multiple times (called \emph{sample size}) independently, and its true fitness is then approximated by the average of these evaluations. Most previous studies on sampling are empirical, and the few theoretical studies mainly showed the effectiveness of sampling with a sufficiently large sample size. In this paper, we theoretically examine what strategies can work when sampling with any fixed sample size fails. By constructing a family of artificial noisy examples, we prove that sampling is always ineffective, while using parent or offspring populations can be helpful on some examples. We also construct an artificial noisy example to show that when using neither sampling nor populations is effective, a tailored adaptive sampling (i.e., sampling with an adaptive sample size) strategy can work. These findings may enhance our understanding of sampling to some extent, but future work is required to validate them in natural situations.
translated by 谷歌翻译
线性函数在进化算法的运行时分析中起关键作用,研究为分析进化计算方法提供了广泛的新见解和技术。通过对可分离功能的研究和进化算法的优化行为以及来自机会约束优化领域的目标函数的优化行为,我们研究了两个转换线性函数的加权总和的目标函数类别。我们的结果表明,(1+1)EA的突变速率取决于功能的重叠位数,在预期时间O(n log n)中为这些函数获得了最佳解决方案,从而推广了一个众所周知的。线性函数的结果范围更广泛。
translated by 谷歌翻译
进化算法的运行时间分析最近在将算法性能与算法参数联系起来方面取得了重大进展。但是,研究问题参数的影响的设置很少见。最近提出的W模型为此类分析提供了一个良好的框架,从而生成了具有可调属性的伪树状优化问题。我们通过研究其一种特性(中立性)如何影响随机局部搜索的运行时间来启动W模型的理论研究。中立性通过首先对解决方案候选者的子集进行多数投票,然后通过低级健身函数评估较小维的字符串,从而在搜索空间中创建高原。我们证明,对于此大多数问题,在其整个参数频谱上,随机局部搜索的预期运行时间是上限。为此,我们提供了一个适用于许多优化算法的定理,该定理将多数的运行时间与其对称版本hasmajority联系起来,其中需要足够多数来优化子集。我们还介绍了经典漂移定理的广义版本以及Wald方程的广义版本,我们认为这两个都具有独立的兴趣。
translated by 谷歌翻译
我们研究了小组测试问题,其目标是根据合并测试的结果,确定一组k感染的人,这些k含有稀有疾病,这些人在经过测试中至少有一个受感染的个体时返回阳性的结果。团体。我们考虑将个人分配给测试的两个不同的简单随机过程:恒定柱设计和伯努利设计。我们的第一组结果涉及基本统计限制。对于恒定柱设计,我们给出了一个新的信息理论下限,这意味着正确识别的感染者的比例在测试数量越过特定阈值时会经历急剧的“全或全或无所不包”的相变。对于Bernoulli设计,我们确定解决相关检测问题所需的确切测试数量(目的是区分小组测试实例和纯噪声),改善Truong,Aldridge和Scarlett的上限和下限(2020)。对于两个小组测试模型,我们还研究了计算有效(多项式时间)推理程序的能力。我们确定了解决检测问题的低度多项式算法所需的精确测试数量。这为在少量稀疏度的检测和恢复问题中都存在固有的计算统计差距提供了证据。值得注意的是,我们的证据与Iliopoulos和Zadik(2021)相反,后者预测了Bernoulli设计中没有计算统计差距。
translated by 谷歌翻译
非主导的分类遗传算法II(NSGA-II)是现实应用中最强烈使用的多目标进化算法(MOEA)。然而,与几个通过数学手段分析的几个简单的MOES相反,到目前为止,NSGA-II也不存在这种研究。在这项工作中,我们表明,数学运行时分析也可用于NSGA-II。结果,我们证明,由于持续因素大于帕累托前方大小的人口大小,具有两个经典突变算子的NSGA-II和三种不同的选择父母的方式满足与Semo和GSEMO相同的渐近运行时保证基本ineminmax和Lotz基准函数的算法。但是,如果人口大小仅等于帕累托前面的大小,那么NSGA-II就无法有效地计算完整的帕累托前部(对于指数迭代,人口总是错过帕累托前部的恒定分数) 。我们的实验证实了上述研究结果。
translated by 谷歌翻译
由于NSGA-II的种群动态更为复杂,因此该算法的现有运行时保证都没有伴随着非平凡的下限。通过对NSGA-II人口动态的首次数学理解,即通过估计具有一定客观价值的个体的预期数量,我们证明具有合适人口大小的NSGA-II需要$ \ omega(nn \ log) n)$函数评估,以找到Oneminmax问题的帕累托正面和$ \ omega(nn^k)$评估,$ jumpzerojump问题与跳跃尺寸$ k $。这些界限在渐近上(即,它们匹配先前显示的上限),并表明这里的NSGA-II甚至在平行运行时(迭代次数)中也没有从较大的人口大小中的利润。对于OneJumpZeroJump问题,当使用相同的排序用于计算两个目标的拥挤距离贡献时,我们甚至获得了一个紧张的运行时估计,其中包括领导常数。
translated by 谷歌翻译
大多数进化算法具有多个参数,它们的值大大影响性能。由于参数的常复相互作用,将这些值设置为特定问题(参数调整)是一个具有挑战性的任务。当最佳参数值在算法运行期间最佳参数值发生显着变化时,此任务变得更加复杂。然后是必要的动态参数选择(参数控制)。在这项工作中,我们提出了一个懒惰但有效的解决方案,即从一个适当缩放的幂律分布中随机地选择所有参数值(在那里这是有意义的)。为了展示这种方法的有效性,我们使用以这种方式选择的所有三个参数执行$(1 +(\ lambda,\ lambda))$遗传算法的运行时分析。我们展示该算法一方面可以模仿像$(1 + 1)$ EA这样的简单山羊,给出了onemax,领导者或最小生成树等问题的相同渐近运行时。另一方面,该算法对跳跃功能也非常有效,其中最佳静态参数与优化简单问题所需的静态参数非常不同。我们证明了具有可比性的性能保证,有时比静态参数所知的最佳性能更好。我们通过严格的实证研究来补充我们的理论结果,证实了渐近运行时期结果的建议。
translated by 谷歌翻译
In many real-world optimization problems, the objective function evaluation is subject to noise, and we cannot obtain the exact objective value. Evolutionary algorithms (EAs), a type of general-purpose randomized optimization algorithm, have been shown to be able to solve noisy optimization problems well. However, previous theoretical analyses of EAs mainly focused on noise-free optimization, which makes the theoretical understanding largely insufficient for the noisy case. Meanwhile, the few existing theoretical studies under noise often considered the one-bit noise model, which flips a randomly chosen bit of a solution before evaluation; while in many realistic applications, several bits of a solution can be changed simultaneously. In this paper, we study a natural extension of one-bit noise, the bit-wise noise model, which independently flips each bit of a solution with some probability. We analyze the running time of the (1+1)-EA solving OneMax and LeadingOnes under bit-wise noise for the first time, and derive the ranges of the noise level for polynomial and super-polynomial running time bounds. The analysis on LeadingOnes under bit-wise noise can be easily transferred to one-bit noise, and improves the previously known results. Since our analysis discloses that the (1+1)-EA can be efficient only under low noise levels, we also study whether the sampling strategy can bring robustness to noise. We prove that using sampling can significantly increase the largest noise level allowing a polynomial running time, that is, sampling is robust to noise.
translated by 谷歌翻译
部分可观察到的马尔可夫决策过程(POMDPS)是加强学习的自然和一般模型,以考虑到代理人对其当前国家的不确定性。在POMDPS的文献中,习惯性地假设在已知参数时计算最佳策略的规划Oracle,即使已知问题是计算的。几乎所有现有的规划算法都在指数时间内运行,缺乏可证明的性能保证,或者需要在每个可能的政策下对转换动态进行强烈的假设。在这项工作中,我们重新审视了规划问题并问:是否有自然和积极的假设,使计划变得容易?我们的主要结果是用于规划(一步)可观察POMDPS的QuasioInomial-time算法。具体而言,我们假设各国的分离良好的分布导致分开的观察分布,因此观察结果在每一步中至少有一些信息。至关重要的是,这个假设没有对POMDP的过渡动态的限制;尽管如此,它意味着近乎最佳的政策承认准简洁的描述,这通常不是真实的(在标准的硬度假设下)。我们的分析基于滤波器稳定性的新定量界限 - 即潜在状态的最佳滤波器的速率忘记其初始化。此外,在指数时间假设下,我们证明了在可观察POMDPS中规划的匹配硬度。
translated by 谷歌翻译
我们建立了量子算法设计与电路下限之间的第一一般连接。具体来说,让$ \ mathfrak {c} $是一类多项式大小概念,假设$ \ mathfrak {c} $可以在统一分布下的成员查询,错误$ 1/2 - \ gamma $通过时间$ t $量子算法。我们证明如果$ \ gamma ^ 2 \ cdot t \ ll 2 ^ n / n $,则$ \ mathsf {bqe} \ nsubseteq \ mathfrak {c} $,其中$ \ mathsf {bqe} = \ mathsf {bque} [2 ^ {o(n)}] $是$ \ mathsf {bqp} $的指数时间模拟。在$ \ gamma $和$ t $中,此结果是最佳的,因为它不难学习(经典)时间$ t = 2 ^ n $(没有错误) ,或在Quantum Time $ t = \ mathsf {poly}(n)$以傅立叶采样为单位为1/2美元(2 ^ { - n / 2})$。换句话说,即使对这些通用学习算法的边际改善也会导致复杂性理论的主要后果。我们的证明在学习理论,伪随机性和计算复杂性的几个作品上构建,并且至关重要地,在非凡的经典学习算法与由Oliveira和Santhanam建立的电路下限之间的联系(CCC 2017)。扩展他们对量子学习算法的方法,结果产生了重大挑战。为此,我们展示了伪随机发电机如何以通用方式意味着学习到较低的连接,构建针对均匀量子计算的第一个条件伪随机发生器,并扩展了Impagliazzo,JaiSwal的本地列表解码算法。 ,Kabanets和Wigderson(Sicomp 2010)通过微妙的分析到量子电路。我们认为,这些贡献是独立的兴趣,可能会发现其他申请。
translated by 谷歌翻译
分布算法(EDA)是优化算法,在搜索空间上学习分布,可以轻松地采样良好的解决方案。大多数EDA的关键参数是样本量(人口尺寸)。如果人口规模太小,则概率模型的更新基于很少的样本,从而导致遗传漂移的不期望效应。人口太大避免了遗传漂移,但减慢了这一过程。基于对种群规模如何导致遗传漂移的最新定量分析,我们为EDA设计了一种智能的正式机制。通过停止运行,当遗传漂移的风险很高时,它会自动以良好的参数状态运行EDA。通过数学运行时分析,我们证明了此智能总结方案的一般性能保证。这特别表明,在许多情况下,已知最佳(特定问题)参数值,重新启动方案会自动找到这些,从而导致渐近最佳性能。我们还进行了广泛的实验分析。在四个经典的基准问题上,我们清楚地观察了人口规模对性能的关键影响,并且我们发现智能重点方案会导致具有最佳参数值可获得的性能。我们的结果还表明,先前基于理论的最佳人口规模的建议远非最佳群体,从而导致表现明显不如通过智能重点方案获得的表现。我们还对文献,最大切割问题和两部分问题的两个组合优化问题进行了PBIL(跨熵算法)进行实验。同样,我们观察到,智能设施的机制比文献中建议的人口规模更高,从而导致表现更好。
translated by 谷歌翻译
Learning problems form an important category of computational tasks that generalizes many of the computations researchers apply to large real-life data sets. We ask: what concept classes can be learned privately, namely, by an algorithm whose output does not depend too heavily on any one input or specific training example? More precisely, we investigate learning algorithms that satisfy differential privacy, a notion that provides strong confidentiality guarantees in contexts where aggregate information is released about a database containing sensitive information about individuals.Our goal is a broad understanding of the resources required for private learning in terms of samples, computation time, and interaction. We demonstrate that, ignoring computational constraints, it is possible to privately agnostically learn any concept class using a sample size approximately logarithmic in the cardinality of the concept class. Therefore, almost anything learnable is learnable privately: specifically, if a concept class is learnable by a (non-private) algorithm with polynomial sample complexity and output size, then it can be learned privately using a polynomial number of samples. We also present a computationally efficient private PAC learner for the class of parity functions. This result dispels the similarity between learning with noise and private learning (both must be robust to small changes in inputs), since parity is thought to be very hard to learn given random classification noise.Local (or randomized response) algorithms are a practical class of private algorithms that have received extensive investigation. We provide a precise characterization of local private learning algorithms. We show that a concept class is learnable by a local algorithm if and only if it is learnable in the statistical query (SQ) model. Therefore, for local private learning algorithms, the similarity to learning with noise is stronger: local learning is equivalent to SQ learning, and SQ algorithms include most known noise-tolerant learning algorithms. Finally, we present a separation between the power of interactive and noninteractive local learning algorithms. Because of the equivalence to SQ learning, this result also separates adaptive and nonadaptive SQ learning.
translated by 谷歌翻译
在随机子集总和问题中,给定$ n $ i.i.d.随机变量$ x_1,...,x_n $,我们希望将[-1,1] $ in [-1,1] $的任何点$ z \作为合适子集的总和$ x_ {i_1(z)},...,x_ {i_s(z)} $的$,最多$ \ varepsilon $。尽管有简单的陈述,但这个问题还是理论计算机科学和统计力学的基本兴趣。最近,它因其在人工神经网络理论中的影响而引起了人们的重新关注。该问题的一个明显的多维概括是考虑$ n $ i.i.d. \ $ d $ - 二维随机向量,目的是近似于[-1,1]^d $的每个点$ \ Mathbf {z} \。令人惊讶的是,在Lueker的1998年证明,在一维设置中,$ n = o(\ log \ frac 1 \ varepsilon)$ samples $ samples $ samples具有很高可能性的近似属性,在实现上述概括方面几乎没有进展。在这项工作中,我们证明,在$ d $ dimensions中,$ n = o(d^3 \ log \ frac 1 \ varepsilon \ cdot(\ log \ frac 1 \ frac 1 \ varepsilon + log d d))$ samples $ sample近似属性具有很高的概率。作为强调该结果潜在兴趣的应用程序,我们证明了最近提出的神经网络模型表现出\ emph {通用}:具有很高的概率,该模型可以在参数数量中近似多项式开销中的任何神经网络。
translated by 谷歌翻译