本文考虑了在线配置器通常使用的一组替代方案中学习用户偏好的任务。在许多设置中,学习者在过去的互动过程中只有一组选定的替代方案。Fargier等。[2018]提出了一种在这种环境中学习用户偏好模型的方法,该模型对先前选择的替代方案进行了排名尽可能高;以及在这种情况下学习的算法,是一种特定的偏好模型:词典偏好树(LP-Trees)。在本文中,我们研究了与这种方法相关的复杂性理论问题。我们对学习LP-Tree的样本复杂性给出了上限,这在属性数量上是对数。我们还证明,计算最小化经验风险的LP树当仅限于线性LP-Trees的类别时,可以在多项式时间内完成。
translated by 谷歌翻译
我们研究了基于消费者的决策积极学习非参数选择模型的问题。我们提出一个负面结果,表明这种选择模型可能无法识别。为了克服可识别性问题,我们介绍了选择模型的有向无环图(DAG)表示,从某种意义上说,该模型可以捕获有关选择模型的更多信息,从而可以从理论上识别信息。然后,我们考虑在主动学习环境中学习与此DAG表示的近似的问题。我们设计了一种有效的主动学习算法,以估计非参数选择模型的DAG表示,该模型在多项式时间内运行时,当随机均匀地绘制频繁排名。我们的算法通过主动和反复提供各种项目并观察所选项目来了解最受欢迎的频繁偏好项目的分布。我们表明,与相应的非活动学习估计算法相比,我们的算法可以更好地恢复有关消费者偏好的合成和公开数据集的一组频繁偏好。这证明了我们的算法和主动学习方法的价值。
translated by 谷歌翻译
推荐系统是帮助用户以个性化方式找到信息过载的兴趣项目,使用关于各用户的需求和偏好的知识。在会话推荐方法中,这些需求和偏好由系统中的交互式多匝对话框中的。文献中的一种常见方法来驱动这些对话框是逐步向用户逐步询问他们关于期望和不期望的项目特征或关于单个项目的偏好。在这种情况下,在该上下文中的核心研究目标是效率,在找到令人满意的项目之前对所需交互的数量进行评估。这通常是通过对向用户询问的最佳下一个问题的推断来实现。如今,对对话效率的研究几乎完全是经验的,旨在说明,例如,选择问题的一个策略优于给定的应用程序中的另一个策略。通过这项工作,我们将实证研究补充了理论,域名的对话建议的独立模型。该模型旨在涵盖一系列应用方案,使我们能够以正式的方式调查会话方法的效率,特别是关于设计最佳相互作用策略的计算复杂性。通过如此理论分析,我们表明,找到高效的会话策略是NP - 硬,并且在PSPace中,但对于特定类型的目录,上限降低到Polylogspace。从实际的角度来看,该结果意味着目录特征可以强烈影响个人对话策略的效率,因此在设计新策略时应考虑。从真实世界派生的数据集的初步实证分析与我们的研究结果对齐。
translated by 谷歌翻译
标签排名(LR)对应于学习一个假设的问题,以通过有限一组标签将功能映射到排名。我们采用了对LR的非参数回归方法,并获得了这一基本实际问题的理论绩效保障。我们在无噪声和嘈杂的非参数回归设置中介绍了一个用于标签排名的生成模型,并为两种情况下提供学习算法的示例复杂性界限。在无噪声环境中,我们研究了全排序的LR问题,并在高维制度中使用决策树和随机林提供计算有效的算法。在嘈杂的环境中,我们考虑使用统计观点的不完整和部分排名的LR更通用的情况,并使用多种多组分类的一种方法获得样本复杂性范围。最后,我们与实验补充了我们的理论贡献,旨在了解输入回归噪声如何影响观察到的输出。
translated by 谷歌翻译
本文致力于一种谨慎的学习方法,用于预测以二进制属性为特征的替代方案(正式,每个替代方案都被视为属性的子集)。通过“谨慎”,我们的意思是,该模型学会了代表多属性偏好的概括足以与替代方案的任何严格的弱顺序兼容,并且我们允许我们自己不预测某些偏好,如果收集到的数据不兼容具有可靠的预测。如果所有最简单的模型(遵循OCCAM的剃须刀原理)解释培训数据一致,则预测的偏好将被认为是可靠的。预测基于替代方案之间的序数优势关系[Fishburn和Lavalle,1996]。优势关系依赖于不确定性集,该设置包含多属性实用程序函数参数的可能值。提供数值测试以评估所做预测的丰富性和可靠性。
translated by 谷歌翻译
我们介绍了一种解释各种线性和分层多标准决策(MCDM)技术(例如WSM和AHP)的结果。这两个关键思想是(a)维持这些技术操纵的值的细粒度表示,以及(b)通过合并,过滤和汇总操作从这些表示形式中得出解释。我们模型中的一个解释对MCDM问题中的两种替代方案进行了高级比较,大概是一个最佳和非最佳选择,这阐明了为什么一种选择比另一个选择更优于另一个替代方案。我们通过为MCDM文献中的两个众所周知的示例生成解释来展示我们的技术的有用性。最后,我们通过执行计算实验来显示它们的功效。
translated by 谷歌翻译
我们为保留部分顺序的部分有序数据的基于相似性的分层群集提供了一个目标函数。也就是说,如果$ x \ le y $,如果$ [x] $和$ [y] $是$ x $和$ y $的相应群集,那么有一个订单关系$ \ LE' $群集$ [x] \ Le'| Y] $。该理论将本身与现有的理论区分开了用于统称有序数据的理论,因为顺序关系和相似性被组合成双目标优化问题,以获得寻求满足两者的分层聚类。特别地,顺序关系在$ [0,1] $的范围内加权,如果相似性和顺序关系未对齐,则订单保存可能必须屈服于群集。找到最佳解决方案是NP-HARD,因此我们提供多项式时间近似算法,具有$ O \左的相对性能保证(\ log ^ {3/2} \!\!\,n \右)$ ,基于定向稀疏性切割的连续应用。我们在基准数据集中提供了演示,显示我们的方法优于具有重要边距的顺序保留分层聚类的现有方法。该理论是划分分层聚类的Dasgupta成本函数的扩展。
translated by 谷歌翻译
在许多在线决策过程中,要求优化代理在具有许多固有相似之处的大量替代方案之间进行选择。反过来,这些相似性意味着可能会混淆标准离散选择模型和匪徒算法的损失。我们在嵌套土匪的背景下研究了这个问题,这是一类对抗性的多臂匪徒问题,学习者试图在存在大量不同的替代方案的情况下最小化他们的遗憾,并具有嵌入式(非组合)相似性的层次结构。在这种情况下,基于指数级的蓝图(例如树篱,EXP3及其变体)的最佳算法可能会产生巨大的遗憾,因为它们倾向于花费过多的时间来探索与相似,次优成本的无关紧要的替代方案。为此,我们提出了一种嵌套的指数权重(新)算法,该算法根据嵌套的,分步选择方法对学习者的替代方案进行分层探索。这样一来,我们就获得了一系列紧密的界限,以表明学习者可以有效地解决与替代方案之间高度相似性的在线学习问题,而不会发生红色的巴士 /蓝色巴士悖论。
translated by 谷歌翻译
我们提供了一个新的双标准$ \ tilde {o}(\ log ^ 2 k)$竞争算法,可解释$ k $ -means群集。最近解释了$ k $ -means最近由Dasgupta,Frost,Moshkovitz和Rashtchian(ICML 2020)引入。它由易于解释和理解(阈值)决策树或图表描述。可解释的$ k $ -means集群的成本等于其集群成本的总和;每个群集的成本等于从群集中点到该群集的中心的平方距离之和。我们的随机双标准算法构造了一个阈值决策树,将数据设置为$(1+ \ delta)k $群集(其中$ \ delta \ In(0,1)$是算法的参数)。此群集的成本是大多数$ \ tilde {o}(1 / \ delta \ cdot \ log ^ 2 k)$乘以最佳不受约束$ k $ -means群集的成本。我们表明这一界限几乎是最佳的。
translated by 谷歌翻译
决策树是流行的分类模型,提供了很高的准确性和直观的解释。但是,随着树大小的生长,模型的解释性会恶化。传统的树木诱导算法(例如C4.5和推车)依赖于减少杂质的功能,这些功能可以促进每次分裂的判别能力。因此,尽管这些传统方法在实践中是准确的,但没有理论上保证它们会生产小树。在本文中,我们通过证明简单的增强能够为它们提供复杂性保证的情况,证明使用了普通杂质功能的普通家族,包括熵和Gini Index的流行功能。我们考虑一个通用设置,其中要分类的对象是从任意概率分布中绘制的,分类可以是二进制或多类,并且分裂测试与非均匀成本相关联。作为树木复杂性的衡量标准,我们采用了预期的成本来分类从输入分布中得出的对象,在统一成本的情况下,该对象是预期的测试数量。我们提出了一种树诱导算法,该算法在树复杂性上提供对数近似保证。在温和的假设下,该近似因素紧密到恒定因子。该算法递归选择了一个测试,该测试最大化贪婪的标准定义为三个组件的加权总和。前两个组件鼓励选择分别提高树木平衡和成本效益的测试,而第三个杂质减少组件则鼓励选择更具判别性的测试。如我们的经验评估所示,与原始的启发式方法相比,增强算法在预测准确性和树木复杂性之间取得了良好的平衡。
translated by 谷歌翻译
决策树学习是机器学习中广泛使用的方法,在需要简洁明了的模型的应用中受到青睐。传统上,启发式方法用于快速生产具有相当高准确性的模型。然而,一个普遍的批评是,从精度和大小方面,所产生的树可能不一定是数据的最佳表示。近年来,这激发了最佳分类树算法的发展,这些算法与执行一系列本地最佳决策的启发式方法相比,在全球范围内优化决策树。我们遵循这一工作线,并提供了一种基于动态编程和搜索的最佳分类树的新颖算法。我们的算法支持对树的深度和节点数量的约束。我们方法的成功归因于一系列专门技术,这些技术利用了分类树独有的属性。传统上,最佳分类树的算法受到了高运行时的困扰和有限的可伸缩性,但我们在一项详细的实验研究中表明,我们的方法仅使用最先进的时间所需的时间,并且可以处理数十个数据集的数据集在数千个实例中,提供了几个数量级的改进,并特别有助于实现最佳决策树的实现。
translated by 谷歌翻译
我们考虑代表代理模型的问题,该模型使用我们称之为CSTREES的阶段树模型的适当子类对离散数据编码离散数据的原因模型。我们表明,可以通过集合表达CSTREE编码的上下文专用信息。由于并非所有阶段树模型都承认此属性,CSTREES是一个子类,可提供特定于上下文的因果信息的透明,直观和紧凑的表示。我们证明了CSTREEES承认全球性马尔可夫属性,它产生了模型等价的图形标准,概括了Verma和珍珠的DAG模型。这些结果延伸到一般介入模型设置,使CSTREES第一族的上下文专用模型允许介入模型等价的特征。我们还为CSTREE的最大似然估计器提供了一种封闭式公式,并使用它来表示贝叶斯信息标准是该模型类的本地一致的分数函数。在模拟和实际数据上分析了CSTHEELE的性能,在那里我们看到与CSTREELE而不是一般上演树的建模不会导致预测精度的显着损失,同时提供了特定于上下文的因果信息的DAG表示。
translated by 谷歌翻译
给定真实的假设类$ \ mathcal {h} $,我们在什么条件下调查有一个差异的私有算法,它从$ \ mathcal {h} $给出的最佳假设.I.i.d.数据。灵感来自最近的成果的二进制分类的相关环境(Alon等,2019; Bun等,2020),其中显示了二进制类的在线学习是必要的,并且足以追随其私人学习,Jung等人。 (2020)显示,在回归的设置中,$ \ mathcal {h} $的在线学习是私人可读性所必需的。这里的在线学习$ \ mathcal {h} $的特点是其$ \ eta $-sequentient胖胖子的优势,$ {\ rm sfat} _ \ eta(\ mathcal {h})$,适用于所有$ \ eta> 0 $。就足够的私人学习条件而言,Jung等人。 (2020)显示$ \ mathcal {h} $私下学习,如果$ \ lim _ {\ eta \ downarrow 0} {\ rm sfat} _ \ eta(\ mathcal {h})$是有限的,这是一个相当限制的健康)状况。我们展示了在轻松的条件下,\ LIM \ INF _ {\ eta \ downarrow 0} \ eta \ cdot {\ rm sfat} _ \ eta(\ mathcal {h})= 0 $,$ \ mathcal {h} $私人学习,为\ \ rm sfat} _ \ eta(\ mathcal {h})$ \ eta \ dockarrow 0 $ divering建立第一个非参数私人学习保证。我们的技术涉及一种新颖的过滤过程,以输出非参数函数类的稳定假设。
translated by 谷歌翻译
分支和切割是用于解决整数程序的最广泛使用的算法,该算法由CPLEX和GUROBI等商业求解器采用。分支和切割具有各种可调参数,对其构建的搜索树的大小产生了巨大影响,而是充满挑战手工曲调。一种越来越流行的方法是使用机器学习来调整这些参数:使用从应用程序域中的训练集的整数程序集,目标是找到一个具有强烈预测性能的配置,从同一域中取消了未执行整数程序。如果训练集太小,则配置可能对培训集具有良好的性能,但对未来整数程序的性能差。在本文中,我们证明了这种程序的样本复杂性保证,这绑定了培训集应该是如何确保任何配置,其对培训集的平均性能接近其预期的未来性能。我们的保证适用于控制分支和切割的最重要方面的参数:节点选择,分支约束选择和切割平面选择,并且比在现有研究中发现的那些更锐利,更为一般。
translated by 谷歌翻译
尽管在机器学习的方法论核心中是一个问题,但如何比较分类器仍未达成一致的共识。每个比较框架都面临着(至少)三个基本挑战:质量标准的多样性,数据集的多样性以及选择数据集选择的随机性/任意性。在本文中,我们通过采用决策理论的最新发展,为生动的辩论增添了新的观点。我们最终的框架基于所谓的偏好系统,通过广义的随机优势概念对分类器进行排名,该概念强大地绕过了繁琐的,甚至通常是自相矛盾的,对聚合的依赖。此外,我们表明,可以通过解决易于手柄的线性程序和通过适应的两样本观察随机化测试进行统计测试来实现广泛的随机优势。这确实产生了一个有力的框架,可以同时相对于多个质量标准进行分类器的统计比较。我们在模拟研究和标准基准数据集中说明和研究我们的框架。
translated by 谷歌翻译
Motivated by alignment of correlated sparse random graphs, we introduce a hypothesis testing problem of deciding whether or not two random trees are correlated. We obtain sufficient conditions under which this testing is impossible or feasible. We propose MPAlign, a message-passing algorithm for graph alignment inspired by the tree correlation detection problem. We prove MPAlign to succeed in polynomial time at partial alignment whenever tree detection is feasible. As a result our analysis of tree detection reveals new ranges of parameters for which partial alignment of sparse random graphs is feasible in polynomial time. We then conjecture that graph alignment is not feasible in polynomial time when the associated tree detection problem is impossible. If true, this conjecture together with our sufficient conditions on tree detection impossibility would imply the existence of a hard phase for graph alignment, i.e. a parameter range where alignment cannot be done in polynomial time even though it is known to be feasible in non-polynomial time.
translated by 谷歌翻译
排名和分数是判断使用的两个常见数据类型,以表达对象集合中对质量的偏好和/或质量的看法。存在许多模型以单独研究每种类型的数据,但没有统一的统计模型同时捕获两个数据类型,而不首先执行数据转换。我们提出了Mallows-Binomial模型来缩短这种差距,它通过量化的参数来与二项式分数模型相结合,这些差距通过量化的参数来量化对象质量,共识等级和法官之间的共识水平。我们提出了一种有效的树搜索算法来计算模型参数的精确MLE,分析和通过模拟研究模型的统计特性,并通过模拟将我们的模型应用于来自授予面板审查的实例,从而将其分数和部分排名的拨款。 。此外,我们展示了如何使用模型输出来排序对象的信心。拟议的模型被证明是从分数和排名中明智地结合信息,以量化对象质量并衡量具有适当统计不确定性的相互达成的共识。
translated by 谷歌翻译
在本文中,我们提出了一个基于树张量网状状态的密度估计框架。所提出的方法包括使用Chow-Liu算法确定树拓扑,并获得线性系统通过草图技术定义张量 - 网络组件的线性系统。开发了草图功能的新颖选择,以考虑包含循环的图形模型。提供样品复杂性保证,并通过数值实验进一步证实。
translated by 谷歌翻译
我们研究了通过中等数量的成对比较查询引发决策者偏好的问题,以使它们成为特定问题的高质量推荐。我们受到高赌场域中的应用程序的推动,例如选择分配稀缺资源的政策以满足基本需求(例如,用于移植或住房的肾脏,因为那些经历无家可归者),其中需要由(部分)提出引出的偏好。我们在基于偏好的偏好中模拟不确定性,并调查两个设置:a)脱机偏出设置,其中所有查询都是一次,b)在线诱因设置,其中按时间顺序选择查询。我们提出了这些问题的强大优化制剂,这些问题集成了偏好诱导和推荐阶段,其目的是最大化最坏情况的效用或最小化最坏情况的后悔,并研究其复杂性。对于离线案例,在活动偏好诱导与决策信息发现的两个半阶段的稳健优化问题的形式中,我们提供了我们通过列解决的混合二进制线性程序的形式提供了等效的重构。 -Constraint生成。对于在线设置,主动偏好学习采用多级强大优化问题的形式与决策依赖的信息发现,我们提出了一种保守的解决方案方法。合成数据的数值研究表明,我们的方法在最坏情况级别,后悔和效用方面从文献中倾斜最先进的方法。我们展示了我们的方法论如何用于协助无家可归的服务机构选择分配不同类型的稀缺住房资源的政策,以遇到无家可归者。
translated by 谷歌翻译
公平性是在算法决策中的重要考虑因素。当具有较高优异的代理人获得比具有较低优点的试剂更差的代理人时,发生不公平。我们的中心点是,不公平的主要原因是不确定性。制定决策的主体或算法永远无法访问代理的真实优点,而是使用仅限于不完全预测优点的代理功能(例如,GPA,星形评级,推荐信)。这些都没有完全捕捉代理人的优点;然而,现有的方法主要基于观察到的特征和结果直接定义公平概念。我们的主要观点是明确地承认和模拟不确定性更为原则。观察到的特征的作用是产生代理商的优点的后部分布。我们使用这个观点来定义排名中近似公平的概念。我们称之为algorithm $ \ phi $ -fair(对于$ \ phi \ in [0,1] $)如果它具有以下所有代理商$ x $和所有$ k $:如果代理商$ x $最高$ k $代理以概率至少为$ \ rho $(根据后部优点分配),那么该算法将代理商在其排名中以概率排名,至少$ \ phi \ rho $。我们展示了如何计算最佳地互惠对校长进行近似公平性的排名。除了理论表征外,我们还提出了对模拟研究中的方法的潜在影响的实证分析。对于真实世界的验证,我们在纸质建议系统的背景下应用了这种方法,我们在KDD 2020会议上建立和界定。
translated by 谷歌翻译