当经过自动化决策时,决策主题将战略性地修改其可观察特征,他们认为可以最大限度地提高收到理想的结果的机会。在许多情况下,潜在的预测模型是故意保密的,以避免游戏并保持竞争优势。这种不透明度迫使决策主题依赖于制定战略功能修改时依赖不完整的信息。我们将这样的设置捕获作为贝叶斯劝说的游戏,其中决策者发送信号,例如动作建议,以便决定受激励他们采取理想的行动。我们制定决策者找到最佳贝叶斯激励兼容(BIC)行动推荐策略作为优化问题的问题,并通过线性程序表征解决方案。通过这种特征,我们观察到,虽然可以显着地简化了找到最佳BIC推荐策略的问题,但是解决该线性程序的计算复杂性与(1)决策主题的动作空间的相对大小紧密相关(2)基础预测模型利用的特征数。最后,我们提供了最佳BIC推荐政策的性能的界限,并表明与标准基线相比,它可能导致任意更好的结果。
translated by 谷歌翻译
机器学习通知人类决策者在广泛的任务中的应用。由此产生的问题通常在单个决策者方面配制。我们认为它应该宁愿被描述为一个双人学习问题,其中一个玩家是机器和另一个人。虽然两个玩家都尝试优化最终决定,但设置通常是(1)私人信息的存在和(2)不透明度,即决策者之间的不完美理解。在论文中,我们证明这两个属性都可以复杂化决策。下限量化了最佳地建议的最坏情况的硬度,该决策者是不透明的或可以访问私人信息的决策者。一个上界表明,简单的协调策略几乎最小的最佳。在问题的某些假设下,更高效的学习,例如两个玩家都学会独立采取行动。这种假设是隐含的现有文献中的,例如在机器学习的医学应用中,但理论上尚未被描述或对齐。
translated by 谷歌翻译
在机器学习(ML)算法自动化或提供有关人员的后果决策的环境中,通常会激励个人决策主题以战略性地修改其可观察的属性以获得更有利的预测。结果,对评估规则进行培训的分布可能与其部署中运营的规则不同。尽管这种分配的变化通常可以阻碍准确的预测,但我们的工作确定了由于战略反应而引起的转变相关的独特机会:我们表明我们可以有效地利用战略反应来恢复可观察到的特征与我们希望预测的可观察到的因果关系,即使在没有观察到的混杂变量的情况下。具体而言,我们的工作通过观察到部署模型的序列可以看作是影响代理可观察到的特征但不会直接影响其结果的工具,从而建立了对ML模型的战略响应与仪器变量(IV)回归之间的新颖联系。我们表明,我们的因果恢复方法可用于改善几个重要标准的决策:个人公平,代理结果和预测风险。特别是,我们表明,如果决策主体在修改非毒物属性的能力上有所不同,那么与因果系数偏离的任何决策规则都可能导致(潜在无限)个体级别的不公平性。
translated by 谷歌翻译
公平性是在算法决策中的重要考虑因素。当具有较高优异的代理人获得比具有较低优点的试剂更差的代理人时,发生不公平。我们的中心点是,不公平的主要原因是不确定性。制定决策的主体或算法永远无法访问代理的真实优点,而是使用仅限于不完全预测优点的代理功能(例如,GPA,星形评级,推荐信)。这些都没有完全捕捉代理人的优点;然而,现有的方法主要基于观察到的特征和结果直接定义公平概念。我们的主要观点是明确地承认和模拟不确定性更为原则。观察到的特征的作用是产生代理商的优点的后部分布。我们使用这个观点来定义排名中近似公平的概念。我们称之为algorithm $ \ phi $ -fair(对于$ \ phi \ in [0,1] $)如果它具有以下所有代理商$ x $和所有$ k $:如果代理商$ x $最高$ k $代理以概率至少为$ \ rho $(根据后部优点分配),那么该算法将代理商在其排名中以概率排名,至少$ \ phi \ rho $。我们展示了如何计算最佳地互惠对校长进行近似公平性的排名。除了理论表征外,我们还提出了对模拟研究中的方法的潜在影响的实证分析。对于真实世界的验证,我们在纸质建议系统的背景下应用了这种方法,我们在KDD 2020会议上建立和界定。
translated by 谷歌翻译
当我们使用算法提出建议时,我们通常认为这些建议是提供有用的信息,例如在向法官或医生提供风险评估时。但是,当决策者获得建议时,他们不仅可以对信息做出反应。决策者可以将建议视为默认行动,使他们偏离偏差,例如,当法官不愿推翻对被告的高风险评估或医生担心偏离建议程序的后果时。在本文中,我们考虑建议不仅通过转移信念,而且通过改变偏好来影响选择的效果和设计。我们激励我们的模型从制度因素(例如避免审核的愿望)以及行为科学中建立的模型中的渴望,这些模型相对于参考点,这些模型预测了相对于参考点的损失厌恶,这是由算法设定的。我们表明,与建议有关的偏好造成了效率低下的效率,而决策者对建议过于响应,这改变了算法的最佳设计,以提供较不保守的建议。作为一种潜在的补救措施,我们讨论了一种算法,该算法从战略上扣留建议,并展示如何提高最终决策的质量。
translated by 谷歌翻译
我们回顾了有关模型的文献,这些文献试图解释具有金钱回报的正常形式游戏所描述的社交互动中的人类行为。我们首先涵盖社会和道德偏好。然后,我们专注于日益增长的研究,表明人们对描述行动的语言做出反应,尤其是在激活道德问题时。最后,我们认为行为经济学正处于向基于语言的偏好转变的范式中,这将需要探索新的模型和实验设置。
translated by 谷歌翻译
大多数算法研究到目前为止,多智能经纪信息设计的研究专注于没有代理商外部性的限制情况;一些例外调查了真正的战略游戏,如零和游戏和二价格拍卖,但只关注最佳的公共信令。本文启动了\ emph {public}和\ emph {privy}信号传导的算法信息设计,其中of基本的外部性,即单例拥塞游戏,在今天的数字经济中的应用范围广,机器调度,路由,对于公共和私人信令等,我们表明,当资源数量是常数时,可以有效地计算最佳信息设计。为了我们的知识,这是一系列高效的\ EMPH {精确}算法,用于在简明地代表的许多玩家游戏中的信息设计。我们的结果符合新颖的技术,如开发某些“减少形式”,以便在公共信令中紧凑地表征均衡或代表私人信令中的球员边际信仰。当有许多资源时,我们会显示计算难扰性结果。为了克服多个均衡问题,这里我们介绍了均衡 - \ EMPH {忽视}硬度的新概念,这条规定了计算良好信令方案的任何可能性,而不管均衡选择规则如何。
translated by 谷歌翻译
在当今的社会中,算法建议和决策已经变得普遍存在。其中许多和其他数据驱动的政策,特别是在公共政策领域,基于已知的确定性规则,以确保其透明度和可解释性。例如,算法预审风险评估,即作为我们的激励申请,提供相对简单,确定性的分类分数和建议,以帮助法官发出释放决策。我们如何根据现有的确定性政策使用数据,并学习新的和更好的策略?不幸的是,策略学习的先前方法不适用,因为它们需要现有的政策是随机而非确定性的。我们开发了一种强大的优化方法,部分地识别策略的预期效用,然后通过最小化最坏情况后悔找到最佳策略。由此产生的政策是保守的,但具有统计安全保障,允许政策制定者限制产生比现有政策更糟糕的结果的可能性。我们将这种方法扩展到人类借助算法建议作出决策的共同和重要的环境。最后,我们将提议的方法应用于预审风险评估工具的独特现场实验。我们推出了新的分类和推荐规则,以保留现有仪器的透明度和可解释性,同时可能以较低的成本导致更好的整体结果。
translated by 谷歌翻译
在许多预测性决策方案(例如信用评分和学术测试)中,决策者必须构建一个模型,该模型通过更改其功能来说明代理商“游戏”决策规则的倾向,从而获得更好的决策。尽管战略分类文献以前已经假设代理人的结果并不受其特征的因果影响(因此战略代理人的目标是欺骗决策者),但我们加入了并发的工作,以建模代理人的成果作为其可变化的函数属性。作为我们的主要贡献,我们为学习决策规则提供有效的算法,以在可实现的线性环境中优化三个不同的决策制定目标:准确预测代理的胶结后结果(预测风险最小化),激励代理人改善这些结果(代理结果(代理结果)最大化),并估计真实基础模型的系数(参数估计)。我们的算法避免了Miller等人的硬度结果。 (2020)允许决策者测试一系列决策规则并观察代理人的反应,实际上是通过决策规则执行因果干预措施的。
translated by 谷歌翻译
当今许多大型系统的设计,从交通路由环境到智能电网,都依赖游戏理论平衡概念。但是,随着$ n $玩家游戏的大小通常会随着$ n $而成倍增长,标准游戏理论分析实际上是不可行的。最近的方法通过考虑平均场游戏,匿名$ n $玩家游戏的近似值,在这种限制中,玩家的数量是无限的,而人口的状态分布,而不是每个单独的球员的状态,是兴趣。然而,迄今为止研究最多的平均场平衡的平均场nash平衡的实际可计算性通常取决于有益的非一般结构特性,例如单调性或收缩性能,这是已知的算法收敛所必需的。在这项工作中,我们通过开发均值相关和与粗相关的平衡的概念来研究平均场比赛的替代途径。我们证明,可以使用三种经典算法在\ emph {ash All Games}中有效地学习它们,而无需对游戏结构进行任何其他假设。此外,我们在文献中已经建立了对应关系,从而获得了平均场 - $ n $玩家过渡的最佳范围,并经验证明了这些算法在简单游戏中的收敛性。
translated by 谷歌翻译
我们研究了一个知情的发件人面临的重复信息设计问题,该问题试图影响自我利益接收者的行为。我们考虑接收器面临顺序决策(SDM)问题的设置。在每回合中,发件人都会观察SDM问题中随机事件的实现。这会面临如何逐步向接收者披露此类信息以说服他们遵循(理想的)行动建议的挑战。我们研究了发件人不知道随机事件概率的情况,因此,他们必须在说服接收器的同时逐渐学习它们。首先,我们提供了发件人说服力信息结构集的非平凡的多面近似。这对于设计有效的学习算法至关重要。接下来,我们证明了一个负面的结果:没有学习算法可以说服力。因此,我们通过关注算法来保证接收者对以下建议的遗憾会增长,从而放松说服力。在全反馈设置(发件人观察所有随机事件实现)中,我们提供了一种算法,其中包括$ \ tilde {o}(\ sqrt {t})$ sexter和接收者遗憾。取而代之的是,在Bandit反馈设置中 - 发件人仅观察SDM问题中实际发生的随机事件的实现 - 我们设计了一种算法,给定一个$ \ alpha \ in [1/2,1] $作为输入,确保$ \ tilde {o}({t^\ alpha})$和$ \ tilde {o}(t^{\ max \ arpha,1- \ frac {\ frac {\ alpha} })$遗憾,分别为发件人和接收器。该结果补充了下限,表明这种遗憾的权衡本质上是紧张的。
translated by 谷歌翻译
我们研究了通过中等数量的成对比较查询引发决策者偏好的问题,以使它们成为特定问题的高质量推荐。我们受到高赌场域中的应用程序的推动,例如选择分配稀缺资源的政策以满足基本需求(例如,用于移植或住房的肾脏,因为那些经历无家可归者),其中需要由(部分)提出引出的偏好。我们在基于偏好的偏好中模拟不确定性,并调查两个设置:a)脱机偏出设置,其中所有查询都是一次,b)在线诱因设置,其中按时间顺序选择查询。我们提出了这些问题的强大优化制剂,这些问题集成了偏好诱导和推荐阶段,其目的是最大化最坏情况的效用或最小化最坏情况的后悔,并研究其复杂性。对于离线案例,在活动偏好诱导与决策信息发现的两个半阶段的稳健优化问题的形式中,我们提供了我们通过列解决的混合二进制线性程序的形式提供了等效的重构。 -Constraint生成。对于在线设置,主动偏好学习采用多级强大优化问题的形式与决策依赖的信息发现,我们提出了一种保守的解决方案方法。合成数据的数值研究表明,我们的方法在最坏情况级别,后悔和效用方面从文献中倾斜最先进的方法。我们展示了我们的方法论如何用于协助无家可归的服务机构选择分配不同类型的稀缺住房资源的政策,以遇到无家可归者。
translated by 谷歌翻译
算法公平吸引了机器学习社区越来越多的关注。文献中提出了各种定义,但是它们之间的差异和联系并未清楚地解决。在本文中,我们回顾并反思了机器学习文献中先前提出的各种公平概念,并试图与道德和政治哲学,尤其是正义理论的论点建立联系。我们还从动态的角度考虑了公平的询问,并进一步考虑了当前预测和决策引起的长期影响。鉴于特征公平性的差异,我们提出了一个流程图,该流程图包括对数据生成过程,预测结果和诱导的影响的不同类型的公平询问的隐式假设和预期结果。本文展示了与任务相匹配的重要性(人们希望执行哪种公平性)和实现预期目的的手段(公平分析的范围是什么,什么是适当的分析计划)。
translated by 谷歌翻译
我们探索了一个新的强盗实验模型,其中潜在的非组织序列会影响武器的性能。上下文 - 统一算法可能会混淆,而那些执行正确的推理面部信息延迟的算法。我们的主要见解是,我们称之为Deconfounst Thompson采样的算法在适应性和健壮性之间取得了微妙的平衡。它的适应性在易于固定实例中带来了最佳效率,但是在硬性非平稳性方面显示出令人惊讶的弹性,这会导致其他自适应算法失败。
translated by 谷歌翻译
In this paper, we provide a theoretical framework to analyze an agent who misinterprets or misperceives the true decision problem she faces. Within this framework, we show that a wide range of behavior observed in experimental settings manifest as failures to perceive implications, in other words, to properly account for the logical relationships between various payoff relevant contingencies. We present behavioral characterizations corresponding to several benchmarks of logical sophistication and show how it is possible to identify which implications the agent fails to perceive. Thus, our framework delivers both a methodology for assessing an agent's level of contingent thinking and a strategy for identifying her beliefs in the absence full rationality.
translated by 谷歌翻译
业务分析(BA)的广泛采用带来了财务收益和提高效率。但是,当BA以公正的影响为决定时,这些进步同时引起了人们对法律和道德挑战的不断增加。作为对这些关注的回应,对算法公平性的新兴研究涉及算法输出,这些算法可能会导致不同的结果或其他形式的对人群亚组的不公正现象,尤其是那些在历史上被边缘化的人。公平性是根据法律合规,社会责任和效用是相关的;如果不充分和系统地解决,不公平的BA系统可能会导致社会危害,也可能威胁到组织自己的生存,其竞争力和整体绩效。本文提供了有关算法公平的前瞻性,注重BA的评论。我们首先回顾有关偏见来源和措施的最新研究以及偏见缓解算法。然后,我们对公用事业关系的详细讨论进行了详细的讨论,强调经常假设这两种构造之间经常是错误的或短视的。最后,我们通过确定企业学者解决有效和负责任的BA的关键的有影响力的公开挑战的机会来绘制前进的道路。
translated by 谷歌翻译
Information asymmetry in games enables players with the information advantage to manipulate others' beliefs by strategically revealing information to other players. This work considers a double-sided information asymmetry in a Bayesian Stackelberg game, where the leader's realized action, sampled from the mixed strategy commitment, is hidden from the follower. In contrast, the follower holds private information about his payoff. Given asymmetric information on both sides, an important question arises: \emph{Does the leader's information advantage outweigh the follower's?} We answer this question affirmatively in this work, where we demonstrate that by adequately designing a signaling device that reveals partial information regarding the leader's realized action to the follower, the leader can achieve a higher expected utility than that without signaling. Moreover, unlike previous works on the Bayesian Stackelberg game where mathematical programming tools are utilized, we interpret the leader's commitment as a probability measure over the belief space. Such a probabilistic language greatly simplifies the analysis and allows an indirect signaling scheme, leading to a geometric characterization of the equilibrium under the proposed game model.
translated by 谷歌翻译
对社交媒体平台上的不诚实传播对社会有害。这种伤害可能表现为公众话语的逐步退化;但它也可以采取突然戏剧性事件的形式,如最近在国会山上的起义。该平台本身处于最佳位置,以防止伪造的传播,因为它们具有对相关数据的最佳访问和使用它的专业知识。然而,缓解消毒是昂贵的,不仅用于实施检测算法或采用手动努力,而且因为限制了这种高病毒内容会影响用户参与,从而影响潜在的广告收入。由于其他实体所承担有害内容的成本,因此该平台将不会激励行使社会最佳的努力水平。这个问题类似于环境监管,其中不良事件的成本不是由公司直接承担的,公司的缓解努力不是可观察到的,并且有害后果与特定失败之间的因果关系很难证明。对于环境监管,一种解决方案是执行昂贵的监控,以确保该公司根据规定的规则采取足够的预防措施。但是,随着时间的推移,用于分类虚拟信息的固定规则变得较低,因为坏行动者可以学会顺序和战略性地绕过它。将我们的域名编码为马尔可夫决策过程,我们证明没有基于静态规则的惩罚,无论多大,都可以激励充分的努力。仅基于自适应规则的处罚可以激励最佳努力,而是违反直接的努力,只有通过要求更高的努力水平充分地反应有害事件。我们规定了引发平台的机制设计,这些机制是与控制不控制的预防努力成本。
translated by 谷歌翻译
大多数在线平台都在努力从与用户的互动中学习,许多人从事探索:为了获取新信息而做出潜在的次优选择。我们研究探索与竞争之间的相互作用:这样的平台如何平衡学习探索和用户的竞争。在这里,用户扮演三个不同的角色:他们是产生收入的客户,他们是学习的数据来源,并且是自私的代理商,可以在竞争平台中进行选择。我们考虑了一种风格化的双重垄断模型,其中两家公司面临着相同的多军强盗问题。用户一一到达,并在两家公司之间进行选择,因此,只有在选择它的情况下,每个公司都在其强盗问题上取得进展。通过理论结果和数值模拟的混合,我们研究了竞争是否会激发更好的Bandit算法的采用,以及它是否导致用户增加福利。我们发现,Stark竞争会导致公司致力于导致低福利的“贪婪”强盗算法。但是,通过向公司提供一些“免费”用户来激励更好的探索策略并增加福利来削弱竞争。我们调查了削弱竞争的两个渠道:放松用户的理性并为一家公司带来首次推广优势。我们的发现与“竞争与创新”关系密切相关,并阐明了数字经济中的第一步优势。
translated by 谷歌翻译
许多高级决策遵循了循环结构,因为人类操作员从算法中收到建议,但是最终的决策者。因此,该算法的建议可能与实践中实施的实际决定有所不同。但是,大多数算法建议是通过解决假设建议将得到完美实施的优化问题来获得的。我们提出了一个依从性的优化框架,以捕获推荐和实施政策之间的二分法,并分析部分依从性对最佳建议的影响。我们表明,与当前的人类基线性能和建议算法相比,忽视部分依从现象,就像目前正在使用的大多数建议引擎所做的那样,可能会导致任意严重的性能恶化。我们的框架还提供了有用的工具来分析结构并计算自然可以抵抗这种人类偏差的最佳建议政策,并保证可以改善基线政策。
translated by 谷歌翻译