AI methods are used in societally important settings, ranging from credit to employment to housing, and it is crucial to provide fairness in regard to algorithmic decision making. Moreover, many settings are dynamic, with populations responding to sequential decision policies. We introduce the study of reinforcement learning (RL) with stepwise fairness constraints, requiring group fairness at each time step. Our focus is on tabular episodic RL, and we provide learning algorithms with strong theoretical guarantees in regard to policy optimality and fairness violation. Our framework provides useful tools to study the impact of fairness constraints in sequential settings and brings up new challenges in RL.
translated by 谷歌翻译
了解强化学习(RL)代理的新兴行为可能很困难,因为这种代理通常使用高度复杂的决策程序在复杂的环境中进行训练。这引起了RL中解释性的多种方法,旨在调和可能在主体行为与观察者预期的行为之间产生的差异。最近的方法取决于域知识,这可能并非总是可用的,分析代理商的策略,或者是对基础环境的特定要素的分析,通常被建模为马尔可夫决策过程(MDP)。我们的主要主张是,即使基本的MDP尚不完全了解(例如,尚未准确地了解过渡概率),也没有由代理商维护(即,在使用无模型方法时),但仍可以利用它为自动生成解释。为此,我们建议使用以前在文献中使用的正式MDP抽象和转换来加快寻找最佳策略的搜索,以自动产生解释。由于这种转换通常基于环境的符号表示,因此它们可能代表了预期和实际代理行为之间差距的有意义的解释。我们正式定义了这个问题,建议一类可用于解释新兴行为的转换,并提出了有效搜索解释的方法。我们演示了一组标准基准测试的方法。
translated by 谷歌翻译
对于任何给定的预测任务,可能存在多个模型几乎同样出色的模型。我们研究了这些竞争模型的预测如何变化。特别是,我们研究了概率分类的预测性多样性。我们正式定义了我们的设置措施,并开发基于优化的方法来计算这些措施,以实现经验风险最小化问题。我们运用我们的方法来深入了解为什么出现预测性多样性。我们证明了在现实世界风险评估任务中预测多样性的发生率和流行率。我们的结果强调需要更广泛地报告多重性。
translated by 谷歌翻译
在线电子商务平台上的算法定价引起了人们对默认勾结的关注,在这种情况下,强化学习算法学会以分散的方式设定合格价格,而无非是利润反馈。这就提出了一个问题,即是否可以通过设计合适的“购买盒子”来防止合格定价,即通过设计管理电子商务网站要素的规则,这些规则将特定产品和价格推向消费者。在本文中,我们证明了平台也可以使用增强学习(RL)来学习有效防止RL卖家勾结的框规则。为此,我们采用了Stackelberg POMDP的方法,并在学习强大的规则方面取得了成功,这些规则继续提供高昂的消费者福利,以及采用不同行为模型或对商品的分发费用的卖家。
translated by 谷歌翻译
Forecasting time series with extreme events has been a challenging and prevalent research topic, especially when the time series data are affected by complicated uncertain factors, such as is the case in hydrologic prediction. Diverse traditional and deep learning models have been applied to discover the nonlinear relationships and recognize the complex patterns in these types of data. However, existing methods usually ignore the negative influence of imbalanced data, or severe events, on model training. Moreover, methods are usually evaluated on a small number of generally well-behaved time series, which does not show their ability to generalize. To tackle these issues, we propose a novel probability-enhanced neural network model, called NEC+, which concurrently learns extreme and normal prediction functions and a way to choose among them via selective back propagation. We evaluate the proposed model on the difficult 3-day ahead hourly water level prediction task applied to 9 reservoirs in California. Experimental results demonstrate that the proposed model significantly outperforms state-of-the-art baselines and exhibits superior generalization ability on data with diverse distributions.
translated by 谷歌翻译
在许多情况下,更简单的模型比更复杂的模型更可取,并且该模型复杂性的控制是机器学习中许多方法的目标,例如正则化,高参数调整和体系结构设计。在深度学习中,很难理解复杂性控制的潜在机制,因为许多传统措施并不适合深度神经网络。在这里,我们开发了几何复杂性的概念,该概念是使用离散的dirichlet能量计算的模型函数变异性的量度。使用理论论据和经验结果的结合,我们表明,许多常见的训练启发式方法,例如参数规范正规化,光谱规范正则化,平稳性正则化,隐式梯度正则化,噪声正则化和参数初始化的选择,都可以控制几何学复杂性,并提供一个统一的框架,以表征深度学习模型的行为。
translated by 谷歌翻译
在神经网络中,与任务相关的信息由神经元组共同表示。但是,对信息分布在单个神经元之间的特定方式尚不清楚:虽然部分只能从特定的单个神经元中获得,但其他部分是由多个神经元冗余或协同携带的。我们展示了部分信息分解(PID)是信息理论的最新扩展,可以解散这些贡献。由此,我们介绍了“代表性复杂性”的度量,该量度量化了访问跨多个神经元信息的难度。我们展示了这种复杂性如何直接适用于较小的层。对于较大的层,我们提出了子采样和粗粒程序,并证明了后者的相应边界。从经验上讲,为了量化解决MNIST任务的深度神经网络,我们观察到,代表性复杂性通过连续的隐藏层和过度训练都会降低。总体而言,我们建议代表性复杂性作为分析神经表示结构的原则且可解释的摘要统计量。
translated by 谷歌翻译
我们研究了可变形对象的学习图动力学问题,这些动力学将其推广到未知物理特性。特别是,我们利用了像布状可变形物体的弹性物理特性的潜在表示,我们通过拉动相互作用探索。我们提出了EDO-NET(弹性可变形物体 - NET),该模型在具有不同弹性特性的各种样品上以自我监督的方式训练。EDO-NET共同学习了一个适应模块,负责提取对象物理特性的潜在表示,以及一个前向动力学模块,该模块利用潜在的表示来预测类似布的对象的未来状态,表示为图形。我们在模拟和现实世界中评估了江户网 - 评估其功能的:1)概括为布状可变形物体的未知物理特性,2)将学习的表示形式转移到新的下游任务。
translated by 谷歌翻译
我们建议并探讨可以将语言模型作为社会科学研究中特定人类亚人群的有效代理进行研究的可能性。人工智能工具的实践和研究应用有时受到有问题的偏见(例如种族主义或性别歧视)的限制,这些偏见通常被视为模型的统一特性。我们表明,一个这样的工具中的“算法偏见”(GPT-3语言模型)既是细粒度又是人口统计相关的,这意味着适当的条件会导致其准确地仿真来自各种人类的响应分布亚组。我们将此属性称为“算法忠诚度”,并在GPT-3中探索其范围。我们通过将模型调节在美国进行的多项大型调查中的数千个社会人口统计背景故事中调节,从而创建“硅样本”。然后,我们比较硅和人类样品,以证明GPT-3中包含的信息远远超出了表面相似性。它是细微的,多方面的,并反映了特征人类态度的思想,态度和社会文化背景之间的复杂相互作用。我们建议,具有足够算法的忠诚度的语言模型构成了一种新颖而有力的工具,可以促进各种学科的人类和社会的理解。
translated by 谷歌翻译
与纺织品(例如辅助敷料)的物理互动依赖于先进的灵巧能力。拉扯和拉伸时纺织行为的潜在复杂性是由于纱线材料特性和纺织品构造技术所致。如今,还没有采用和注释的数据集评估各种交互或属性识别方法。影响这种相互作用的一种重要特性是材料弹性是由纱线材料和构造技术引起的:这两个是交织在一起的,如果不知道A-Priori,几乎无法通过在机器人平台上使用常见的传感来识别。我们介绍了弹性环境(EC),该概念集成了影响弹性行为的各种属性,以使其与纺织品进行更有效的物理互动。 EC的定义依赖于纺织工程中常用的压力/应变曲线,我们为机器人应用重新制定了压力/应变曲线。我们使用图形神经网络(GNN)使用EC来学习纺织品的通用弹性行为。此外,我们探讨了EC对非线性现实世界弹性行为的准确力量建模的影响,从而强调了当前机器人设置以感知纺织特性的挑战。
translated by 谷歌翻译