排名模型通常被设计为提供排名,以优化对用户的即时效用的一些测量。结果,他们无法预料到他们提出的排名会产生越来越多的不良长期后果,从推动错误信息的传播和增加两极分化到有辱人格的社会话语。我们是否可以设计能够理解其提议排名后果的排名模型,更重要的是能够避免不受欢迎的排名吗?在本文中,我们首先使用Markovdecision过程引入排名和用户动态的联合表示。然后,我们证明了这种表示极大地简化了构建相应的排序模型,这些模型利用了直接性和长期福利。特别是,我们可以通过对最大化即时效用度量的模型提供的排名应用加权抽样来获得最优的相关排名。然而,实际上,这种策略可能效率低且不切实际,特别是在高维场景中。为了克服这个问题,我们引入了一种有效的基于梯度的算法来学习参数化的结果排序模型,该模型有效地接近最优的排序模型。我们使用从Reddit收集的合理和真实数据展示我们的方法,并显示使用我们的方法得到的排名模型提供了可以减轻信息传播和提高在线讨论文明的等级。
translated by 谷歌翻译
学习解开的表示被认为是代表性学习的基石问题。最近,Locatello等人。 (2019)证明,在没有归纳偏差的情况下,无监督的解缠结构学习在理论上是不可能的,并且现有的归纳偏差和无监督方法不允许一致地学习解缠结的表示。但是,在许多实际设置中,人们可能可以访问非常有限的监视,例如通过手动标记训练示例。在本文中,我们研究了这种监督对现有技术纠正方法的影响,并进行了大规模的研究,在明确和可重复的实验条件下培训了29000多个模型。我们首先认为,非常有限数量的标记示例(数据集的0.01-0.5%)足以在最先进的无监督模型上执行模型选择。然而,如果一个人可以获得监督模型选择的标签,那么就会提出一个自然的问题,即它们是否也应该纳入培训过程。作为案例研究,我们测试了将(非常有限的)监督引入现有的最先进的无监督纠正方法的好处,这些方法利用了标签的值和可以从中推导出的标准信息。总的来说,我们通过非常少且可能不精确的监督来经验性地验证,可以可靠地学习解开的表示。
translated by 谷歌翻译
在过去几年中,机器学习技术,特别是卷积神经网络,已被研究作为替代或补充传统匹配滤波技术的方法,该技术用于检测合并黑洞的引力波特征。然而,迄今为止,这些方法尚未成功应用于高级LIGO和Virgo引力波监测仪记录的数据的长期分析。在这项工作中,我们批判性地研究了使用卷积神经网络作为寻找合并黑洞的工具。我们确定了这种方法的优势和局限性,突出了机器学习和引力波天文学之间的一些常见陷阱,并讨论了跨学科的挑战。特别是,我们详细解释为什么单独的卷积神经网络不能用于声称具有重要意义的引力波检测。但是,我们证明它们仍可用于快速标记数据中潜在信号的时间,以便进行更详细的跟踪。我们的卷积神经网络体系结构以及所提出的性能指标比标准二进制分类方案更适合于该任务。我们对高级LIGO数据的方法的详细评估证明了这种系统作为触发发生器的潜力。最后,我们通过构建对抗性示例来表达谨慎,这些示例展示了我们模型的有趣“失效模式”,其中与实际重力波信号没有明显相似性的输入由具有高度自信的网络识别。
translated by 谷歌翻译
在线检测数据序列的生成过程中的瞬时变化通常集中在这些变化点的回顾性推断上,而不考虑它们将来的发生。我们扩展贝叶斯在线变换点检测算法以推断直到下一个变化点(即剩余时间)的时间步数。这使我们能够处理依赖于总段持续时间的观察模型,这是使用具有时间缩放的模型数据序列。另外,我们通过删除i.i.d来扩展模型。对观测模型参数的假设。用于分段检测的结果推理算法可以以在线方式部署,并且我们将合成和两个医学真实世界数据集的应用说明。
translated by 谷歌翻译
复杂的数据驱动的预测模型越来越多地了解相应的决策。对于准确的预测模型,确定性阈值规则已被证明在效用方面是最优的,即使在多种公平约束下也是如此。但是,始终如一地学习准确模型需要访问地面实况数据。不幸的是,在实践中,如果做出某些决定,就会被观察到一些数据。因此,收集的数据总是取决于潜在的不完善的历史决策政策。结果,学习的确定性阈值规则通常是次优的。我们从顺序政策学习的角度解决了上述问题。我们首先要知道,如果决策是由错误的确定性政策决定的,那么这项政策下的观察结果就不足以改善它。然后,我们描述了如何使用随机策略避免这种不良行为。最后,我们引入了一种实用的基于梯度的算法来学习随机策略,这些策略可以有效地利用决策结果随时间推移而改进。合成和现实数据的实验说明了我们的理论结果,并显示了我们提出的算法的功效。
translated by 谷歌翻译
我们提出了一个通用的公式,用于解决具有观测数据的环境中的强化学习(RL)问题。也就是说,我们仅仅从历史数据中考虑学习良好政策的问题,其中未观察到的因素(混淆因素)影响观察到的行动和奖励。我们的公式允许我们扩展一个有代表性的RL算法,即Actor-Critic方法,用于deconfounding变体,这个扩展的方法很容易应用于其他RL算法。除此之外,我们还开发了一个新的基准,用于通过修改OpenAI Gymenvironments和MNIST数据集来评估deconfounding RL算法。使用该基准测试,我们证明了在具有观测数据的混淆环境中,所提出的算法优于传统的RL方法。据我们所知,这是第一次将混淆因素用于解决具有观测数据的完整RL问题。代码可从以下网址获得://github.com/CausalRL/DRL。
translated by 谷歌翻译
诸如生成对抗网络(GAN)和变分自动编码器(VAE)等深度生成模型是捕获和研究复杂经验数据属性的重要工具。然而,其内部元素的复杂性使得它们的运行难以评估和修改。在这方面,这些架构表现为黑盒模型。为了更好地理解这些网络的功能,我们基于其内部变量的反事实处理来分析它们的模块性。具有面部图像的实验支持在一定程度上在香草VAE和GANgenerator的卷积层内实现了信道组之间的模块化。这有助于理解这些系统的功能组织,并允许设计有意义的生成图像变换而无需进一步培训。
translated by 谷歌翻译
在新情况下学习和行动的能力仍然是动画智能的特权,因为当超出标准i.i.d时,当前的机器学习方法大多失败。设置。造成这种差异的原因是什么?大多数机器学习任务都是反因果的,即我们从效果(观察)推断出原因(标签)。通常,在监督学习webuild系统中,试图直接反转因果机制。相反,在本文中,我们认为强大的泛化能力至关重要地依赖于搜索和验证有意义的假设,需要访问causalmodel。在这样的框架中,我们希望找到导致观察效果的原因。反因果模型用于推动此搜索,但需要一个因果模型进行验证。我们研究了因果任务和反因果任务之间的根本区别,讨论了对于范围攻击和解开变异因素等主题的影响,并提供了文献中的大量证据来证实我们的观点。我们主张将因果模型纳入监督学习,以将范式从推理转移到搜索和验证。
translated by 谷歌翻译
过滤是推断动态系统给定观察状态的通用名称。最常见的滤波方法是高斯滤波(GF),其中推断状态的分布是高斯分布,其平均值是观测值的仿射函数。这个模型有两个限制:高斯性和亲和性。我们提出了一个基于隐式生成模型的最新进展来放松这些假设的模型。实验结果表明,与基于固定非线性核的GF和非线性方法相比,该方法具有明显的优势。
translated by 谷歌翻译
学习解开高维,非结构化数据变异的基础知识的解缠结表示的能力对于数据有效和强大地使用神经网络具有重要意义。最近提出了针对这一目标的各种方法 - 验证现有工作是指导进一步发展的关键任务。先前的验证方法侧重于生成因素和学习特征之间的共享信息。然而,罕见事件或来自多种因素的累积影响对编码的影响仍未被捕获。 Ourexperiments表明,这已经在一个简单的噪声自由基因中变得明显。这就是我们引入介入稳健性评分的原因,该评分提供了对生成因子的干预性和改变滋扰因素的学习表征的稳健性的定量评估。我们展示了如何从标记的观察数据中估计这个分数,这可能是混淆的,并且进一步提供了一种在数据集大小中线性缩放的有效算法。我们的因果激励框架的好处在广泛的实验中得到了说明。
translated by 谷歌翻译