我们考虑半监督序数回归问题,其中除了序数标记数据之外还给出了未标记的数据。在序数回归中有许多评估度量,例如平均绝对误差,均方误差和平均分类误差。现有工作没有考虑评估指标,对模型选择有限制,没有理论保证。为了缓解这些问题,我们提出了一种基于经验风险最小化(ERM)框架的方法,该框架适用于优化上述所有指标。此外,我们的方法具有模型,替代损失和优化算法的灵活选择。此外,我们的方法不需要对未标记数据进行限制性假设,例如聚类假设和多种假设。我们提供估计错误绑定,以表明我们的学习方法是一致的。最后,我们通过实验来展示我们框架的实用性。
translated by 谷歌翻译
我们推导出一系列蒙特卡罗估计量,用于预期的变量分布的期望值,它与对数导数技巧有关,但是涉及样本之间的成对相互作用。其中的第一个来自a)基于微积分的基本定理引入和近似积分表示,或b)在参数的无穷小扰动下将重新参数化技巧应用于隐式参数化。从前一个角度来看,我们推广到再生kernelHilbert空间表示,从而在上面提到的成对交互中产生局部性参数。由此产生的估计器是无偏的,并且与log-derivative估计器相比,shownto提供了有用信息的独立组成部分。有前途的分析和数值例子证实了新估算器背后的直觉。
translated by 谷歌翻译
我们研究了具有拒绝的多类分类的问题,其中分类器可以选择不进行预测以避免关键的分类。我们考虑两种方法来解决这个问题:一个基于置信度得分的传统方法和一个基于分类器和拒绝器同时约束的更新方法。前面的一种现有方法侧重于一类特定的损失,其经验表现并不十分令人信服。在本文中,我们提出了基于置信度的多类别分类拒绝标准,它可以处理更多的一般损失并保证对贝叶斯最优解的校准。后一种方法是相对较新的,并且仅在二元情况下可用,而且是最好的知识。我们的第二个贡献是证明在多类别中通过这种方法几乎不可能校准到贝叶斯最优解。最后,我们进行实验以验证理论发现的相关性。
translated by 谷歌翻译
我们解决了在无监督域适应中测量两个域之间差异的问题。我们指出,当应用诸如深度神经网络的复杂模型时,现有的差异对策信息量较少。此外,对现有差异度量的估计在计算上可能是困难的并且仅限于二元分类任务。为了缓解这些缺点,我们提出了一种新颖的差异度量,对于许多不仅限于二元分类的任务,理论上基于并且可以有效地应用于复杂模型,非常容易估计。我们还提供易于解释的泛化界限,以解释在一些伪监测域适应中伪标记方法家族的有效性。最后,我们进行实验以验证我们提出的差异度量的有用性。
translated by 谷歌翻译
模仿学习(IL)旨在通过示范来学习最优政策。然而,这种示范往往是不完美的,因为收集最优的政策是昂贵的。为了有效地从不完美的示范中学习,我们提出了一种利用置信度得分的新方法,它描述了示范的质量。更具体地说,我们提出了两种基于置信度的IL方法,即两步重要性加权IL(2IWIL)和生成性对抗性IL,具有不完美的证明和置信度(IC-GAIL)。我们证明,仅给出一小部分次优演示的置信度分数在理论上和经验上都显着提高了IL的性能。
translated by 谷歌翻译
本文旨在提供对对称损失的更好理解。首先,我们表明,使用对称损耗有利于平衡误码率(BER)最小化和接收器工作特性曲线(AUC)下的区域从损坏的标签最大化。其次,我们证明了对称损失的一般理论性质,包括分类校准条件,超额风险界限,条件风险最小化和AUC-一致性条件。第三,由于所有非负对称损失都是非凸的,我们提出了一个凸障碍铰链损失,它可以从对称条件中获益,尽管它在任何地方都不是对称的。最后,我们对来自损坏标签的BER和AUC优化进行了实验,以验证对称条件的相关性。
translated by 谷歌翻译
平面极小值的概念在深度学习模型的泛化性质中起到了关键作用。然而,已知平坦度的现有定义对参数的重新缩放敏感。这些问题表明,先前对平坦度的定义并不一定能得到泛化,因为泛化对于这种重新定位是不变的。在本文中,从PAC-Bayesian的角度来看,我们仔细研究了关于平面最小值的讨论,并引入了归一化平面最小值的概念。没有已知的规模依赖问题。此外,我们还强调了现有基于矩阵规范的泛化误差边界的不足。我们修改的平坦度概念也没有受到效率低下的影响,这表明它更好地捕捉了泛化。
translated by 谷歌翻译
使用嘈杂的标签进行学习是弱受监督学习领域中最重要的问题之一。经典方法专注于添加混合或估计噪声转移矩阵。然而,要么永久地引入了均衡偏差,要么难以准确地估计噪声转移矩阵。在本文中,遵循一个新的小损失样本路径,我们提出了一个强大的学习范式,称为教学+。这种范式自然地将“通过分歧更新”策略与训练两个深度神经网络的共同教学联系起来,因此包括分歧 - 更新步骤和交叉更新步骤。在不同意更新步骤中,两个网络首先预测所有数据,并仅向前推送预测不一致数据。然后,在交叉更新步骤中,每个网络从这种不一致数据中选择其小损耗数据,但是通过其对等网络反向传播小损耗数据并更新其自身参数。对MNIST,CIFAR-10和NEWS的嘈杂版本的实证结果表明,共同教学+在训练有素的深层模型的稳健性方面远远优于最先进的方法。
translated by 谷歌翻译
现实世界的任务往往是高度结构化的。分层强化学习(HRL)作为一种在强化学习(RL)中利用给定任务的层次结构的方法引起了研究兴趣。然而,识别增强RL性能的层次结构政策结构并非易事。在本文中,我们提出了一种HRL方法,该方法使用互信息最大化来学习分层策略的潜在变量。我们的方法可以被解释为学习状态 - 动作空间的adiscrete和潜在表示的一种方式。为了学习与优势函数模式相对应的期权政策,我们引入了优势加权重要性抽样。在我们的HRL方法中,门控策略用于根据选项 - 值函数选择期权策略,并且这些选项策略基于确定性策略梯度方法进行优化。该框架是通过利用adeterministic期权政策利用标准RL中的整体政策与HRL中的分层政策之间的类比得出的。实验结果表明,我们的HRL方法可以学习多种选项,并且可以增强RL在连续控制任务中的性能。
translated by 谷歌翻译
最近的研究表明,尽管强化学习(RL)可以从专家论证中获益,但通常需要付出相当大的努力才能获得足够的示范。这些努力阻止了训练体面的RL代理人在实践中的演示。在这项工作中,我们提出了Active ReinforcementLearning with Demonstration(ARLD),这是一个新的框架,通过允许RL代理在培训期间进行示范性查询来简化RL的演示工作。在该框架下,我们提出了Active DeepQ-Network,这是一种新的查询策略,通过估计最近状态的不确定性,适应RL训练过程中动态变化的分布。然后,通过优化监督的最大边际损失以及常规DQN训练中的临时差异损失来利用活动DQN内的专家演示数据。我们提出了两种基于两种最先进的DQN模型估计不确定性的方法,即自举DQN的分歧和噪声DQN的方差。实证结果证实,这两种方法不仅学习速度快于其他被动专家演示方法,而且具有相同的演示量,而且在四种不同的任务中达到了超级专家级别的性能。
translated by 谷歌翻译