基于树的机器学习模型,例如随机森林,决策树和梯度增强树,是当今实践中使用的最流行的非线性预测模型,但是对于解释它们的预测却相对较少关注。在这里,我们通过三个主要贡献显着提高了树模型的可解性:1)基于游戏理论计算最优解释的第一个多项式时间算法。 2)一种直接测量局部特征相互作用效果的新型解释。 3)一组新的工具,用于基于每个预测的许多局部解释来理解全局模型结构。我们将这些工具应用于三个医学机器学习问题,并展示如何结合许多高质量的局部解释使我们能够代表全局结构,同时保持对原始模型的本地忠诚度。这些工具可以使我们知道i)在美国一般人群中识别高幅度但低频率的非线性死亡率因素,ii)突出显示具有共同风险特征的不同群体子群,iii)识别慢性肾病危险因素之间的非线性相互作用, iv)通过识别哪些特征随着时间的推移降低模型的性能来监控部署在医院中的机器学习模型。鉴于基于树的机器学习模型的普及,这些对其可解释性的改进对于广泛的领域具有影响。
translated by 谷歌翻译
我们使用acommon任务框架解决蛋白质二级结构预测的问题。这导致了基于最先进的构建块的神经架构的多个想法的引入,这是第一次在这个任务中使用。我们采用原则性机器学习方法,提供真实,无偏见的性能测量,纠正应用领域中长期存在的错误。我们专注于第二层结构的Q8分辨率,这是一个不断改进方法的活跃领域。我们使用强预测器的集合来实现70.7%的准确度(使用CB6133过滤训练集的CB513测试集)。这些结果在统计上与现有顶级预测因子的结果不同。本着可重复研究的精神,我们提供数据,模型和代码,旨在为培训和测试集的纯度提供金标准。这些良好的实践降低了该领域的进入障碍,并促进了可重复的,可扩展的研究。
translated by 谷歌翻译
投注机制是引发代理人对事件预测的一次性投注机制。对于确定性投注机制,现有的不可能性结果表明一些理想的理论性质不相容。特别是,帕累托最优性(在分配之前没有盈利的边注)不能与弱激励兼容性,弱预算平衡和个人理性一起实现。在本文中,我们扩展了投注机制的设计空间,以允许随机化,并询问其中是否有随机化的投注机制,可以实现所有先前考虑​​的所需属性,包括帕累托最优性。我们用两类随机化的投注机制积极地回答这个问题:i)现有确定性投资机制的简单随机抽签式实施,以及ii)我们称之为代理投注机制的另一族简单和随机化投注机制,这些机制是强大的tonoisy基本事实。这一系列机制建立在嘈杂标签学习的基础上(Natarajan等人,2013),以及最近将该信息扩展到信息引出而没有验证设置(Liu和Chen2018)。我们表明,广泛的随机化投注机制家族满足了所有理想的理论属性。
translated by 谷歌翻译
人脸识别近年来取得了长足的进步,主要归功于设计的大容量模型和丰富的标签数据。然而,扩大当前的百万级身份注释变得越来越禁止。在这项工作中,我们表明,未标记的面部数据可以与标记的面部数据一样有效。在这里,我们考虑设置密切模仿现实世界的场景,其中未标记的数据从不受约束的环境收集,并且它们的身份与标记的数据是唯一的。我们的主要观点是,尽管类信息不可用,但我们仍然可以通过以自下而上的方式构建关系图来忠实地近似这些语义关系。我们提出共识驱动传播(CDP)来解决这个具有挑战性的问题,有两个模块,即“委员会”和“调解员”,它们通过仔细聚合多视图信息来强有力地选择正面对。大量实验验证了两个模块的有效性,以丢弃异常值和挖掘硬性积极因素。使用CDP,我们通过仅使用9%的标签实现了对MegaFace识别挑战的78.18%的令人信服的准确度,相比之下,当使用未标记数据时为61.78%,而当使用所有标签时为78.52%。
translated by 谷歌翻译
随机梯度下降(SGD)可追溯到20世纪50年代,是进行随机优化的最流行和最有效的方法之一。关于SGD的研究最近在机器学习中重新出现,用于优化凸损失函数以及训练非凸深度神经网络。该理论假设人们可以很容易地计算出无偏的梯度拟合,这通常是由于经验风险最小化的样本平均性质。然而,存在许多场景(例如,图形学习),其中无偏估计器可能与完整梯度一样昂贵,因为训练示例是互连的。在最近的一项工作中,陈等人。 (2018)提出使用一致的梯度估计器作为经济替代方案。受经验成功的鼓舞,我们在一般情况下表明,一致的估计量会导致与无偏差的收敛行为相同的收敛行为。我们的分析涵盖了强凸,凸和非凸目标。这项工作开辟了几个新的研究方向,包括利用一致的估算器开发更高效的SGD更新,以及为大规模图形设计高效的训练算法。
translated by 谷歌翻译
Heterogeneous network embedding (HNE) is a challenging task due to the diverse node types and/or diverse relationships between nodes. Existing HNE methods are typically unsupervised. To maximize the profit of utilizing the rare and valuable supervised information in HNEs, we develop a novel Active Heterogeneous Network Embedding (Ac-tiveHNE) framework, which includes two components: Discriminative Heterogeneous Network Embedding (DHNE) and Active Query in Heterogeneous Networks (AQHN). In DHNE, we introduce a novel semi-supervised heterogeneous network embedding method based on graph convolutional neu-ral network. In AQHN, we first introduce three active selection strategies based on uncertainty and representativeness, and then derive a batch selection method that assembles these strategies using a multi-armed bandit mechanism. ActiveHNE aims at improving the performance of HNE by feeding the most valuable supervision obtained by AQHN into DHNE. Experiments on public datasets demonstrate the effectiveness of ActiveHNE and its advantage on reducing the query cost.
translated by 谷歌翻译
Recently, improving the relevance and diversity of dialogue system has attracted wide attention. For a post x, the corresponding response y is usually diverse in the real-world corpus, while the conventional encoder-decoder model tends to output the high-frequency (safe but trivial) responses and thus is difficult to handle the large number of responding styles. To address these issues, we propose the Atom Responding Machine (ARM), which is based on a proposed encoder-composer-decoder network trained by a teacher-student framework. To enrich the generated responses, ARM introduces a large number of molecule-mechanisms as various responding styles, which are conducted by taking different combinations from a few atom-mechanisms. In other words, even a little of atom-mechanisms can make a mickle of molecule-mechanisms. The experiments demonstrate diversity and quality of the responses generated by ARM. We also present generating process to show underlying interpretability for the result.
translated by 谷歌翻译
作为多视图学习的成功应用,Hyperalignment和SharedResponse模型是跨多个主体的神经元活动的两种有效功能对齐方法。虽然它们已经被广泛研究并且可以显着改善功能性磁共振成像(fMRI)分析,但它们今天无法处理各种fMRI数据集,特别是当它们不完整时,即一些受试者可能缺乏对某些刺激的反应或不同的受试者可能会遵循不同的刺激序列。在本文中,一个评估跨越主题的任何两个样本之间的连接的交叉视图被用作开发适合各种fMRI数据集的更灵活的框架的锚。为了处理大规模数据集,基于内核的优化允许非 - 理论上为所提出的框架结构开发了线性特征提取。此外,所提出的优化允许我们在具有任何内核的新特征空间中进行PrincipalComponent Analysis,其可以过滤特定的高斯噪声。实证研究证实,在不完整性和完整性的情况下,所提出的方法可以获得比其他最先进的功能对齐方法更好的性能,而不具有不完整性
translated by 谷歌翻译
我们提出了一个新的CogQA框架,用于多跳问题回答inweb-scale文档。受认知科学中的双重过程理论的启发,该框架通过协调隐式提取模块(系统1)和显式推理模块(系统2)逐步在迭代过程中构建\ textit {认知图}。在给出准确答案的同时,我们的框架进一步提供了可解释的推理路径。具体而言,基于BERT和图形神经网络的实现有效处理了HotpotQAfullwiki数据集中的多跳推理问题的数百万个文档,在排行榜上获得了34.9的联合$ F_1 $得分,而最佳竞争对手的得分为23.6。
translated by 谷歌翻译
仅从原始样本到相应的二进制标签学习一个投影矩阵太严格,并且因此会丢失一些数据的固有几何结构。在本文中,我们提出了一种新的基于过渡子空间学习的最小二乘回归(TSL-LSR)模型形式分类图像分类。 TSL-LSR的主要思想是学习原始样本和二进制标签之间的过渡子空间,以缓解严格投影学习引起的过度拟合问题。此外,为了反映转移矩阵的基础低秩结构并且学习更多判别性投影矩阵,在转移子空间中增加了低秩约束。几个图像数据集的实验结果证明了所提出的TSL-LSR模型与最先进的算法相比的有效性
translated by 谷歌翻译