朴素的贝父是一种流行的概率模型,其简单和可解释性得到了赞赏。然而,相关分类器的通常形式遭受了两个主要问题。首先,作为关心观察法律,它无法考虑复杂的功能。此外,它考虑了给定隐藏变量的观察结果的条件独立性。本文介绍了原始神经野贝雷斯,用神经网络功能造型从幼稚贝叶斯诱导的分类器的参数。这允许纠正第一个问题。我们还介绍了新的神经汇总马尔可夫链模型,减轻了独立条件。我们经验研究了这些模型的情绪分析的好处,将通常分类器的误差划分为4.5在IMDB数据集中与FastText嵌入的IMDB数据集。
translated by 谷歌翻译
我们应对贝叶斯生成和鉴别的分类器。鉴于模型分发$ p(x,y)$,观察$ y $和目标$ x $,首先考虑$ p(x,y)$,然后使用贝叶斯规则计算生成分类器来计算$ p(x | y)$。判别模型由$ p(x | y)$直接给出,用于计算判别分类器。然而,最近的作品表明,贝叶斯最大后级分类器定义由天真贝叶斯(NB)或隐藏的Markov链(HMC),两种生成模型也可以匹配鉴别的分类器定义。因此,存在将分类器分类为“生成”和“鉴别性”的情况有点误导。实际上,这种区别与计算分类器的方式相当相关,而不是分类器本身。我们介绍了一般理论结果,指定如何以与相同模型的鉴别方式计算从生成模型引起的生成分类器。 NB和HMC的示例再次找到特定情况,并且我们将一般结果应用于两个NB的原始扩展,以及HMC的两个扩展,其中一个是原始的。最后,我们很快地说明了自然语言处理中计算分类器(NLP)框架的新判别方式的兴趣。
translated by 谷歌翻译
现代深度学习方法构成了令人难以置信的强大工具,以解决无数的挑战问题。然而,由于深度学习方法作为黑匣子运作,因此与其预测相关的不确定性往往是挑战量化。贝叶斯统计数据提供了一种形式主义来理解和量化与深度神经网络预测相关的不确定性。本教程概述了相关文献和完整的工具集,用于设计,实施,列车,使用和评估贝叶斯神经网络,即使用贝叶斯方法培训的随机人工神经网络。
translated by 谷歌翻译
在本文中,我们提出了一种在贝叶斯神经网络中执行近似高斯推理(Tagi)的分析方法。该方法使得后尺寸矢量和对角线协方差矩阵的分析高斯推断用于重量和偏差。提出的方法具有$ \ mathcal {o}(n)$的计算复杂性,与参数$ n $的数量,并且对回归和分类基准测试的测试确认,对于相同的网络架构,它匹配依赖于梯度背交的现有方法的性能。
translated by 谷歌翻译
从业者在大约六十年内成功地使用不同问题的隐藏马尔可夫链(HMC)。HMCS属于生成模型系列,它们通常与鉴别模型相比,如条件随机字段(CRF)。作者通常认为CRF与HMCs完全不同,CRF通常呈现为HMCS的有趣替代品。在某些领域,如自然语言处理(NLP),歧视模型具有完全涂覆的生成模型。然而,最近的一些结果表明,两个型号的家庭都没有如此不同,两者都可以导致相同的处理能力。在本文中,我们将简单的线性链CRF与基本HMC进行比较。我们表明HMCS与CRF相同,因为每个CRF我们明确构建具有相同后部分布的HMC。因此,HMCS和线性链CRFS不不同,但只是不同的参数化模型。
translated by 谷歌翻译
我们提出了一种新的非参数混合物模型,用于多变量回归问题,灵感来自概率K-Nearthimest邻居算法。使用有条件指定的模型,对样本外输入的预测基于与每个观察到的数据点的相似性,从而产生高斯混合物表示的预测分布。在混合物组件的参数以及距离度量标准的参数上,使用平均场变化贝叶斯算法进行后推断,并具有基于随机梯度的优化过程。在与数据大小相比,输入 - 输出关系很复杂,预测分布可能偏向或多模式的情况下,输入相对较高的尺寸,该方法尤其有利。对五个数据集进行的计算研究,其中两个是合成生成的,这说明了我们的高维输入的专家混合物方法的明显优势,在验证指标和视觉检查方面都优于竞争者模型。
translated by 谷歌翻译
分类的生成模型使用类变量的联合概率分布和功能来构建决策规则。在生成模型中,贝叶斯网络和天真的贝叶斯分类器是最常用的,并提供了所有变量之间关系的明确图形表示。但是,这些具有高度限制可能存在的关系类型的缺点,而不允许特定于上下文的独立性。在这里,我们介绍了一种新的生成分类器类别,称为“分阶性树分类器”,该分类器正式解释了特定于上下文的独立性。它们是通过对事件树的顶点的分区进行构建的,可以正式读取条件独立性。还定义了天真的阶段树分类器,它扩展了经典的天真贝叶斯分类器,同时保持相同的复杂性。一项广泛的仿真研究表明,分级树分类器的分类精度与最先进的分类器的分类精度具有竞争力,并且一个示例展示了它们在实践中的使用。
translated by 谷歌翻译
在这项工作中,我们研究了基于分数的梯度学习在判别和生成分类设置中的应用。分数函数可用于将数据分布描述为密度的替代方案。它可以通过分数匹配有效地学习,并用于灵活地生成可靠的样本以增强判别性分类质量,以恢复密度并构建生成性分类器。我们分析了涉及基于分数表示的决策理论,并对模拟和现实世界数据集进行了实验,证明了其在实现和改善算法分类性能以及对扰动的鲁棒性方面的有效性,尤其是在高维和不平衡状况下。
translated by 谷歌翻译
我们提出了一种新的方法,可以在复杂模型(例如贝叶斯神经网络)中执行近似贝叶斯推断。该方法比马尔可夫链蒙特卡洛更可扩展到大数据,它具有比变异推断更具表现力的模型,并且不依赖于对抗训练(或密度比估计)。我们采用了构建两个模型的最新方法:(1)一个主要模型,负责执行回归或分类; (2)一个辅助,表达的(例如隐式)模型,该模型定义了主模型参数上的近似后验分布。但是,我们根据后验预测分布的蒙特卡洛估计值通过梯度下降来优化后验模型的参数 - 这是我们唯一的近似值(除后模型除外)。只需要指定一个可能性,可以采用各种形式,例如损失功能和合成可能性,从而提供无可能的方法的形式。此外,我们制定了该方法,使后样品可以独立于或有条件地取决于主要模型的输入。后一种方法被证明能够增加主要模型的明显复杂性。我们认为这在诸如替代和基于物理的模型之类的应用中很有用。为了促进贝叶斯范式如何提供不仅仅是不确定性量化的方式,我们证明了:不确定性量化,多模式以及具有最新预测的神经网络体系结构的应用。
translated by 谷歌翻译
Compared to point estimates calculated by standard neural networks, Bayesian neural networks (BNN) provide probability distributions over the output predictions and model parameters, i.e., the weights. Training the weight distribution of a BNN, however, is more involved due to the intractability of the underlying Bayesian inference problem and thus, requires efficient approximations. In this paper, we propose a novel approach for BNN learning via closed-form Bayesian inference. For this purpose, the calculation of the predictive distribution of the output and the update of the weight distribution are treated as Bayesian filtering and smoothing problems, where the weights are modeled as Gaussian random variables. This allows closed-form expressions for training the network's parameters in a sequential/online fashion without gradient descent. We demonstrate our method on several UCI datasets and compare it to the state of the art.
translated by 谷歌翻译
We develop an optimization algorithm suitable for Bayesian learning in complex models. Our approach relies on natural gradient updates within a general black-box framework for efficient training with limited model-specific derivations. It applies within the class of exponential-family variational posterior distributions, for which we extensively discuss the Gaussian case for which the updates have a rather simple form. Our Quasi Black-box Variational Inference (QBVI) framework is readily applicable to a wide class of Bayesian inference problems and is of simple implementation as the updates of the variational posterior do not involve gradients with respect to the model parameters, nor the prescription of the Fisher information matrix. We develop QBVI under different hypotheses for the posterior covariance matrix, discuss details about its robust and feasible implementation, and provide a number of real-world applications to demonstrate its effectiveness.
translated by 谷歌翻译
在Twitter数据中表达的情绪的自动识别具有广泛的应用。我们通过将中性类添加到一个由四种情绪组成的基准数据集中添加中性类来创建一个均衡的数据集:恐惧,悲伤,喜悦和愤怒。在此扩展数据集上,我们研究了来自变压器(BERT)的支持向量机(SVM)和双向编码器表示情感识别的使用。我们通过组合两个BERT和SVM模型来提出一种新颖的合奏模型。实验表明,所提出的模型在推文中的情绪识别方面达到了0.91的最新精度。
translated by 谷歌翻译
深度高斯进程(DGP)使非参数方法能够量化复杂深机器学习模型的不确定性。 DGP模型的传统推理方法可以遭受高计算复杂性,因为它们需要使用核矩阵的大规模操作进行训练和推理。在这项工作中,我们提出了一种基于一系列高斯过程的准确推理和预测的有效方案,称为Tensor Markov高斯过程(TMGP)。我们构建称为分层扩展的TMGP的诱导近似。接下来,我们开发一个深入的TMGP(DTMGP)模型作为TMGPS的多个层次扩展的组成。所提出的DTMGP模型具有以下性质:(1)每个激活功能的输出是确定性的,而重量独立于标准高斯分布选择; (2)在训练或预测中,只有O(Polylog(M))(M)激活函数具有非零输出,这显着提高了计算效率。我们对实时数据集的数值实验显示了DTMGP与其他DGP型号的卓越计算效率。
translated by 谷歌翻译
尽管在自然语言处理(NLP)中经常发生的经常性神经网络(RNN),但由于RNN中的本质上复杂计算,RNN的理论理解仍然有限。我们在普遍存在的NLP任务中对RNNS的行为进行了系统分析,通过映射到一种称为经常性算术电路(RAC)和矩阵产品状态(MPS)之间的映射来对电影评论的情感分析。使用von-neumann纠缠熵(EE)作为信息传播的代理,我们表明单层RACS具有最大信息传播能力,由EE的饱和反映。放大超出EE饱和阈值的MP的键尺寸不会增加预测精度,因此可以构建最佳估计数据统计数据的最小模型。虽然饱和EE小于MPS的面积法可实现的最大EE,但我们的模型在现实情绪分析数据集中实现了〜99%的训练准确性。因此,单独的低EE不是针对NLP采用单层RAC的权证。与常见的信念相反,远程信息传播是RNNS表达的主要来源,我们表明单层RACS也从有意义的单词矢量嵌入中利用高表现力。我们的工作揭示了在RAC的现象学中,更一般地用于NLP的RNNS的解释性方面,使用来自许多身体量子物理学的工具。
translated by 谷歌翻译
临床数据管理系统和人工智能方法的快速进展使个性化药物的时代能够。重症监护单位(ICU)是这种发展的理想临床研究环境,因为它们收集了许多临床数据,并且是高度计算机化的环境。我们在使用临床自然语言的前瞻性ICU数据库中设计了一种回顾性临床研究,帮助早期诊断严重生病的儿童心力衰竭。该方法包括学习算法的实证实验,以了解法国临床票据数据的隐藏解释和呈现。本研究包括1386名患者的临床票据,符合5444行票据。有1941个阳性案件(总计36%)和3503个使用标准方法的独立医生分类的负案件。多层的感知者神经网络优于其他判别和生成的分类器。因此,所提出的框架产生了总体分类性能,精度为89%,召回88%和89%的精度。本研究成功地应用了学习代表和机器学习算法,以检测单一法国机构中的临床自然语言的心力衰竭。需要进一步的工作来在其他机构和其他语言中使用相同的方法。
translated by 谷歌翻译
这项工作提出了一种分散的架构,其中个别代理旨在解决分类问题,同时观察不同尺寸的流特征,并从可能不同的分布产生。在社会学习的背景下,已经开发了几种有用的策略,通过跨分布式代理的本地合作解决了决策问题,并允许他们从流数据中学习。然而,传统的社会学习策略依赖于每个代理人对观察结果分布的重要知识的基本假设。在这项工作中,我们通过引入一种机器学习框架来克服这一问题,该机器学习框架利用图形的社交交互,导致分布式分类问题的完全数据驱动的解决方案。在拟议的社交机器学习(SML)策略中,存在两个阶段:在训练阶段,分类器被独立培训,以使用有限数量的训练样本来产生一组假设的信念;在预测阶段,分类器评估流媒体未标记的观察,并与邻近分类器共享他们的瞬时信仰。我们表明SML策略使得代理能够在这种高度异构的环境下一致地学习,并且即使在预测阶段决定未标记的样本时,即使在预测阶段也允许网络继续学习。预测决策用于以明显不同的方式不断地提高性能,这些方式与大多数现有的静态分类方案不同,在培训之后,未标记数据的决策不会重新用于改善未来的性能。
translated by 谷歌翻译
为了识别动态网络中嵌入的系统(模块),必须制定一个多输入估计问题,该问题需要测量某些节点并将其作为预测输入。但是,由于传感器选择和放置问题,在许多实际情况下,其中一些节点可能无法测量。这可能会导致目标模块的偏差估计。此外,与多输入结构相关的识别问题可能需要确定实验者不特别感兴趣的大量参数,并且在大型网络中的计算复杂性增加。在本文中,我们通过使用数据增强策略来解决这些问题,该策略使我们能够重建缺失的节点测量并提高估计目标模块的准确性。为此,我们使用基于正规化的基于内核的方法和近似推理方法开发了系统识别方法。为感兴趣的模块保留一个参数模型,我们将其他模块作为高斯过程(GP)建模,并用所谓的稳定样条核给出的内核。经验贝叶斯(EB)方法用于估计目标模块的参数。相关的优化问题是使用预期最大化(EM)方法来解决的,在该方法中,我们采用马尔可夫链蒙特卡洛(MCMC)技术来重建未知的缺失节点信息和网络动力学。动态网络示例上的数值模拟说明了开发方法的电势。
translated by 谷歌翻译
本文考虑了在黑匣子场景中估算系统信息泄露的问题。假设系统的内部结构未知为学习者,或者无论如何都是过于复杂的分析,并且唯一可用信息是对输入输出数据样本的对,可能通过向系统提交查询或由第三方提供而获得。以前的研究主要集中在计算频率上估计输入输出条件概率(称为频率方法),但是当可能输出的域大时,此方法不准确。为了克服这种困难,最近使用机器学习(ML)模型来研究理想分类器的贝叶斯误差的估计,并且由于这些模型来学习输入输出对应的能力,它已被证明更准确。但是,贝叶斯脆弱性仅适合描述一次尝试攻击。更一般和灵活的泄漏量是G-漏洞,包括几种不同类型的对手,具有不同的目标和能力。在本文中,我们提出了一种新的方法来使用ML进行黑盒估计G-漏洞的估计。我们的方法的特点是它不需要估计条件概率,并且它适用于大类ML算法。首先,我们正式显示所有数据分布的可读性。然后,我们通过使用K-CORMATE邻居和神经网络通过各种实验评估性能。当可观察到域大时,我们的结果胜过频率的方法。
translated by 谷歌翻译
在线评论在电子商务中发挥重要作用进行决策。大部分人口做出了哪些地方,餐厅访问,以根据各自的平台发布的评论来购买的地方,从哪里购买。欺诈性审查或意见垃圾邮件被分类为一个不诚实或欺骗性的审查。产品或餐厅的肯定审查有助于吸引客户,从而导致销售额增加,而负面评论可能会妨碍餐厅或产品销售的进展,从而导致令人害羞的声誉和损失。欺诈性评论是故意发布的各种在线审查平台,以欺骗客户购买,访问或分散产品或餐厅的注意力。它们也被编写或诋毁产品的辩护。该工作旨在检测和分类审查作为欺骗性或真实性。它涉及使用各种深入学习技术来分类审查和概述涉及基于人的双向LSTM的提出的方法,以解决与基线机器学习技术的评论和比较研究中的语义信息有关的问题,以进行审查分类。
translated by 谷歌翻译
我们通过特征平均值研究了一种非参数计算方法,其中对先验特征的期望进行了更新,以产生预期的内核后验特征,基于学识渊博的神经网或观测值的内核特征的回归。贝叶斯更新中涉及的所有数量都从观察到的数据中学到了完全不含模型的方法。最终的算法是基于重要性加权的内核贝叶斯规则(KBR)的新颖实例。这会导致对KBR的原始方法具有较高的数值稳定性,而KBR需要运算符倒置。我们使用对无穷大标准中重要性加权估计器的新一致性分析来显示估计器的收敛性。我们评估了KBR关于挑战合成基准测试的,包括涉及高维图像观测值的状态空间模型的过滤问题。与原始KBR相比,重要性加权KBR的经验表现均匀地表现出更好的经验性能,并且具有其他竞争方法的竞争性能。
translated by 谷歌翻译