最近推出的Tsetlin Machine(TM)在几个基准测试中提供了具有竞争力的模式分类准确性,在命题逻辑中构成了具有易于解释的连接条款的模式。在本文中,我们通过引入一种新型的TMs,即回归Tsetlin机器(RTM)来超越模式分类。简而言之,我们修改TM的内部推理机制,以便将输入模式转换为单连续输出,而不是转换为不同的类别。我们通过以下方式实现这一目标:(1)使用TM的连接条款来捕获任意复杂的模式; (2)通过新颖的投票和规范化机制将这些模式映射到连续输出; (3)采用反馈方案更新TM条款,以尽量减少回归误差。反馈方案使用新的激活概率函数来稳定更新,同时整个系统收敛到准确的输入 - 输出映射。使用具有和不具有噪声的六个不同的人工数据集来评估所提出的方法的性能。将RTM的性能与Classical Tsetlin Machine(CTM)和MulticlassTsetlin Machine(MTM)进行比较。我们的实证结果表明,RTM获得了噪声和无噪声数据集的最佳训练和测试结果,条款数量较少。反过来,这使用更少的计算资源转化为更高的回归准确度。
translated by 谷歌翻译
在本文中,我们将一种新的有前景的模式分类工具,即Tsetlin Machine(TM)应用于疾病预测领域。 TMis是可解释的,因为它基于在命题逻辑中操纵表达式,利用大型Tsetlin Automata(TA)团队。除了可解释之外,由于其低计算成本和处理噪音的能力,这种方法很有吸引力。为了解决这个问题,我们引入了一种预处理方法来扩展TM,以便它可以处理连续输入。简而言之,我们将连续输入转换为基于阈值的abinary表示。使用人工数据集评估和分析得到的扩展TM。该TM还用于利用数据的时空属性预测菲律宾所有17个地区的登革热疫情。实验结果表明,TM的爆发预测比支持向量机(SVM),决策树(DT)和多层人工神经网络(ANNs)在预测精度和F1分数方面更准确。 。
translated by 谷歌翻译
近年来,复杂文档和文本的数量呈指数增长,需要更深入地了解机器学习方法,才能在许多应用程序中准确地对文本进行分类。许多机器学习方法在自然语言处理方面取得了超越的成果。这些学习算法的成功依赖于它们能够理解数据中的复杂模型和非线性关系。然而,为文本分类找到合适的结构,体系结构和技术对研究人员来说是一个挑战。在本文中,讨论了文本分类算法的简要概述。本概述涵盖了不同的文本特征提取,降维方法,现有算法和技术以及评估方法。最后,讨论了每种技术的局限性及其在现实问题中的应用。
translated by 谷歌翻译
在过去几年中,许多准确的决策支持系统被构建为黑盒子,即将内部逻辑隐藏到用户的系统。这种缺乏解释构成了一个实际和邪恶的问题。文献报道了许多旨在克服这种危险性的方法,有时以牺牲可解释性的准确性为代价。可以使用黑盒决策系统的应用是多种多样的,并且每种方法通常被开发以提供特定问题的解决方案,并且因此明确地或明确地描述其自身对可解释性和解释的定义。本文的目的是提供一个关于解释概念和黑箱系统类型的文献中解决的主要问题的分类。鉴于问题定义,黑匣子类型和愿望展示,这项调查应该有助于研究人员找到对他自己的工作更有用的建议。对开放式黑盒子模型的方法的拟议分类也应该有助于对许多研究开放式问题进行透视。
translated by 谷歌翻译
这项工作研究土耳其语中非正式短文的情感分析的分割方法。提出的工作分区和深度神经网络模型的两个构建块。分段侧重于使用不同方法对文本进行预处理。这些方法分组为:形态学,子词,标记化和混合方法。我们分析了这四种方法中的每一种的几种变体。第二阶段重点评估用于情绪分析的神经模型。在文献中提出的用于情感分类的卷积神经网络(CNN)和逆流神经网络(RNN)模型下评估每种分割方法的性能。
translated by 谷歌翻译
推文,博客文章或产品评论的情感极性变得极具吸引力,并在推荐系统,市场预测,商业智能等方面得到应用。深度学习技术正在成为分析此类文本的最佳表现者。然而,在文本挖掘和文本极化分析中有效地使用深度神经网络需要解决几个问题。首先,需要为深度神经网络提供大小和正确标记的数据集。其次,关于字嵌入向量的使用存在各种不确定性:它们是否应该从用于训练模型的相同数据集生成,还是更适合从大型和流行的集合中获取它们?第三,为了简化模型创建,使通用神经网络架构有效并且可以适应各种文本,封装大部分设计复杂性是很方便的。本文针对上述问题,提出了利用神经网络进行情感分析和实现最新技术成果的方法论实践见解。关于第一个问题,探讨了各种众包替代方案的有效性,并利用社交标准创建了双胞胎大小和情感标记的歌曲数据集。为了解决第二个问题,进行了一系列具有各种内容和域的大文本集的实验,尝试各种参数的插入。关于第三个问题,进行了一系列涉及卷积和最大汇集神经层的实验。将单词,双字母和三元组的卷积与几个堆栈中的区域最大汇集层相结合产生了最好的结果。派生体系结构在电影,商业和产品评论的情感极性分析中实现了竞争性表现。
translated by 谷歌翻译
The automated categorization (or classification) of texts into predefinedcategories has witnessed a booming interest in the last ten years, due to theincreased availability of documents in digital form and the ensuing need toorganize them. In the research community the dominant approach to this problemis based on machine learning techniques: a general inductive processautomatically builds a classifier by learning, from a set of preclassifieddocuments, the characteristics of the categories. The advantages of thisapproach over the knowledge engineering approach (consisting in the manualdefinition of a classifier by domain experts) are a very good effectiveness,considerable savings in terms of expert manpower, and straightforwardportability to different domains. This survey discusses the main approaches totext categorization that fall within the machine learning paradigm. We willdiscuss in detail issues pertaining to three different problems, namelydocument representation, classifier construction, and classifier evaluation.
translated by 谷歌翻译
最近,高效的分布式数字表示模型(字嵌入)与现代机器学习算法相结合,对自动文档分类任务产生了可观的改进。然而,尚未对分层文本分类(HTC)评估此类技术的有效性。本研究通过实验和分析研究了这些模型和算法在这一特定问题上的应用。我们使用突出的机器学习算法实现训练分类模型--- fastText,XGBoost,SVM和Keras'CNN ---以及可观察的词嵌入生成方法--- GloVe,word2vec和fastText ---以及公开可用的数据并且通过测量特别地评估它们适用于分层上下文。 FastText在RCV1数据集的单标签版本上实现了$ {} _ {LCA} F_1 $ 0.893。分析表明,使用单词嵌入及其风格是HTC非常有希望的方法。
translated by 谷歌翻译
本文回顾了将自然语言处理(NLP)应用于电子健康记录(EHRs)进行计算表型分析的最新进展。基于NLP的计算表型分析具有多种应用,包括诊断分类,新型表型发现,临床试验筛选,药物基因组学,药物相互作用( DDI)和不良药物事件(ADE)检测,以及全基因组和现象范围的关联研究。在计算表型的算法开发和资源构建方面取得了显着进展。在调查的方法中,精心设计的关键字搜索和基于规则的系统通常可以获得良好的性能。但是,关键字和规则列表的构建需要大量的手动工作,这很难扩展。监督机器学习模型受到青睐,因为它们能够从数据中获取分类模式和结构。近年来,深度学习和非监督学习受到越来越多的关注,前者对其性能有所支持,后者因其能够找到新的表型而具有优势。集成异构数据源变得越来越重要,并且在提高模型性能方面显示出前景。通常通过组合多种信息形式来实现更好的性能。尽管存在这些许多进展,但基于NLP的计算表型分析仍存在挑战和机遇,包括更好的模型可解释性和普遍性,以及临床叙述中特征关系的正确表征
translated by 谷歌翻译
This paper presents the design and evaluation of a text categorization method based on the Hierarchical Mixture of Experts model. This model uses a divide and conquer principle to define smaller categorization problems based on a predefined hierarchical structure. The final classifier is a hierarchical array of neural networks. The method is evaluated using the UMLS Metathesaurus as the underlying hierarchical structure, and the OHSUMED test set of MEDLINE records. Comparisons with an optimized version of the traditional Rocchio's algorithm adapted for text categorization, as well as flat neural network classifiers are provided. The results show that the use of the hierarchical structure improves text categorization performance with respect to an equivalent flat model. The optimized Rocchio algorithm achieves a performance comparable with that of the hierarchical neural networks.
translated by 谷歌翻译
在本文中,我们报告了我们对文本数据密集分布表示的研究结果。我们提出了两种新颖的神经模型来学习这种表征。第一个模型学习文档级别的表示,而第二个模型学习单词级表示。对于文档级表示,我们提出二进制段落向量:用于学习文本文档的二进制表示的神经网络模型,其可用于快速文档检索。我们对这些模型进行了全面评估,并证明它们在信息检索任务中的表现优于该领域的开创性方法。我们还报告了强有力的结果转换学习设置,其中我们的模型在通用textcorpus上训练,然后用于从特定于域的数据集推断文档的代码。与先前提出的方法相反,二进制段落矢量模型直接从原始文本数据学习嵌入。对于词级表示,我们提出消歧Skip-gram:用于学习多义词嵌入的神经网络模型。通过该模型学习的表示可以用于下游任务,例如词性标记或语义关系的识别。在单词意义上感应任务Disambiguated Skip-gram在三个基准测试数据集上优于最先进的模型。我们的模型具有优雅的概率解释。此外,与以前的这种模型不同,它在所有参数方面都是不同的,并且可以用反向传播进行训练。除了定量结果,我们还提出消除歧义的Skip-gram的定性评估,包括选定的词义嵌入的二维可视化。
translated by 谷歌翻译
从自动驾驶车辆和倒车机器人到虚拟助手,我们下一次在美发沙龙或在那家餐厅用餐 - 机器学习系统越来越普遍。这样做的主要原因是这些方法具有非凡的预测能力。然而,这些模型中的大多数仍然是黑盒子,这意味着人类追随并理解其错综复杂的内部运作是非常具有挑战性的。因此,在这种日益复杂的复杂性下,可解释性受到了影响。机器学习模型。特别是对于新规则,例如通用数据保护条例(GDPR),这些黑箱所做出的合理性和可预测性的必要性是不可或缺的。在行业和实践需求的推动下,研究界已经认识到这种可解释性问题,并着重于在过去的几年中开发出越来越多的所谓解释方法。这些方法解释了黑盒机器学习模型所做的个人预测,并有助于恢复一些丢失的可解释性。然而,随着这些解释方法的扩散,通常不清楚哪种解释方法提供更高的解释质量,或者通常更适合于手头的情况。因此,在本论文中,我们提出了anaxiomatic框架,它允许比较不同平台方法的质量。通过实验验证,我们发现开发的框架有助于评估不同解释方法的解释质量,并得出在独立研究中一致的结论。
translated by 谷歌翻译
命名实体识别(NER)是识别命名实体的文本跨度的任务,并将它们分类为预定义的类别,例如人员,位置,组织等.NER用作各种自然语言应用的基础,例如问答,文本摘要。和机器翻译。虽然早期的NER系统能够成功地产生出色的识别精度,但它们在精心设计规则或特征时往往需要大量人力。近年来,通过非线性处理的连续实值向量表示和语义组合赋予的深度学习已经被用于NER系统,产生了最先进的性能。在本文中,我们对现有的NER深度学习技术进行了全面的回顾。我们首先介绍NER资源,包括标记的NER语料库和现成的NER工具。然后,基于沿三个轴的分类法对现有作品进行系统分类:输入,上下文编码器和标签解码器的分布式表示。接下来,我们调查了最新的NER问题设置和应用中最近应用的深度学习技术的最有代表性的方法。最后,我们向读者介绍了NER系统面临的挑战,并概述了该领域的未来发展方向。
translated by 谷歌翻译
情绪通常是引人入胜的叙事的重要组成部分:关于有目标,欲望,激情和意图的人的文学作品。在过去,古典文学研究通常在解释学的框架内仔细审视文学的情感维度。然而,随着被称为数字人文学(DH)的研究领域的出现,对文学情境的一些研究已经进行了计算。鉴于DH仍然是一个科学形成的事实,这个研究方向可以变得相对新颖。与此同时,情感分析的研究在近二十年前就开始了语言化,现在已成为一个在主要计算语言学会议上有专门研讨会和轨道的既定领域。这引出了一个问题:情感分析研究计算语言学和数字人文学科之间的共性和差异是什么?在本次调查中,我们提供了对文献中应用的情感和情感分析研究现状的概述。我们在调查的主要部分之前简要介绍了自然语言处理和机器学习,情绪的心理模型,并提供了计算语言学中情感和情感分析的现有方法的概述。本调查中提供的论文要么直接来自DH,要么是计算语言学场所,仅限于应用于文学文本的情感和情感分析。
translated by 谷歌翻译
近年来,仇恨言论在社交媒体上的日益增加以及对有效反措施的迫切需求已经吸引了政府,公司和研究人员的大量投资。已经开发了大量用于在线自动仇恨语音检测的方法。这旨在将文本内容分类为非仇恨或仇恨言论,在这种情况下,该方法还可以识别仇恨言语中的目标特征(即,种类,例如种族和宗教)。但是,我们注意到两者的表现之间存在显着差异(即,非讨厌v.s.hate)。在这项工作中,我们主张针对实际原因关注后一个问题。我们表明这是一项更具挑战性的任务,因为我们对典型数据集中的语言的分析表明,仇恨言论缺乏独特的,有辨别力的特征,因此可以在难以发现的数据集的“长尾”中找到。然后,我们提出深度神经网络结构保留作为特征提取器,其特别有效地捕获仇恨语音的这些语义。我们的方法是在基于Twitter的仇恨语音数据集的最大集合上进行评估的,并且显示出能够以最佳表现方法表现出最佳表现方法,在识别仇恨内容的更具挑战性的情况下,可以达到最高5个百分点,或者8个百分点。
translated by 谷歌翻译
本文试图研究文本表示方案在两个任务中的有效性:社交媒体中的用户攻击和事实检测。在用户攻击检测中,目的是从社交媒体中生成的内容中识别出来的内容,并用英语,梵文印地语和罗马化印地语书写。攻击等级分为三个预定义的类别:“非攻击性”,“过度攻击”和“隐蔽攻击性”。在灾难相关事件中,像Twitter这样的社交媒体充斥着数以百万计的帖子。在这种紧急情况下,确定事实职位对于参与救济行动的组织来说非常重要。我们将此问题视为分类和排名问题的组合。本文介绍了基于BoW技术的各种文本表示方案,分布式词/句子表示,分类器转移学习的比较。加权$ F_1 $得分用作主要评估指标。结果表明,使用BoW的文本表示在机器学习分类器上的表现优于单词嵌入。而预训练的Word嵌入技术在基于深度神经网络的分类器上执行。最近的转学习模式ELMO,ULMFiT针对攻击分类任务进行了微调。但是,结果与预训练的单词嵌入模型不同。总的来说,使用fastText的单词嵌入产生的最佳加权$ F_1 $ -score比Word2Vecand Glove。使用预先训练的矢量模型进一步改善结果。采用统计显着性检验来确保分类结果的重要性。在词汇不同的测试数据集的情况下,除了训练数据集之外,深度神经模型比机器学习分类器更强大并且实质上更好。
translated by 谷歌翻译
Ensemble methods using multiple classifiers have proven to be among the most successful approaches for the task of Native Language Identification (NLI), achieving the current state of the art. However, a systematic examination of ensemble methods for NLI has yet to be conducted. Additionally, deeper ensemble architectures such as classifier stacking have not been closely evaluated. We present a set of experiments using three ensemble-based models, testing each with multiple configurations and algorithms. This includes a rigorous application of meta-classification models for NLI, achieving state-of-the-art results on several large data sets, evaluated in both intra-corpus and cross-corpus modes.
translated by 谷歌翻译