我们讨论\ emph {跨语言文本量化}(CLTQ),执行文本量化的任务(即估计所有类的相对频率$ p_ {c}(D)$ $ c \ in \ mathcal {C} $ in当训练文档可用于源语言$ \ mathcal {S} $但不能用于需要执行量化的目标语言$ \ mathcal {T} $时,一组$ D $ of unlabelleddocuments)。 CLTQ从未在文献中讨论过;我们通过将最先进的量化方法与能够生成所涉及的源文档和目标文档的跨语言矢量表示的方法相结合来建立二元案例的基线结果。我们提出了在公开可用的数据集中获得的跨语言情感分类的实验结果;结果表明,所提出的方法可以以惊人的准确度执行CLTQ。
translated by 谷歌翻译
疾病控制和预防中心(CDC)协调alabor密集型过程,以测量美国儿童中自闭症谱系障碍(ASD)的患病率。随机森林方法在加速这一过程方面表现出了一定的优势,但它们落后于人类分类准确度约5%。我们探讨最近可用的文档分类算法是否可以弥补这一差距。我们应用了8种有监督的学习算法来预测儿童是否满足ASD的病例定义,而不是基于评估中的单词。我们比较了数据的10个随机列车 - 测试分裂中的算法性能,使用分类准确性,F1分数和正呼叫数来评估他们对监视的潜在用途。在10个列车测试周期中,具有朴素贝叶斯特征(NB-SVM)的随机森林和支持向量机均获得略高于87%的平均准确度。 NB-SVM产生的假阴性明显多于假阳性(P = 0.027),但随机森林没有,使其流行率估计与数据中的真实流行率非常接近。对于两种测量,表现最佳的神经网络与随机森林的表现相似。随机森林以及最近可用的模型如NB-SVM和神经网络,以及它也产生了良好的流行率估计。由于假阴性增加,NB-SVM可能不适合用于全自动监控工作流程。由于数据的特征,更复杂的算法,例如分层卷积神经网络,可能不可行训练。如果数据被抽象和处理不同,并且除了评估之外还考虑有关孩子的信息,则当前算法可能表现得更好。
translated by 谷歌翻译
多语言文本分类(PLC)包括根据一组共同的C类自动分类文档,每个文档用一组语言L中的一种编写,并且比通过其相应的语言特定分类器对每个文档进行天真分类时更准确地进行分类。为了提高给定语言的分类准确度,系统也需要利用其他语言编写的训练样例。我们通过漏斗处理multilabel PLC,这是我们在此提出的一种新的集成学习方法。漏斗包括生成一个两层分类系统,其中所有文档,无论语言如何,都由同一(第二层)分类器分类。对于该分类器,所有文档都表示在一个共同的,与语言无关的特征空间中,该特征空间由第一层语言相关分类器生成的后验概率组成。这允许对任何语言的所有测试文档进行分类,以受益于所有语言的所有培训文档中存在的信息。我们提供了大量的实验,在公开的多语言文本集上运行,其中显示漏斗显着优于许多最先进的基线。所有代码和数据集(invector表单)都是公开的。
translated by 谷歌翻译
This paper discusses the fourth year of the "Sentiment Analysis in Twitter Task". SemEval-2016 Task 4 comprises five sub-tasks, three of which represent a significant departure from previous editions. The first two subtasks are reruns from prior years and ask to predict the overall sentiment, and the sentiment towards a topic in a tweet. The three new subtasks focus on two variants of the basic "sentiment classification in Twitter" task. The first variant adopts a five-point scale, which confers an ordinal character to the classification task. The second variant focuses on the correct estimation of the prevalence of each class of interest, a task which has been called quantification in the supervised learning literature. The task continues to be very popular, attracting a total of 43 teams.
translated by 谷歌翻译
In many classification problems labels are relatively scarce. One context in which this occurs is where we have labels for groups of instances but not for the instances themselves, as in multi-instance learning. Past work on this problem has typically focused on learning classifiers to make predictions at the group level. In this paper we focus on the problem of learning classifiers to make predictions at the instance level. To achieve this we propose a new objective function that encourages smoothness of inferred instance-level labels based on instance-level similarity, while at the same time respecting group-level label constraints. We apply this approach to the problem of predicting labels for sentences given labels for reviews, using a convolutional neural network to infer sentence similarity. The approach is evaluated using three large review data sets from IMDB, Yelp, and Amazon, and we demonstrate the proposed approach is both accurate and scalable compared to various alternatives.
translated by 谷歌翻译
近年来,复杂文档和文本的数量呈指数增长,需要更深入地了解机器学习方法,才能在许多应用程序中准确地对文本进行分类。许多机器学习方法在自然语言处理方面取得了超越的成果。这些学习算法的成功依赖于它们能够理解数据中的复杂模型和非线性关系。然而,为文本分类找到合适的结构,体系结构和技术对研究人员来说是一个挑战。在本文中,讨论了文本分类算法的简要概述。本概述涵盖了不同的文本特征提取,降维方法,现有算法和技术以及评估方法。最后,讨论了每种技术的局限性及其在现实问题中的应用。
translated by 谷歌翻译
情感分析是一种流行的意见挖掘技术,已被软件工程研究界用于评估appreviews,开发者在问题跟踪器中的情绪以及开发人员对API的看法等任务。最新研究表明,最先进的情绪分析技术有很多。 SE数据表现不佳。这是因为情绪分析工具被设计用于处理非技术文档,例如电影评论。在本研究中,我们尝试通过提出基于卷积神经网络(CNN)和在预训练的单词向量之上训练的长短期记忆(LSTM)的分层模型来解决现有的SE文本情感分析技术的问题。我们通过将其与五个黄金标准数据集上的一些常用情感分析数据进行比较来评估我们的模型的性能和可靠性。我们的结果表明,我们的模型在准确性方面进一步在所有数据集上展示了最新技术水平。我们还表明,在标记数据集的一小部分样本并重新训练我们的模型而不是使用无监督的分类器之后,可以获得更好的准确性。
translated by 谷歌翻译
这项工作研究土耳其语中非正式短文的情感分析的分割方法。提出的工作分区和深度神经网络模型的两个构建块。分段侧重于使用不同方法对文本进行预处理。这些方法分组为:形态学,子词,标记化和混合方法。我们分析了这四种方法中的每一种的几种变体。第二阶段重点评估用于情绪分析的神经模型。在文献中提出的用于情感分类的卷积神经网络(CNN)和逆流神经网络(RNN)模型下评估每种分割方法的性能。
translated by 谷歌翻译
已经证明基于注意力的长期短期记忆(LSTM)网络在方面级情绪分类中是有用的。然而,由于注释方面级数据的困难,这个任务的现有公共数据集都相对较小,这在很大程度上限制了这些神经模型的有效性。在本文中,我们探索了两种从文档级数据转移知识的方法,这种方法获得的成本要低得多,以提高方面级别情感分类的性能。我们展示了我们的方法对2014年,2015年和2016年SemEval的4个公共数据集的有效性,并且我们展示了基于注意力的LSTM以多种方式从文档级知识中获益。
translated by 谷歌翻译
我们考虑两个相关的问题,即检测一个例子是分类还是不分布。我们提出了一个简单的基线,该基线利用了softmax分布的概率。正确地分类样本倾向于具有比错误分类和分布式示例更大的最大softmax概率,允许它们的检测。通过在计算机视觉,自然语言处理和自动语音识别中定义几个任务来评估性能,显示所有这一基线的有效性。然后我们展示了有时可以超越的基线,展示了未来研究这些未探测的探测任务的空间。
translated by 谷歌翻译
深度学习的最新进展已经取得了令人印象深刻的成果,包括图像和文本在内的各种类型的数据上的分类准确性。然而,尽管取得了这些进展,但人们对这些模型的解释性以及与校准和鲁棒性相关的问题提出了担忧。在本文中,我们提出了一种简单的方法来修改任何传统的深度体系结构,以自动为分类决策提供更透明的解释,以及每个预测可信度的直观概念。具体来说,我们利用来自非参数内核回归的想法,并建议基于训练实例的加权和来预测标签,其中权重由学习实例嵌入空间中的距离确定。在共形方法的框架内工作,我们提出了我们的模型建议的新的不合格度量,并实验验证了所附的理论预期,证明了改进的透明度,受控的错误率和对域外数据的鲁棒性,而不影响准确性或校准。
translated by 谷歌翻译
从积极和未标记的数据或PU学习中学习是学习者只能访问正例和未标记数据的设置。假设未标记的数据可以包含正样本和负样本。这种设置引起了机器学习文献中越来越多的关注,因为这种类型的数据自然地出现在应用中,例如医学诊断和知识库完成。本文提供了PU学习当前技术水平的调查。它提出了在该领域中经常出现的七个关键研究问题,并提供了该领域如何试图解决这些问题的广泛观点。
translated by 谷歌翻译
综合症监测通过急诊科记录等来源检测和监测个体和人群健康指标。这些记录的自动分类可以提高爆发检测速度和诊断准确性。当前的综合症系统依赖于手工编码的基于关键词的方法来解析书面字段并且可以受益于使用现代监督学习分类器模型。在本文中,我们实现了两个基于长短期记忆(LSTM)和门控恢复单元(GRU)细胞的重复神经网络模型,并将它们与两个传统的词袋分类器进行比较:多项式朴素贝叶斯(MNB)和支持向量机( SVM).MNB分类器是目前用于综合症监测的仅有的两种机器学习算法之一。所有四个模型都经过培训,可以预测临床分类软件定义的诊断代码组,首先是出院诊断的预测,然后是主要投诉领域。这些分类器接受了来自美国一个司法管辖区的360万个去识别的紧急部门记录的培训。我们主要使用F1分数比较这些模型的表现。使用放电诊断,LSTM分类器表现最佳,尽管所有模型的F1分数均高于96.00.GRU在主诉上表现最佳(F1 = 47.38),并且具有bigrams的MNB表现最差(F1 = 39.40)。某些综合症类型比其他类型更容易被发现。例如,使用GRU模型的主要投诉很好地预测了酒精相关疾病(F1 = 78.91),但预测流感很差(F1 = 14.80)。在所有情况下,RNN模型都优于词袋分类器,这表明深度学习模型可以显着改善非结构化文本的自动分类,用于综合症监测。
translated by 谷歌翻译
文本分类是自然语言处理中研究最广泛的任务之一。在组合性原理的推动下,为了有效地利用组成表达式,已经采用大型多层神经网络模型来完成该任务。几乎所有报告的工作都使用歧视性方法训练大型网络,这些方法伴随着没有适当容量控制的acaveat,因为它们倾向于锁定任何可能无法概括的信号。使用各种最新的最先进的方法进行分类,我们探索这些模型是否真正学会组合句子的意义,或者仅仅关注一些关键词或词典来对文档进行分类。为了验证我们的假设,我们仔细构建了数据集,其中训练和测试分裂没有直接重叠这些复合词,但整体语言结构将是相似的。我们研究了各种文本分类器,并观察到这些分类器的性能下降很大。最后,我们表明,即使是简单的模型,我们提出的规范化技术,可以抑制对关键词典的关注,也可以显着提高分类准确性。
translated by 谷歌翻译
最近,高效的分布式数字表示模型(字嵌入)与现代机器学习算法相结合,对自动文档分类任务产生了可观的改进。然而,尚未对分层文本分类(HTC)评估此类技术的有效性。本研究通过实验和分析研究了这些模型和算法在这一特定问题上的应用。我们使用突出的机器学习算法实现训练分类模型--- fastText,XGBoost,SVM和Keras'CNN ---以及可观察的词嵌入生成方法--- GloVe,word2vec和fastText ---以及公开可用的数据并且通过测量特别地评估它们适用于分层上下文。 FastText在RCV1数据集的单标签版本上实现了$ {} _ {LCA} F_1 $ 0.893。分析表明,使用单词嵌入及其风格是HTC非常有希望的方法。
translated by 谷歌翻译
We introduce confidence-weighted linear clas-sifiers, which add parameter confidence information to linear classifiers. Online learners in this setting update both classifier parameters and the estimate of their confidence. The particular online algorithms we study here maintain a Gaussian distribution over parameter vectors and update the mean and covariance of the distribution with each instance. Empirical evaluation on a range of NLP tasks show that our algorithm improves over other state of the art online and batch methods, learns faster in the online setting, and lends itself to better classifier combination after parallel training.
translated by 谷歌翻译
In a closed world setting, classifiers are trained on examples from a number of classes and tested with unseen examples belonging to the same set of classes. However, in most real-world scenarios, a trained classifier is likely to come across novel examples that do not belong to any of the known classes. Such examples should ideally be categorized as belonging to an unknown class. The goal of an open set classifier is to anticipate and be ready to handle test examples of classes unseen during training. The classifier should be able to declare that a test example belongs to a class it does not know, and possibly , incorporate it into its knowledge as an example of a new class it has encountered. There is some published research in open world image classification, but open set text classification remains mostly un-explored. In this paper, we investigate the suitability of Convolutional Neural Networks (CNNs) for open set text classification. We find that CNNs are good feature extractors and hence perform better than existing state-of-the-art open set clas-sifiers in smaller domains, although their open set classification abilities in general still need to be investigated.
translated by 谷歌翻译
Domain Adaptation (DA) techniques aim at enabling machine learning methods learn effective classifiers for a "target" domain when the only available training data belongs to a different "source" domain. In this paper we present the Distributional Correspondence Indexing (DCI) method for domain adaptation in sentiment classification. DCI derives term representations in a vector space common to both domains where each dimension reflects its distributional correspondence to a pivot, i.e., to a highly predictive term that behaves similarly across domains. Term correspondence is quantified by means of a distri-butional correspondence function (DCF). We propose a number of efficient DCFs that are motivated by the distributional hypothesis, i.e., the hypothesis according to which terms with similar meaning tend to have similar distributions in text. Experiments show that DCI obtains better performance than current state-of-the-art techniques for cross-lingual and cross-domain sentiment classification. DCI also brings about a significantly reduced computational cost, and requires a smaller amount of human intervention. As a final contribution , we discuss a more challenging formulation of the domain adaptation problem, in which both the cross-domain and cross-lingual dimensions are tackled simultaneously.
translated by 谷歌翻译
This paper describes the fifth year of the Sentiment Analysis in Twitter task. SemEval-2017 Task 4 continues with a rerun of the subtasks of SemEval-2016 Task 4, which include identifying the overall sentiment of the tweet, sentiment towards a topic with classification on a two-point and on a five-point ordinal scale, and quantification of the distribution of sentiment towards a topic across a number of tweets: again on a two-point and on a five-point ordinal scale. Compared to 2016, we made two changes: (i) we introduced a new language, Arabic, for all subtasks, and (ii) we made available information from the profiles of the Twitter users who posted the target tweets. The task continues to be very popular, with a total of 48 teams participating this year.
translated by 谷歌翻译