多语言文本分类(PLC)包括根据一组共同的C类自动分类文档,每个文档用一组语言L中的一种编写,并且比通过其相应的语言特定分类器对每个文档进行天真分类时更准确地进行分类。为了提高给定语言的分类准确度,系统也需要利用其他语言编写的训练样例。我们通过漏斗处理multilabel PLC,这是我们在此提出的一种新的集成学习方法。漏斗包括生成一个两层分类系统,其中所有文档,无论语言如何,都由同一(第二层)分类器分类。对于该分类器,所有文档都表示在一个共同的,与语言无关的特征空间中,该特征空间由第一层语言相关分类器生成的后验概率组成。这允许对任何语言的所有测试文档进行分类,以受益于所有语言的所有培训文档中存在的信息。我们提供了大量的实验,在公开的多语言文本集上运行,其中显示漏斗显着优于许多最先进的基线。所有代码和数据集(invector表单)都是公开的。
translated by 谷歌翻译
In many classification problems labels are relatively scarce. One context in which this occurs is where we have labels for groups of instances but not for the instances themselves, as in multi-instance learning. Past work on this problem has typically focused on learning classifiers to make predictions at the group level. In this paper we focus on the problem of learning classifiers to make predictions at the instance level. To achieve this we propose a new objective function that encourages smoothness of inferred instance-level labels based on instance-level similarity, while at the same time respecting group-level label constraints. We apply this approach to the problem of predicting labels for sentences given labels for reviews, using a convolutional neural network to infer sentence similarity. The approach is evaluated using three large review data sets from IMDB, Yelp, and Amazon, and we demonstrate the proposed approach is both accurate and scalable compared to various alternatives.
translated by 谷歌翻译
情感分析是一种流行的意见挖掘技术,已被软件工程研究界用于评估appreviews,开发者在问题跟踪器中的情绪以及开发人员对API的看法等任务。最新研究表明,最先进的情绪分析技术有很多。 SE数据表现不佳。这是因为情绪分析工具被设计用于处理非技术文档,例如电影评论。在本研究中,我们尝试通过提出基于卷积神经网络(CNN)和在预训练的单词向量之上训练的长短期记忆(LSTM)的分层模型来解决现有的SE文本情感分析技术的问题。我们通过将其与五个黄金标准数据集上的一些常用情感分析数据进行比较来评估我们的模型的性能和可靠性。我们的结果表明,我们的模型在准确性方面进一步在所有数据集上展示了最新技术水平。我们还表明,在标记数据集的一小部分样本并重新训练我们的模型而不是使用无监督的分类器之后,可以获得更好的准确性。
translated by 谷歌翻译
疾病控制和预防中心(CDC)协调alabor密集型过程,以测量美国儿童中自闭症谱系障碍(ASD)的患病率。随机森林方法在加速这一过程方面表现出了一定的优势,但它们落后于人类分类准确度约5%。我们探讨最近可用的文档分类算法是否可以弥补这一差距。我们应用了8种有监督的学习算法来预测儿童是否满足ASD的病例定义,而不是基于评估中的单词。我们比较了数据的10个随机列车 - 测试分裂中的算法性能,使用分类准确性,F1分数和正呼叫数来评估他们对监视的潜在用途。在10个列车测试周期中,具有朴素贝叶斯特征(NB-SVM)的随机森林和支持向量机均获得略高于87%的平均准确度。 NB-SVM产生的假阴性明显多于假阳性(P = 0.027),但随机森林没有,使其流行率估计与数据中的真实流行率非常接近。对于两种测量,表现最佳的神经网络与随机森林的表现相似。随机森林以及最近可用的模型如NB-SVM和神经网络,以及它也产生了良好的流行率估计。由于假阴性增加,NB-SVM可能不适合用于全自动监控工作流程。由于数据的特征,更复杂的算法,例如分层卷积神经网络,可能不可行训练。如果数据被抽象和处理不同,并且除了评估之外还考虑有关孩子的信息,则当前算法可能表现得更好。
translated by 谷歌翻译
This paper discusses the fourth year of the "Sentiment Analysis in Twitter Task". SemEval-2016 Task 4 comprises five sub-tasks, three of which represent a significant departure from previous editions. The first two subtasks are reruns from prior years and ask to predict the overall sentiment, and the sentiment towards a topic in a tweet. The three new subtasks focus on two variants of the basic "sentiment classification in Twitter" task. The first variant adopts a five-point scale, which confers an ordinal character to the classification task. The second variant focuses on the correct estimation of the prevalence of each class of interest, a task which has been called quantification in the supervised learning literature. The task continues to be very popular, attracting a total of 43 teams.
translated by 谷歌翻译
这项工作研究土耳其语中非正式短文的情感分析的分割方法。提出的工作分区和深度神经网络模型的两个构建块。分段侧重于使用不同方法对文本进行预处理。这些方法分组为:形态学,子词,标记化和混合方法。我们分析了这四种方法中的每一种的几种变体。第二阶段重点评估用于情绪分析的神经模型。在文献中提出的用于情感分类的卷积神经网络(CNN)和逆流神经网络(RNN)模型下评估每种分割方法的性能。
translated by 谷歌翻译
In a closed world setting, classifiers are trained on examples from a number of classes and tested with unseen examples belonging to the same set of classes. However, in most real-world scenarios, a trained classifier is likely to come across novel examples that do not belong to any of the known classes. Such examples should ideally be categorized as belonging to an unknown class. The goal of an open set classifier is to anticipate and be ready to handle test examples of classes unseen during training. The classifier should be able to declare that a test example belongs to a class it does not know, and possibly , incorporate it into its knowledge as an example of a new class it has encountered. There is some published research in open world image classification, but open set text classification remains mostly un-explored. In this paper, we investigate the suitability of Convolutional Neural Networks (CNNs) for open set text classification. We find that CNNs are good feature extractors and hence perform better than existing state-of-the-art open set clas-sifiers in smaller domains, although their open set classification abilities in general still need to be investigated.
translated by 谷歌翻译
我们考虑两个相关的问题,即检测一个例子是分类还是不分布。我们提出了一个简单的基线,该基线利用了softmax分布的概率。正确地分类样本倾向于具有比错误分类和分布式示例更大的最大softmax概率,允许它们的检测。通过在计算机视觉,自然语言处理和自动语音识别中定义几个任务来评估性能,显示所有这一基线的有效性。然后我们展示了有时可以超越的基线,展示了未来研究这些未探测的探测任务的空间。
translated by 谷歌翻译
深度学习的最新进展已经取得了令人印象深刻的成果,包括图像和文本在内的各种类型的数据上的分类准确性。然而,尽管取得了这些进展,但人们对这些模型的解释性以及与校准和鲁棒性相关的问题提出了担忧。在本文中,我们提出了一种简单的方法来修改任何传统的深度体系结构,以自动为分类决策提供更透明的解释,以及每个预测可信度的直观概念。具体来说,我们利用来自非参数内核回归的想法,并建议基于训练实例的加权和来预测标签,其中权重由学习实例嵌入空间中的距离确定。在共形方法的框架内工作,我们提出了我们的模型建议的新的不合格度量,并实验验证了所附的理论预期,证明了改进的透明度,受控的错误率和对域外数据的鲁棒性,而不影响准确性或校准。
translated by 谷歌翻译
已经证明基于注意力的长期短期记忆(LSTM)网络在方面级情绪分类中是有用的。然而,由于注释方面级数据的困难,这个任务的现有公共数据集都相对较小,这在很大程度上限制了这些神经模型的有效性。在本文中,我们探索了两种从文档级数据转移知识的方法,这种方法获得的成本要低得多,以提高方面级别情感分类的性能。我们展示了我们的方法对2014年,2015年和2016年SemEval的4个公共数据集的有效性,并且我们展示了基于注意力的LSTM以多种方式从文档级知识中获益。
translated by 谷歌翻译
We introduce confidence-weighted linear clas-sifiers, which add parameter confidence information to linear classifiers. Online learners in this setting update both classifier parameters and the estimate of their confidence. The particular online algorithms we study here maintain a Gaussian distribution over parameter vectors and update the mean and covariance of the distribution with each instance. Empirical evaluation on a range of NLP tasks show that our algorithm improves over other state of the art online and batch methods, learns faster in the online setting, and lends itself to better classifier combination after parallel training.
translated by 谷歌翻译
从积极和未标记的数据或PU学习中学习是学习者只能访问正例和未标记数据的设置。假设未标记的数据可以包含正样本和负样本。这种设置引起了机器学习文献中越来越多的关注,因为这种类型的数据自然地出现在应用中,例如医学诊断和知识库完成。本文提供了PU学习当前技术水平的调查。它提出了在该领域中经常出现的七个关键研究问题,并提供了该领域如何试图解决这些问题的广泛观点。
translated by 谷歌翻译
文本分类是自然语言处理中研究最广泛的任务之一。在组合性原理的推动下,为了有效地利用组成表达式,已经采用大型多层神经网络模型来完成该任务。几乎所有报告的工作都使用歧视性方法训练大型网络,这些方法伴随着没有适当容量控制的acaveat,因为它们倾向于锁定任何可能无法概括的信号。使用各种最新的最先进的方法进行分类,我们探索这些模型是否真正学会组合句子的意义,或者仅仅关注一些关键词或词典来对文档进行分类。为了验证我们的假设,我们仔细构建了数据集,其中训练和测试分裂没有直接重叠这些复合词,但整体语言结构将是相似的。我们研究了各种文本分类器,并观察到这些分类器的性能下降很大。最后,我们表明,即使是简单的模型,我们提出的规范化技术,可以抑制对关键词典的关注,也可以显着提高分类准确性。
translated by 谷歌翻译
最近,高效的分布式数字表示模型(字嵌入)与现代机器学习算法相结合,对自动文档分类任务产生了可观的改进。然而,尚未对分层文本分类(HTC)评估此类技术的有效性。本研究通过实验和分析研究了这些模型和算法在这一特定问题上的应用。我们使用突出的机器学习算法实现训练分类模型--- fastText,XGBoost,SVM和Keras'CNN ---以及可观察的词嵌入生成方法--- GloVe,word2vec和fastText ---以及公开可用的数据并且通过测量特别地评估它们适用于分层上下文。 FastText在RCV1数据集的单标签版本上实现了$ {} _ {LCA} F_1 $ 0.893。分析表明,使用单词嵌入及其风格是HTC非常有希望的方法。
translated by 谷歌翻译
在机器学习的实际应用中,通常需要识别和弃用模型的预测可能不正确的示例。我们考虑选择预算受限的测试示例子集以避免使用的问题,目标是最大化其余示例的性能。我们通过分析优化所需性能指标的预期边际改进,例如ROC曲线或精确回忆曲线下的面积,开发出一种解决该问题的新方法。我们比较了基于使用测试时间分析获得的后验概率和不确定性估计的深度学习模型的其他弃权技术。在计算机视觉,自然语言处理和生物信息学的各种任务中,我们展示了我们的方法与其他技术的一致有效性。
translated by 谷歌翻译
Neural network methods have achieved promising results for sentiment classification of text. However, these models only use semantics of texts, while ignoring users who express the sentiment and products which are evaluated, both of which have great influences on interpreting the sentiment of text. In this paper, we address this issue by incorporating user-and product-level information into a neural network approach for document level sentiment classification. Users and products are modeled using vector space models , the representations of which capture important global clues such as individual preferences of users or overall qualities of products. Such global evidence in turn facilitates embedding learning procedure at document level, yielding better text representations. By combining evidence at user-, product-and document-level in a unified neural framework, the proposed model achieves state-of-the-art performances on IMDB and Yelp dataset-s 1 .
translated by 谷歌翻译
通常通过新的模式体系结构或超参数优化来分析和改进分类任务,但是在发生错误时,会在临时基础上发现数据集的基础属性。但是,了解数据的属性对于完善模型至关重要。在本文中,我们确切地分析了数据集的哪些特征最能确定数据集对文本分类任务的困难程度。然后,我们对文本分类数据集提出了一种直观的难度测量方法,该方法简单,计算速度快。我们表明,该度量通过将其与最先进的数据集和结果进行比较来推广tounseen数据。该度量可用于分析数据集中错误的精确来源,并允许快速估计数据集的学习难度。我们通过在78个真实数据集上训练12个基于经典和神经网络的模型来搜索这个测量,然后使用遗传算法来发现最佳的难度测量。我们的难度计算代码(https://github.com/Wluper/edm)和数据集(http://data.wluper.com)是公开的。
translated by 谷歌翻译
This paper studies the problem of building text classifiers using positive and unlabeled examples. The key feature of this problem is that there is no negative example for learning. Recently, a few techniques for solving this problem were proposed in the literature. These techniques are based on the same idea, which builds a classifier in two steps. Each existing technique uses a different method for each step. In this paper, we first introduce some new methods for the two steps, and perform a comprehensive evaluation of all possible combinations of methods of the two steps. We then propose a more principled approach to solving the problem based on a biased formulation of SVM, and show experimentally that it is more accurate than the existing techniques.
translated by 谷歌翻译