这项工作研究土耳其语中非正式短文的情感分析的分割方法。提出的工作分区和深度神经网络模型的两个构建块。分段侧重于使用不同方法对文本进行预处理。这些方法分组为:形态学,子词,标记化和混合方法。我们分析了这四种方法中的每一种的几种变体。第二阶段重点评估用于情绪分析的神经模型。在文献中提出的用于情感分类的卷积神经网络(CNN)和逆流神经网络(RNN)模型下评估每种分割方法的性能。
translated by 谷歌翻译
自我关注网络是一种基于注意力的前馈神经网络,最近已经显示出在各种NLP任务中取代递归神经网络(RNN)的潜力。然而,目前尚不清楚自我关注网络是否是自动语音识别(ASR)中RNN的良好替代,其自动语音识别处理较长的语音序列并且可能具有在线识别要求。在本文中,我们提出了一个无RNN的端到端模型:自注意对准器(SAA),它将自注意网络应用于简化的递归神经对准器(RNA)框架。我们还提出了一种跳槽机制,它使SAA模型能够一个接一个地对分段帧块进行编码,以支持在线识别。两个Mandarin ASR数据集上的实验表明,自注意网络替代RNN会产生8.4%-10.2%的相对字符错误率(CER)减少。此外,块跳跃机制允许SAA仅具有2.5%的相对CER降级,具有320ms的延迟。在与自我关注网络语言模型联合训练后,我们的SAA模型在多个数据集上获得进一步的错误率降低。特别是,它在马来西亚ASR基准(HKUST)上达到了24.12%的CER,超过了最佳的端到端模型,超过2%的绝对CER。
translated by 谷歌翻译
Vossian Antonomasia是一种多产的风格设备,自古以来就在使用。它可以将人或其他名称的引入或描述压缩成简洁,尖锐的配方,最好用一个例子来解释:当挪威世界冠军马格努斯卡尔森被描述为“国际象棋的莫扎特“,这是我们正在处理的Vossian Antonomasia。模式简单:源(莫扎特)用于描述目标(马格努斯卡尔森),通过修饰符(“国际象棋”)达到意义转移。之前已经讨论过这种现象(作为“隐喻性的antonomasia”,或者特别关注源对象,作为“paragons”),但尚未开发出基于语料库的方法来探索其广度和多样性。我们正在研究一个完整的文本报纸语料库(纽约时报,1987-2007),并描述了一种基于维基数据库自动提取Vossian Antonomasia的新方法。我们的分析提供了对热门对象的发生及其分布的新见解。
translated by 谷歌翻译
连续词袋(CBOW)是一种强大的文本嵌入方法。由于具有强大的字内容编码功能,CBOW嵌入在广泛的下游任务中表现良好,同时高效计算。但是,CBOW无法捕获单词顺序。原因是CBOW的字嵌入的计算是可交换的,即XYZ和ZYX的嵌入是相同的。为了解决这个缺点,我们提出了连续矩阵空间模型的学习算法,我们称之为词语的连续乘法(CMOW)。我们的算法是对word2vec的改编,因此可以对大量未标记的文本进行训练。 Weempirically表明CMOW更好地捕获了语言属性,但它在记忆单词内容方面不如CBOW。受这些发现的推动,我们提出了一种结合CBOW和CMOW优势的混合模型。我们的结果表明,混合CBOW-CMOW模型保留了CBOW强大的词汇内容能力,同时大大提高了其编码其他语言信息8%的能力。因此,混合物在11个监督下游任务中的8个中表现更好,平均提高1.2%。
translated by 谷歌翻译
与其他语言不同,阿拉伯语具有形态复杂性,这使得阿拉伯语情绪分析成为一项具有挑战性的任务。此外,由于缺乏管理写作或口语系统的特定规则,阿拉伯语文本中方言的存在使得情感分析更具挑战性。通常,情感分析的问题之一是特征向量的高维度。为了解决这个问题,已经提出了许多特征选择方法。与双边阿拉伯语相比,这些选择方法已经在英语中进行了广泛的研究。这项工作调查了特征选择方法及其组合对方言阿拉伯语情感分类的影响。特征选择方法是信息增益(IG),相关,支持向量机(SVM),基尼指数(GI)和卡方。使用SVM分类器对辩证的约旦评论进行了大量实验。此外,研究了不同术语权重方案,词干分析器,停用词去除和特征模型对性能的影响。实验结果表明,在SVM和相关特征选择方法与uni-gram模型相结合后,获得了SVM分类器的最佳性能。
translated by 谷歌翻译
随着在线社区,讨论论坛和客户评论的重要性日益增加,互联网“巨魔”激增,从而使信息搜索者难以找到相关和正确的信息。在本文中,我们考虑了检测和识别Internettroll的问题,几乎所有这些都是人工代理。与检测自动垃圾邮件或计算机化机器人相比,在非人类群体中识别人工代理是一项重大挑战。为了了解巨魔的行为,我们使用背景异常检测来分析每个聊天用户。使用基于聚类和距离的方法,我们使用诸如组的当前目标,当前时间和用户名之类的上下文数据来将每个点分类为异常。与特征明显不同的用户将被归类为巨魔。我们从病毒互联网时尚Twitch Plays Pokemon中收集了3800万个数据点。使用聚类和基于距离的方法,我们开发了用于识别巨魔的启发式算法。使用MapReduce技术进行预处理和用户分析,我们能够根据用户生命历史中提取的10个特征对巨魔进行分类。
translated by 谷歌翻译
会话代理是具有会话界面的系统,其提供口语交互。这些系统正变得普遍并且在各种环境和许多用户中都是优选的。尽管它们越来越成功,但与传统软件系统相比,支持这种系统的有效和高效开发的自动化测试基础设施仍然有限。对话系统的自动化测试框架可以通过协助开发人员编写,执行和维护测试用例来提高这些系统的质量。在本文中,我们介绍了我们正在进行中的自动化测试框架,以及它在Python编程语言中的实现。我们讨论了为会话代理开发此类自动化测试框架时的一些研究问题。特别是,我们指出了预期行为的规范问题,称为testoracles,以及话语的语义比较。
translated by 谷歌翻译
科学文献依赖于数学和文本来交流思想。在数学方程与科学文本中观察到的词语之间的主题对应的启发下,我们提出了一种新的主​​题模型,它共同生成数学方程式及其周围文本(TopicEq)。相关主题模型,由潜在主题的混合生成上下文,并且该方程由RNN生成,该RNN取决于潜在主题激活。为了试验这个模型,我们创建了一个从arXiv的一系列科学文章中提取的400K方程 - 上下文对的语料库,并使用变量管理器方法拟合模型。实验结果表明,这种联合模型明显优于现有的主题模型和方程模型。此外,我们定性地表明该模型有效地捕获了主题和数学之间的关系,实现了诸如主题感知方程生成,方程主题推理以及数学符号和单词的主题感知对齐之类的新应用。
translated by 谷歌翻译
我们引入了一种完全可微分的新型光束搜索解码器,可以通过推理过程在训练时进行优化。我们的解码器允许我们组合以不同粒度运行的模型(例如声学和语言模型)。当目标序列未通过考虑两者之间的所有可能比对而与输入序列对齐时,可以使用它。我们通过将其应用于语音识别,联合训练声学和单词级语言模型来展示我们的方法。系统是端到端的,梯度从字级转换流经整个架构。最近的研究表明,具有基于注意力的机制的深度神经网络足够强大,可以成功地从最终转录中训练声学模型,同时隐藏地学习语言模型。相反,我们表明,有可能与一个明确且可能经过预先训练的语言模型共同训练声学模型。
translated by 谷歌翻译
这篇介绍旨在讲述我们如何将文字放入计算机的故事。它是自然语言处理(NLP)领域的故事的一部分,是人工智能的分支。它针对广泛的受众,对计算机编程有基本的了解,但避免了详细的数学处理,并且没有提出任何算法。它也没有关注NLP的任何特定应用,例如翻译,问答或信息提取。这里提出的想法是由许多研究人员在几十年内发展起来的,因此引用并非详尽无遗,而是将读者直接引导到一些论文,这些论文在作者看来是开创性的。阅读本文后,您应该对单词向量(也称为单词嵌入)有一个大致的了解:为什么它们存在,它们解决了什么问题,它们来自何处,它们如何随时间变化,以及关于它们的开放性问题的最新内容是。建议已熟悉字向量的读者跳到第5节,讨论最新的上下文字向量。
translated by 谷歌翻译