本文探讨了基于随机索引(RI)的新型变体,用于编码语言数据,以便在动态场景中使用它们以连续方式发生事件。随着Onehot编码的一般方法中的表示的大小随着词汇量的大小而导致的,它们对于具有高卷的动态数据的在线目的变得不可扩展。另一方面,由于文本数据的动态性质,现有的预先训练的嵌入模型不适合检测新事件的发生事件。本工作通过利用新的RI表示来解决这个问题,通过对一类RI表示的随机条目的数量施加概率分布来解决概率分布。它还规则分析了在正交性概率方面编码语义信息的代表方法的良好分析。构建这些想法我们提出了一种算法,该算法与词汇表的大小,以跟踪查询字的语义关系,以便建议与有问题的单词相关的事件。使用特定于三个不同事件的推文数据的所提出的算法,我们耗尽了模拟,并呈现了我们的研究结果。发现所提出的概率RI表示比单词(弓)嵌入的袋子更快,可伸缩,同时保持描绘语义关系的准确性。
translated by 谷歌翻译
Recent methods for learning vector space representations of words have succeeded in capturing fine-grained semantic and syntactic regularities using vector arithmetic, but the origin of these regularities has remained opaque. We analyze and make explicit the model properties needed for such regularities to emerge in word vectors. The result is a new global logbilinear regression model that combines the advantages of the two major model families in the literature: global matrix factorization and local context window methods. Our model efficiently leverages statistical information by training only on the nonzero elements in a word-word cooccurrence matrix, rather than on the entire sparse matrix or on individual context windows in a large corpus. The model produces a vector space with meaningful substructure, as evidenced by its performance of 75% on a recent word analogy task. It also outperforms related models on similarity tasks and named entity recognition.
translated by 谷歌翻译
使用机器学习算法从未标记的文本中提取知识可能很复杂。文档分类和信息检索是两个应用程序,可以从无监督的学习(例如文本聚类和主题建模)中受益,包括探索性数据分析。但是,无监督的学习范式提出了可重复性问题。初始化可能会导致可变性,具体取决于机器学习算法。此外,关于群集几何形状,扭曲可能会产生误导。在原因中,异常值和异常的存在可能是决定因素。尽管初始化和异常问题与文本群集和主题建模相关,但作者并未找到对它们的深入分析。这项调查提供了这些亚地区的系统文献综述(2011-2022),并提出了共同的术语,因为类似的程序具有不同的术语。作者描述了研究机会,趋势和开放问题。附录总结了与审查的作品直接或间接相关的文本矢量化,分解和聚类算法的理论背景。
translated by 谷歌翻译
Natural Language Understanding has seen an increasing number of publications in the last few years, especially after robust word embeddings models became prominent, when they proved themselves able to capture and represent semantic relationships from massive amounts of data. Nevertheless, traditional models often fall short in intrinsic issues of linguistics, such as polysemy and homonymy. Any expert system that makes use of natural language in its core, can be affected by a weak semantic representation of text, resulting in inaccurate outcomes based on poor decisions. To mitigate such issues, we propose a novel approach called Most Suitable Sense Annotation (MSSA), that disambiguates and annotates each word by its specific sense, considering the semantic effects of its context. Our approach brings three main contributions to the semantic representation scenario: (i) an unsupervised technique that disambiguates and annotates words by their senses, (ii) a multi-sense embeddings model that can be extended to any traditional word embeddings algorithm, and (iii) a recurrent methodology that allows our models to be re-used and their representations refined. We test our approach on six different benchmarks for the word similarity task, showing that our approach can produce state-of-the-art results and outperforms several more complex state-of-the-art systems.
translated by 谷歌翻译
We analyze skip-gram with negative-sampling (SGNS), a word embedding method introduced by Mikolov et al., and show that it is implicitly factorizing a word-context matrix, whose cells are the pointwise mutual information (PMI) of the respective word and context pairs, shifted by a global constant. We find that another embedding method, NCE, is implicitly factorizing a similar matrix, where each cell is the (shifted) log conditional probability of a word given its context. We show that using a sparse Shifted Positive PMI word-context matrix to represent words improves results on two word similarity tasks and one of two analogy tasks. When dense low-dimensional vectors are preferred, exact factorization with SVD can achieve solutions that are at least as good as SGNS's solutions for word similarity tasks. On analogy questions SGNS remains superior to SVD. We conjecture that this stems from the weighted nature of SGNS's factorization.
translated by 谷歌翻译
大型语言数据集的可用性使数据驱动的方法能够研究语言改变。 Google Books Corpus Unigram频率数据集用于以八种语言调查排名动态。我们观察了1900年至2008年的Unigrams的等级变化,并将其与我们为分析开发的赖特 - 费舍尔灵感的模型进行了比较。该模型模拟中性进化过程,限制没有消失并添加单词。这项工作解释了模型的数学框架 - 用多项式过渡概率写作马尔可夫链 - 以展示单词频率如何变化。从我们的数据和我们的模型中的观察开始,Word Rank稳定性显示出两种类型的特点:(1)排名的增加/减少是单调,或(2)排名保持不变。基于我们的模型,高级词语往往更稳定,而低级词语往往更易挥发。有些词语以两种方式在两种方面发生变化:(a)通过累积小/减少等级和(b)的累积,通过增加/减少等级的冲击。我们所展示的所有语言中的大多数单词都是排名稳定,但并不像中立模型一样稳定。观察到的秒表和斯沃拉斯图单词在八种语言中排名稳定,这表明既定语言的语言符合性。这些签名提示所有语言的Unigram频率都以与纯粹中立的进化过程不一致的方式发生了变化。
translated by 谷歌翻译
缓慢的新兴主题检测是事件检测之间的任务,我们在短时间内聚合不同单词的行为,以及我们监控他们的长期演进的语言演化。在这项工作中,我们解决了早期检测慢慢新兴的问题的问题。为此,我们收集了单词级别的弱信号的证据。我们建议监视嵌入空间中的单词表示的行为,并使用其几何特性之一来表征主题的出现。随着这种任务通常难以评估,我们提出了一种用于定量评估的框架。我们展示了积极的结果,在新闻和科学文章的两种公共数据集上优于最先进的方法。
translated by 谷歌翻译
Spanish is one of the most spoken languages in the globe, but not necessarily Spanish is written and spoken in the same way in different countries. Understanding local language variations can help to improve model performances on regional tasks, both understanding local structures and also improving the message's content. For instance, think about a machine learning engineer who automatizes some language classification task on a particular region or a social scientist trying to understand a regional event with echoes on social media; both can take advantage of dialect-based language models to understand what is happening with more contextual information hence more precision. This manuscript presents and describes a set of regionalized resources for the Spanish language built on four-year Twitter public messages geotagged in 26 Spanish-speaking countries. We introduce word embeddings based on FastText, language models based on BERT, and per-region sample corpora. We also provide a broad comparison among regions covering lexical and semantical similarities; as well as examples of using regional resources on message classification tasks.
translated by 谷歌翻译
仇恨言论是一种在线骚扰的形式,涉及使用滥用语言,并且在社交媒体帖子中通常可以看到。这种骚扰主要集中在诸如宗教,性别,种族等的特定群体特征上,如今它既有社会和经济后果。文本文章中对滥用语言的自动检测一直是一项艰巨的任务,但最近它从科学界获得了很多兴趣。本文解决了在社交媒体中辨别仇恨内容的重要问题。我们在这项工作中提出的模型是基于LSTM神经网络体系结构的现有方法的扩展,我们在短文中适当地增强和微调以检测某些形式的仇恨语言,例如种族主义或性别歧视。最重要的增强是转换为由复发性神经网络(RNN)分类器组成的两阶段方案。将第一阶段的所有一Vs式分类器(OVR)分类器的输出组合在一起,并用于训练第二阶段分类器,最终决定了骚扰的类型。我们的研究包括对在16K推文的公共语料库中评估的第二阶段提出的几种替代方法的性能比较,然后对另一个数据集进行了概括研究。报道的结果表明,与当前的最新技术相比,在仇恨言论检测任务中,所提出的方案的分类质量出色。
translated by 谷歌翻译
当分布生成数据变化时,ChangePoint分析处理时间序列数据中的时间点的无监督检测和/或估计。在本文中,我们在大规模文本数据的上下文中考虑\ emph {offline} ChangePoint检测。我们在主题比例分布的分布中构建了一个专门的时间主题模型。随着该模型的完全可能性推断是在计算上难以解决的,我们开发了一个计算易诊的近似推理过程。更具体地,我们使用样品分离来首先估计多个主题,然后将似然比统计与Fryzlewicz等人的野生二进制分割算法的修改版本一起应用。 (2014)。我们的方法促进了大公司的结构变化的自动检测,而无需通过域专家手动处理。随着我们模型下的变换点对应于主题结构的变化,估计的变化点通常是高度可解释的,因为标志着时尚主题的普及涌现或下降。我们在两个大型数据集上应用我们的程序:(i)从1800-1922期(Underweet Al,2015年)的英语文学语料库; (ii)来自高能物理arxiv存储库的摘要(Clementet al。,2019)。我们获得一些历史上众所周知的改变点,发现一些新的变化点。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
Twitter也许是社交媒体更适合研究。它只需要几个步骤来获取信息,并且有很多库可以帮助这方面。尽管如此,知道特定事件是否在Twitter上表达是一个具有挑战性的任务,需要相当多的推文集合。该提案旨在促进研究员对自从2015年12月以来推出的Twitter采集的加工信息收集到Twitter上采矿活动的过程。事件可能与自然灾害,健康问题和人民的流动相关,等等可以与图书馆一起追求的研究。在这一贡献中提出了不同的应用程序,以说明图书馆的能力:对推文中发现的主题的探索性分析,这是西班牙语方言中的相似性研究以及不同国家的移动性报告。总之,呈现的Python库应用于不同的域,并在以阿拉伯语,英语,西班牙语和俄语的单词和双克单词的频率下检索一系列信息。以及与200多个国家或地区的地点之间的旅行数量有关的移动性信息。
translated by 谷歌翻译
The relationship between words in a sentence often tells us more about the underlying semantic content of a document than its actual words, individually. In this work, we propose two novel algorithms, called Flexible Lexical Chain II and Fixed Lexical Chain II. These algorithms combine the semantic relations derived from lexical chains, prior knowledge from lexical databases, and the robustness of the distributional hypothesis in word embeddings as building blocks forming a single system. In short, our approach has three main contributions: (i) a set of techniques that fully integrate word embeddings and lexical chains; (ii) a more robust semantic representation that considers the latent relation between words in a document; and (iii) lightweight word embeddings models that can be extended to any natural language task. We intend to assess the knowledge of pre-trained models to evaluate their robustness in the document classification task. The proposed techniques are tested against seven word embeddings algorithms using five different machine learning classifiers over six scenarios in the document classification task. Our results show the integration between lexical chains and word embeddings representations sustain state-of-the-art results, even against more complex systems.
translated by 谷歌翻译
本文是Covid-19数据主题检测的背景下的比较研究。主题检测有各种方法,其中在本文中选择了聚类方法。聚类需要距离和计算距离需求嵌入。该研究的目的是同时研究嵌入方法,距离度量和聚类方法及其互动的三个因素。数据集包括与Covid-19相关的Hashtags收集的一个月推文用于本研究。从嵌入方法中选择五种方法,从早期到新方法:Word2Vec,FastText,Glove,BERT和T5。在本文中调查了五种聚类方法,即:K-Means,DBSCAN,光学,光谱和Jarvis-Patrick。还检查了欧几里德距离和余弦距离作为该领域中最重要的距离指标。首先,执行超过7,500个测试来调整参数。然后,通过剪影度量来研究具有距离度量和聚类方法的所有不同组合方法。这些组合的数量是50例。首先,检查这些50个测试的结果。然后,在该方法的所有测试中考虑了每种方法的等级。最后,分别研究了研究的主要变量(嵌入方法,距离度量和聚类方法)。对控制变量进行平均以中和它们的效果。实验结果表明,T5在轮廓度量方面强烈优于其他嵌入方法。在距离度量标准方面,余弦距离弱得多。 DBSCAN在聚类方法方面也优于其他方法。
translated by 谷歌翻译
技术的最新进步导致了社交媒体使用的提高,这最终导致了大量的用户生成的数据,这也包括可恨和令人反感的演讲。社交媒体中使用的语言通常是该地区英语和母语的结合。在印度,印地语主要用于使用英语,并经常用英语进行代码开关,从而产生了hinglish(印地语+英语)语言。过去,已经采用了各种方法,以使用不同的机器学习和深度学习技术对混合代码的Hinglish仇恨言论进行分类。但是,这些技术利用了在计算上昂贵且具有高内存要求的卷积机制的复发。过去的技术还可以利用复杂的数据处理,使现有技术非常复杂且不可持续以更改数据。我们提出了一种更简单的方法,不仅与这些复杂的网络相当,而且还超出了子词令牌化算法(如BPE和Umigram)以及基于多头的注意技术的性能,准确性为87.41%,而F1得分为87.41%和F1得分。标准数据集上的0.851。有效地利用BPE和UMIGRAM算法有助于处理非惯性的Hinglish词汇,从而使我们的技术简单,高效且可持续,可在现实世界中使用。
translated by 谷歌翻译
在数字人文学科和计算社会科学中,比较两个文本体系和搜索它们在它们之间使用情况不同的单词的问题。这通常是通过在每个语料库上的训练单词嵌入,对齐矢量空间,并寻找余弦距离在对齐空间中的单词很大。然而,这些方法通常需要大量过滤词汇表表现良好,而且 - 正如我们在这项工作中所展示的那样 - 导致不稳定,因此不太可靠,结果。我们提出了一种不使用矢量空间对齐的替代方法,而是考虑每个单词的邻居。该方法简单,可解释和稳定。我们在9种不同的设置中展示了它的有效性,考虑了不同的语料库分裂标准(年龄,性别和推文作者,Tweet的时间)和不同的语言(英语,法语和希伯来语)。
translated by 谷歌翻译
Deep Learning and Machine Learning based models have become extremely popular in text processing and information retrieval. However, the non-linear structures present inside the networks make these models largely inscrutable. A significant body of research has focused on increasing the transparency of these models. This article provides a broad overview of research on the explainability and interpretability of natural language processing and information retrieval methods. More specifically, we survey approaches that have been applied to explain word embeddings, sequence modeling, attention modules, transformers, BERT, and document ranking. The concluding section suggests some possible directions for future research on this topic.
translated by 谷歌翻译
社交媒体网络已成为人们生活的重要方面,它是其思想,观点和情感的平台。因此,自动化情绪分析(SA)对于以其他信息来源无法识别人们的感受至关重要。对这些感觉的分析揭示了各种应用,包括品牌评估,YouTube电影评论和医疗保健应用。随着社交媒体的不断发展,人们以不同形式发布大量信息,包括文本,照片,音频和视频。因此,传统的SA算法已变得有限,因为它们不考虑其他方式的表现力。通过包括来自各种物质来源的此类特征,这些多模式数据流提供了新的机会,以优化基于文本的SA之外的预期结果。我们的研究重点是多模式SA的最前沿领域,该领域研究了社交媒体网络上发布的视觉和文本数据。许多人更有可能利用这些信息在这些平台上表达自己。为了作为这个快速增长的领域的学者资源,我们介绍了文本和视觉SA的全面概述,包括数据预处理,功能提取技术,情感基准数据集以及适合每个字段的多重分类方法的疗效。我们还简要介绍了最常用的数据融合策略,并提供了有关Visual Textual SA的现有研究的摘要。最后,我们重点介绍了最重大的挑战,并调查了一些重要的情感应用程序。
translated by 谷歌翻译
分类属性是那些可以采用离散值集的那些,例如颜色。这项工作是关于将vects压缩到基于小维度离散矢量的分类属性。基于目前的哈希的方法将传感器压缩到低维离散矢量的分类属性不提供压缩表示之间的汉明距离的任何保证。在这里,我们呈现fsketch以创建稀疏分类数据的草图和估算器,以估计仅从其草图中的未压缩数据之间的成对汉明距离。我们声称这些草图可以在通常的数据挖掘任务中使用代替原始数据而不会影响任务的质量。为此,我们确保草图也是分类,稀疏,汉明距离估计是合理的精确性。素描结构和汉明距离估计算法都只需要一条单通;此外,对数据点的改变可以以有效的方式结合到其草图中。压缩性取决于数据的稀疏程度如何且与原始维度无关 - 使我们的算法对许多现实生活场景具有吸引力。我们的索赔通过对FSKetch性质的严格理论分析来支持,并通过对某些现实世界数据集的相关算法进行广泛的比较评估。我们表明FSKetch明显更快,并且通过使用其草图获得的准确性是RMSE,聚类和相似性搜索的标准无监督任务的顶部。
translated by 谷歌翻译
The distributed representation of symbols is one of the key technologies in machine learning systems today, playing a pivotal role in modern natural language processing. Traditional word embeddings associate a separate vector with each word. While this approach is simple and leads to good performance, it requires a lot of memory for representing a large vocabulary. To reduce the memory footprint, the default embedding layer in spaCy is a hash embeddings layer. It is a stochastic approximation of traditional embeddings that provides unique vectors for a large number of words without explicitly storing a separate vector for each of them. To be able to compute meaningful representations for both known and unknown words, hash embeddings represent each word as a summary of the normalized word form, subword information and word shape. Together, these features produce a multi-embedding of a word. In this technical report we lay out a bit of history and introduce the embedding methods in spaCy in detail. Second, we critically evaluate the hash embedding architecture with multi-embeddings on Named Entity Recognition datasets from a variety of domains and languages. The experiments validate most key design choices behind spaCy's embedders, but we also uncover a few surprising results.
translated by 谷歌翻译