Facebook网络允许其用户通过情绪的类型学,通过类型学记录他们的文本的反应。因此,该网络占用,因此是注释情绪数据的素数数据集。本文采用数百万这样的反应,从十年的Facebook Post数据中源于斯里兰卡语境,以模拟旁观者对在线Sinhala文本内容的情绪检测的眼睛。建立了三种不同的情绪分析模型,考虑到有限的反应子集,所有反应和另一个产生正/负星评级值。然后计算并讨论这些模型在捕获观察者的反应时的功效。该分析表明,对于僧伽罗含量,反应的二元分类比其他方法更准确。此外,包含像反应的妨碍精确预测其他反应的能力。
translated by 谷歌翻译
Facebook帖子与相应的反应特征之间的关系是探索和理解的有趣主题。为了归档此目的,我们测试最先进的Sinhala情绪分析模型,用于数据集,其中包含数百万反应的十年僧伽罗柱。为建立基准和识别Sinhala情感分析的最佳模型的目标,我们还测试了同一数据集配置,其他深度学习模型迎合了情绪分析。在这项研究中,我们报告说,3层双向LSTM模型对于Sinhala情感分析的F1得分为84.58%,超越了当前的最先进的模型;胶囊B,只有设法获得82.04%的F1得分。此外,由于所有深度学习模型显示F1分数高于75%,我们得出结论,声称Facebook反应适合预测文本的情绪是安全的。
translated by 谷歌翻译
社交媒体网络已成为人们生活的重要方面,它是其思想,观点和情感的平台。因此,自动化情绪分析(SA)对于以其他信息来源无法识别人们的感受至关重要。对这些感觉的分析揭示了各种应用,包括品牌评估,YouTube电影评论和医疗保健应用。随着社交媒体的不断发展,人们以不同形式发布大量信息,包括文本,照片,音频和视频。因此,传统的SA算法已变得有限,因为它们不考虑其他方式的表现力。通过包括来自各种物质来源的此类特征,这些多模式数据流提供了新的机会,以优化基于文本的SA之外的预期结果。我们的研究重点是多模式SA的最前沿领域,该领域研究了社交媒体网络上发布的视觉和文本数据。许多人更有可能利用这些信息在这些平台上表达自己。为了作为这个快速增长的领域的学者资源,我们介绍了文本和视觉SA的全面概述,包括数据预处理,功能提取技术,情感基准数据集以及适合每个字段的多重分类方法的疗效。我们还简要介绍了最常用的数据融合策略,并提供了有关Visual Textual SA的现有研究的摘要。最后,我们重点介绍了最重大的挑战,并调查了一些重要的情感应用程序。
translated by 谷歌翻译
讽刺可以被定义为说或写讽刺与一个人真正想表达的相反,通常是为了侮辱,刺激或娱乐某人。由于文本数据中讽刺性的性质晦涩难懂,因此检测到情感分析研究社区的困难和非常感兴趣。尽管讽刺检测的研究跨越了十多年,但最近已经取得了一些重大进步,包括在多模式环境中采用了无监督的预训练的预训练的变压器,并整合了环境以识别讽刺。在这项研究中,我们旨在简要概述英语计算讽刺研究的最新进步和趋势。我们描述了与讽刺有关的相关数据集,方法,趋势,问题,挑战和任务,这些数据集,趋势,问题,挑战和任务是无法检测到的。我们的研究提供了讽刺数据集,讽刺特征及其提取方法以及各种方法的性能分析,这些表可以帮助相关领域的研究人员了解当前的讽刺检测中最新实践。
translated by 谷歌翻译
社交媒体在现代社会中尤其是在西方世界中的政策制定方面已经变得极其影响力(例如,48%的欧洲人每天或几乎每天都使用社交媒体)。 Twitter之类的平台使用户可以关注政客,从而使公民更多地参与政治讨论。同样,政客们使用Twitter来表达他们的观点,在当前主题上进行辩论,并促进其政治议程,以影响选民行为。先前的研究表明,传达负面情绪的推文可能会更频繁地转发。在本文中,我们试图分析来自不同国家的政客的推文,并探索他们的推文是否遵循相同的趋势。利用最先进的预训练的语言模型,我们对从希腊,西班牙和英国的成千上万的推文进行了情感分析,包括权威的行政部门。我们通过系统地探索和分析有影响力和不流行的推文之间的差异来实现这一目标。我们的分析表明,政治家的负面推文更广泛地传播,尤其是在最近的时代,并突出了情感和受欢迎程度相交的有趣趋势。
translated by 谷歌翻译
The sentiment analysis task has various applications in practice. In the sentiment analysis task, words and phrases that represent positive and negative emotions are important. Finding out the words that represent the emotion from the text can improve the performance of the classification models for the sentiment analysis task. In this paper, we propose a methodology that combines the emotion lexicon with the classification model to enhance the accuracy of the models. Our experimental results show that the emotion lexicon combined with the classification model improves the performance of models.
translated by 谷歌翻译
发现别人认为是我们信息收集策略的关键方面。现在,人们可以积极利用信息技术来寻找和理解他人的想法,这要归功于越来越多的意见资源(例如在线评论网站和个人博客)的越来越多。由于其在理解人们的意见方面的关键功能,因此情感分析(SA)是一项至关重要的任务。另一方面,现有的研究主要集中在英语上,只有少量研究专门研究低资源语言。对于情感分析,这项工作根据用户评估提供了一个新的多级乌尔都语数据集。高音扬声器网站用于获取乌尔都语数据集。我们提出的数据集包括10,000项评论,这些评论已被人类专家精心归类为两类:正面,负面。这项研究的主要目的是构建一个手动注释的数据集进行乌尔都语情绪分析,并确定基线结果。采用了五种不同的词典和规则的算法,包括NaiveBayes,Stanza,TextBlob,Vader和Flair,实验结果表明,其精度为70%的天赋优于其他经过测试的算法。
translated by 谷歌翻译
情感是引人入胜的叙事的关键部分:文学向我们讲述了有目标,欲望,激情和意图的人。情绪分析是情感分析更广泛,更大的领域的一部分,并且在文学研究中受到越来越多的关注。过去,文学的情感维度主要在文学诠释学的背景下进行了研究。但是,随着被称为数字人文科学(DH)的研究领域的出现,在文学背景下对情绪的一些研究已经发生了计算转折。鉴于DH仍被形成为一个领域的事实,这一研究方向可以相对较新。在这项调查中,我们概述了现有的情感分析研究机构,以适用于文献。所评论的研究涉及各种主题,包括跟踪情节发展的巨大变化,对文学文本的网络分析以及了解文本的情感以及其他主题。
translated by 谷歌翻译
Since a lexicon-based approach is more elegant scientifically, explaining the solution components and being easier to generalize to other applications, this paper provides a new approach for offensive language and hate speech detection on social media. Our approach embodies a lexicon of implicit and explicit offensive and swearing expressions annotated with contextual information. Due to the severity of the social media abusive comments in Brazil, and the lack of research in Portuguese, Brazilian Portuguese is the language used to validate the models. Nevertheless, our method may be applied to any other language. The conducted experiments show the effectiveness of the proposed approach, outperforming the current baseline methods for the Portuguese language.
translated by 谷歌翻译
本文介绍了Persian的HMBLOGS语料库,作为一种低资源语言。此语料库已根据波斯博客的空间的一段时间内基于大约15岁的近2000万博客帖子编制的,包括超过68亿令牌。可以声称,此语料库目前是最大的波斯语料库,这些语料库是为波斯语而独立制定的。该语料库以原始和预处理的形式呈现,并且基于预处理的语料库,产生了一些单词嵌入模型。通过提供的模型,将HMBlogs与波斯中可用的一些最重要的公司进行比较,结果表明了HMBLOGS语料库的优势。这些评估还提供了语料库,评估数据集,模型生产方法,不同的高参数甚至评估方法的重要性和影响。除了评估语料库及其产生的语言模型之外,该研究还提供了一个语义类比数据集。
translated by 谷歌翻译
对仇恨言论和冒犯性语言(HOF)的认可通常是作为一项分类任务,以决定文本是否包含HOF。我们研究HOF检测是否可以通过考虑HOF和类似概念之间的关系来获利:(a)HOF与情感分析有关,因为仇恨言论通常是负面陈述并表达了负面意见; (b)这与情绪分析有关,因为表达的仇恨指向作者经历(或假装体验)愤怒的同时经历(或旨在体验)恐惧。 (c)最后,HOF的一个构成要素是提及目标人或群体。在此基础上,我们假设HOF检测在与这些概念共同建模时,在多任务学习设置中进行了改进。我们将实验基于这些概念的现有数据集(情感,情感,HOF的目标),并在Hasoc Fire 2021英语子任务1A中评估我们的模型作为参与者(作为IMS-Sinai团队)。基于模型选择实验,我们考虑了多个可用的资源和共享任务的提交,我们发现人群情绪语料库,Semeval 2016年情感语料库和犯罪2019年目标检测数据的组合导致F1 =。 79在基于BERT的多任务多任务学习模型中,与Plain Bert的.7895相比。在HASOC 2019测试数据上,该结果更为巨大,而F1中的增加2pp和召回大幅增加。在两个数据集(2019,2021)中,HOF类的召回量尤其增加(2019年数据的6pp和2021数据的3pp),表明MTL具有情感,情感和目标识别是适合的方法可能部署在社交媒体平台中的预警系统。
translated by 谷歌翻译
通过使信息生产和复制民主化的技术,社交媒体中每日互动的很大一部分被谣言感染了。尽管对谣言检测和验证进行了广泛的研究,但到目前为止,尚未考虑计算谣言传播力量的问题。为了解决这一研究差距,本研究寻求一个模型来计算谣言(SPR)作为基于内容特征的功能的两类功能:虚假谣言(FR)和真实谣言(TR)。为此,将采用Allport和Postman的理论,它声称重要性和歧义是谣言和谣言的力量的关键变量。引入了两个类别的“重要性”(28个功能)和“歧义”(14个功能)的42个内容功能以计算SPR。提出的模型将在两个数据集(Twitter和Telegram)上进行评估。结果表明,(i)虚假谣言文件的传播力量很少不仅仅是真正的谣言。 (ii)两组虚假谣言和真实谣言的SPR平均值之间存在显着差异。 (iii)SPR作为标准可以对区分虚假谣言和真实谣言产生积极影响。
translated by 谷歌翻译
全球世界正在穿越大流行形势,这是一个灾难性的呼吸综合征爆发被认为是Covid-19。这是212个国家的全球威胁,即人们每天都会遇到强大的情况。相反,成千上万的受感染的人居住丰富的山脉。心理健康也受到全球冠状病毒情况的影响。由于这种情况,在线消息来源使普通人在任何议程中分享他们的意见。如受影响的新闻相关的积极和消极,财务问题,国家和家庭危机,缺乏进出口盈利系统等。不同的情况是最近在任何地方的时尚新闻。因此,在瞬间内产生了大量的文本,在次大陆领域,与其他国家的情况相同,以及文本的人民意见和情况也是相同的,但语言是不同的。本文提出了一些具体的投入以及来自个别来源的孟加拉文本评论,可以确保插图的目标,即机器学习结果能够建立辅助系统。意见挖掘辅助系统可能以可能的所有语言偏好有影响。据我们所知,文章预测了Covid-19问题上的Bangla输入文本,提出了ML算法和深度学习模型分析还通过比较分析检查未来可达性。比较分析规定了关于文本预测精度的报告与ML算法和79%以及深度学习模型以及79%的报告。
translated by 谷歌翻译
我们使用了应用于新闻和用户评论数据集的无监督和监督模型的令牌 - 方向和文档方面的情感分析。我们的令牌观点分析发现了两组(两组非常大的态度之间的情绪差异,我们的文献监督的情绪分析发现情绪没有显着差异。
translated by 谷歌翻译
这项工作介绍了一种新方法,以考虑文本分析中的主观性和一般上下文依赖性,并用作示例检测文本中传达的情绪。所提出的方法通过Marvin Minsky(1974)利用Mikolov等人的文本向量化的框架理论的计算版本来考虑主观性。 (2013),用于基于它们出现的上下文生成单词的分布式表示。我们的方法是基于三个组成部分:1。代表观点的框架/“房间”; 2.代表分析标准的基准 - 在这种情况下,情绪分类,从罗伯特·普特金(1980)的人类情绪研究; 3.要分析的文件。通过使用单词之间的相似性测量,我们能够在我们的案例研究中提取基准中的元素中的元素的相对相关性 - 对于要分析的文件。我们的方法提供了一种措施,考虑到读取文档的实体的角度。该方法可以应用于评估主体性与理解文本的相对值或含义相关的所有情况。主观性可以不限于人体反应,但它可用于提供具有与给定域(“房间”)相关的解释的文本。为了评估我们的方法,我们在政治领域中使用了测试案例。
translated by 谷歌翻译
我们使用不同的语言支持特征预处理方法研究特征密度(FD)的有效性,以估计数据集复杂性,这又用于比较估计任何训练之前机器学习(ML)分类器的潜在性能。我们假设估计数据集复杂性允许减少所需实验迭代的数量。这样我们可以优化ML模型的资源密集型培训,这是由于可用数据集大小的增加以及基于深神经网络(DNN)的模型的不断增加的普及而成为一个严重问题。由于训练大规模ML模型引起的令人惊叹的二氧化碳排放量,不断增加对更强大的计算资源需求的问题也在影响环境。该研究是在多个数据集中进行的,包括流行的数据集,例如用于培训典型情感分析模型的Yelp业务审查数据集,以及最近的数据集尝试解决网络欺凌问题,这是一个严重的社会问题,也是一个严重的社会问题一个更复杂的问题,形成了语言代表的观点。我们使用收集多种语言的网络欺凌数据集,即英语,日语和波兰语。数据集的语言复杂性的差异允许我们另外讨论语言备份的单词预处理的功效。
translated by 谷歌翻译
作为世界上口语最广泛的语言之一,孟加拉国的使用在社交媒体世界中也在增加。讽刺是一种积极的陈述或言论,其基本的负面动机在当今的社交媒体平台中广泛使用。在过去的许多年中,英语的讽刺检测有了显着改善,但是有关孟加拉讽刺检测的情况仍然没有改变。结果,仍然很难识别孟加拉国中的讽刺,缺乏高质量的数据是主要因素。本文提出了Banglasarc,该数据集是专门为孟加拉文本数据讽刺检测的数据集。该数据集包含5112条评论/状态和从各种在线社交平台(例如Facebook,YouTube)以及一些在线博客中收集的内容。由于孟加拉语中分类评论的数据收集数量有限,因此该数据集将有助于确定讽刺的研究,认识到人们的情绪,检测到各种类型的孟加拉语表达式和其他领域。该数据集可在https://www.kaggle.com/datasets/sakibapon/banglasarc上公开获得。
translated by 谷歌翻译
在当今的世界中,每个人都以某种方式表现出来,而该项目的重点是人们使用Twitter的数据(一个微博平台)的数据,人们对英国和印度的电价上涨的看法,人们在该平台上发布了消息,人们发布了消息,称为Tweets。因为许多人的收入不好,他们必须缴纳如此多的税款和账单,因此如今,维持房屋已成为有争议的问题。尽管政府提供了补贴计划来补偿人们的电费,但不受人们的欢迎。在这个项目中,目的是对Twitter上表达的人们的表达和观点进行情感分析。为了掌握电价的意见,有必要对能源市场的政府和消费者进行情感分析。此外,这些媒体上存在的文本本质上是非结构化的,因此要处理它们,我们首先需要预处理数据。有很多功能提取技术,例如单词袋,tf-idf(术语频率为单位的文档频率),单词嵌入,基于NLP的功能,例如Word Count。在该项目中,我们分析了特征TF-IDF单词级别对情感分析数据集的影响。我们发现,通过使用TF-IDF单词级别的性能分析的表现比使用N-Gram功能高3-4。使用四种分类算法进行分析,包括幼稚的贝叶斯,决策树,随机森林和逻辑回归,并考虑F评分,准确性,精度和召回性能参数。
translated by 谷歌翻译
本文介绍了对土耳其语可用于的语料库和词汇资源的全面调查。我们审查了广泛的资源,重点关注公开可用的资源。除了提供有关可用语言资源的信息外,我们还提供了一组建议,并确定可用于在土耳其语言学和自然语言处理中进行研究和建筑应用的数据中的差距。
translated by 谷歌翻译
情感分析是最古典的,主要研究的自然语言处理任务之一。这个问题有一个值得注意的提前,主张更复杂和可扩展的机器学习模型。尽管存在这一进展,但巴西葡萄牙语仍然只处理了有限的语言资源,例如专用于情绪分类的数据集,特别是在考虑培训,测试和验证集中的预定义分区时,这将允许更公平地比较不同算法备择方案。这些问题的动机,这项工作分析了一系列文档嵌入策略的预测性能,假设极性作为系统结果。此分析包括在巴西葡萄牙语中的五种情感分析数据集,在单个数据集中统一,以及培训,测试和验证集中的引用分区,两者都通过数字存储库公开可用。进行不同上下文的数据集特定模型的交叉评估,以评估其泛化能力和采用唯一模型来解决所有方案的可行性。
translated by 谷歌翻译