Facebook帖子与相应的反应特征之间的关系是探索和理解的有趣主题。为了归档此目的,我们测试最先进的Sinhala情绪分析模型,用于数据集,其中包含数百万反应的十年僧伽罗柱。为建立基准和识别Sinhala情感分析的最佳模型的目标,我们还测试了同一数据集配置,其他深度学习模型迎合了情绪分析。在这项研究中,我们报告说,3层双向LSTM模型对于Sinhala情感分析的F1得分为84.58%,超越了当前的最先进的模型;胶囊B,只有设法获得82.04%的F1得分。此外,由于所有深度学习模型显示F1分数高于75%,我们得出结论,声称Facebook反应适合预测文本的情绪是安全的。
translated by 谷歌翻译
Facebook网络允许其用户通过情绪的类型学,通过类型学记录他们的文本的反应。因此,该网络占用,因此是注释情绪数据的素数数据集。本文采用数百万这样的反应,从十年的Facebook Post数据中源于斯里兰卡语境,以模拟旁观者对在线Sinhala文本内容的情绪检测的眼睛。建立了三种不同的情绪分析模型,考虑到有限的反应子集,所有反应和另一个产生正/负星评级值。然后计算并讨论这些模型在捕获观察者的反应时的功效。该分析表明,对于僧伽罗含量,反应的二元分类比其他方法更准确。此外,包含像反应的妨碍精确预测其他反应的能力。
translated by 谷歌翻译
讽刺可以被定义为说或写讽刺与一个人真正想表达的相反,通常是为了侮辱,刺激或娱乐某人。由于文本数据中讽刺性的性质晦涩难懂,因此检测到情感分析研究社区的困难和非常感兴趣。尽管讽刺检测的研究跨越了十多年,但最近已经取得了一些重大进步,包括在多模式环境中采用了无监督的预训练的预训练的变压器,并整合了环境以识别讽刺。在这项研究中,我们旨在简要概述英语计算讽刺研究的最新进步和趋势。我们描述了与讽刺有关的相关数据集,方法,趋势,问题,挑战和任务,这些数据集,趋势,问题,挑战和任务是无法检测到的。我们的研究提供了讽刺数据集,讽刺特征及其提取方法以及各种方法的性能分析,这些表可以帮助相关领域的研究人员了解当前的讽刺检测中最新实践。
translated by 谷歌翻译
社交媒体网络已成为人们生活的重要方面,它是其思想,观点和情感的平台。因此,自动化情绪分析(SA)对于以其他信息来源无法识别人们的感受至关重要。对这些感觉的分析揭示了各种应用,包括品牌评估,YouTube电影评论和医疗保健应用。随着社交媒体的不断发展,人们以不同形式发布大量信息,包括文本,照片,音频和视频。因此,传统的SA算法已变得有限,因为它们不考虑其他方式的表现力。通过包括来自各种物质来源的此类特征,这些多模式数据流提供了新的机会,以优化基于文本的SA之外的预期结果。我们的研究重点是多模式SA的最前沿领域,该领域研究了社交媒体网络上发布的视觉和文本数据。许多人更有可能利用这些信息在这些平台上表达自己。为了作为这个快速增长的领域的学者资源,我们介绍了文本和视觉SA的全面概述,包括数据预处理,功能提取技术,情感基准数据集以及适合每个字段的多重分类方法的疗效。我们还简要介绍了最常用的数据融合策略,并提供了有关Visual Textual SA的现有研究的摘要。最后,我们重点介绍了最重大的挑战,并调查了一些重要的情感应用程序。
translated by 谷歌翻译
The sentiment analysis task has various applications in practice. In the sentiment analysis task, words and phrases that represent positive and negative emotions are important. Finding out the words that represent the emotion from the text can improve the performance of the classification models for the sentiment analysis task. In this paper, we propose a methodology that combines the emotion lexicon with the classification model to enhance the accuracy of the models. Our experimental results show that the emotion lexicon combined with the classification model improves the performance of models.
translated by 谷歌翻译
社交媒体在现代社会中尤其是在西方世界中的政策制定方面已经变得极其影响力(例如,48%的欧洲人每天或几乎每天都使用社交媒体)。 Twitter之类的平台使用户可以关注政客,从而使公民更多地参与政治讨论。同样,政客们使用Twitter来表达他们的观点,在当前主题上进行辩论,并促进其政治议程,以影响选民行为。先前的研究表明,传达负面情绪的推文可能会更频繁地转发。在本文中,我们试图分析来自不同国家的政客的推文,并探索他们的推文是否遵循相同的趋势。利用最先进的预训练的语言模型,我们对从希腊,西班牙和英国的成千上万的推文进行了情感分析,包括权威的行政部门。我们通过系统地探索和分析有影响力和不流行的推文之间的差异来实现这一目标。我们的分析表明,政治家的负面推文更广泛地传播,尤其是在最近的时代,并突出了情感和受欢迎程度相交的有趣趋势。
translated by 谷歌翻译
仇恨言论是一种在线骚扰的形式,涉及使用滥用语言,并且在社交媒体帖子中通常可以看到。这种骚扰主要集中在诸如宗教,性别,种族等的特定群体特征上,如今它既有社会和经济后果。文本文章中对滥用语言的自动检测一直是一项艰巨的任务,但最近它从科学界获得了很多兴趣。本文解决了在社交媒体中辨别仇恨内容的重要问题。我们在这项工作中提出的模型是基于LSTM神经网络体系结构的现有方法的扩展,我们在短文中适当地增强和微调以检测某些形式的仇恨语言,例如种族主义或性别歧视。最重要的增强是转换为由复发性神经网络(RNN)分类器组成的两阶段方案。将第一阶段的所有一Vs式分类器(OVR)分类器的输出组合在一起,并用于训练第二阶段分类器,最终决定了骚扰的类型。我们的研究包括对在16K推文的公共语料库中评估的第二阶段提出的几种替代方法的性能比较,然后对另一个数据集进行了概括研究。报道的结果表明,与当前的最新技术相比,在仇恨言论检测任务中,所提出的方案的分类质量出色。
translated by 谷歌翻译
社交媒体的自杀意图检测是一种不断发展的研究,挑战了巨大的挑战。许多有自杀倾向的人通过社交媒体平台分享他们的思想和意见。作为许多研究的一部分,观察到社交媒体的公开职位包含有价值的标准,以有效地检测有自杀思想的个人。防止自杀的最困难的部分是检测和理解可能导致自杀的复杂风险因素和警告标志。这可以通过自动识别用户行为的突然变化来实现。自然语言处理技术可用于收集社交媒体交互的行为和文本特征,这些功能可以传递给特殊设计的框架,以检测人类交互中的异常,这是自杀意图指标。我们可以使用深度学习和/或基于机器学习的分类方法来实现快速检测自杀式思想。出于这种目的,我们可以采用LSTM和CNN模型的组合来检测来自用户的帖子的这种情绪。为了提高准确性,一些方法可以使用更多数据进行培训,使用注意模型提高现有模型等的效率。本文提出了一种LSTM-Incription-CNN组合模型,用于分析社交媒体提交,以检测任何潜在的自杀意图。在评估期间,所提出的模型的准确性为90.3%,F1分数为92.6%,其大于基线模型。
translated by 谷歌翻译
In this paper, we present a study of regret and its expression on social media platforms. Specifically, we present a novel dataset of Reddit texts that have been classified into three classes: Regret by Action, Regret by Inaction, and No Regret. We then use this dataset to investigate the language used to express regret on Reddit and to identify the domains of text that are most commonly associated with regret. Our findings show that Reddit users are most likely to express regret for past actions, particularly in the domain of relationships. We also found that deep learning models using GloVe embedding outperformed other models in all experiments, indicating the effectiveness of GloVe for representing the meaning and context of words in the domain of regret. Overall, our study provides valuable insights into the nature and prevalence of regret on social media, as well as the potential of deep learning and word embeddings for analyzing and understanding emotional language in online text. These findings have implications for the development of natural language processing algorithms and the design of social media platforms that support emotional expression and communication.
translated by 谷歌翻译
Since a lexicon-based approach is more elegant scientifically, explaining the solution components and being easier to generalize to other applications, this paper provides a new approach for offensive language and hate speech detection on social media. Our approach embodies a lexicon of implicit and explicit offensive and swearing expressions annotated with contextual information. Due to the severity of the social media abusive comments in Brazil, and the lack of research in Portuguese, Brazilian Portuguese is the language used to validate the models. Nevertheless, our method may be applied to any other language. The conducted experiments show the effectiveness of the proposed approach, outperforming the current baseline methods for the Portuguese language.
translated by 谷歌翻译
满意度测量,在今天的每个部门都出现,是许多公司的一个非常重要的因素。在本研究中,旨在通过使用yemek Sepeti的数据和该数据的变化来达到各种机器学习算法的最高精度率。每种算法的精度值都与所使用的各种自然语言处理方法一起计算。在计算这些精度值时,尝试优化使用的算法的参数。在本研究中培训的模型可以在未标记的数据上使用,并且可以在衡量客户满意度时给公司一个想法。观察到施加的3种不同的自然语言处理方法导致大部分开发模型中的大约5%的精度增加。
translated by 谷歌翻译
在线评论在电子商务中发挥重要作用进行决策。大部分人口做出了哪些地方,餐厅访问,以根据各自的平台发布的评论来购买的地方,从哪里购买。欺诈性审查或意见垃圾邮件被分类为一个不诚实或欺骗性的审查。产品或餐厅的肯定审查有助于吸引客户,从而导致销售额增加,而负面评论可能会妨碍餐厅或产品销售的进展,从而导致令人害羞的声誉和损失。欺诈性评论是故意发布的各种在线审查平台,以欺骗客户购买,访问或分散产品或餐厅的注意力。它们也被编写或诋毁产品的辩护。该工作旨在检测和分类审查作为欺骗性或真实性。它涉及使用各种深入学习技术来分类审查和概述涉及基于人的双向LSTM的提出的方法,以解决与基线机器学习技术的评论和比较研究中的语义信息有关的问题,以进行审查分类。
translated by 谷歌翻译
情感分析是最古典的,主要研究的自然语言处理任务之一。这个问题有一个值得注意的提前,主张更复杂和可扩展的机器学习模型。尽管存在这一进展,但巴西葡萄牙语仍然只处理了有限的语言资源,例如专用于情绪分类的数据集,特别是在考虑培训,测试和验证集中的预定义分区时,这将允许更公平地比较不同算法备择方案。这些问题的动机,这项工作分析了一系列文档嵌入策略的预测性能,假设极性作为系统结果。此分析包括在巴西葡萄牙语中的五种情感分析数据集,在单个数据集中统一,以及培训,测试和验证集中的引用分区,两者都通过数字存储库公开可用。进行不同上下文的数据集特定模型的交叉评估,以评估其泛化能力和采用唯一模型来解决所有方案的可行性。
translated by 谷歌翻译
发现别人认为是我们信息收集策略的关键方面。现在,人们可以积极利用信息技术来寻找和理解他人的想法,这要归功于越来越多的意见资源(例如在线评论网站和个人博客)的越来越多。由于其在理解人们的意见方面的关键功能,因此情感分析(SA)是一项至关重要的任务。另一方面,现有的研究主要集中在英语上,只有少量研究专门研究低资源语言。对于情感分析,这项工作根据用户评估提供了一个新的多级乌尔都语数据集。高音扬声器网站用于获取乌尔都语数据集。我们提出的数据集包括10,000项评论,这些评论已被人类专家精心归类为两类:正面,负面。这项研究的主要目的是构建一个手动注释的数据集进行乌尔都语情绪分析,并确定基线结果。采用了五种不同的词典和规则的算法,包括NaiveBayes,Stanza,TextBlob,Vader和Flair,实验结果表明,其精度为70%的天赋优于其他经过测试的算法。
translated by 谷歌翻译
软件工程(SE)中的情感分析表明了承诺分析和支持各种发展活动。我们报告了经验研究的结果,以确定我们通过组合独立的SE特定情绪探测器的极性标签来确定开发集合发动机的可行性。我们的研究有两个阶段。在第一阶段,我们通过Lin等人从最近发表的两篇论文中选择了五个特定的情绪检测工具。 [31,32],谁首先报告了独立的情绪探测器的负面结果,然后提出了改进的SE特异性情绪检测器,POME [31]。我们向第17,581个单位(句子/文件)报告来自六个目前可用情绪基准的17,581个单位(句子/文件)。我们发现现有工具可以在85-95%的情况下互补,即,一个是错误的,但另一个是对的。然而,这些工具的大多数基于投票的集合未能提高情绪检测的准确性。我们通过将极性标签和单词袋作为特征组合来开发Sentisead,一个受监督的工具。 Sentisead将各个工具的性能(F1分数)提高了4%(Over Senti4SD [5]) - 100%(通过Pome [31])。在第二阶段,我们使用预先培训的变压器模型(PTM)进行比较和改进Sentisead基础架构。我们发现,带Roberta的Sentisead基础架构作为来自Lin等人的五个独立规则和浅学习的SE特定工具的集合。 [31,32]在六个数据集中提供0.805的最佳F1分数,而独立罗伯塔显示F1分数为0.801。
translated by 谷歌翻译
Understanding customer feedback is becoming a necessity for companies to identify problems and improve their products and services. Text classification and sentiment analysis can play a major role in analyzing this data by using a variety of machine and deep learning approaches. In this work, different transformer-based models are utilized to explore how efficient these models are when working with a German customer feedback dataset. In addition, these pre-trained models are further analyzed to determine if adapting them to a specific domain using unlabeled data can yield better results than off-the-shelf pre-trained models. To evaluate the models, two downstream tasks from the GermEval 2017 are considered. The experimental results show that transformer-based models can reach significant improvements compared to a fastText baseline and outperform the published scores and previous models. For the subtask Relevance Classification, the best models achieve a micro-averaged $F1$-Score of 96.1 % on the first test set and 95.9 % on the second one, and a score of 85.1 % and 85.3 % for the subtask Polarity Classification.
translated by 谷歌翻译
我们使用不同的语言支持特征预处理方法研究特征密度(FD)的有效性,以估计数据集复杂性,这又用于比较估计任何训练之前机器学习(ML)分类器的潜在性能。我们假设估计数据集复杂性允许减少所需实验迭代的数量。这样我们可以优化ML模型的资源密集型培训,这是由于可用数据集大小的增加以及基于深神经网络(DNN)的模型的不断增加的普及而成为一个严重问题。由于训练大规模ML模型引起的令人惊叹的二氧化碳排放量,不断增加对更强大的计算资源需求的问题也在影响环境。该研究是在多个数据集中进行的,包括流行的数据集,例如用于培训典型情感分析模型的Yelp业务审查数据集,以及最近的数据集尝试解决网络欺凌问题,这是一个严重的社会问题,也是一个严重的社会问题一个更复杂的问题,形成了语言代表的观点。我们使用收集多种语言的网络欺凌数据集,即英语,日语和波兰语。数据集的语言复杂性的差异允许我们另外讨论语言备份的单词预处理的功效。
translated by 谷歌翻译
基于方面的情绪分析(ABSA)是一种文本分析方法,其定义了与特定目标相关的某些方面的意见的极性。 ABSA的大部分研究都是英文,阿拉伯语有少量的工作。最先前的阿拉伯语研究依赖于深度学习模型,主要依赖于独立于上下文的单词嵌入(例如,e.g.word2vec),其中每个单词都有一个独立于其上下文的固定表示。本文探讨了从预先培训的语言模型(如BERT)的上下文嵌入的建模功能,例如BERT,以及在阿拉伯语方面情感极度分类任务中使用句子对输入。特别是,我们开发一个简单但有效的基于伯特的神经基线来处理这项任务。根据三种不同阿拉伯语数据集的实验结果,我们的BERT架构与简单的线性分类层超出了最先进的作品。在Arabic Hotel评论数据库中实现了89.51%的准确性,73%的人类注册书评论数据集和阿拉伯新闻数据集的85.73%。
translated by 谷歌翻译
对仇恨言论和冒犯性语言(HOF)的认可通常是作为一项分类任务,以决定文本是否包含HOF。我们研究HOF检测是否可以通过考虑HOF和类似概念之间的关系来获利:(a)HOF与情感分析有关,因为仇恨言论通常是负面陈述并表达了负面意见; (b)这与情绪分析有关,因为表达的仇恨指向作者经历(或假装体验)愤怒的同时经历(或旨在体验)恐惧。 (c)最后,HOF的一个构成要素是提及目标人或群体。在此基础上,我们假设HOF检测在与这些概念共同建模时,在多任务学习设置中进行了改进。我们将实验基于这些概念的现有数据集(情感,情感,HOF的目标),并在Hasoc Fire 2021英语子任务1A中评估我们的模型作为参与者(作为IMS-Sinai团队)。基于模型选择实验,我们考虑了多个可用的资源和共享任务的提交,我们发现人群情绪语料库,Semeval 2016年情感语料库和犯罪2019年目标检测数据的组合导致F1 =。 79在基于BERT的多任务多任务学习模型中,与Plain Bert的.7895相比。在HASOC 2019测试数据上,该结果更为巨大,而F1中的增加2pp和召回大幅增加。在两个数据集(2019,2021)中,HOF类的召回量尤其增加(2019年数据的6pp和2021数据的3pp),表明MTL具有情感,情感和目标识别是适合的方法可能部署在社交媒体平台中的预警系统。
translated by 谷歌翻译
道德框架和情感会影响各种在线和离线行为,包括捐赠,亲环境行动,政治参与,甚至参与暴力抗议活动。自然语言处理中的各种计算方法(NLP)已被用来从文本数据中检测道德情绪,但是为了在此类主观任务中取得更好的性能,需要大量的手工注销训练数据。事实证明,以前对道德情绪注释的语料库已被证明是有价值的,并且在NLP和整个社会科学中都产生了新的见解,但仅限于Twitter。为了促进我们对道德修辞的作用的理解,我们介绍了道德基础Reddit语料库,收集了16,123个reddit评论,这些评论已从12个不同的子雷迪维特策划,由至少三个训练有素的注释者手工注释,用于8种道德情绪(即护理,相称性,平等,纯洁,权威,忠诚,瘦道,隐含/明确的道德)基于更新的道德基础理论(MFT)框架。我们使用一系列方法来为这种新的语料库(例如跨域分类和知识转移)提供基线道德句子分类结果。
translated by 谷歌翻译