发现别人认为是我们信息收集策略的关键方面。现在,人们可以积极利用信息技术来寻找和理解他人的想法,这要归功于越来越多的意见资源(例如在线评论网站和个人博客)的越来越多。由于其在理解人们的意见方面的关键功能,因此情感分析(SA)是一项至关重要的任务。另一方面,现有的研究主要集中在英语上,只有少量研究专门研究低资源语言。对于情感分析,这项工作根据用户评估提供了一个新的多级乌尔都语数据集。高音扬声器网站用于获取乌尔都语数据集。我们提出的数据集包括10,000项评论,这些评论已被人类专家精心归类为两类:正面,负面。这项研究的主要目的是构建一个手动注释的数据集进行乌尔都语情绪分析,并确定基线结果。采用了五种不同的词典和规则的算法,包括NaiveBayes,Stanza,TextBlob,Vader和Flair,实验结果表明,其精度为70%的天赋优于其他经过测试的算法。
translated by 谷歌翻译
社交媒体网络已成为人们生活的重要方面,它是其思想,观点和情感的平台。因此,自动化情绪分析(SA)对于以其他信息来源无法识别人们的感受至关重要。对这些感觉的分析揭示了各种应用,包括品牌评估,YouTube电影评论和医疗保健应用。随着社交媒体的不断发展,人们以不同形式发布大量信息,包括文本,照片,音频和视频。因此,传统的SA算法已变得有限,因为它们不考虑其他方式的表现力。通过包括来自各种物质来源的此类特征,这些多模式数据流提供了新的机会,以优化基于文本的SA之外的预期结果。我们的研究重点是多模式SA的最前沿领域,该领域研究了社交媒体网络上发布的视觉和文本数据。许多人更有可能利用这些信息在这些平台上表达自己。为了作为这个快速增长的领域的学者资源,我们介绍了文本和视觉SA的全面概述,包括数据预处理,功能提取技术,情感基准数据集以及适合每个字段的多重分类方法的疗效。我们还简要介绍了最常用的数据融合策略,并提供了有关Visual Textual SA的现有研究的摘要。最后,我们重点介绍了最重大的挑战,并调查了一些重要的情感应用程序。
translated by 谷歌翻译
Sentiment analysis or opinion mining help to illustrate the phrase NLP (Natural Language Processing). Sentiment analysis has been the most significant topic in recent years. The goal of this study is to solve the sentiment polarity classification challenges in sentiment analysis. A broad technique for categorizing sentiment opposition is presented, along with comprehensive process explanations. With the results of the analysis, both sentence-level classification and review-level categorization are conducted. Finally, we discuss our plans for future sentiment analysis research.
translated by 谷歌翻译
本文介绍了对土耳其语可用于的语料库和词汇资源的全面调查。我们审查了广泛的资源,重点关注公开可用的资源。除了提供有关可用语言资源的信息外,我们还提供了一组建议,并确定可用于在土耳其语言学和自然语言处理中进行研究和建筑应用的数据中的差距。
translated by 谷歌翻译
在当今的世界中,每个人都以某种方式表现出来,而该项目的重点是人们使用Twitter的数据(一个微博平台)的数据,人们对英国和印度的电价上涨的看法,人们在该平台上发布了消息,人们发布了消息,称为Tweets。因为许多人的收入不好,他们必须缴纳如此多的税款和账单,因此如今,维持房屋已成为有争议的问题。尽管政府提供了补贴计划来补偿人们的电费,但不受人们的欢迎。在这个项目中,目的是对Twitter上表达的人们的表达和观点进行情感分析。为了掌握电价的意见,有必要对能源市场的政府和消费者进行情感分析。此外,这些媒体上存在的文本本质上是非结构化的,因此要处理它们,我们首先需要预处理数据。有很多功能提取技术,例如单词袋,tf-idf(术语频率为单位的文档频率),单词嵌入,基于NLP的功能,例如Word Count。在该项目中,我们分析了特征TF-IDF单词级别对情感分析数据集的影响。我们发现,通过使用TF-IDF单词级别的性能分析的表现比使用N-Gram功能高3-4。使用四种分类算法进行分析,包括幼稚的贝叶斯,决策树,随机森林和逻辑回归,并考虑F评分,准确性,精度和召回性能参数。
translated by 谷歌翻译
Any organization needs to improve their products, services, and processes. In this context, engaging with customers and understanding their journey is essential. Organizations have leveraged various techniques and technologies to support customer engagement, from call centres to chatbots and virtual agents. Recently, these systems have used Machine Learning (ML) and Natural Language Processing (NLP) to analyze large volumes of customer feedback and engagement data. The goal is to understand customers in context and provide meaningful answers across various channels. Despite multiple advances in Conversational Artificial Intelligence (AI) and Recommender Systems (RS), it is still challenging to understand the intent behind customer questions during the customer journey. To address this challenge, in this paper, we study and analyze the recent work in Conversational Recommender Systems (CRS) in general and, more specifically, in chatbot-based CRS. We introduce a pipeline to contextualize the input utterances in conversations. We then take the next step towards leveraging reverse feature engineering to link the contextualized input and learning model to support intent recognition. Since performance evaluation is achieved based on different ML models, we use transformer base models to evaluate the proposed approach using a labelled dialogue dataset (MSDialogue) of question-answering interactions between information seekers and answer providers.
translated by 谷歌翻译
讽刺可以被定义为说或写讽刺与一个人真正想表达的相反,通常是为了侮辱,刺激或娱乐某人。由于文本数据中讽刺性的性质晦涩难懂,因此检测到情感分析研究社区的困难和非常感兴趣。尽管讽刺检测的研究跨越了十多年,但最近已经取得了一些重大进步,包括在多模式环境中采用了无监督的预训练的预训练的变压器,并整合了环境以识别讽刺。在这项研究中,我们旨在简要概述英语计算讽刺研究的最新进步和趋势。我们描述了与讽刺有关的相关数据集,方法,趋势,问题,挑战和任务,这些数据集,趋势,问题,挑战和任务是无法检测到的。我们的研究提供了讽刺数据集,讽刺特征及其提取方法以及各种方法的性能分析,这些表可以帮助相关领域的研究人员了解当前的讽刺检测中最新实践。
translated by 谷歌翻译
社交媒体平台上的滥用内容的增长增加对在线用户的负面影响。对女同性恋,同性恋者,跨性别或双性恋者的恐惧,不喜欢,不适或不疑虑被定义为同性恋/转铁症。同性恋/翻译语音是一种令人反感的语言,可以总结为针对LGBT +人的仇恨语音,近年来越来越受到兴趣。在线同性恋恐惧症/ Transphobobia是一个严重的社会问题,可以使网上平台与LGBT +人有毒和不受欢迎,同时还试图消除平等,多样性和包容性。我们为在线同性恋和转鸟以及专家标记的数据集提供了新的分类分类,这将允许自动识别出具有同种异体/传递内容的数据集。我们受过教育的注释器并以综合的注释规则向他们提供,因为这是一个敏感的问题,我们以前发现未受训练的众包注释者因文化和其他偏见而诊断倡导性的群体。数据集包含15,141个注释的多语言评论。本文介绍了构建数据集,数据的定性分析和注册间协议的过程。此外,我们为数据集创建基线模型。据我们所知,我们的数据集是第一个已创建的数据集。警告:本文含有明确的同性恋,转基因症,刻板印象的明确陈述,这可能对某些读者令人痛苦。
translated by 谷歌翻译
在科学研究中,该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展,正在提出,修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息,并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法,为研究任务选择适当的方法并提出新方法。此外,方法实体的演变可以揭示纪律的发展并促进知识发现。因此,本文对方法论和经验作品进行了系统的综述,重点是从全文学术文献中提取方法实体,并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义,我们系统地审查了提取和评估方法实体的方法和指标,重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后,讨论了现有作品的限制以及潜在的下一步。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
本文提供了当前视频内容提取工具的比较,重点是比较基于任务的机器学习服务。在过去十年中,视频智能(VIDINT)数据已成为关键情报来源。基于AI的分析和自动化工具从视频中提取和构造内容的需求已迅速成为需要大规模搜索,分析和利用视频的组织的优先事项。随着机器学习技术的快速增长,机器转录,机器翻译,主题标签和对象识别任务的成熟度以指数级的速度提高,随着新应用程序的发展,速度和准确性的性能记录破坏了。本文的每个部分审查并根据与机器学习技术从视频中提取信息相关的任务进行了比较产品,软件资源和视频分析功能。
translated by 谷歌翻译
情感是引人入胜的叙事的关键部分:文学向我们讲述了有目标,欲望,激情和意图的人。情绪分析是情感分析更广泛,更大的领域的一部分,并且在文学研究中受到越来越多的关注。过去,文学的情感维度主要在文学诠释学的背景下进行了研究。但是,随着被称为数字人文科学(DH)的研究领域的出现,在文学背景下对情绪的一些研究已经发生了计算转折。鉴于DH仍被形成为一个领域的事实,这一研究方向可以相对较新。在这项调查中,我们概述了现有的情感分析研究机构,以适用于文献。所评论的研究涉及各种主题,包括跟踪情节发展的巨大变化,对文学文本的网络分析以及了解文本的情感以及其他主题。
translated by 谷歌翻译
假新闻的迅速增加,这对社会造成重大损害,触发了许多假新闻相关研究,包括开发假新闻检测和事实验证技术。这些研究的资源主要是从Web数据中获取的公共数据集。我们通过三个观点调查了与假新闻研究相关的118个数据集:(1)假新闻检测,(2)事实验证,(3)其他任务;例如,假新闻和讽刺检测分析。我们还详细描述了他们的利用任务及其特征。最后,我们突出了假新闻数据集建设中的挑战以及解决这些挑战的一些研究机会。我们的调查通过帮助研究人员找到合适的数据集来促进假新闻研究,而无需重新发明轮子,从而提高了深度的假新闻研究。
translated by 谷歌翻译
社交媒体使用量增加到今天的数字世界中的历史新高。大多数人口使用社交媒体工具(如Twitter,Facebook,YouTube等)与社区分享他们的思想和经验。分析共同公众的情绪和意见对政府和商界人士来说非常重要。这是在大选时间进行各种民意调查中的大量媒体机构激活的原因。在本文中,我们曾在2019年Lok Sabha选举期间分析了印度人民的情绪,使用该持续时间的推特数据。我们建立了一个自动推文分析仪,使用传输学习技术来处理这个问题的无监督性质。我们在我们的机器学习模型中使用了线性支持向量分类方法,此外,术语频率逆文档频率(TF-IDF)方法用于处理推文的文本数据。此外,我们提高了模型的能力,以解决一些用户发布的讽刺推文,其中一些用户尚未被该领域的研究人员考虑。
translated by 谷歌翻译
Merchants selling products on the Web often ask their customers to review the products that they have purchased and the associated services. As e-commerce is becoming more and more popular, the number of customer reviews that a product receives grows rapidly. For a popular product, the number of reviews can be in hundreds or even thousands. This makes it difficult for a potential customer to read them to make an informed decision on whether to purchase the product. It also makes it difficult for the manufacturer of the product to keep track and to manage customer opinions. For the manufacturer, there are additional difficulties because many merchant sites may sell the same product and the manufacturer normally produces many kinds of products. In this research, we aim to mine and to summarize all the customer reviews of a product. This summarization task is different from traditional text summarization because we only mine the features of the product on which the customers have expressed their opinions and whether the opinions are positive or negative. We do not summarize the reviews by selecting a subset or rewrite some of the original sentences from the reviews to capture the main points as in the classic text summarization. Our task is performed in three steps: (1) mining product features that have been commented on by customers; (2) identifying opinion sentences in each review and deciding whether each opinion sentence is positive or negative; (3) summarizing the results. This paper proposes several novel techniques to perform these tasks. Our experimental results using reviews of a number of products sold online demonstrate the effectiveness of the techniques.
translated by 谷歌翻译
Fake review identification is an important topic and has gained the interest of experts all around the world. Identifying fake reviews is challenging for researchers, and there are several primary challenges to fake review detection. We propose developing an initial research paper for investigating fake reviews by using sentiment analysis. Ten research papers are identified that show fake reviews, and they discuss currently available solutions for predicting or detecting fake reviews. They also show the distribution of fake and truthful reviews through the analysis of sentiment. We summarize and compare previous studies related to fake reviews. We highlight the most significant challenges in the sentiment evaluation process and demonstrate that there is a significant impact on sentiment scores used to identify fake feedback.
translated by 谷歌翻译
Artificial intelligence and natural language processing (NLP) are increasingly being used in customer service to interact with users and answer their questions. The goal of this systematic review is to examine existing research on the use of NLP technology in customer service, including the research domain, applications, datasets used, and evaluation methods. The review also looks at the future direction of the field and any significant limitations. The review covers the time period from 2015 to 2022 and includes papers from five major scientific databases. Chatbots and question-answering systems were found to be used in 10 main fields, with the most common use in general, social networking, and e-commerce areas. Twitter was the second most commonly used dataset, with most research also using their own original datasets. Accuracy, precision, recall, and F1 were the most common evaluation methods. Future work aims to improve the performance and understanding of user behavior and emotions, and address limitations such as the volume, diversity, and quality of datasets. This review includes research on different spoken languages and models and techniques.
translated by 谷歌翻译
互联网上的自以为是的数据量正在迅速增加。越来越多的人在评论,讨论论坛,微博和一般社交媒体中分享他们的想法和意见。由于意见在所有人类活动中都是核心,因此已应用情绪分析来获得有关此类数据的见解。有几种情感分类的方法。主要缺点是缺乏用于分类和高级可视化的标准化解决方案。在这项研究中,提出了用于在线社交网络分析的情感分析仪仪表板。这是为了使人们能够获得对他们有趣的主题的见解。该工具允许用户在仪表板中运行所需的情感分析算法。除了提供几种可视化类型外,仪表板还促进了来自情感分类的原始数据结果,可以下载以进行进一步分析。
translated by 谷歌翻译
Personal assistants, automatic speech recognizers and dialogue understanding systems are becoming more critical in our interconnected digital world. A clear example is air traffic control (ATC) communications. ATC aims at guiding aircraft and controlling the airspace in a safe and optimal manner. These voice-based dialogues are carried between an air traffic controller (ATCO) and pilots via very-high frequency radio channels. In order to incorporate these novel technologies into ATC (low-resource domain), large-scale annotated datasets are required to develop the data-driven AI systems. Two examples are automatic speech recognition (ASR) and natural language understanding (NLU). In this paper, we introduce the ATCO2 corpus, a dataset that aims at fostering research on the challenging ATC field, which has lagged behind due to lack of annotated data. The ATCO2 corpus covers 1) data collection and pre-processing, 2) pseudo-annotations of speech data, and 3) extraction of ATC-related named entities. The ATCO2 corpus is split into three subsets. 1) ATCO2-test-set corpus contains 4 hours of ATC speech with manual transcripts and a subset with gold annotations for named-entity recognition (callsign, command, value). 2) The ATCO2-PL-set corpus consists of 5281 hours of unlabeled ATC data enriched with automatic transcripts from an in-domain speech recognizer, contextual information, speaker turn information, signal-to-noise ratio estimate and English language detection score per sample. Both available for purchase through ELDA at http://catalog.elra.info/en-us/repository/browse/ELRA-S0484. 3) The ATCO2-test-set-1h corpus is a one-hour subset from the original test set corpus, that we are offering for free at https://www.atco2.org/data. We expect the ATCO2 corpus will foster research on robust ASR and NLU not only in the field of ATC communications but also in the general research community.
translated by 谷歌翻译
在线发布的产品评论数量越来越多的是设计师的金矿,通过捕捉客户的声音,并相应地改善这些产品,了解他们开发的产品。与此同时,产品设计和开发在创造更可持续的未来方面具有重要作用。随着自然语言处理领域的人工智能技术最近,该研究旨在开发一体化机器学习解决方案,以便自动从线产品评论获得可持续设计的洞察。在本文中,讨论了,说明了现有框架 - 包括Python库,软件包以及伯爵等最先进的算法的机会和挑战。这一贡献讨论了达成的机会和建立机器学习管道的挑战,以便从产品审查中获取有限性,以设计更可持续的产品,包括五个阶段,包括与解释的可持续性相关的审查可持续设计引导:数据收集,数据格式,模型培训,模型评估和模型部署。给出了可持续设计见解的例子,可提供退出产品审查采矿和加工。最后,提供了用于该领域未来研究的有希望的线,包括与可持续替代品的平行标准产品的案例研究,以比较客户价值的特征,并在优质的可持续设计引线中产生。
translated by 谷歌翻译