智能论文笔记

Variance of Twitter Embeddings and Temporal Trends of COVID-19 cases

Mayank Sethi , Ambika Sadhu , Khushbu Pahwa , Sargun Nagpal , Tavpritesh Sethi

分类：自然语言处理

2021-09-30

冠状病毒大流行的严重程度需要有效的行政决定。在印度超过4万人的人屈服于Covid-19，拥有超过3亿卢比的确认案例，仍然计数。合理的第三波的威胁继续困扰数百万。在这种不断变化的病毒动态中，预测性建模方法可以用作整体工具。大流行进一步引发了一个前所未有的社交媒体使用。本文旨在提出一种利用社交媒体，特别推特的方法来预测与Covid-19案件相关的即将发生的情景。在这项研究中，我们寻求了解Covid-19相关推文的潮流如何表明案件的增加。这种前瞻性分析可用于帮助管理员及时资源分配，以减少损坏的严重程度。使用Word Embeddings来捕获推文的语义含义，我们识别大量尺寸（SDS）.Or方法，预测患情况的上升时间为15天，30天，R2分别为0.80和0.62。最后，我们解释了SDS的主题效用。

translated by 谷歌翻译

Twitter conversations predict the daily confirmed COVID-19 cases

Rabindra Lamsala , Aaron Harwood , Maria Rodriguez Read

分类：自然语言处理

2022-06-21

在撰写本文时，Covid-19（2019年冠状病毒病）已扩散到220多个国家和地区。爆发后，大流行的严肃性使人们在社交媒体上更加活跃，尤其是在Twitter和Weibo等微博平台上。现在，大流行特定的话语一直在这些平台上持续数月。先前的研究证实了这种社会产生的对话对危机事件的情境意识的贡献。案件的早期预测对于当局估算应对病毒的生长所需的资源要求至关重要。因此，这项研究试图将公共话语纳入预测模型的设计中，特别针对正在进行的波浪的陡峭山路区域。我们提出了一种基于情感的主题方法，用于设计与公开可用的Covid-19相关Twitter对话中的多个时间序列。作为用例，我们对澳大利亚Covid-19的日常案例和该国境内产生的Twitter对话实施了拟议的方法。实验结果：（i）显示了Granger导致每日COVID-19确认案例的潜在社交媒体变量的存在，并且（ii）确认这些变量为预测模型提供了其他预测能力。此外，结果表明，用于建模的社交媒体变量包含了48.83--51.38％的RMSE比基线模型的改善。我们还向公众发布了大型Covid-19特定地理标记的全球推文数据集Megocov，预计该量表的地理标记数据将有助于通过其他空间和时间上下文理解大流行的对话动态。

translated by 谷歌翻译

AI-based Monitoring and Response System for Hospital Preparedness towards COVID-19 in Southeast Asia

Tushar Goswamy , Naishadh Parmar , Ayush Gupta , Raunak Shah , Vatsalya Tandon , Varun Goyal , Sanyog Gupta , Karishma Laud , Shivam Gupta , Sudhanshu Mishra

分类：自然语言处理 | 机器学习

2020-07-30

这篇研究论文提出了COVID-19监测和响应系统，以确定医院患者的数量激增以及关键设备（如东南亚国家的呼吸机），以了解医疗机构的负担。这可以通过资源计划措施来帮助这些地区的当局，以将资源重定向到模型确定的地区。由于缺乏有关医院患者涌入的公开可用数据，或者这些国家可能面临的设备，ICU单元或医院病床的短缺，我们利用Twitter数据来收集此信息。该方法为印度的各州提供了准确的结果，我们正在努力验证其余国家的模型，以便它可以作为当局监控医院负担的可靠工具。

translated by 谷歌翻译

Understanding COVID-19 Vaccine Reaction through Comparative Analysis on Twitter

Yuesheng Luo , Mayank Kejriwal

分类：自然语言处理

2021-11-10

虽然现在几个月有多个Covid-19疫苗，但疫苗犹豫不决在美国的高水平。部分内容也已成为政治化，特别是自11月总统选举以来。在包括Twitter的社交媒体背景下，在此期间理解疫苗犹豫不决，可以为计算社会科学家和决策者提供有价值的指导。本文通过相对研究两个不同的时间段（选举前的一个，另一个月之后的另一个月，另一个月）采用相对研究的两个Twitter数据集，而不是研究单一的Twitter语料库，而不是研究单个Twitter语料库。数据收集和过滤方法。我们的研究结果表明，从2020年到2021年秋天的政治到Covid-19疫苗的讨论中讨论了重大转变。通过使用基于集群和机器学习的方法与采样和定性分析，我们发现了几种细粒度疫苗犹豫不决的原因，其中一些随着时间的推移而变得更加（或更少）。我们的结果还强调了去年这个问题的强烈极化和政治化。

translated by 谷歌翻译

COVID-19 Twitter Dataset with Latent Topics, Sentiments and Emotions Attributes

Raj Kumar Gupta , Ajay Vishwanath , Yinping Yang

分类：自然语言处理

2020-07-14

本文描述了一个关于人们的话语的大型全球数据集以及在Twitter平台上对Covid-19的大流行的反应。从2020年1月28日至2022年6月1日，我们收集并处理了超过2900万个唯一用户的Twitter帖子，使用了四个关键字：“ Corona”，“ Wuhan”，“ NCOV”和“ COVID”。利用概率主题建模和预训练的基于机器学习的情感识别算法，我们将每个推文标记为具有十七个属性，包括a）十个二进制属性，指示了Tweet的相关性（1）或与前十名检测到的主题，B ）五个定量情绪属性表示价或情感的强度程度（从0：极为消极到1：极为积极）以及恐惧，愤怒，悲伤和幸福情感的强度程度（从0：完全不是1到1 ：极度强烈），c）两个分类属性表明情绪（非常负面，消极，中立或混合，积极，非常积极）以及主导的情感（恐惧，愤怒，悲伤，幸福，没有特定的情感），主要是推文表达。我们讨论技术有效性，并报告这些属性的描述性统计，其时间分布和地理表示。本文最后讨论了数据集在传播，心理学，公共卫生，经济学和流行病学中的用法。

translated by 谷歌翻译

Using Twitter Data to Understand Public Perceptions of Approved versus Off-label Use for COVID-19-related Medications

Yining Hua , Hang Jiang , Shixu Lin , Jie Yang , Joseph M. Plasek , David W. Bates , Li Zhou

分类：自然语言处理 | 机器学习

2022-06-29

了解公众关于紧急使用未经证实的治疗剂的论述对于监视安全使用和打击错误信息至关重要。我们开发了一种基于自然语言处理（NLP）的管道，以了解公众对COVID-19与19与COVID相关药物的立场的看法。这项回顾性研究包括2020年1月29日，2020年至2021年11月30日之间的609,189个基于美国的推文，涉及四种药物，这些药物在19日期期间在流行期间引起了广泛关注：1）羟基氯喹和伊维菌素，毒品疗法，具有轶事证据； 2）Molnupiravir和Remdesivir，适合合格患者的FDA批准的治疗选择。时间趋势分析用于了解受欢迎程度和相关事件。进行了内容和人口统计分析，以探讨人们对每种药物的立场的潜在理由。时间趋势分析表明，羟氯喹和伊维菌素的讨论比Molnupiravir和Remdesivir更多，尤其是在Covid-19-19潮中期。羟氯喹和伊维菌素高度政治化，与阴谋论，传闻，名人效应等有关。美国两个主要政党之间立场的分布大不相同（p <0.001）；共和党人比民主党人更有可能支持羟氯喹（+55％）和伊维菌素（+30％）。具有医疗保健背景的人倾向于比普通人群多反对羟氯喹（+7％）。相比之下，普通人群更有可能支持伊维菌素（+14％）。我们在https://github.com/ningkko/covid-drug上提供所有数据，代码和模型。

translated by 谷歌翻译

What are People Talking about in #BlackLivesMatter and #StopAsianHate? Exploring and Categorizing Twitter Topics Emerging in Online Social Movements through the Latent Dirichlet Allocation Model

Xin Tong , Yixuan Li , Jiayi Li , Rongqi Bei , Luyao Zhang

分类：自然语言处理 | 机器学习

2022-05-29

少数群体一直在使用社交媒体来组织社会运动，从而产生深远的社会影响。黑人生活问题（BLM）和停止亚洲仇恨（SAH）是两个成功的社会运动，在Twitter上蔓延开来，促进了抗议活动和活动，反对种族主义，并提高公众对少数群体面临的其他社会挑战的认识。但是，以前的研究主要对与用户的推文或访谈进行了定性分析，这些推文或访谈可能无法全面和有效地代表所有推文。很少有研究以严格，量化和以数据为中心的方法探讨了BLM和SAH对话中的Twitter主题。因此，在这项研究中，我们采用了一种混合方法来全面分析BLM和SAH Twitter主题。我们实施了（1）潜在的DIRICHLET分配模型，以了解顶级高级单词和主题以及（2）开放编码分析，以确定整个推文中的特定主题。我们通过#BlackLivesMatter和#Stopasianhate主题标签收集了超过一百万条推文，并比较了它们的主题。我们的发现表明，这些推文在深度上讨论了各种有影响力的话题，社会正义，社会运动和情感情感都是两种运动的共同主题，尽管每个运动都有独特的子主题。我们的研究尤其是社交媒体平台上的社会运动的主题分析，以及有关AI，伦理和社会相互作用的文献。

translated by 谷歌翻译

Vaccine Discourse on Twitter During the COVID-19 Pandemic

Gabriel Lindelöf , Talayeh Aledavood , Barbara Keller

分类：自然语言处理

2022-07-23

自Covid-19大流行病开始以来，疫苗一直是公共话语中的重要话题。疫苗周围的讨论被两极分化，因为有些人认为它们是结束大流行的重要措施，而另一些人则犹豫不决或发现它们有害。这项研究调查了与Twitter上的Covid-19疫苗有关的帖子，并着重于对疫苗有负姿态的帖子。收集了与COVID-19疫苗相关的16,713,238个英文推文的数据集，收集了涵盖从2020年3月1日至2021年7月31日的该期间。我们使用Scikit-Learn Python库来应用支持向量机（SVM）分类器针对Covid-19疫苗的推文具有负姿态。总共使用了5,163个推文来训练分类器，其中有2,484个推文由我们手动注释并公开提供。我们使用Berttopic模型来提取和调查负推文中讨论的主题以及它们如何随时间变化。我们表明，随着疫苗的推出，对COVID-19疫苗的负面影响随时间而下降。我们确定了37个讨论主题，并随着时间的推移介绍了各自的重要性。我们表明，流行的主题包括阴谋讨论，例如5G塔和微芯片，但还涉及涉及疫苗接种安全性和副作用以及对政策的担忧。我们的研究表明，即使是不受欢迎的观点或阴谋论，与广受欢迎的讨论主题（例如Covid-19疫苗）配对时，也会变得广泛。了解问题和讨论的主题以及它们如何随着时间的变化对于政策制定者和公共卫生当局提供更好和时间的信息和政策，以促进未来类似危机的人口接种。

translated by 谷歌翻译

Data-Centric Epidemic Forecasting: A Survey

Alexander Rodríguez , Harshavardhan Kamarthi , Pulak Agarwal , Javen Ho , Mira Patel , Suchet Sapre , B. Aditya Prakash

分类：机器学习

2022-07-19

COVID-19的大流行提出了对多个领域决策者的流行预测的重要性，从公共卫生到整个经济。虽然预测流行进展经常被概念化为类似于天气预测，但是它具有一些关键的差异，并且仍然是一项非平凡的任务。疾病的传播受到人类行为，病原体动态，天气和环境条件的多种混杂因素的影响。由于政府公共卫生和资助机构的倡议，捕获以前无法观察到的方面的丰富数据来源的可用性增加了研究的兴趣。这尤其是在“以数据为中心”的解决方案上进行的一系列工作，这些解决方案通过利用非传统数据源以及AI和机器学习的最新创新来增强我们的预测能力的潜力。这项调查研究了各种数据驱动的方法论和实践进步，并介绍了一个概念框架来导航它们。首先，我们列举了与流行病预测相关的大量流行病学数据集和新的数据流，捕获了各种因素，例如有症状的在线调查，零售和商业，流动性，基因组学数据等。接下来，我们将讨论关注最近基于数据驱动的统计和深度学习方法的方法和建模范式，以及将机械模型知识域知识与统计方法的有效性和灵活性相结合的新型混合模型类别。我们还讨论了这些预测系统的现实部署中出现的经验和挑战，包括预测信息。最后，我们重点介绍了整个预测管道中发现的一些挑战和开放问题。

translated by 谷歌翻译

"Double vaccinated, 5G boosted!": Learning Attitudes towards COVID-19 Vaccination from Social Media

Ninghan Chen , Xihui Chen , Zhiqiang Zhong , Jun Pang

分类：机器学习

2022-06-27

为了解决疫苗犹豫不决，这会损害COVID-19疫苗接种运动的努力，必须了解公共疫苗接种态度并及时掌握其变化。尽管具有可靠性和可信赖性，但基于调查的传统态度收集是耗时且昂贵的，无法遵循疫苗接种态度的快速发展。我们利用社交媒体上的文本帖子通过提出深入学习框架来实时提取和跟踪用户的疫苗接种立场。为了解决与疫苗相关话语中常用的讽刺和讽刺性的语言特征的影响，我们将用户社交网络邻居的最新帖子集成到框架中，以帮助检测用户的真实态度。根据我们从Twitter的注释数据集，与最新的仅文本模型相比，从我们框架实例化的模型可以提高态度提取的性能高达23％。使用此框架，我们成功地验证了使用社交媒体跟踪现实生活中疫苗接种态度的演变的可行性。我们进一步显示了对我们的框架的一种实际用途，它可以通过从社交媒体中感知到的信息来预测用户疫苗犹豫的变化的可能性。

translated by 谷歌翻译

How Much Hate with #china? A Preliminary Analysis on China-related Hateful Tweets Two Years After the Covid Pandemic Began

Jinghua Xu , Zarah Weiss

分类：自然语言处理

2022-11-11

Following the outbreak of a global pandemic, online content is filled with hate speech. Donald Trump's ''Chinese Virus'' tweet shifted the blame for the spread of the Covid-19 virus to China and the Chinese people, which triggered a new round of anti-China hate both online and offline. This research intends to examine China-related hate speech on Twitter during the two years following the burst of the pandemic (2020 and 2021). Through Twitter's API, in total 2,172,333 tweets hashtagged #china posted during the time were collected. By employing multiple state-of-the-art pretrained language models for hate speech detection, we identify a wide range of hate of various types, resulting in an automatically labeled anti-China hate speech dataset. We identify a hateful rate in #china tweets of 2.5% in 2020 and 1.9% in 2021. This is well above the average rate of online hate speech on Twitter at 0.6% identified in Gao et al., 2017. We further analyzed the longitudinal development of #china tweets and those identified as hateful in 2020 and 2021 through visualizing the daily number and hate rate over the two years. Our keyword analysis of hate speech in #china tweets reveals the most frequently mentioned terms in the hateful #china tweets, which can be used for further social science studies.

translated by 谷歌翻译

Multi-dimensional Racism Classification during COVID-19: Stigmatization, Offensiveness, Blame, and Exclusion

Xin Pei , Deval Mehta

分类：人工智能

2022-08-29

超越种族主义文本的二元分类，我们的研究从社会科学理论中获取线索，以开发一种用于种族主义检测的多维模型，即污名化，进攻性，责备和排斥。在BERT和主题建模的帮助下，这种分类检测可以洞悉Covid-19期间数字平台上种族主义讨论的基本细节。我们的研究有助于丰富有关社交媒体上种族主义行为的学术讨论。首先，采用阶段分析来捕捉在Covid-19的早期阶段的主题变化的动态，该阶段从国内流行病转变为国际公共卫生紧急情况，后来转变为全球大流行。此外，映射这一趋势可以更准确地预测有关离线世界中种族主义的公众舆论发展，同时，制定了规定的干预策略，以打击像Covid-19这样的全球公共卫生危机期间的种族主义兴起。此外，这项跨学科研究还指出了关于社交网络分析和采矿的未来研究的方向。将社会科学观点整合到计算方法的发展中，为更准确的数据检测和分析提供了见解。

translated by 谷歌翻译

Sentiment analysis on electricity twitter posts

Pardeep Kaur , Maryam Edalati

分类：自然语言处理

2022-06-10

在当今的世界中，每个人都以某种方式表现出来，而该项目的重点是人们使用Twitter的数据（一个微博平台）的数据，人们对英国和印度的电价上涨的看法，人们在该平台上发布了消息，人们发布了消息，称为Tweets。因为许多人的收入不好，他们必须缴纳如此多的税款和账单，因此如今，维持房屋已成为有争议的问题。尽管政府提供了补贴计划来补偿人们的电费，但不受人们的欢迎。在这个项目中，目的是对Twitter上表达的人们的表达和观点进行情感分析。为了掌握电价的意见，有必要对能源市场的政府和消费者进行情感分析。此外，这些媒体上存在的文本本质上是非结构化的，因此要处理它们，我们首先需要预处理数据。有很多功能提取技术，例如单词袋，tf-idf（术语频率为单位的文档频率），单词嵌入，基于NLP的功能，例如Word Count。在该项目中，我们分析了特征TF-IDF单词级别对情感分析数据集的影响。我们发现，通过使用TF-IDF单词级别的性能分析的表现比使用N-Gram功能高3-4。使用四种分类算法进行分析，包括幼稚的贝叶斯，决策树，随机森林和逻辑回归，并考虑F评分，准确性，精度和召回性能参数。

translated by 谷歌翻译

A Python Library for Exploratory Data Analysis on Twitter Data based on Tokens and Aggregated Origin-Destination Information

Mario Graff , Daniela Moctezuma , Sabino Miranda-Jiménez , Eric S. Tellez

分类：自然语言处理

2020-09-03

Twitter也许是社交媒体更适合研究。它只需要几个步骤来获取信息，并且有很多库可以帮助这方面。尽管如此，知道特定事件是否在Twitter上表达是一个具有挑战性的任务，需要相当多的推文集合。该提案旨在促进研究员对自从2015年12月以来推出的Twitter采集的加工信息收集到Twitter上采矿活动的过程。事件可能与自然灾害，健康问题和人民的流动相关，等等可以与图书馆一起追求的研究。在这一贡献中提出了不同的应用程序，以说明图书馆的能力：对推文中发现的主题的探索性分析，这是西班牙语方言中的相似性研究以及不同国家的移动性报告。总之，呈现的Python库应用于不同的域，并在以阿拉伯语，英语，西班牙语和俄语的单词和双克单词的频率下检索一系列信息。以及与200多个国家或地区的地点之间的旅行数量有关的移动性信息。

translated by 谷歌翻译

Twitter Corpus of the #BlackLivesMatter Movement And Counter Protests: 2013 to 2021

Salvatore Giorgi , Sharath Chandra Guntuku , McKenzie Himelein-Wachowiak , Amy Kwarteng , Sy Hwang , Muhammad Rahman , Brenda Curtis

分类：自然语言处理

2020-09-01

黑人生活问题（BLM）是一项分散的社会运动，抗议对黑人个人和社区的暴力行为，重点是警察暴力。 2020年，艾哈迈德·阿贝里（Ahmaud Arbery），布雷纳·泰勒（Breonna Taylor）和乔治·弗洛伊德（George Floyd）的杀害后，该运动引起了人们的关注。#BlackLivesMatter社交媒体标签已经代表了基层运动，并以类似的标签来抗议BLM运动，例如#AllllivesMatter和#allllivesmatter和#allllivesmatter，以及#bluelivesmatter。我们介绍了来自100多个国家 /地区的1,300万用户的6390万推文的数据集，其中包含以下关键字之一：BlackLivesMatter，AlllivesMatter和BluelivesMatter。该数据集包含从2013年BLM运动开始到2021年的所有当前可用推文。我们总结了数据集并显示了使用BlackLivesMatter关键字和与反向运动相关的关键字的时间趋势。此外，对于每个关键字，我们创建并发布了一组潜在的Dirichlet分配（LDA）主题（即自动聚集了语义上共同共的单词的组），以帮助研究人员识别这三个关键字的语言模式。

translated by 谷歌翻译

The Problem of Semantic Shift in Longitudinal Monitoring of Social Media: A Case Study on Mental Health During the COVID-19 Pandemic

Keith Harrigian , Mark Dredze

分类：自然语言处理

2022-06-22

社交媒体使研究人员能够根据语言分析工具来跟踪社会和文化变化。这些工具中的许多工具都依靠统计算法，这些算法需要调整为特定类型的语言。最近的研究表明，没有适当的调整，特别是在语义转移的情况下，可能会阻碍潜在方法的鲁棒性。但是，对于这种敏感性可能对下游纵向分析的实际影响知之甚少。我们通过及时的案例研究在文献中探讨了这一差距：在19009年大流行期间，了解抑郁症的转变。我们发现，仅包含少数语义上的特征可以促进目标结局的纵向估计值的重大变化。同时，我们证明了最近引入的测量语义转移方法可用于主动识别基于语言的模型的失败点，从而改善预测性概括。

translated by 谷歌翻译

What Are You Anxious About? Examining Subjects of Anxiety during the COVID-19 Pandemic

Lucia L. Chen , Steven R. Wilson , Sophie Lohmann , Daniela V. Negraia

分类：自然语言处理

2022-09-27

Covid-19在大流行的不同阶段对公众构成了不成比例的心理健康后果。我们使用一种计算方法来捕获引发在线社区对大流行的焦虑的特定方面，并研究这些方面如何随时间变化。首先，我们使用主题分析在R/covid19 \ _support的Reddit帖子样本（$ n $ = 86）中确定了九个焦虑（SOA）。然后，我们通过在手动注释的样本（$ n $ = 793）上训练Reddit用户的焦虑来自动将SOA标记在较大的年代样本中（$ n $ = 6,535）。 9个SOA与最近开发的大流行焦虑测量量表中的项目保持一致。我们观察到，在大流行的前八个月，Reddit用户对健康风险的担忧仍然很高。尽管案件激增稍后发生，但这些担忧却大大减少了。通常，随着大流行的进展，用户的语言披露了SOA的强烈强度。但是，在本研究涵盖的整个期间，人们对心理健康的担忧和未来稳步增长。人们还倾向于使用更强烈的语言来描述心理健康问题，而不是健康风险或死亡问题。我们的结果表明，尽管Covid-19逐渐削弱，但由于适当的对策而逐渐削弱了作为健康威胁，但该在线小组的心理健康状况并不一定会改善。我们的系统为人口健康和流行病学学者奠定了基础，以及时检查引起大流行焦虑的方面。

translated by 谷歌翻译

Twitter Topic Classification

Dimosthenis Antypas , Asahi Ushio , Jose Camacho-Collados , Leonardo Neves , Vítor Silva , Francesco Barbieri

分类：自然语言处理

2022-09-20

社交媒体平台主持了有关每天出现的各种主题的讨论。理解所有内容并将其组织成类别是一项艰巨的任务。处理此问题的一种常见方法是依靠主题建模，但是使用此技术发现的主题很难解释，并且从语料库到语料库可能会有所不同。在本文中，我们提出了基于推文主题分类的新任务，并发布两个相关的数据集。鉴于涵盖社交媒体中最重要的讨论点的广泛主题，我们提供了最近时间段的培训和测试数据，可用于评估推文分类模型。此外，我们在任务上对当前的通用和领域特定语言模型进行定量评估和分析，这为任务的挑战和性质提供了更多见解。

translated by 谷歌翻译

A Multilingual Dataset of COVID-19 Vaccination Attitudes on Twitter

Ninghan Chen , Xihui Chen , Jun Pang

分类：自然语言处理 | 机器学习

2022-06-27

疫苗的犹豫被认为是欧洲和美国在欧洲疫苗充足疫苗的疫苗停滞比率停滞的主要原因之一。快速准确地掌握公众对疫苗接种的态度对于解决疫苗犹豫至关重要，社交媒体平台已被证明是公众意见的有效来源。在本文中，我们描述了与Covid-19疫苗有关的推文数据集的收集和发布。该数据集由从西欧收集的2,198,090条推文组成，其中17,934条带有发起者的疫苗接种立场。我们的注释将有助于使用和开发数据驱动的模型来从社交媒体帖子中提取疫苗接种态度，从而进一步确认社交媒体在公共卫生监视中的力量。为了为未来的研究奠定基础，我们不仅对数据集进行了统计分析和可视化，而且还评估和比较了疫苗接种立场提取中已建立的基于文本的基准测试的性能。我们在实践中证明了我们的数据的一种潜在用途，以跟踪公共Covid-19-19疫苗接种态度的时间变化。

translated by 谷歌翻译

A Comparative Study on Transfer Learning and Distance Metrics in Semantic Clustering over the COVID-19 Tweets

Elnaz Zafarani-Moattar , Mohammad Reza Kangavari , Amir Masoud Rahmani

分类：自然语言处理 | 机器学习

2021-11-16

本文是Covid-19数据主题检测的背景下的比较研究。主题检测有各种方法，其中在本文中选择了聚类方法。聚类需要距离和计算距离需求嵌入。该研究的目的是同时研究嵌入方法，距离度量和聚类方法及其互动的三个因素。数据集包括与Covid-19相关的Hashtags收集的一个月推文用于本研究。从嵌入方法中选择五种方法，从早期到新方法：Word2Vec，FastText，Glove，BERT和T5。在本文中调查了五种聚类方法，即：K-Means，DBSCAN，光学，光谱和Jarvis-Patrick。还检查了欧几里德距离和余弦距离作为该领域中最重要的距离指标。首先，执行超过7,500个测试来调整参数。然后，通过剪影度量来研究具有距离度量和聚类方法的所有不同组合方法。这些组合的数量是50例。首先，检查这些50个测试的结果。然后，在该方法的所有测试中考虑了每种方法的等级。最后，分别研究了研究的主要变量（嵌入方法，距离度量和聚类方法）。对控制变量进行平均以中和它们的效果。实验结果表明，T5在轮廓度量方面强烈优于其他嵌入方法。在距离度量标准方面，余弦距离弱得多。 DBSCAN在聚类方法方面也优于其他方法。

translated by 谷歌翻译