在临床研究和临床决策中,重要的是要知道学习是否发生或仅支持目前的特定疾病管理的护理标准。我们将这种变化定义为变换性和作为增量研究的支持。它通常需要大量的人类专业知识和时间来完成这些任务。教师意见为我们提供了一个关于研究挑战或仅确认建立研究的良好注释的语料库。在本研究中,提出了一种机器学习方法,以区分从增量临床证据的变化。摘要和2年窗口的文本被收集了培训临床研究的培训,由教师观察专家标记。我们通过随机林为分类器,达到0.755(0.705-0.875)的平均AUC的最佳性能,并引用句子作为该功能。结果表明,与抽象句不同,转型研究具有引用句子的典型语言模式。我们提供了一个有效的工具,用于识别这些临床证据挑战或仅确认临床医生和研究人员的索赔。
translated by 谷歌翻译
在科学研究中,该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展,正在提出,修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息,并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法,为研究任务选择适当的方法并提出新方法。此外,方法实体的演变可以揭示纪律的发展并促进知识发现。因此,本文对方法论和经验作品进行了系统的综述,重点是从全文学术文献中提取方法实体,并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义,我们系统地审查了提取和评估方法实体的方法和指标,重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后,讨论了现有作品的限制以及潜在的下一步。
translated by 谷歌翻译
同行评审是一项广泛接受的研究评估机制,在学术出版中发挥关键作用。然而,批评已经长期升级了这种机制,主要是因为它的低效率和主体性。近年来已经看到人工智能(AI)在协助同行评审过程中的应用。尽管如此,随着人类的参与,这种限制仍然是不可避免的。在本文中,我们提出了自动化学术纸质审查(ASPR)的概念,并审查了相关的文献和技术,讨论实现全面的计算机化审查流程的可能性。我们进一步研究了现有技术ASPR的挑战。在审查和讨论的基础上,我们得出结论,ASPR的每个阶段都有相应的研究和技术。这验证了随着相关技术继续发展的长期可以实现ASPR。其实现中的主要困难在于不完美的文献解析和表示,数据不足,数据缺陷,人机互动和有缺陷的深度逻辑推理。在可预见的未来,ASPR和同行评审将在ASPR能够充分承担从人类的审查工作量之前以加强方式共存。
translated by 谷歌翻译
学术研究是解决以前从未解决过的问题的探索活动。通过这种性质,每个学术研究工作都需要进行文献审查,以区分其Novelties尚未通过事先作品解决。在自然语言处理中,该文献综述通常在“相关工作”部分下进行。鉴于研究文件的其余部分和引用的论文列表,自动相关工作生成的任务旨在自动生成“相关工作”部分。虽然这项任务是在10年前提出的,但直到最近,它被认为是作为科学多文件摘要问题的变种。然而,即使在今天,尚未标准化了自动相关工作和引用文本生成的问题。在这项调查中,我们进行了一个元研究,从问题制定,数据集收集,方法方法,绩效评估和未来前景的角度来比较相关工作的现有文献,以便为读者洞察到国家的进步 - 最内容的研究,以及如何进行未来的研究。我们还调查了我们建议未来工作要考虑整合的相关研究领域。
translated by 谷歌翻译
社交媒体网络已成为人们生活的重要方面,它是其思想,观点和情感的平台。因此,自动化情绪分析(SA)对于以其他信息来源无法识别人们的感受至关重要。对这些感觉的分析揭示了各种应用,包括品牌评估,YouTube电影评论和医疗保健应用。随着社交媒体的不断发展,人们以不同形式发布大量信息,包括文本,照片,音频和视频。因此,传统的SA算法已变得有限,因为它们不考虑其他方式的表现力。通过包括来自各种物质来源的此类特征,这些多模式数据流提供了新的机会,以优化基于文本的SA之外的预期结果。我们的研究重点是多模式SA的最前沿领域,该领域研究了社交媒体网络上发布的视觉和文本数据。许多人更有可能利用这些信息在这些平台上表达自己。为了作为这个快速增长的领域的学者资源,我们介绍了文本和视觉SA的全面概述,包括数据预处理,功能提取技术,情感基准数据集以及适合每个字段的多重分类方法的疗效。我们还简要介绍了最常用的数据融合策略,并提供了有关Visual Textual SA的现有研究的摘要。最后,我们重点介绍了最重大的挑战,并调查了一些重要的情感应用程序。
translated by 谷歌翻译
Future work sentences (FWS) are the particular sentences in academic papers that contain the author's description of their proposed follow-up research direction. This paper presents methods to automatically extract FWS from academic papers and classify them according to the different future directions embodied in the paper's content. FWS recognition methods will enable subsequent researchers to locate future work sentences more accurately and quickly and reduce the time and cost of acquiring the corpus. The current work on automatic identification of future work sentences is relatively small, and the existing research cannot accurately identify FWS from academic papers, and thus cannot conduct data mining on a large scale. Furthermore, there are many aspects to the content of future work, and the subdivision of the content is conducive to the analysis of specific development directions. In this paper, Nature Language Processing (NLP) is used as a case study, and FWS are extracted from academic papers and classified into different types. We manually build an annotated corpus with six different types of FWS. Then, automatic recognition and classification of FWS are implemented using machine learning models, and the performance of these models is compared based on the evaluation metrics. The results show that the Bernoulli Bayesian model has the best performance in the automatic recognition task, with the Macro F1 reaching 90.73%, and the SCIBERT model has the best performance in the automatic classification task, with the weighted average F1 reaching 72.63%. Finally, we extract keywords from FWS and gain a deep understanding of the key content described in FWS, and we also demonstrate that content determination in FWS will be reflected in the subsequent research work by measuring the similarity between future work sentences and the abstracts.
translated by 谷歌翻译
Automatic keyword extraction (AKE) has gained more importance with the increasing amount of digital textual data that modern computing systems process. It has various applications in information retrieval (IR) and natural language processing (NLP), including text summarisation, topic analysis and document indexing. This paper proposes a simple but effective post-processing-based universal approach to improve the performance of any AKE methods, via an enhanced level of semantic-awareness supported by PoS-tagging. To demonstrate the performance of the proposed approach, we considered word types retrieved from a PoS-tagging step and two representative sources of semantic information -- specialised terms defined in one or more context-dependent thesauri, and named entities in Wikipedia. The above three steps can be simply added to the end of any AKE methods as part of a post-processor, which simply re-evaluate all candidate keywords following some context-specific and semantic-aware criteria. For five state-of-the-art (SOTA) AKE methods, our experimental results with 17 selected datasets showed that the proposed approach improved their performances both consistently (up to 100\% in terms of improved cases) and significantly (between 10.2\% and 53.8\%, with an average of 25.8\%, in terms of F1-score and across all five methods), especially when all the three enhancement steps are used. Our results have profound implications considering the ease to apply our proposed approach to any AKE methods and to further extend it.
translated by 谷歌翻译
作为人类认知的重要组成部分,造成效果关系频繁出现在文本中,从文本策划原因关系有助于建立预测任务的因果网络。现有的因果关系提取技术包括基于知识的,统计机器学习(ML)和基于深度学习的方法。每种方法都具有其优点和缺点。例如,基于知识的方法是可以理解的,但需要广泛的手动域知识并具有较差的跨域适用性。由于自然语言处理(NLP)工具包,统计机器学习方法更加自动化。但是,功能工程是劳动密集型的,工具包可能导致错误传播。在过去的几年里,由于其强大的代表学习能力和计算资源的快速增加,深入学习技术吸引了NLP研究人员的大量关注。它们的局限包括高计算成本和缺乏足够的注释培训数据。在本文中,我们对因果关系提取进行了综合调查。我们最初介绍了因果关系提取中存在的主要形式:显式的内部管制因果关系,隐含因果关系和间情态因果关系。接下来,我们列出了代理关系提取的基准数据集和建模评估方法。然后,我们介绍了三种技术的结构化概述了与他们的代表系统。最后,我们突出了潜在的方向存在现有的开放挑战。
translated by 谷歌翻译
为了评估任何医疗干预的有效性,研究人员必须进行时间 - 密集和高度手动的文献综述。NLP系统可以帮助自动或协助实现这一昂贵的过程。为了支持这一目标,我们发布MS ^ 2(医学研究的多文件摘要),一个超过470K文档的数据集和来自科学文献的20k摘要。此数据集促进了可以在多项研究中评估和聚合矛盾证据的系统的开发,并且是生物医学领域的第一个大型公开可用的多文件摘要数据集。我们试验基于BART的摘要系统,具有前景的早期结果。我们以自由文本和结构形式制定我们的摘要输入和目标,并修改最近提出的指标,以评估我们系统生成的摘要的质量。数据和模型可在https://github.com/allenai/ms2上获得
translated by 谷歌翻译
自然语言处理(NLP)是一个人工智能领域,它应用信息技术来处理人类语言,在一定程度上理解并在各种应用中使用它。在过去的几年中,该领域已经迅速发展,现在采用了深层神经网络的现代变体来从大型文本语料库中提取相关模式。这项工作的主要目的是调查NLP在药理学领域的最新使用。正如我们的工作所表明的那样,NLP是药理学高度相关的信息提取和处理方法。它已被广泛使用,从智能搜索到成千上万的医疗文件到在社交媒体中找到对抗性药物相互作用的痕迹。我们将覆盖范围分为五个类别,以调查现代NLP方法论,常见的任务,相关的文本数据,知识库和有用的编程库。我们将这五个类别分为适当的子类别,描述其主要属性和想法,并以表格形式进行总结。最终的调查介绍了该领域的全面概述,对从业者和感兴趣的观察者有用。
translated by 谷歌翻译
假新闻的迅速增加,这对社会造成重大损害,触发了许多假新闻相关研究,包括开发假新闻检测和事实验证技术。这些研究的资源主要是从Web数据中获取的公共数据集。我们通过三个观点调查了与假新闻研究相关的118个数据集:(1)假新闻检测,(2)事实验证,(3)其他任务;例如,假新闻和讽刺检测分析。我们还详细描述了他们的利用任务及其特征。最后,我们突出了假新闻数据集建设中的挑战以及解决这些挑战的一些研究机会。我们的调查通过帮助研究人员找到合适的数据集来促进假新闻研究,而无需重新发明轮子,从而提高了深度的假新闻研究。
translated by 谷歌翻译
目的本文的目的是探讨哪些学术文章裁判的结构将更加关注,具体内容裁判的重点是哪些特定内容,以及中国的分布是否与引用有关。设计/方法/方法首先,利用节标题和分层注意网络模型(HAN)的特征单词来识别学术文章结构。其次,根据PRC中规则提取的位置信息在不同结构中的分布。第三,分析通过卡方检验和TF-IDF在不同结构中提取的PRC特征单词的分布。最后,使用四种相关分析方法来分析PRC在不同结构中的分布是否与引用相关。发现在材料和方法和结果部分中分布的PRC计数远远超过了引言和讨论的结构,这表明裁判员更多地关注材料,方法和结果。中国在不同结构中的特征单词的分布显然是不同的,这可以反映裁判员关注的内容。中国在不同结构中的分布与引用之间没有相关性。由于裁判员写同行评审报告的差异,研究的局限性/含义,用于提取位置信息的规则不能涵盖所有中国的所有中国。原创性/价值本文在不同的学术文章结构中发现了中国分布的一种模式,证明了长期的经验理解。它还提供了对学术文章写作的见解:研究人员应确保方法的科学性和撰写学术文章的结果的可靠性,以获得裁判的高度认可。
translated by 谷歌翻译
情感是引人入胜的叙事的关键部分:文学向我们讲述了有目标,欲望,激情和意图的人。情绪分析是情感分析更广泛,更大的领域的一部分,并且在文学研究中受到越来越多的关注。过去,文学的情感维度主要在文学诠释学的背景下进行了研究。但是,随着被称为数字人文科学(DH)的研究领域的出现,在文学背景下对情绪的一些研究已经发生了计算转折。鉴于DH仍被形成为一个领域的事实,这一研究方向可以相对较新。在这项调查中,我们概述了现有的情感分析研究机构,以适用于文献。所评论的研究涉及各种主题,包括跟踪情节发展的巨大变化,对文学文本的网络分析以及了解文本的情感以及其他主题。
translated by 谷歌翻译
法律判决预测是NLP,AI和法律联合领域最受欢迎的领域之一。通过法律预测,我们是指能够预测特定司法特征的智能系统,例如司法结果,司法阶级,可以预测特定案例。在这项研究中,我们使用AI分类器来预测巴西法律体系中的司法结果。为此,我们开发了一个文本爬网,以从巴西官方电子法律系统中提取数据。这些文本构成了二级谋杀和主动腐败案件的数据集。我们应用了不同的分类器,例如支持向量机和神经网络,通过分析数据集中的文本功能来预测司法结果。我们的研究表明,回归树,封闭的重复单元和分层注意力网络给出了不同子集的较高指标。作为最终目标,我们探讨了一种算法的权重,即分层注意力网络,以找到用于免除或定罪被告的最重要词的样本。
translated by 谷歌翻译
社交媒体平台上的滥用内容的增长增加对在线用户的负面影响。对女同性恋,同性恋者,跨性别或双性恋者的恐惧,不喜欢,不适或不疑虑被定义为同性恋/转铁症。同性恋/翻译语音是一种令人反感的语言,可以总结为针对LGBT +人的仇恨语音,近年来越来越受到兴趣。在线同性恋恐惧症/ Transphobobia是一个严重的社会问题,可以使网上平台与LGBT +人有毒和不受欢迎,同时还试图消除平等,多样性和包容性。我们为在线同性恋和转鸟以及专家标记的数据集提供了新的分类分类,这将允许自动识别出具有同种异体/传递内容的数据集。我们受过教育的注释器并以综合的注释规则向他们提供,因为这是一个敏感的问题,我们以前发现未受训练的众包注释者因文化和其他偏见而诊断倡导性的群体。数据集包含15,141个注释的多语言评论。本文介绍了构建数据集,数据的定性分析和注册间协议的过程。此外,我们为数据集创建基线模型。据我们所知,我们的数据集是第一个已创建的数据集。警告:本文含有明确的同性恋,转基因症,刻板印象的明确陈述,这可能对某些读者令人痛苦。
translated by 谷歌翻译
本文介绍了对土耳其语可用于的语料库和词汇资源的全面调查。我们审查了广泛的资源,重点关注公开可用的资源。除了提供有关可用语言资源的信息外,我们还提供了一组建议,并确定可用于在土耳其语言学和自然语言处理中进行研究和建筑应用的数据中的差距。
translated by 谷歌翻译
专利数据已用于工程设计研究,因为它包含大量的设计信息。人工智能和数据科学的最新进展呈现了我前所未有的机会,分析和对专利数据感开发设计理论和方法。在此,我们通过他们的贡献来调查专利设计文献,以设计理论,方法,工具和策略,以及不同形式的专利数据和各种方法。我们的评论阐明了对该领域的未来研究方向的光临。
translated by 谷歌翻译
在本文中,我们将科学文章分类为自然语言处理(NLP)和机器学习(ML)的科学文章(i)是否通过引入击败现有模型或的新型技术来扩展当前的最新技术是否(ii)他们是否主要批评现有的最新技术,即,它相对于某些属性(例如,错误的评估,错误的数据集,误导性的任务规范)不足。我们将(i)下的贡献称为具有\ enquote {正姿势}和(ii)下的贡献为具有\ enquote {负姿势}(对相关工作)。我们注释来自NLP和ML的1.5k纸以超过1.5k的论文来培训基于SCIBERT的模型,以自动根据其标题和抽象来预测论文的立场。然后,我们分析了NLP和ML的最后35年$ 35年以上的41k纸上的大规模趋势,发现随着时间的流逝,论文变得更加积极,但是负面论文也变得更加负面,我们观察到更多的负面论文,我们观察到了更多的负面论文。最近几年。在收到的引用方面,负面论文也更具影响力。
translated by 谷歌翻译
随着信息技术的快速发展,在线平台已经产生了巨大的文本资源。作为一种特定形式的信息提取(即),事件提取(EE)由于其自动从人类语言提取事件的能力而增加了普及。但是,事件提取有限的文献调查。现有审查工作要么花费很多努力,用于描述各种方法的细节或专注于特定领域。本研究提供了全面概述了最先进的事件提取方法及其从文本的应用程序,包括闭域和开放式事件提取。这项调查的特点是它提供了适度复杂性的概要,避免涉及特定方法的太多细节。本研究侧重于讨论代表作品的常见角色,应用领域,优势和缺点,忽略各个方法的特殊性。最后,我们总结了常见问题,当前解决方案和未来的研究方向。我们希望这项工作能够帮助研究人员和从业者获得最近的事件提取的快速概述。
translated by 谷歌翻译
Any organization needs to improve their products, services, and processes. In this context, engaging with customers and understanding their journey is essential. Organizations have leveraged various techniques and technologies to support customer engagement, from call centres to chatbots and virtual agents. Recently, these systems have used Machine Learning (ML) and Natural Language Processing (NLP) to analyze large volumes of customer feedback and engagement data. The goal is to understand customers in context and provide meaningful answers across various channels. Despite multiple advances in Conversational Artificial Intelligence (AI) and Recommender Systems (RS), it is still challenging to understand the intent behind customer questions during the customer journey. To address this challenge, in this paper, we study and analyze the recent work in Conversational Recommender Systems (CRS) in general and, more specifically, in chatbot-based CRS. We introduce a pipeline to contextualize the input utterances in conversations. We then take the next step towards leveraging reverse feature engineering to link the contextualized input and learning model to support intent recognition. Since performance evaluation is achieved based on different ML models, we use transformer base models to evaluate the proposed approach using a labelled dialogue dataset (MSDialogue) of question-answering interactions between information seekers and answer providers.
translated by 谷歌翻译