期刊影响因素(JIF)通常等同于期刊质量和提交给该期刊的论文的同行评审质量。我们通过分析提交给1,644家医学和生命科学期刊的10,000个同行评审报告,研究了同行评审与JIF的内容之间的关联。两名研究人员手工编码了2,000个句子的随机样本。然后,我们训练了机器学习模型,以将所有187,240个句子分类为贡献或不为内容类别做出贡献。我们研究了JIF DICILES定义的十组期刊与使用线性混合效应模型的同行评审的内容之间的关联,并调整了评论的长度。 JIF的范围为0.21至74.70。同行评审长度从最低(单词中位数185)增加到JIF组(387个单词)。分配给不同内容类别的句子的比例甚至在JIF组中也有很大变化。为了彻底,与最低的JIF组相比,关于“材料和方法”的句子在最高的JIF期刊中更为普遍(7.8个百分点; 95%CI 4.9至10.7%)。 “演示和报告”的趋势朝相反的方向发展,最高的JIF期刊对此类内容的重视程度较小(差异-8.9%; 95%CI -11.3至-6.5%)。为了有助于,对更高的JIF期刊的评论更少关注“建议和解决方案”,而提供的示例少于较低的影响因素期刊。对于其他内容类别而言,没有,或者只有很小的差异。总之,在讨论使用的方法时,在提出解决方案和提供示例方面,在讨论所使用的方法但较小的帮助时,较高的JIF期刊的同行评审往往更为透彻。差异是适度的,可变性很高,表明JIF是对单个手稿的同伴评论质量的不良预测指标。
translated by 谷歌翻译
National research evaluation initiatives and incentive schemes have previously chosen between simplistic quantitative indicators and time-consuming peer review, sometimes supported by bibliometrics. Here we assess whether artificial intelligence (AI) could provide a third alternative, estimating article quality using more multiple bibliometric and metadata inputs. We investigated this using provisional three-level REF2021 peer review scores for 84,966 articles submitted to the UK Research Excellence Framework 2021, matching a Scopus record 2014-18 and with a substantial abstract. We found that accuracy is highest in the medical and physical sciences Units of Assessment (UoAs) and economics, reaching 42% above the baseline (72% overall) in the best case. This is based on 1000 bibliometric inputs and half of the articles used for training in each UoA. Prediction accuracies above the baseline for the social science, mathematics, engineering, arts, and humanities UoAs were much lower or close to zero. The Random Forest Classifier (standard or ordinal) and Extreme Gradient Boosting Classifier algorithms performed best from the 32 tested. Accuracy was lower if UoAs were merged or replaced by Scopus broad categories. We increased accuracy with an active learning strategy and by selecting articles with higher prediction probabilities, as estimated by the algorithms, but this substantially reduced the number of scores predicted.
translated by 谷歌翻译
目的本文的目的是探讨哪些学术文章裁判的结构将更加关注,具体内容裁判的重点是哪些特定内容,以及中国的分布是否与引用有关。设计/方法/方法首先,利用节标题和分层注意网络模型(HAN)的特征单词来识别学术文章结构。其次,根据PRC中规则提取的位置信息在不同结构中的分布。第三,分析通过卡方检验和TF-IDF在不同结构中提取的PRC特征单词的分布。最后,使用四种相关分析方法来分析PRC在不同结构中的分布是否与引用相关。发现在材料和方法和结果部分中分布的PRC计数远远超过了引言和讨论的结构,这表明裁判员更多地关注材料,方法和结果。中国在不同结构中的特征单词的分布显然是不同的,这可以反映裁判员关注的内容。中国在不同结构中的分布与引用之间没有相关性。由于裁判员写同行评审报告的差异,研究的局限性/含义,用于提取位置信息的规则不能涵盖所有中国的所有中国。原创性/价值本文在不同的学术文章结构中发现了中国分布的一种模式,证明了长期的经验理解。它还提供了对学术文章写作的见解:研究人员应确保方法的科学性和撰写学术文章的结果的可靠性,以获得裁判的高度认可。
translated by 谷歌翻译
Digital platforms, including online forums and helplines, have emerged as avenues of support for caregivers suffering from postpartum mental health distress. Understanding support seekers' experiences as shared on these platforms could provide crucial insight into caregivers' needs during this vulnerable time. In the current work, we provide a descriptive analysis of the concerns, psychological states, and motivations shared by healthy and distressed postpartum support seekers on two digital platforms, a one-on-one digital helpline and a publicly available online forum. Using a combination of human annotations, dictionary models and unsupervised techniques, we find stark differences between the experiences of distressed and healthy mothers. Distressed mothers described interpersonal problems and a lack of support, with 8.60% - 14.56% reporting severe symptoms including suicidal ideation. In contrast, the majority of healthy mothers described childcare issues, such as questions about breastfeeding or sleeping, and reported no severe mental health concerns. Across the two digital platforms, we found that distressed mothers shared similar content. However, the patterns of speech and affect shared by distressed mothers differed between the helpline vs. the online forum, suggesting the design of these platforms may shape meaningful measures of their support-seeking experiences. Our results provide new insight into the experiences of caregivers suffering from postpartum mental health distress. We conclude by discussing methodological considerations for understanding content shared by support seekers and design considerations for the next generation of support tools for postpartum parents.
translated by 谷歌翻译
Open peer review is a growing trend in academic publications. Public access to peer review data can benefit both the academic and publishing communities. It also serves as a great support to studies on review comment generation and further to the realization of automated scholarly paper review. However, most of the existing peer review datasets do not provide data that cover the whole peer review process. Apart from this, their data are not diversified enough as they are mainly collected from the field of computer science. These two drawbacks of the currently available peer review datasets need to be addressed to unlock more opportunities for related studies. In response to this problem, we construct MOPRD, a multidisciplinary open peer review dataset. This dataset consists of paper metadata, multiple version manuscripts, review comments, meta-reviews, author's rebuttal letters, and editorial decisions. Moreover, we design a modular guided review comment generation method based on MOPRD. Experiments show that our method delivers better performance indicated by both automatic metrics and human evaluation. We also explore other potential applications of MOPRD, including meta-review generation, editorial decision prediction, author rebuttal generation, and scientometric analysis. MOPRD is a strong endorsement for further studies in peer review-related research and other applications.
translated by 谷歌翻译
为什么有些事情在想法的市场中取得成功?虽然一些人认为内容推动成功,但其他人建议展示风格,或者思想的方式,也起到了重要作用。为了提供严谨的风格的重要性,我们将其审视内容应该是至关重要的:学术研究。虽然科学家们经常看到作为一种无私的方式,但多种方法调查表明写作风格的影响。从内容中分离风格可能是易于使用某些语言的论文也可能写出某些主题。因此,我们专注于链接到风格的独特单词(即,诸如“的功能词,”,“和”开启“),这些单词完全没有内容。来自一系列学科的自然语言处理近30,000篇文章发现功能词解释了13-27%的语言对引用的影响。辅助分析探讨了特定类别的功能词语,以表达风格的重要事项,突出了写作简单,个人声音和时间视角的作用。实验进一步强调了风格的因果影响。结果表明如何提高通信的影响并突出自然语言处理的价值,以了解思想成功。
translated by 谷歌翻译
同行评审是一项广泛接受的研究评估机制,在学术出版中发挥关键作用。然而,批评已经长期升级了这种机制,主要是因为它的低效率和主体性。近年来已经看到人工智能(AI)在协助同行评审过程中的应用。尽管如此,随着人类的参与,这种限制仍然是不可避免的。在本文中,我们提出了自动化学术纸质审查(ASPR)的概念,并审查了相关的文献和技术,讨论实现全面的计算机化审查流程的可能性。我们进一步研究了现有技术ASPR的挑战。在审查和讨论的基础上,我们得出结论,ASPR的每个阶段都有相应的研究和技术。这验证了随着相关技术继续发展的长期可以实现ASPR。其实现中的主要困难在于不完美的文献解析和表示,数据不足,数据缺陷,人机互动和有缺陷的深度逻辑推理。在可预见的未来,ASPR和同行评审将在ASPR能够充分承担从人类的审查工作量之前以加强方式共存。
translated by 谷歌翻译
研究表明,与自杀相关的新闻媒体内容的暴露与自杀率相关,具有一些内容特征可能具有有害和其他可能的保护作用。虽然有一些选定的特征存在良好的证据,但是一般缺少系统的大规模调查,特别是社交媒体数据。我们应用机器学习方法以自动标记大量的Twitter数据。我们开发了一种新的注释计划,将与自杀相关的推文分类为不同的消息类型和问题,以解决方案为中心的视角。然后,我们培训了包括多数分类器的机器学习模型的基准,这是一种基于词频率的方法(具有线性SVM的TF-IDF)和两个最先进的深层学习模型(BERT,XLNET)。这两个深入学习模型在两个分类任务中实现了最佳性能:首先,我们分类了六个主要内容类别,包括个人故事,包括自杀意图和尝试或应对,呼吁采取措施传播问题意识或预防相关信息,自杀病例的报告以及其他与自杀相关和偏离主题推文的报告。深度学习模型平均达到73%以上的准确度,遍布六个类别,F1分数为69%和85%,除了自杀意念和尝试类别(55%)。其次,在分离帖子中,在偏离主题推文中指的是实际自杀题,他们正确标记了大约88%的推文,双方达到了F1分数为93%和74%。这些分类性能与类似任务的最先进的性能相当。通过使数据标签更有效,这项工作能够对各种社交媒体内容的有害和保护作用进行自杀率和寻求帮助行为的有害和保护作用。
translated by 谷歌翻译
在临床研究和临床决策中,重要的是要知道学习是否发生或仅支持目前的特定疾病管理的护理标准。我们将这种变化定义为变换性和作为增量研究的支持。它通常需要大量的人类专业知识和时间来完成这些任务。教师意见为我们提供了一个关于研究挑战或仅确认建立研究的良好注释的语料库。在本研究中,提出了一种机器学习方法,以区分从增量临床证据的变化。摘要和2年窗口的文本被收集了培训临床研究的培训,由教师观察专家标记。我们通过随机林为分类器,达到0.755(0.705-0.875)的平均AUC的最佳性能,并引用句子作为该功能。结果表明,与抽象句不同,转型研究具有引用句子的典型语言模式。我们提供了一个有效的工具,用于识别这些临床证据挑战或仅确认临床医生和研究人员的索赔。
translated by 谷歌翻译
开放访问(OA)有助于访问文章。但是,作者或资助者通常必须支付出版费用,以防止没有参加OA出版和参与OA文章的引文优势的作者。 OA可能会加剧出版系统中现有的不平等现象,而不是克服它们。为了调查这一点,我们研究了Springer Nature发表的522,664篇文章。采用统计方法,我们描述了与来自不同收入水平的国家 /地区的作者之间的关系,其出版选择(OA或封闭式访问)以及论文的引用影响。一种机器学习分类方法帮助我们探索了作者的OA出版与属性之间的关联,尤其是有资格获得APC Waivers或折扣,期刊,国家和论文。结果表明,与其他作者相比,有资格获得APC-Waivers的作者在Gold-Oa-Journals上发布更多。相比之下,有资格获得APC折扣的作者的OA出版物比率最低,从而假设这种折扣不足以激发作者在Gold-Oa-Journal中发布。期刊的排名是在金色杂志上发布的重要驱动力,而OA选项大多是在混合期刊中避免的。资历,OA出版物的经验以及科学领域是OA出版物中最具决定性的因素。
translated by 谷歌翻译
在多个在线平台上的数量越来越多。尽管这些文章的学术影响得到了广泛的研究,但在线分享的在线兴趣仍不清楚。认识到在线提到的研究文章的时间对研究人员来说可能是有价值的信息。在本文中,我们分析了用户共享和/或讨论学术文章的多个社交媒体平台。我们建立了三个论文集群,根据年度在线提及的出版日期,范围从1920年到2016年。使用这三个群集中的每个集群使用在线社交媒体指标,我们构建了机器学习模型来预测长期的机器学习模型在线对研究文章的兴趣。我们采用两种不同的方法来解决预测任务:回归和分类。对于回归方法,多层感知器模型表现最好,对于分类方法,基于树的模型的性能比其他模型更好。我们发现,在经济和工业的背景下(即专利),旧文章最为明显。相比之下,最近发表的文章在研究平台(即Mendeley)之后是社交媒体平台(即Twitter)最为明显。
translated by 谷歌翻译
At the foundation of scientific evaluation is the labor-intensive process of peer review. This critical task requires participants to consume vast amounts of highly technical text. Prior work has annotated different aspects of review argumentation, but discourse relations between reviews and rebuttals have yet to be examined. We present DISAPERE, a labeled dataset of 20k sentences contained in 506 review-rebuttal pairs in English, annotated by experts. DISAPERE synthesizes label sets from prior work and extends them to include fine-grained annotation of the rebuttal sentences, characterizing their context in the review and the authors' stance towards review arguments. Further, we annotate every review and rebuttal sentence. We show that discourse cues from rebuttals can shed light on the quality and interpretation of reviews. Further, an understanding of the argumentative strategies employed by the reviewers and authors provides useful signal for area chairs and other decision makers.
translated by 谷歌翻译
尽管试图提高政治性别平等,但全球努力仍在努力确保女性的同等代表。这很可能与对权威妇女的性别偏见有关。在这项工作中,我们介绍了在线政治讨论中出现的性别偏见的全面研究。为此,我们在有关男性和女性政客的对话中收集了1000万条有关Reddit的评论,这使得对自动性别偏见检测进行了详尽的研究。我们不仅讨论了厌恶女性的语言,还解决了其他偏见的表现,例如以看似积极的情绪和主导地位归因于女性政客或描述符归因的差异的形式的仁慈性别歧视。最后,我们对调查语言和语言外暗示的政客进行了多方面的性别偏见研究。我们评估了5种不同类型的性别偏见,评估社交媒体语言和话语中存在的覆盖范围,组合,名义,感性和词汇偏见。总体而言,我们发现,与以前的研究相反,覆盖范围和情感偏见表明对女性政客的公共兴趣平等。名义和词汇分析的结果并没有明显的敌对或仁慈的性别歧视,这表明这种兴趣不像男性政客那样专业或尊重。女性政客通常以其名字命名,并与他们的身体,衣服或家庭有关。这是一种与男性相似的治疗方法。在现在被禁止的极右翼子列表中,这种差异最大,尽管性别偏见的差异仍然出现在右和左倾的子列表中。我们将策划的数据集释放给公众以进行未来研究。
translated by 谷歌翻译
为了评估任何医疗干预的有效性,研究人员必须进行时间 - 密集和高度手动的文献综述。NLP系统可以帮助自动或协助实现这一昂贵的过程。为了支持这一目标,我们发布MS ^ 2(医学研究的多文件摘要),一个超过470K文档的数据集和来自科学文献的20k摘要。此数据集促进了可以在多项研究中评估和聚合矛盾证据的系统的开发,并且是生物医学领域的第一个大型公开可用的多文件摘要数据集。我们试验基于BART的摘要系统,具有前景的早期结果。我们以自由文本和结构形式制定我们的摘要输入和目标,并修改最近提出的指标,以评估我们系统生成的摘要的质量。数据和模型可在https://github.com/allenai/ms2上获得
translated by 谷歌翻译
直接使用现有的文本生成数据集进行可控生成时,我们面临的问题是没有域知识,因此可以控制的方面受到限制。一个典型的示例是,当使用CNN/Daily Mail数据集用于可控文本摘要时,没有关于摘要句子的重点的指导信息。更有用的文本生成器应利用输入文本和控制信号来指导生成,只能在对域知识的深入了解中构建。在这个愿景的激励下,我们的论文介绍了一个名为Mred的新文本生成数据集。我们的新数据集由7,089个元评论组成,其所有45k元评论句子都用9个精心定义的类别之一手动注释,包括抽象,力量,决策等。我们介绍了对开始的实验结果摘要模型,并提出了使用我们的带注释数据的方法对结构控制生成的方法。通过探索各种设置并分析模型行为相对于控制信号,我们证明了我们提出的任务的挑战以及数据集MRD的值。同时,MRD还使我们能够更好地了解元评论域。
translated by 谷歌翻译
在本文中,我们将科学文章分类为自然语言处理(NLP)和机器学习(ML)的科学文章(i)是否通过引入击败现有模型或的新型技术来扩展当前的最新技术是否(ii)他们是否主要批评现有的最新技术,即,它相对于某些属性(例如,错误的评估,错误的数据集,误导性的任务规范)不足。我们将(i)下的贡献称为具有\ enquote {正姿势}和(ii)下的贡献为具有\ enquote {负姿势}(对相关工作)。我们注释来自NLP和ML的1.5k纸以超过1.5k的论文来培训基于SCIBERT的模型,以自动根据其标题和抽象来预测论文的立场。然后,我们分析了NLP和ML的最后35年$ 35年以上的41k纸上的大规模趋势,发现随着时间的流逝,论文变得更加积极,但是负面论文也变得更加负面,我们观察到更多的负面论文,我们观察到了更多的负面论文。最近几年。在收到的引用方面,负面论文也更具影响力。
translated by 谷歌翻译
评论是源代码的重要组成部分,是文档的主要来源。这引起了人们对使用大量注释的兴趣训练或评估消耗或生产它们的工具,例如生成甲骨文,甚至是从注释中生成代码,或自动生成代码摘要。这项工作大部分对评论的结构和质量做出了强烈的假设,例如假设它们主要由适当的英语句子组成。但是,我们对这些用例的现有评论的实际质量知之甚少。评论通常包含在其他类型的文本中看不到的独特结构和元素,并且从中过滤或提取信息需要额外的谨慎。本文探讨了来自GitHub的840个最受欢迎的开源项目和Srilab数据集的8422个项目的Python评论的内容和质量,并且Na \“ Ive vs.深入过滤的影响都可以使用现有注释来用于使用现有注释。培训和评估产生评论的系统。
translated by 谷歌翻译
用于预测和预测的机器学习(ML)方法已在定量科学中广泛存在。但是,基于ML的科学中有许多已知的方法论陷阱,包括数据泄漏。在本文中,我们系统地研究了基于ML的科学中的可重复性问题。我们表明,数据泄漏确实是一个普遍的问题,并导致了严重的可重复性失败。具体而言,通过对采用ML方法的研究社区中的文献调查,我们发现了17个领域,发现了错误,共同影响了329篇论文,在某些情况下导致了极其解放的结论。根据我们的调查,我们提出了8种泄漏类型的细粒分类法,范围从教科书错误到打开研究问题。我们主张基于ML的科学的基本方法论变化,因此可以在发布前捕获泄漏病例。为此,我们提出了模型信息表,以根据ML模型报告科学主张,以解决我们调查中确定的所有类型的泄漏。为了研究可重复性错误的影响和模型信息表的功效,我们在一个复杂的ML模型被认为比较旧的统计模型(例如逻辑回归(LR):内战预测)的领域进行了可重复性研究。我们发现,与LR模型相比,所有声称复杂ML模型具有出色性能的论文由于数据泄漏而无法再现,并且复杂的ML模型的性能并不比数十年历史的LR模型更好。尽管这些错误都无法通过阅读论文来捕获,但模型信息表将在每种情况下都能检测到泄漏。
translated by 谷歌翻译
在科学研究中,该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展,正在提出,修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息,并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法,为研究任务选择适当的方法并提出新方法。此外,方法实体的演变可以揭示纪律的发展并促进知识发现。因此,本文对方法论和经验作品进行了系统的综述,重点是从全文学术文献中提取方法实体,并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义,我们系统地审查了提取和评估方法实体的方法和指标,重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后,讨论了现有作品的限制以及潜在的下一步。
translated by 谷歌翻译
Millions of people participate in online peer-to-peer support sessions, yet there has been little prior research on systematic psychology-based evaluations of fine-grained peer-counselor behavior in relation to client satisfaction. This paper seeks to bridge this gap by mapping peer-counselor chat-messages to motivational interviewing (MI) techniques. We annotate 14,797 utterances from 734 chat conversations using 17 MI techniques and introduce four new interviewing codes such as chit-chat and inappropriate to account for the unique conversational patterns observed on online platforms. We automate the process of labeling peer-counselor responses to MI techniques by fine-tuning large domain-specific language models and then use these automated measures to investigate the behavior of the peer counselors via correlational studies. Specifically, we study the impact of MI techniques on the conversation ratings to investigate the techniques that predict clients' satisfaction with their counseling sessions. When counselors use techniques such as reflection and affirmation, clients are more satisfied. Examining volunteer counselors' change in usage of techniques suggest that counselors learn to use more introduction and open questions as they gain experience. This work provides a deeper understanding of the use of motivational interviewing techniques on peer-to-peer counselor platforms and sheds light on how to build better training programs for volunteer counselors on online platforms.
translated by 谷歌翻译