归因引号的使用是新闻中信息传播的最直接,最少过滤的途径。因此,引用在新闻报道的概念,接收和分析中起着核心作用。由于报价比常规报告提供了更直接的窗口,因此对于记者和研究人员来说,它们是宝贵的资源。尽管大量的研究工作已致力于自动提取新闻的报价及其归因于演讲者的方法,但很少有当代来源的全面归因报价可供公众提供。在这里,我们提出了一个自适应网络界面,用于搜索QuoteBank,这是新闻中的大量报价集合,我们可以在https://quotebank.dlab.tools上提供。
translated by 谷歌翻译
DBpedia is a community effort to extract structured information from Wikipedia and to make this information available on the Web. DBpedia allows you to ask sophisticated queries against datasets derived from Wikipedia and to link other datasets on the Web to Wikipedia data. We describe the extraction of the DBpedia datasets, and how the resulting information is published on the Web for human-and machine-consumption. We describe some emerging applications from the DBpedia community and show how website authors can facilitate DBpedia content within their sites. Finally, we present the current status of interlinking DBpedia with other open datasets on the Web and outline how DBpedia could serve as a nucleus for an emerging Web of open data.
translated by 谷歌翻译
The number of scientific publications continues to rise exponentially, especially in Computer Science (CS). However, current solutions to analyze those publications restrict access behind a paywall, offer no features for visual analysis, limit access to their data, only focus on niches or sub-fields, and/or are not flexible and modular enough to be transferred to other datasets. In this thesis, we conduct a scientometric analysis to uncover the implicit patterns hidden in CS metadata and to determine the state of CS research. Specifically, we investigate trends of the quantity, impact, and topics for authors, venues, document types (conferences vs. journals), and fields of study (compared to, e.g., medicine). To achieve this we introduce the CS-Insights system, an interactive web application to analyze CS publications with various dashboards, filters, and visualizations. The data underlying this system is the DBLP Discovery Dataset (D3), which contains metadata from 5 million CS publications. Both D3 and CS-Insights are open-access, and CS-Insights can be easily adapted to other datasets in the future. The most interesting findings of our scientometric analysis include that i) there has been a stark increase in publications, authors, and venues in the last two decades, ii) many authors only recently joined the field, iii) the most cited authors and venues focus on computer vision and pattern recognition, while the most productive prefer engineering-related topics, iv) the preference of researchers to publish in conferences over journals dwindles, v) on average, journal articles receive twice as many citations compared to conference papers, but the contrast is much smaller for the most cited conferences and journals, and vi) journals also get more citations in all other investigated fields of study, while only CS and engineering publish more in conferences than journals.
translated by 谷歌翻译
Logic Mill is a scalable and openly accessible software system that identifies semantically similar documents within either one domain-specific corpus or multi-domain corpora. It uses advanced Natural Language Processing (NLP) techniques to generate numerical representations of documents. Currently it leverages a large pre-trained language model to generate these document representations. The system focuses on scientific publications and patent documents and contains more than 200 million documents. It is easily accessible via a simple Application Programming Interface (API) or via a web interface. Moreover, it is continuously being updated and can be extended to text corpora from other domains. We see this system as a general-purpose tool for future research applications in the social sciences and other domains.
translated by 谷歌翻译
许多用户转向记录检索系统(例如搜索引擎)以寻求有争议的问题的答案。回答此类用户查询通常需要识别Web文档中的响应,并根据其不同的视角汇总响应。经典文档检索系统在为用户提供一系列直接和不同的响应时下降。当然,识别文档中的此类答复是一种自然语言理解任务。在本文中,我们研究了用文件检索综合这种语言理解目标的挑战,并研究了一个新的视角导向文档检索范式。我们讨论并评估内在的自然语言理解挑战,以实现目标。在设计挑战和原则之后,我们展示并评估了一个实用的原型管道系统。我们使用原型系统进行用户调查,以便评估我们的范例的效用,并理解用户信息需要有争议的查询。
translated by 谷歌翻译
使用计算笔记本(例如,Jupyter Notebook),数据科学家根据他们的先前经验和外部知识(如在线示例)合理化他们的探索性数据分析(EDA)。对于缺乏关于数据集或问题的具体了解的新手或数据科学家,有效地获得和理解外部信息对于执行EDA至关重要。本文介绍了eDassistant,一个jupyterlab扩展,支持EDA的原位搜索示例笔记本电脑和有用的API的推荐,由搜索结果的新颖交互式可视化供电。代码搜索和推荐是由最先进的机器学习模型启用的,培训在线收集的EDA笔记本电脑的大型语料库。进行用户学习,以调查埃迪卡斯特和数据科学家的当前实践(即,使用外部搜索引擎)。结果证明了埃迪斯坦特的有效性和有用性,与会者赞赏其对EDA的顺利和环境支持。我们还报告了有关代码推荐工具的几种设计意义。
translated by 谷歌翻译
在学术界,抄袭肯定不是一个新兴的关注,但它随着互联网的普及和对全球内容来源的易于访问而变得更大的程度,使人类干预不足。尽管如此,由于计算机辅助抄袭检测,抄袭远远远非是一个未被解除的问题,目前是一个有效的研究领域,该研究落在信息检索(IR)和自然语言处理(NLP)领域。许多软件解决方案有助于满足这项任务,本文概述了用于阿拉伯语,法国和英语学术和教育环境的抄袭检测系统。比较在八个系统之间持有,并在检测不同来源的三个混淆水平的特征,可用性,技术方面以及它们的性能之间进行:逐字,释义和跨语言抄袭。在本研究的背景下也进行了对技术形式的抄袭技术形式的关注检查。此外,还提供了对不同作者提出的抄袭类型和分类的调查。
translated by 谷歌翻译
在本文中,我们介绍了一个用于音频和语音的协作和现代注释工具:奥迪诺。该工具允许注释器在Audios中定义和描述时间分段。可以使用动态生成的形式轻松标记这些段和转录。管理员可以通过管理仪表板集中控制用户角色和项目分配。仪表板还可以描述标签及其值。可以轻松地以JSON格式导出注释以进行进一步分析。该工具允许通过基于键的API来上载和分配给用户的音频数据及其相应的注释。注释工具中可用的灵活性使注释进行演讲评分,语音活动检测(VAD),扬声器沿和扬声器识别,语音识别,情感识别任务等等。麻省理工学院开源许可证允许它用于学术和商业项目。
translated by 谷歌翻译
该论文为罗马尼亚语提供了一个开放域的答案系统,回答了Covid-19相关问题。QA系统管道涉及自动问题处理,自动查询生成,Web搜索前10个最相关的文档,并使用用于提取质量质量质量质量质量质量质量的BERT模型回答提取,并在我们手动创建的COVID-19数据集上进行了培训。该论文将介绍质量检查系统及其与罗马尼亚语言技术的集成,COVID-19数据集以及对质量检查性能的不同评估。
translated by 谷歌翻译
我们提出了多语言开放文本(MOT),这是一种新的多语言语料库,其中包含44种语言的文本,其中许多语言限制了现有的文本资源用于自然语言处理。该语料库的第一个版本包含超过280万篇新闻文章,并在2001 - 2022年之间发表了另外100万个短片段(照片标题,视频描述等),并从美国之声网站收集。我们描述了收集,过滤和处理数据的过程。原始材料在公共领域,我们的收藏品使用Creative Commons许可证(CC By 4.0)获得许可,并且用于创建该语料库的所有软件均在MIT许可证下发布。随着其他文档的发布,该语料库将定期更新。
translated by 谷歌翻译
问答系统被认为是流行且经常有效的信息在网络上寻求信息的手段。在这样的系统中,寻求信息者可以通过自然语言提出问题来获得对他们的查询的简短回应。交互式问题回答是一种最近提出且日益流行的解决方案,它位于问答和对话系统的交集。一方面,用户可以以普通语言提出问题,并找到对她的询问的实际回答;另一方面,如果在初始请求中有多个可能的答复,很少或歧义,则系统可以将问题交通会话延长到对话中。通过允许用户提出更多问题,交互式问题回答使用户能够与系统动态互动并获得更精确的结果。这项调查提供了有关当前文献中普遍存在的交互式提问方法的详细概述。它首先要解释提问系统的基本原理,从而定义新的符号和分类法,以将所有已确定的作品结合在统一框架内。然后,根据提出的方法,评估方法和数据集/应用程序域来介绍和检查有关交互式问题解答系统的审查已发表的工作。我们还描述了围绕社区提出的特定任务和问题的趋势,从而阐明了学者的未来利益。 GitHub页面的综合综合了本文献研究中涵盖的所有主要主题,我们的工作得到了进一步的支持。 https://sisinflab.github.io/interactive-question-answering-systems-survey/
translated by 谷歌翻译
This paper presents the OPUS ecosystem with a focus on the development of open machine translation models and tools, and their integration into end-user applications, development platforms and professional workflows. We discuss our on-going mission of increasing language coverage and translation quality, and also describe on-going work on the development of modular translation models and speed-optimized compact solutions for real-time translation on regular desktops and small devices.
translated by 谷歌翻译
社交媒体有可能提供有关紧急情况和突然事件的及时信息。但是,在每天发布的数百万帖子中找到相关信息可能很困难,并且开发数据分析项目通常需要时间和技术技能。这项研究提出了一种为分析社交媒体的灵活支持的方法,尤其是在紧急情况下。引入了可以采用社交媒体分析的不同用例,并讨论了从大量帖子中检索信息的挑战。重点是分析社交媒体帖子中包含的图像和文本,以及一组自动数据处理工具,用于过滤,分类和使用人类的方法来支持数据分析师的内容。这种支持包括配置自动化工具的反馈和建议,以及众包收集公民的投入。通过讨论Crowd4SDG H2020欧洲项目中开发的三个案例研究来验证结果。
translated by 谷歌翻译
由于看不见和新兴实体的频率,新闻中的命名实体链接(NEL)是一项具有挑战性的努力,因此需要使用无监督或零摄像的方法。但是,这种方法往往会带来警告,例如不整合新兴实体的合适知识库(例如Wikidata),缺乏可扩展性和不良的可解释性。在这里,我们考虑在Quotebank中的人歧义,这是新闻中大量的说话者归类的语言,并调查了NEL在网络规模的语料库中直观,轻巧且可扩展的启发式方法的适用性。我们表现最好的启发式歧义分别在Quotebank和Aida-Conll基准上分别占94%和63%。此外,提出的启发式方法与最先进的无监督和零摄像方法,本本系和MGenRE相比,从而成为无监督和零照片实体链接的强基础。
translated by 谷歌翻译
ClueWeb22, the newest iteration of the ClueWeb line of datasets, provides 10 billion web pages affiliated with rich information. Its design was influenced by the need for a high quality, large scale web corpus to support a range of academic and industry research, for example, in information systems, retrieval-augmented AI systems, and model pretraining. Compared with earlier ClueWeb corpora, the ClueWeb22 corpus is larger, more varied, of higher-quality, and aligned with the document distributions in commercial web search. Besides raw HTML, ClueWeb22 includes rich information about the web pages provided by industry-standard document understanding systems, including the visual representation of pages rendered by a web browser, parsed HTML structure information from a neural network parser, and pre-processed cleaned document text to lower the barrier to entry. Many of these signals have been widely used in industry but are available to the research community for the first time at this scale.
translated by 谷歌翻译
Automatic fake news detection is a challenging problem in misinformation spreading, and it has tremendous real-world political and social impacts. Past studies have proposed machine learning-based methods for detecting such fake news, focusing on different properties of the published news articles, such as linguistic characteristics of the actual content, which however have limitations due to the apparent language barriers. Departing from such efforts, we propose FNDaaS, the first automatic, content-agnostic fake news detection method, that considers new and unstudied features such as network and structural characteristics per news website. This method can be enforced as-a-Service, either at the ISP-side for easier scalability and maintenance, or user-side for better end-user privacy. We demonstrate the efficacy of our method using data crawled from existing lists of 637 fake and 1183 real news websites, and by building and testing a proof of concept system that materializes our proposal. Our analysis of data collected from these websites shows that the vast majority of fake news domains are very young and appear to have lower time periods of an IP associated with their domain than real news ones. By conducting various experiments with machine learning classifiers, we demonstrate that FNDaaS can achieve an AUC score of up to 0.967 on past sites, and up to 77-92% accuracy on newly-flagged ones.
translated by 谷歌翻译
创新是经济和社会发展的主要驱动力,有关多种创新的信息嵌入了专利和专利申请的半结构化数据中。尽管在专利数据中表达的创新的影响和新颖性很难通过传统手段来衡量,但ML提供了一套有希望的技术来评估新颖性,汇总贡献和嵌入语义。在本文中,我们介绍了Harvard USPTO专利数据集(HUPD),该数据集是2004年至2004年之间提交给美国专利商业办公室(USPTO)的大型,结构化和多用途的英语专利专利申请。 2018年。HUPD拥有超过450万张专利文件,是可比的Coldia的两到三倍。与以前在NLP中提出的专利数据集不同,HUPD包含了专利申请的发明人提交的版本(不是授予专利的最终版本),其中允许我们在第一次使用NLP方法进行申请时研究专利性。它在包含丰富的结构化元数据以及专利申请文本的同时也很新颖:通过提供每个应用程序的元数据及其所有文本字段,数据集使研究人员能够执行一组新的NLP任务,以利用结构性协变量的变异。作为有关HUPD的研究类型的案例研究,我们向NLP社区(即专利决策的二元分类)介绍了一项新任务。我们还显示数据集中提供的结构化元数据使我们能够对此任务进行概念转移的明确研究。最后,我们演示了如何将HUPD用于三个其他任务:专利主题领域的多类分类,语言建模和摘要。
translated by 谷歌翻译
全球地球观察(EO)的运营能力不断增长为数据驱动的方法创造了新的机会,以理解和保护我们的星球。但是,由于巨大的档案尺寸和EO平台提供的有限的勘探功能,目前使用EO档案的使用受到了极大的限制。为了解决这一限制,我们最近提出了米兰,这是一种基于内容的图像检索方法,用于在卫星图像档案中快速相似性搜索。米兰是基于公制学习的深层哈希网络,将高维图像特征编码为紧凑的二进制哈希码。我们将这些代码用作哈希表中的钥匙,以实现实时邻居搜索和高度准确的检索。在此演示中,我们通过将米兰与Agoraeo内的浏览器和搜索引擎集成在一起来展示米兰的效率。地震支持卫星图像存储库上的交互式视觉探索和典型查询。演示访问者将与地震互动,扮演不同用户的角色,这些用户的角色通过其语义内容搜索图像,并通过其语义内容搜索并应用其他过滤器。
translated by 谷歌翻译
机器学习源代码(MLONCODE)是一项流行的研究领域,该研究领域是由大规模代码存储库的可用性和开发挖掘源代码的强大概率和深度学习模型驱动的流行研究领域。代码到代码建议是MLONCODE中的任务,旨在推荐相关的,不同和简洁的代码片段,这些代码代码代码代码代码段可以在其开发环境(IDE)中使用开发人员编写的代码扩展。代码代码推荐引擎通过减少IDE切换和增加代码重用,保持提高开发人员生产力的承诺。现有的代码代码推荐引擎不会优雅地扩展到大的CodeBases,在代码存储库大小增加时,展示查询时间的线性增长。此外,现有的代码代码推荐引擎未能考虑排名函数中的代码存储库的全局统计信息,例如代码片段长度的分发,导致子最优检索结果。我们通过\ emph {senatus}来解决这两个弱点,这是一个新的代码代码推荐引擎。在SeNatus的核心是\ emph {de-skew} lsh一个新的局部敏感散列(lsh)算法,其索引快速(子线性时间)检索数据,同时使用新颖的抽象语法抵消片段长度分布中的偏差基于树的特征评分和选择算法。我们通过自动评估和专家开发人员用户学习评估SENATU,并发现该建议具有比竞争基线更高的质量,同时实现更快的搜索。例如,在CodeSearchNet DataSet上,我们显示SeNatus通过6.7 \%F1提高性能,并且与Facebook Aroma对代码到代码建议的任务相比,Query Time 16x更快。
translated by 谷歌翻译
人们依靠新闻来了解世界各地正在发生的事情并告知他们的日常生活。在当今的世界中,当假新闻的扩散猖ramp时,拥有大规模且高质量的真实新闻文章来源,其中包含出版类别的信息对于学习真实新闻的自然语言语法和语义是有价值的。作为这项工作的一部分,我们提供了一个新闻类别数据集,其中包含从HuffPost获得的2012年至2018年的200K新闻头条,以及有用的元数据以实现各种NLP任务。在本文中,我们还从数据集中产生了一些新颖的见解,并描述了数据集的各种现有和潜在应用。
translated by 谷歌翻译