智能论文笔记

Large-Scale Data Mining of Rapid Residue Detection Assay Data From HTML and PDF Documents: Improving Data Access and Visualization for Veterinarians

Majid Jaberi-Douraki , Soudabeh Taghian Dinani , Nuwan Indika Millagaha Gedara , Xuan Xu , Emily Richards , Fiona Maunsell , Nader Zad , Lisa Ann Tell

分类：机器学习

2021-12-02

食品药物中的额外标签药物使用由美国动物药用药物使用澄清法（AMDUCA）授权，估计的戒断间隔基于已发表的科学药代动力学数据。偶尔会有一种缺乏基于戒断间隔或正在处理的大量动物的科学数据的缺乏，驱动需要测试药物残留物的需要。快速测定商业农场侧测试对于监测动物产品中的药物残留物来保护人类健康至关重要。已经在制造商的网站上报告了用于商业快速测定测试的活性成分，灵敏度，矩阵和物种，或者在消费者可用的PDF文件中，但可能需要特殊访问请求。此外，该信息并不总是与FDA批准的公差相关联。此外，这些测试的参数变化可能非常具有挑战性，以定期识别，特别是网站上列出的那些或未公开可用的文件。因此，人工智能在有效地提取数据并确保当前信息时发挥着关键作用。通过学术界和商业工具建设者研究了从PDF和HTML文件中提取表。在实施自然语言规划方面，这些文件的文本挖掘研究已成为一个广泛但挑战的竞技场。然而，提取表的技术仍在他们的初期，并由研究人员调查和改进。在本研究中，我们开发并评估了数据挖掘方法，用于自动从电子文档中提取快速测定数据。我们的自动电子数据提取方法包括软件包模块，开发的模式识别工具和数据挖掘发动机。测定细节由几个生产这些快速药物残留测定的商业实体提供

translated by 谷歌翻译

A Survey of Plagiarism Detection Systems: Case of Use with English, French and Arabic Languages

Mehdi Abdelhamid , Faical Azouaou , Sofiane Batata

分类：自然语言处理

2022-01-10

在学术界，抄袭肯定不是一个新兴的关注，但它随着互联网的普及和对全球内容来源的易于访问而变得更大的程度，使人类干预不足。尽管如此，由于计算机辅助抄袭检测，抄袭远远远非是一个未被解除的问题，目前是一个有效的研究领域，该研究落在信息检索（IR）和自然语言处理（NLP）领域。许多软件解决方案有助于满足这项任务，本文概述了用于阿拉伯语，法国和英语学术和教育环境的抄袭检测系统。比较在八个系统之间持有，并在检测不同来源的三个混淆水平的特征，可用性，技术方面以及它们的性能之间进行：逐字，释义和跨语言抄袭。在本研究的背景下也进行了对技术形式的抄袭技术形式的关注检查。此外，还提供了对不同作者提出的抄袭类型和分类的调查。

translated by 谷歌翻译

Analyzing the State of Computer Science Research with the DBLP Discovery Dataset

Lennart Küll

分类：自然语言处理

2022-12-01

The number of scientific publications continues to rise exponentially, especially in Computer Science (CS). However, current solutions to analyze those publications restrict access behind a paywall, offer no features for visual analysis, limit access to their data, only focus on niches or sub-fields, and/or are not flexible and modular enough to be transferred to other datasets. In this thesis, we conduct a scientometric analysis to uncover the implicit patterns hidden in CS metadata and to determine the state of CS research. Specifically, we investigate trends of the quantity, impact, and topics for authors, venues, document types (conferences vs. journals), and fields of study (compared to, e.g., medicine). To achieve this we introduce the CS-Insights system, an interactive web application to analyze CS publications with various dashboards, filters, and visualizations. The data underlying this system is the DBLP Discovery Dataset (D3), which contains metadata from 5 million CS publications. Both D3 and CS-Insights are open-access, and CS-Insights can be easily adapted to other datasets in the future. The most interesting findings of our scientometric analysis include that i) there has been a stark increase in publications, authors, and venues in the last two decades, ii) many authors only recently joined the field, iii) the most cited authors and venues focus on computer vision and pattern recognition, while the most productive prefer engineering-related topics, iv) the preference of researchers to publish in conferences over journals dwindles, v) on average, journal articles receive twice as many citations compared to conference papers, but the contrast is much smaller for the most cited conferences and journals, and vi) journals also get more citations in all other investigated fields of study, while only CS and engineering publish more in conferences than journals.

translated by 谷歌翻译

Proceedings of the 2nd International Workshop on Reading Music Systems

Jorge Calvo-Zaragoza , Alexander Pacha

分类：计算机视觉 | 机器学习

2022-12-01

The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 2nd International Workshop on Reading Music Systems, held in Delft on the 2nd of November 2019.

translated by 谷歌翻译

Digitizing Historical Balance Sheet Data: A Practitioner's Guide

Sergio Correia , Stephan Luck

分类：计算机视觉

2022-03-31

本文讨论了如何通过通过预处理和后处理方法增强光学特征识别（OCR）发动机来成功数字化大规模的历史微数据。尽管由于机器学习的改善，近年来OCR软件已大大改善，但现成的OCR应用程序仍然显示高错误率，这限制了其应用程序以准确提取结构化信息。但是，补充OCR可以大大提高其成功率，使其成为经济史学家的强大且具有成本效益的工具。本文展示了这些方法，并解释了为什么它们有用。我们将它们应用于两个大型资产负债表数据集，并引入Quipucamayoc，Quipucamayoc是一个统一框架中包含这些方法的Python软件包。

translated by 谷歌翻译

Automatic Analysis of Available Source Code of Top Artificial Intelligence Conference Papers

Jialiang Lin , Yingmin Wang , Yao Yu , Yu Zhou , Yidong Chen , Xiaodong Shi

分类：人工智能 | 自然语言处理 | 机器学习

2022-09-28

源代码对于研究人员重现方法并复制人工智能（AI）论文的结果至关重要。一些组织和研究人员手动收集具有可用源代码的AI论文，以对AI社区做出贡献。但是，手动收集是一项劳动密集型且耗时的任务。为了解决此问题，我们提出了一种方法，可以自动识别具有可用源代码的论文并提取其源代码存储库URL。通过这种方法，我们发现，从2010年到2019年发布的10个最高AI会议的常规论文中有20.5％被确定为具有可用源代码的论文，并且这些源代码存储库中有8.1％不再可访问。我们还创建了XMU NLP Lab ReadMe数据集，这是用于源代码文档研究的标记已读数文件的最大数据集。通过此数据集，我们发现了很多读书文件没有提供的安装说明或使用教程。此外，对AI会议论文的源代码的一般图片进行了大规模的综合统计分析。提出的解决方案还可以超越AI会议论文，以分析来自期刊和会议的其他科学论文，以阐明更多领域。

translated by 谷歌翻译

Survey of NLP in Pharmacology: Methodology, Tasks, Resources, Knowledge, and Tools

Dimitar Trajanov , Vangel Trajkovski , Makedonka Dimitrieva , Jovana Dobreva , Milos Jovanovik , Matej Klemen , Aleš Žagar , Marko Robnik-Šikonja

分类：自然语言处理 | 机器学习

2022-08-22

自然语言处理（NLP）是一个人工智能领域，它应用信息技术来处理人类语言，在一定程度上理解并在各种应用中使用它。在过去的几年中，该领域已经迅速发展，现在采用了深层神经网络的现代变体来从大型文本语料库中提取相关模式。这项工作的主要目的是调查NLP在药理学领域的最新使用。正如我们的工作所表明的那样，NLP是药理学高度相关的信息提取和处理方法。它已被广泛使用，从智能搜索到成千上万的医疗文件到在社交媒体中找到对抗性药物相互作用的痕迹。我们将覆盖范围分为五个类别，以调查现代NLP方法论，常见的任务，相关的文本数据，知识库和有用的编程库。我们将这五个类别分为适当的子类别，描述其主要属性和想法，并以表格形式进行总结。最终的调查介绍了该领域的全面概述，对从业者和感兴趣的观察者有用。

translated by 谷歌翻译

Information Extraction from Scanned Invoice Images using Text Analysis and Layout Features

Hien Thi Ha , Aleš Horák

分类：自然语言处理

2022-08-08

尽管将发票内容作为元数据存储以避免纸质文档处理可能是未来的趋势，但几乎所有每日发行的发票仍在纸上打印或以PDF等数字格式生成。在本文中，我们介绍了从扫描文档图像中提取信息的OCRMiner系统，该系统基于文本分析技术与布局功能结合使用（半）结构化文档的索引元数据。该系统旨在以人类读者使用的类似方式处理文档，即在协调决策中采用不同的布局和文本属性。该系统由一组互连模块组成，该模块以（可能是错误的）基于字符的输出从标准OCR系统开始，并允许应用不同的技术并在每个步骤中扩展提取的知识。使用开源OCR，该系统能够以90％的英语恢复发票数据，而捷克设置的发票数据为88％。

translated by 谷歌翻译

Flexible Table Recognition and Semantic Interpretation System

Marcin Namysl , Alexander M. Esser , Sven Behnke , Joachim Köhler

分类：计算机视觉

2021-05-25

表提取是一个重要但仍未解决的问题。在本文中，我们介绍了一种柔性和模块化的台式提取系统。我们开发了两个基于规则的算法，执行完整的表识别过程，包括表检测和分割，并支持最常见的表格格式。此外，为了纳入语义信息的提取，我们开发了一种基于图形的表解释方法。我们对挑战表识别基准ICDAR 2013和ICDAR 2019进行了广泛的实验，实现了与最先进的方法竞争的结果。我们完整的信息提取系统展出了0.7380的高F1得分。为了支持未来的信息提取研究，我们将来自我们的表解释实验，使资源（地面诠释，评估脚本，算法参数）公开可用。

translated by 谷歌翻译

Healthcare Knowledge Graph Construction: State-of-the-art, open issues, and opportunities

Bilal Abu-Salih , Muhammad AL-Qurishi , Mohammed Alweshah , Mohammad AL-Smadi , Reem Alfayez , Heba Saadeh

分类：人工智能

2022-07-08

由于对高效有效的大数据分析解决方案的需求，医疗保健行业中数据分析的合并已取得了重大进展。知识图（KGS）已在该领域证明了效用，并且植根于许多医疗保健应用程序，以提供更好的数据表示和知识推断。但是，由于缺乏代表性的kg施工分类法，该指定领域中的几种现有方法不足和劣等。本文是第一个提供综合分类法和鸟类对医疗kg建筑的眼光的看法。此外，还对与各种医疗保健背景相关的学术工作中最新的技术进行了彻底的检查。这些技术是根据用于知识提取的方法，知识库和来源的类型以及合并评估协议的方法进行了严格评估的。最后，报道和讨论了文献中的一些研究发现和现有问题，为这个充满活力的地区开放了未来研究的视野。

translated by 谷歌翻译

Automated scholarly paper review: Possibility and challenges

Jialiang Lin , Jiaxin Song , Zhangping Zhou , Xiaodong Shi

分类：人工智能 | 自然语言处理

2021-11-15

同行评审是一项广泛接受的研究评估机制，在学术出版中发挥关键作用。然而，批评已经长期升级了这种机制，主要是因为它的低效率和主体性。近年来已经看到人工智能（AI）在协助同行评审过程中的应用。尽管如此，随着人类的参与，这种限制仍然是不可避免的。在本文中，我们提出了自动化学术纸质审查（ASPR）的概念，并审查了相关的文献和技术，讨论实现全面的计算机化审查流程的可能性。我们进一步研究了现有技术ASPR的挑战。在审查和讨论的基础上，我们得出结论，ASPR的每个阶段都有相应的研究和技术。这验证了随着相关技术继续发展的长期可以实现ASPR。其实现中的主要困难在于不完美的文献解析和表示，数据不足，数据缺陷，人机互动和有缺陷的深度逻辑推理。在可预见的未来，ASPR和同行评审将在ASPR能够充分承担从人类的审查工作量之前以加强方式共存。

translated by 谷歌翻译

The Development and Applications of Food Knowledge Graphs in the Food Science and Industry

Weiqing Min , Chunlin Liu , Leyi Xu , Shuqiang Jiang

分类：计算机视觉

2021-07-13

各种网络的部署（例如，事物互联网（IOT）和移动网络），数据库（例如，营养表和食品组成数据库）和社交媒体（例如，Instagram和Twitter）产生大量的多型食品数据，这在食品科学和工业中起着关键作用。然而，由于众所周知的数据协调问题，这些多源食品数据显示为信息孤岛，导致难以充分利用这些食物数据。食物知识图表提供了统一和标准化的概念术语及其结构形式的关系，因此可以将食物信息孤单转换为更可重复使用的全球数量数字连接的食物互联网以使各种应用有益。据我们所知，这是食品科学与工业中食品知识图表的第一个全面审查。我们首先提供知识图表的简要介绍，然后主要从食物分类，食品本体到食品知识图表的进展。粮食知识图表的代表性应用将在新的配方开发，食品可追溯性，食物数据可视化，个性化饮食推荐，食品搜索和质询回答，视觉食品对象识别，食品机械智能制造方面来概述。我们还讨论了该领域的未来方向，例如食品供应链系统和人类健康的食品知识图，这应该得到进一步的研究。他们的巨大潜力将吸引更多的研究努力，将食物知识图形应用于食品科学和工业领域。

translated by 谷歌翻译

Analyzing social media with crowdsourcing in Crowd4SDG

Carlo Bono , Mehmet Oğuz Mülâyim , Cinzia Cappiello , Mark Carman , Jesus Cerquides , Jose Luis Fernandez-Marquez , Rosy Mondardini , Edoardo Ramalli , Barbara Pernici

分类：人工智能

2022-08-04

社交媒体有可能提供有关紧急情况和突然事件的及时信息。但是，在每天发布的数百万帖子中找到相关信息可能很困难，并且开发数据分析项目通常需要时间和技术技能。这项研究提出了一种为分析社交媒体的灵活支持的方法，尤其是在紧急情况下。引入了可以采用社交媒体分析的不同用例，并讨论了从大量帖子中检索信息的挑战。重点是分析社交媒体帖子中包含的图像和文本，以及一组自动数据处理工具，用于过滤，分类和使用人类的方法来支持数据分析师的内容。这种支持包括配置自动化工具的反馈和建议，以及众包收集公民的投入。通过讨论Crowd4SDG H2020欧洲项目中开发的三个案例研究来验证结果。

translated by 谷歌翻译

A Review on Method Entities in the Academic Literature: Extraction, Evaluation, and Application

Yuzhuo Wang , Chengzhi Zhang , Kai Li

分类：自然语言处理

2022-09-08

在科学研究中，该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展，正在提出，修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息，并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法，为研究任务选择适当的方法并提出新方法。此外，方法实体的演变可以揭示纪律的发展并促进知识发现。因此，本文对方法论和经验作品进行了系统的综述，重点是从全文学术文献中提取方法实体，并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义，我们系统地审查了提取和评估方法实体的方法和指标，重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后，讨论了现有作品的限制以及潜在的下一步。

translated by 谷歌翻译

COVID-19 India Dataset: Parsing COVID-19 Data in Daily Health Bulletins from States in India

Mayank Agarwal , Tathagata Chakraborti , Sachin Grover , Arunima Chaudhary

分类：自然语言处理

2021-09-27

虽然印度是Covid-19的热点之一，但来自该国的大流行的数据已被证明在规模上很大程度上无法进入。在网络上的非结构化形式中存在大部分数据，并且通过志愿者努力通过手动维护的公共API获得了有限的方面。这在易于获取详细数据和维护手动数据随时间的维护方面，这一直困难。本文有关我们在古典PDF解析器和最先进的机器学习技术的帮助下自动化公共卫生公告的提取自动提取这些数据的努力。在本文中，我们将描述自动化数据提取技术，所生成的数据的性质，以及正在进行的工作的令人兴奋的途径。

translated by 谷歌翻译

Logic Mill -- A Knowledge Navigation System

Sebastian Erhardt , Mainak Ghosh , Erik Buunk , Michael E. Rose , Dietmar Harhoff

分类：自然语言处理

2022-12-31

Logic Mill is a scalable and openly accessible software system that identifies semantically similar documents within either one domain-specific corpus or multi-domain corpora. It uses advanced Natural Language Processing (NLP) techniques to generate numerical representations of documents. Currently it leverages a large pre-trained language model to generate these document representations. The system focuses on scientific publications and patent documents and contains more than 200 million documents. It is easily accessible via a simple Application Programming Interface (API) or via a web interface. Moreover, it is continuously being updated and can be extended to text corpora from other domains. We see this system as a general-purpose tool for future research applications in the social sciences and other domains.

translated by 谷歌翻译

LAME: Layout Aware Metadata Extraction Approach for Research Articles

Jongyun Choi , Hyesoo Kong , Hwamook Yoon , Heung-Seon Oh , Yuchul Jung

分类：机器学习

2021-12-23

学术文学的数量，如学术会议论文和期刊，全世界迅速增加，持续研究元数据提取。然而，由于期刊出版商的不同布局格式，高性能的元数据提取仍然具有挑战性。为了适应学术期刊布局的多样性，我们提出了一种具有三种特征的新型布局感知元数据提取（LAME）框架（例如，自动布局分析的设计，施工大型元数据训练集，以及建设布局 - 元签名。我们使用PDFminer设计了自动布局分析。基于布局分析，自动提取大量的元数据分离训练数据，包括标题，摘要，作者姓名，作者附属组织和关键字。此外，我们构建了Layout-Metabert以从具有不同布局格式的学术期刊中提取元数据。具有不同布局格式的未经布局格式的USADATA提取中的稳健性能（MACRO-F1,93.27％）的实验结果表现出鲁棒性能（MACRO-F1,93.27％）。

translated by 谷歌翻译

Preprocessing Source Code Comments for Linguistic Models

Sergey Matskevich , Colin Gordon

分类：机器学习

2022-08-23

评论是源代码的重要组成部分，是文档的主要来源。这引起了人们对使用大量注释的兴趣训练或评估消耗或生产它们的工具，例如生成甲骨文，甚至是从注释中生成代码，或自动生成代码摘要。这项工作大部分对评论的结构和质量做出了强烈的假设，例如假设它们主要由适当的英语句子组成。但是，我们对这些用例的现有评论的实际质量知之甚少。评论通常包含在其他类型的文本中看不到的独特结构和元素，并且从中过滤或提取信息需要额外的谨慎。本文探讨了来自GitHub的840个最受欢迎的开源项目和Srilab数据集的8422个项目的Python评论的内容和质量，并且Na \“ Ive vs.深入过滤的影响都可以使用现有注释来用于使用现有注释。培训和评估产生评论的系统。

translated by 谷歌翻译

Keyword Extraction in Scientific Documents

Susie Xi Rao , Piriyakorn Piriyatamwong , Parijat Ghoshal , Sara Nasirian , Emmanuel de Salis , Sandra Mitrović , Michael Wechner , Vanya Brucker , Peter Egger , Ce Zhang

分类：自然语言处理

2022-07-05

科学出版物的产出成倍增长。因此，跟踪趋势和变化越来越具有挑战性。了解科学文档是下游任务的重要一步，例如知识图构建，文本挖掘和纪律分类。在这个研讨会中，我们从科学出版物的摘要中可以更好地理解关键字和键形酶提取。

translated by 谷歌翻译

SQL and NoSQL Databases Software architectures performance analysis and assessments -- A Systematic Literature review

Wisal Khan , Teerath Kumar , Zhang Cheng , Kislay Raj , Arunabha M Roy , Bin Luo

分类：人工智能

2022-09-14

上下文：大数据的有效处理是SQL和NOSQL数据库的一项具有挑战性的任务，在这种数据库中，有效的软件体系结构起着至关重要的作用。 SQL数据库设计用于构建数据和支持垂直可扩展性。相反，水平可伸缩性由NOSQL数据库支持，并且可以有效地处理较大的非结构化数据。可以根据组织的需求选择正确的范式；但是，做出正确的选择通常可能具有挑战性。 SQL和NOSQL数据库遵循不同的体系结构。同样，混合模型之后是NOSQL数据库的每个类别。因此，对于多个云服务提供商（CSP）的云消费者来说，数据移动变得困难。此外，每个云平台IAAS，PAAS，SaaS和DBAAS还监视各种范式。目的：该系统文献综述（SLR）旨在研究与SQL和NOSQL数据库软件体系结构相关的相关文章，并解决各种云平台之间的数据可移植性和互操作性。最新的状态通过观察缩放，性能，可用性，一致性和分片特性，介绍了SQL和NOSQL数据库的许多性能比较研究。根据研究研究，NOSQL数据库设计的结构可以是大数据分析的正确选择，而SQL数据库适合OLTP数据库。研究人员提出了许多与云中数据流动相关的方法。开发了基于平台的API，这使用户的数据移动变得困难。因此，在跨多个CSP的数据移动期间发现了数据可移植性和互操作性问题。为了最大程度地减少开发人员的努力和互操作性，要求统一的API使数据移动在各种云平台之间相对易于访问。

translated by 谷歌翻译