虽然印度是Covid-19的热点之一,但来自该国的大流行的数据已被证明在规模上很大程度上无法进入。在网络上的非结构化形式中存在大部分数据,并且通过志愿者努力通过手动维护的公共API获得了有限的方面。这在易于获取详细数据和维护手动数据随时间的维护方面,这一直困难。本文有关我们在古典PDF解析器和最先进的机器学习技术的帮助下自动化公共卫生公告的提取自动提取这些数据的努力。在本文中,我们将描述自动化数据提取技术,所生成的数据的性质,以及正在进行的工作的令人兴奋的途径。
translated by 谷歌翻译
食品药物中的额外标签药物使用由美国动物药用药物使用澄清法(AMDUCA)授权,估计的戒断间隔基于已发表的科学药代动力学数据。偶尔会有一种缺乏基于戒断间隔或正在处理的大量动物的科学数据的缺乏,驱动需要测试药物残留物的需要。快速测定商业农场侧测试对于监测动物产品中的药物残留物来保护人类健康至关重要。已经在制造商的网站上报告了用于商业快速测定测试的活性成分,灵敏度,矩阵和物种,或者在消费者可用的PDF文件中,但可能需要特殊访问请求。此外,该信息并不总是与FDA批准的公差相关联。此外,这些测试的参数变化可能非常具有挑战性,以定期识别,特别是网站上列出的那些或未公开可用的文件。因此,人工智能在有效地提取数据并确保当前信息时发挥着关键作用。通过学术界和商业工具建设者研究了从PDF和HTML文件中提取表。在实施自然语言规划方面,这些文件的文本挖掘研究已成为一个广泛但挑战的竞技场。然而,提取表的技术仍在他们的初期,并由研究人员调查和改进。在本研究中,我们开发并评估了数据挖掘方法,用于自动从电子文档中提取快速测定数据。我们的自动电子数据提取方法包括软件包模块,开发的模式识别工具和数据挖掘发动机。测定细节由几个生产这些快速药物残留测定的商业实体提供
translated by 谷歌翻译
The number of scientific publications continues to rise exponentially, especially in Computer Science (CS). However, current solutions to analyze those publications restrict access behind a paywall, offer no features for visual analysis, limit access to their data, only focus on niches or sub-fields, and/or are not flexible and modular enough to be transferred to other datasets. In this thesis, we conduct a scientometric analysis to uncover the implicit patterns hidden in CS metadata and to determine the state of CS research. Specifically, we investigate trends of the quantity, impact, and topics for authors, venues, document types (conferences vs. journals), and fields of study (compared to, e.g., medicine). To achieve this we introduce the CS-Insights system, an interactive web application to analyze CS publications with various dashboards, filters, and visualizations. The data underlying this system is the DBLP Discovery Dataset (D3), which contains metadata from 5 million CS publications. Both D3 and CS-Insights are open-access, and CS-Insights can be easily adapted to other datasets in the future. The most interesting findings of our scientometric analysis include that i) there has been a stark increase in publications, authors, and venues in the last two decades, ii) many authors only recently joined the field, iii) the most cited authors and venues focus on computer vision and pattern recognition, while the most productive prefer engineering-related topics, iv) the preference of researchers to publish in conferences over journals dwindles, v) on average, journal articles receive twice as many citations compared to conference papers, but the contrast is much smaller for the most cited conferences and journals, and vi) journals also get more citations in all other investigated fields of study, while only CS and engineering publish more in conferences than journals.
translated by 谷歌翻译
背景:COVID-19患者的早期检测和隔离对于成功实施缓解策略并最终遏制疾病扩散至关重要。由于在每个国家 /地区进行的每日共同测试数量有限,因此模拟COVID-19的扩散以及目前每种缓解策略的潜在影响仍然是管理医疗保健系统和指导决策者的最有效方法之一。方法:我们介绍了Covidhunter,这是一种灵活而准确的Covid-19爆发模拟模型,该模型评估了应用于区域的当前缓解措施,并提供有关即将进行的缓解措施的强度的建议。 Covidhunter的关键思想是通过模拟考虑到外部因素的影响,例如环境条件(例如气候,温度,湿度,湿度)和缓解措施。结果:使用瑞士作为案例研究,Covidhunter估计,如果政策制定者放宽30天的缓解措施50%,那么医院病床的日常容量和每日死亡人数平均每天的死亡人数平均增加了5.1倍,则会增加5.1倍谁可能会占用ICU床和呼吸机一段时间。与现有模型不同,Covidhunter模型可以准确监视,并预测COVID-19造成的病例,住院和死亡人数。我们的模型可以灵活地配置,并且可以易于修改,以在不同的环境条件和缓解措施下对不同方案进行建模。可用性:我们在https://github.com/cmu-safari/covidhunter上发布了covidhunter实现的源代码,并展示如何在任何情况下灵活配置我们的模型,并轻松地将其扩展为不同的度量和条件。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 2nd International Workshop on Reading Music Systems, held in Delft on the 2nd of November 2019.
translated by 谷歌翻译
本文讨论了如何通过通过预处理和后处理方法增强光学特征识别(OCR)发动机来成功数字化大规模的历史微数据。尽管由于机器学习的改善,近年来OCR软件已大大改善,但现成的OCR应用程序仍然显示高错误率,这限制了其应用程序以准确提取结构化信息。但是,补充OCR可以大大提高其成功率,使其成为经济史学家的强大且具有成本效益的工具。本文展示了这些方法,并解释了为什么它们有用。我们将它们应用于两个大型资产负债表数据集,并引入Quipucamayoc,Quipucamayoc是一个统一框架中包含这些方法的Python软件包。
translated by 谷歌翻译
共同检测和隔离Covid-19患者对于成功实施缓解策略并最终遏制疾病扩散至关重要。由于在每个国家 /地区进行的每日共同测试数量有限,因此模拟COVID-19的扩散以及目前每种缓解策略的潜在影响仍然是管理医疗保健系统和指导决策者的最有效方法之一。我们介绍了Covidhunter,这是一种灵活而准确的Covid-19爆发模拟模型,评估了当前适用于该地区的缓解措施,可预测Covid-19统计数据(每日案件,住院和死亡人数),并就何种建议提供建议。力量即将进行的缓解措施应该是。 Covidhunter的关键思想是通过模拟考虑到外部因素的影响,例如环境条件(例如气候,温度,湿度,湿度),关注的不同变体,疫苗接种率和缓解措施。 Covidhunter以瑞士为案例研究,估计我们正在经历一场致命的新浪潮,该浪潮将于2022年1月26日达到顶峰,这与我们2020年2月的浪潮非常相似。决策者只有一个选择是为了增加30天的当前缓解措施的强度。与现有模型不同,Covidhunter模型可以准确监视,并预测COVID-19造成的病例,住院和死亡人数。我们的模型可以灵活地进行配置,并且可以易于修改,以在不同的环境条件和缓解措施下对不同方案进行建模。我们在https://github.com/cmu-safari/covidhunter上发布了covidhunter实现的源代码。
translated by 谷歌翻译
涵盖人口所有个人的数据库越来越多地用于从公共卫生到社会科学的域名的研究研究。各国政府和企业也越来越兴趣,使用人口数据支持数据驱动的决策。这种数据库的大规模往往被误认为是对兴趣人群的有效推论的保证。但是,人口数据具有使其具有挑战性的特征,包括如何收集这些数据的各种假设以及对它们应用了哪些类型的处理。此外,当这些数据链接到其他数据库时,人口数据的全部潜力通常只能解锁,这是一种增加新鲜挑战的过程。本文讨论了对人口数据的不同误解,我们相信任何与此类数据一起使用的人需要意识到。这些误解中的许多误解在科学出版物中并不充分记录,但只讨论了研究人员和从业者之间的缺陷。我们在使用人口数据时,我们将通过一系列推动推荐。
translated by 谷歌翻译
自然语言处理(NLP)是一个人工智能领域,它应用信息技术来处理人类语言,在一定程度上理解并在各种应用中使用它。在过去的几年中,该领域已经迅速发展,现在采用了深层神经网络的现代变体来从大型文本语料库中提取相关模式。这项工作的主要目的是调查NLP在药理学领域的最新使用。正如我们的工作所表明的那样,NLP是药理学高度相关的信息提取和处理方法。它已被广泛使用,从智能搜索到成千上万的医疗文件到在社交媒体中找到对抗性药物相互作用的痕迹。我们将覆盖范围分为五个类别,以调查现代NLP方法论,常见的任务,相关的文本数据,知识库和有用的编程库。我们将这五个类别分为适当的子类别,描述其主要属性和想法,并以表格形式进行总结。最终的调查介绍了该领域的全面概述,对从业者和感兴趣的观察者有用。
translated by 谷歌翻译
在整个2019年冠状病毒疾病(COVID-19)大流行中,决策者依靠预测模型来确定和实施非药物干预措施(NPI)。在构建预测模型时,需要从包括开发人员,分析师和测试人员在内的各种利益相关者进行不断更新的数据集,以提供精确的预测。在这里,我们报告了可扩展管道的设计,该管道可作为数据同步,以支持国际自上而下的时空时空观察和covid-19的预测模型,名为Where2test,用于德国,捷克西亚和波兰。我们已经使用PostgreSQL构建了一个操作数据存储(ODS),以连续合并多个数据源的数据集,执行协作工作,促进高性能数据分析和跟踪更改。 ODS不仅是为了存储来自德国,捷克和波兰的COVID-19数据,而且还存储了其他领域。元数据的模式采用维数事实模型,能够同步这些区域的各种数据结构,并且可以扩展到整个世界。接下来,使用批处理,转移和负载(ETL)作业填充ODS。随后创建了SQL查询,以减少为用户预处理数据的需求。然后,数据不仅可以支持使用版本控制的Arima-Holt模型和其他分析来预测,以支持决策制定,还可以风险计算器和优化应用程序。数据同步以每天的间隔运行,该间隔显示在https://www.where2test.de上。
translated by 谷歌翻译
源代码对于研究人员重现方法并复制人工智能(AI)论文的结果至关重要。一些组织和研究人员手动收集具有可用源代码的AI论文,以对AI社区做出贡献。但是,手动收集是一项劳动密集型且耗时的任务。为了解决此问题,我们提出了一种方法,可以自动识别具有可用源代码的论文并提取其源代码存储库URL。通过这种方法,我们发现,从2010年到2019年发布的10个最高AI会议的常规论文中有20.5%被确定为具有可用源代码的论文,并且这些源代码存储库中有8.1%不再可访问。我们还创建了XMU NLP Lab ReadMe数据集,这是用于源代码文档研究的标记已读数文件的最大数据集。通过此数据集,我们发现了很多读书文件没有提供的安装说明或使用教程。此外,对AI会议论文的源代码的一般图片进行了大规模的综合统计分析。提出的解决方案还可以超越AI会议论文,以分析来自期刊和会议的其他科学论文,以阐明更多领域。
translated by 谷歌翻译
2019年12月,一个名为Covid-19的新型病毒导致了迄今为止的巨大因果关系。与新的冠状病毒的战斗在西班牙语流感后令人振奋和恐怖。虽然前线医生和医学研究人员在控制高度典型病毒的传播方面取得了重大进展,但技术也证明了在战斗中的重要性。此外,许多医疗应用中已采用人工智能,以诊断许多疾病,甚至陷入困境的经验丰富的医生。因此,本调查纸探讨了提议的方法,可以提前援助医生和研究人员,廉价的疾病诊断方法。大多数发展中国家难以使用传统方式进行测试,但机器和深度学习可以采用显着的方式。另一方面,对不同类型的医学图像的访问已经激励了研究人员。结果,提出了一种庞大的技术数量。本文首先详细调了人工智能域中传统方法的背景知识。在此之后,我们会收集常用的数据集及其用例日期。此外,我们还显示了采用深入学习的机器学习的研究人员的百分比。因此,我们对这种情况进行了彻底的分析。最后,在研究挑战中,我们详细阐述了Covid-19研究中面临的问题,我们解决了我们的理解,以建立一个明亮健康的环境。
translated by 谷歌翻译
在这项工作中,我们创建了一个Web应用程序,以突出训练法律文本中的NLP模型的输出。我们的系统主要是在新闻工作者和法律口译员的基础上建立的,我们专注于使用美国人口普查人口数量分配资源和组织政府的州级法律。我们的系统公开了我们收集6,000个州级法律的语料库,这些法律与美国人口普查有关,使用我们构建的25份刮刀来抓取我们发布的州法律网站。我们还构建了一个新颖的灵活注释框架,该框架可以在任意输入文本文档上处理跨度标记和关系标记,并将其简单地嵌入任何网页中。该框架使记者和研究人员可以通过纠正和标记新数据来添加我们的注释数据库。
translated by 谷歌翻译
社交媒体有可能提供有关紧急情况和突然事件的及时信息。但是,在每天发布的数百万帖子中找到相关信息可能很困难,并且开发数据分析项目通常需要时间和技术技能。这项研究提出了一种为分析社交媒体的灵活支持的方法,尤其是在紧急情况下。引入了可以采用社交媒体分析的不同用例,并讨论了从大量帖子中检索信息的挑战。重点是分析社交媒体帖子中包含的图像和文本,以及一组自动数据处理工具,用于过滤,分类和使用人类的方法来支持数据分析师的内容。这种支持包括配置自动化工具的反馈和建议,以及众包收集公民的投入。通过讨论Crowd4SDG H2020欧洲项目中开发的三个案例研究来验证结果。
translated by 谷歌翻译
在撰写本文时,Covid-19(2019年冠状病毒病)已扩散到220多个国家和地区。爆发后,大流行的严肃性使人们在社交媒体上更加活跃,尤其是在Twitter和Weibo等微博平台上。现在,大流行特定的话语一直在这些平台上持续数月。先前的研究证实了这种社会产生的对话对危机事件的情境意识的贡献。案件的早期预测对于当局估算应对病毒的生长所需的资源要求至关重要。因此,这项研究试图将公共话语纳入预测模型的设计中,特别针对正在进行的波浪的陡峭山路区域。我们提出了一种基于情感的主题方法,用于设计与公开可用的Covid-19相关Twitter对话中的多个时间序列。作为用例,我们对澳大利亚Covid-19的日常案例和该国境内产生的Twitter对话实施了拟议的方法。实验结果:(i)显示了Granger导致每日COVID-19确认案例的潜在社交媒体变量的存在,并且(ii)确认这些变量为预测模型提供了其他预测能力。此外,结果表明,用于建模的社交媒体变量包含了48.83--51.38%的RMSE比基线模型的改善。我们还向公众发布了大型Covid-19特定地理标记的全球推文数据集Megocov,预计该量表的地理标记数据将有助于通过其他空间和时间上下文理解大流行的对话动态。
translated by 谷歌翻译
在学术界,抄袭肯定不是一个新兴的关注,但它随着互联网的普及和对全球内容来源的易于访问而变得更大的程度,使人类干预不足。尽管如此,由于计算机辅助抄袭检测,抄袭远远远非是一个未被解除的问题,目前是一个有效的研究领域,该研究落在信息检索(IR)和自然语言处理(NLP)领域。许多软件解决方案有助于满足这项任务,本文概述了用于阿拉伯语,法国和英语学术和教育环境的抄袭检测系统。比较在八个系统之间持有,并在检测不同来源的三个混淆水平的特征,可用性,技术方面以及它们的性能之间进行:逐字,释义和跨语言抄袭。在本研究的背景下也进行了对技术形式的抄袭技术形式的关注检查。此外,还提供了对不同作者提出的抄袭类型和分类的调查。
translated by 谷歌翻译
随着大型语言模型的出现,抽象性摘要的方法取得了长足的进步,从而在应用程序中使用了帮助知识工人处理笨拙的文档收集的潜力。一个这样的环境是民权诉讼交换所(CRLC)(https://clearinghouse.net),其中发布了有关大规模民权诉讼,服务律师,学者和公众的信息。如今,CRLC中的摘要需要对律师和法律专业的学生进行广泛的培训,这些律师和法律专业的学生花费数小时了解多个相关文件,以便产生重要事件和结果的高质量摘要。在这种持续的现实世界摘要工作的激励下,我们引入了Multi-iplesum,这是由正在进行的CRLC写作中绘制的9,280个专家作者的摘要集。鉴于源文档的长度,多文章介绍了一个具有挑战性的多文档摘要任务,通常每个情况超过200页。此外,多胎sum与其多个目标摘要中的其他数据集不同,每个数据集都处于不同的粒度(从一句“极端”摘要到超过五百个单词的多段落叙述)。我们提供了广泛的分析,表明,尽管培训数据(遵守严格的内容和样式准则)中的摘要很高,但最新的摘要模型在此任务上的表现较差。我们发布了多体式的摘要方法,以及促进应用程序的开发,以协助CRLC的任务https://multilexsum.github.io。
translated by 谷歌翻译
如今,人工智能(AI)已成为临床和远程医疗保健应用程序的基本组成部分,但是最佳性能的AI系统通常太复杂了,无法自我解释。可解释的AI(XAI)技术被定义为揭示系统的预测和决策背后的推理,并且在处理敏感和个人健康数据时,它们变得更加至关重要。值得注意的是,XAI并未在不同的研究领域和数据类型中引起相同的关注,尤其是在医疗保健领域。特别是,许多临床和远程健康应用程序分别基于表格和时间序列数据,而XAI并未在这些数据类型上进行分析,而计算机视觉和自然语言处理(NLP)是参考应用程序。为了提供最适合医疗领域表格和时间序列数据的XAI方法的概述,本文提供了过去5年中文献的审查,说明了生成的解释的类型以及为评估其相关性所提供的努力和质量。具体而言,我们确定临床验证,一致性评估,客观和标准化质量评估以及以人为本的质量评估作为确保最终用户有效解释的关键特征。最后,我们强调了该领域的主要研究挑战以及现有XAI方法的局限性。
translated by 谷歌翻译
COVID-19的大流行提出了对多个领域决策者的流行预测的重要性,从公共卫生到整个经济。虽然预测流行进展经常被概念化为类似于天气预测,但是它具有一些关键的差异,并且仍然是一项非平凡的任务。疾病的传播受到人类行为,病原体动态,天气和环境条件的多种混杂因素的影响。由于政府公共卫生和资助机构的倡议,捕获以前无法观察到的方面的丰富数据来源的可用性增加了研究的兴趣。这尤其是在“以数据为中心”的解决方案上进行的一系列工作,这些解决方案通过利用非传统数据源以及AI和机器学习的最新创新来增强我们的预测能力的潜力。这项调查研究了各种数据驱动的方法论和实践进步,并介绍了一个概念框架来导航它们。首先,我们列举了与流行病预测相关的大量流行病学数据集和新的数据流,捕获了各种因素,例如有症状的在线调查,零售和商业,流动性,基因组学数据等。接下来,我们将讨论关注最近基于数据驱动的统计和深度学习方法的方法和建模范式,以及将机械模型知识域知识与统计方法的有效性和灵活性相结合的新型混合模型类别。我们还讨论了这些预测系统的现实部署中出现的经验和挑战,包括预测信息。最后,我们重点介绍了整个预测管道中发现的一些挑战和开放问题。
translated by 谷歌翻译
HTR models development has become a conventional step for digital humanities projects. The performance of these models, often quite high, relies on manual transcription and numerous handwritten documents. Although the method has proven successful for Latin scripts, a similar amount of data is not yet achievable for scripts considered poorly-endowed, like Arabic scripts. In that respect, we are introducing and assessing a new modus operandi for HTR models development and fine-tuning dedicated to the Arabic Maghrib{\=i} scripts. The comparison between several state-of-the-art HTR demonstrates the relevance of a word-based neural approach specialized for Arabic, capable to achieve an error rate below 5% with only 10 pages manually transcribed. These results open new perspectives for Arabic scripts processing and more generally for poorly-endowed languages processing. This research is part of the development of RASAM dataset in partnership with the GIS MOMM and the BULAC.
translated by 谷歌翻译