本文介绍了称为“文本历史工具”的数字工具的其他方面。我们描述了其各种突出特征,特别参考其特征,可能有助于理智学家在文本上数字化评论和子评论。该工具通过各种时间级捕获文本的历史演进,以及从各种类型的相关文本中剔除的相互关联数据。我们使用k \ = a \'sik \ = avrtti(kv)的文本作为示例文本,并且在照相专家的帮助下,我们将评论数字化为我们提供的评论。我们将NY \ = ASA(NY)数字化,Padama \〜njar \ = i(PM)和子注释称为Tantraprad \ = IPA(TP)和Makaranda(MK)。我们将每次评论和子评论划分为功能单位,并描述了功能单元划分背后的方法和动机。基于使用在工具中输入的数据的距离方法,我们的功能单元部门有助于为文本生成更准确的系统发育树。
translated by 谷歌翻译
在学术界,抄袭肯定不是一个新兴的关注,但它随着互联网的普及和对全球内容来源的易于访问而变得更大的程度,使人类干预不足。尽管如此,由于计算机辅助抄袭检测,抄袭远远远非是一个未被解除的问题,目前是一个有效的研究领域,该研究落在信息检索(IR)和自然语言处理(NLP)领域。许多软件解决方案有助于满足这项任务,本文概述了用于阿拉伯语,法国和英语学术和教育环境的抄袭检测系统。比较在八个系统之间持有,并在检测不同来源的三个混淆水平的特征,可用性,技术方面以及它们的性能之间进行:逐字,释义和跨语言抄袭。在本研究的背景下也进行了对技术形式的抄袭技术形式的关注检查。此外,还提供了对不同作者提出的抄袭类型和分类的调查。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 2nd International Workshop on Reading Music Systems, held in Delft on the 2nd of November 2019.
translated by 谷歌翻译
卡雷利亚共和国的波罗的海语言的研究越来越重视是语料库语言学的方法和工具。自2016年以来,Karelian研究中心的语言学家,数学家和程序员一直在与VEPS和Karelian语言的开放语料库(VEPKAR)合作,这是2009年创建的VEPS Corpus的扩展。和VEP,与它们相关的多功能字典以及具有高级搜索系统的软件,使用各种文本(语言,流派等)和许多语言类别(在文本中实现了文本中的词汇和语法搜索,这要归功于Word的生成器我们之前创建的表单)。编译了3000个文本的语料库,上传和标记了文本,将文本分类为语言,方言,类型和流派的系统,并创建了单词形式的生成器。未来的计划包括开发用于使用音频记录的语音模块和使用形态分析输出的句法标记模块。由于语料库管理器和正在进行的VEPKAR的持续功能进步,并具有新的材料和文本标记,用户可以处理广泛的科学和应用任务。在创建全国性国家VEPKAR语料库时,其开发商和经理在19-21世纪努力保护和展示VEP和Karelian语言状态。
translated by 谷歌翻译
情感是引人入胜的叙事的关键部分:文学向我们讲述了有目标,欲望,激情和意图的人。情绪分析是情感分析更广泛,更大的领域的一部分,并且在文学研究中受到越来越多的关注。过去,文学的情感维度主要在文学诠释学的背景下进行了研究。但是,随着被称为数字人文科学(DH)的研究领域的出现,在文学背景下对情绪的一些研究已经发生了计算转折。鉴于DH仍被形成为一个领域的事实,这一研究方向可以相对较新。在这项调查中,我们概述了现有的情感分析研究机构,以适用于文献。所评论的研究涉及各种主题,包括跟踪情节发展的巨大变化,对文学文本的网络分析以及了解文本的情感以及其他主题。
translated by 谷歌翻译
HTR models development has become a conventional step for digital humanities projects. The performance of these models, often quite high, relies on manual transcription and numerous handwritten documents. Although the method has proven successful for Latin scripts, a similar amount of data is not yet achievable for scripts considered poorly-endowed, like Arabic scripts. In that respect, we are introducing and assessing a new modus operandi for HTR models development and fine-tuning dedicated to the Arabic Maghrib{\=i} scripts. The comparison between several state-of-the-art HTR demonstrates the relevance of a word-based neural approach specialized for Arabic, capable to achieve an error rate below 5% with only 10 pages manually transcribed. These results open new perspectives for Arabic scripts processing and more generally for poorly-endowed languages processing. This research is part of the development of RASAM dataset in partnership with the GIS MOMM and the BULAC.
translated by 谷歌翻译
我们提出了一个文本编辑器,以帮助用户计划,结构并反思其写作过程。它使用自动文本摘要提供了不断更新的段落摘要作为边缘注释。摘要级别范围从全文到选定的(中央)句子,一直到关键字的集合。为了了解用户在写作过程中如何与该系统进行交互,我们进行了两项用户研究(n = 4和n = 8),人们在其中写了有关给定主题和文章的分析文章。作为关键发现,这些摘要使用户对他们的写作有了外部视角,并帮助他们修改了草稿段落的内容和范围。人们进一步使用该工具快速获得文本概述,并制定了整合自动摘要中见解的策略。从更广泛的角度来看,这项工作探索并突出了为作家设计AI工具的价值,其自然语言处理(NLP)功能超出了直接文本生成和更正。
translated by 谷歌翻译
Machine Learning for Source Code (ML4Code) is an active research field in which extensive experimentation is needed to discover how to best use source code's richly structured information. With this in mind, we introduce JEMMA, an Extensible Java Dataset for ML4Code Applications, which is a large-scale, diverse, and high-quality dataset targeted at ML4Code. Our goal with JEMMA is to lower the barrier to entry in ML4Code by providing the building blocks to experiment with source code models and tasks. JEMMA comes with a considerable amount of pre-processed information such as metadata, representations (e.g., code tokens, ASTs, graphs), and several properties (e.g., metrics, static analysis results) for 50,000 Java projects from the 50KC dataset, with over 1.2 million classes and over 8 million methods. JEMMA is also extensible allowing users to add new properties and representations to the dataset, and evaluate tasks on them. Thus, JEMMA becomes a workbench that researchers can use to experiment with novel representations and tasks operating on source code. To demonstrate the utility of the dataset, we also report results from two empirical studies on our data, ultimately showing that significant work lies ahead in the design of context-aware source code models that can reason over a broader network of source code entities in a software project, the very task that JEMMA is designed to help with.
translated by 谷歌翻译
当今的冲突变得越来越复杂,流畅和分散,通常涉及许多具有多重且经常发散利益的国家和国际参与者。随着调解员努力使冲突动态有理由,例如冲突政党的范围和政治立场的演变,相关与较少相关的参与者在和平建立和认同之间的区别或身份证明,这一发展构成了冲突调解的重大挑战。关键冲突问题及其相互依存。国际和平努力似乎不足以成功应对这些挑战。尽管技术已经在与冲突相关的领域进行了试验和使用,例如预测冲突或信息收集,但对技术如何促进冲突调解的关注较少。该案例研究有助于有关在冲突调解过程中使用最先进的机器学习技术和技术的新兴研究。本研究使用也门和平谈判中的对话成绩单,通过为他们提供知识管理,提取和冲突分析的工具来有效地支持中介团队。除了说明冲突调解中的机器学习工具的潜力外,本文还强调了跨学科和参与性的共同创造方法对开发上下文敏感和有针对性的工具的重要性,并确保有意义和负责任的实施。
translated by 谷歌翻译
Language models (LMs) now excel at many tasks such as few-shot learning, question answering, reasoning, and dialog. However, they sometimes generate unsupported or misleading content. A user cannot easily determine whether their outputs are trustworthy or not, because most LMs do not have any built-in mechanism for attribution to external evidence. To enable attribution while still preserving all the powerful advantages of recent generation models, we propose RARR (Retrofit Attribution using Research and Revision), a system that 1) automatically finds attribution for the output of any text generation model and 2) post-edits the output to fix unsupported content while preserving the original output as much as possible. When applied to the output of several state-of-the-art LMs on a diverse set of generation tasks, we find that RARR significantly improves attribution while otherwise preserving the original input to a much greater degree than previously explored edit models. Furthermore, the implementation of RARR requires only a handful of training examples, a large language model, and standard web search.
translated by 谷歌翻译
创新是经济和社会发展的主要驱动力,有关多种创新的信息嵌入了专利和专利申请的半结构化数据中。尽管在专利数据中表达的创新的影响和新颖性很难通过传统手段来衡量,但ML提供了一套有希望的技术来评估新颖性,汇总贡献和嵌入语义。在本文中,我们介绍了Harvard USPTO专利数据集(HUPD),该数据集是2004年至2004年之间提交给美国专利商业办公室(USPTO)的大型,结构化和多用途的英语专利专利申请。 2018年。HUPD拥有超过450万张专利文件,是可比的Coldia的两到三倍。与以前在NLP中提出的专利数据集不同,HUPD包含了专利申请的发明人提交的版本(不是授予专利的最终版本),其中允许我们在第一次使用NLP方法进行申请时研究专利性。它在包含丰富的结构化元数据以及专利申请文本的同时也很新颖:通过提供每个应用程序的元数据及其所有文本字段,数据集使研究人员能够执行一组新的NLP任务,以利用结构性协变量的变异。作为有关HUPD的研究类型的案例研究,我们向NLP社区(即专利决策的二元分类)介绍了一项新任务。我们还显示数据集中提供的结构化元数据使我们能够对此任务进行概念转移的明确研究。最后,我们演示了如何将HUPD用于三个其他任务:专利主题领域的多类分类,语言建模和摘要。
translated by 谷歌翻译
系统发育比较方法在我们的领域是新的,并且对于大多数语言学家来说,至少有一点谜团。然而,导致他们在比较生物学中发现的道路与平衡抽样的方法论历史如此类似,这只是一个历史的事故,即他们没有被典型的专家发现。在这里,我们澄清了系统发育比较方法背后的基本逻辑及其对重点采样的深刻智力传统的基本相关性。然后我们介绍将在日常类型的研究中使用类型的概念,方法和工具,使类型学家能够在日常类型的研究中使用这些方法。系统发育比较方法和平衡采样的关键共性是他们试图因系谱而应对统计非独立性。虽然采样永远不会实现独立性,但需要大多数比较数据被丢弃,系统发育比较方法在保留和使用所有数据的同时实现独立性。我们讨论了系统发育信号的基本概念;关于树木的不确定性;典型的类型学平均值和比例对族谱敏感;跨语言家庭的比较;和体现的影响。广泛的补充材料说明了实际分析的计算工具,我们说明了与帕马尼云根腭膜对比的类型学案例研究讨论的方法。
translated by 谷歌翻译
人工智能(AI)使机器能够从人类经验中学习,适应新的输入,并执行人类的人类任务。 AI正在迅速发展,从过程自动化到认知增强任务和智能流程/数据分析的方式转换业务方式。然而,人类用户的主要挑战是理解和适当地信任AI算法和方法的结果。在本文中,为了解决这一挑战,我们研究并分析了最近在解释的人工智能(XAI)方法和工具中所做的最新工作。我们介绍了一种新颖的XAI进程,便于生产可解释的模型,同时保持高水平的学习性能。我们提出了一种基于互动的证据方法,以帮助人类用户理解和信任启用AI的算法创建的结果和输出。我们在银行域中采用典型方案进行分析客户交易。我们开发数字仪表板以促进与算法的互动结果,并讨论如何提出的XAI方法如何显着提高数据科学家对理解启用AI的算法结果的置信度。
translated by 谷歌翻译
注释数据是应用监督机器学习方法的要求,注释的质量对于结果至关重要。尤其是在处理不确定性多种多样的文化遗产藏品时,注释数据仍然是一项手动,艰巨的任务,由域专家执行。我们的项目始于两套已经注释的中世纪手稿图像,但是基于学术和语言差异,这些图像并不完整,并包含冲突的元数据。我们的目的是为组合数据集创建(1)一组统一的描述性标签,以及(2)对高质量的分层分类,可以用作监督机器学习的有价值的输入。为了实现这些目标,我们开发了一个视觉分析系统,以使中世纪主义者能够合并,正规化和扩展用于描述这些数据集的词汇。单词和图像嵌入的视觉接口以及数据集的注释的共发生,同时允许注释多个图像,建议注释标签候选者并支持组成标签的层次分类。我们的系统本身实现了一种半监督的方法,因为它根据中世纪主义者的反馈更新视觉表示,并且一系列用法场景记录了其对目标社区的价值。
translated by 谷歌翻译
This research presents ORUGA, a method that tries to automatically optimize the readability of any text in English. The core idea behind the method is that certain factors affect the readability of a text, some of which are quantifiable (number of words, syllables, presence or absence of adverbs, and so on). The nature of these factors allows us to implement a genetic learning strategy to replace some existing words with their most suitable synonyms to facilitate optimization. In addition, this research seeks to preserve both the original text's content and form through multi-objective optimization techniques. In this way, neither the text's syntactic structure nor the semantic content of the original message is significantly distorted. An exhaustive study on a substantial number and diversity of texts confirms that our method was able to optimize the degree of readability in all cases without significantly altering their form or meaning. The source code of this approach is available at https://github.com/jorge-martinez-gil/oruga.
translated by 谷歌翻译
我们提出了一项探索性定性研究,以了解作家如何与下一页建议相互作用。尽管对建议系统对写作的影响进行了一些定量研究,但几乎没有定性的工作来理解作家如何与建议系统互动及其如何影响他们的写作过程 - 特别是针对非本地但英国作家的。我们进行了一项研究,要求业余作家分别写两部电影评论,一本没有建议。我们发现作家以各种复杂的方式与下一页建议互动 - 作家能够抽象建议的多个部分并将其纳入他们的写作中 - 即使他们不同意整个建议。建议系统对写作过程也有各种影响 - 以独特的方式为写作过程的不同方面做出了影响。我们提出了一种用于与GPT-2写作的作家 - 探索互动模型,用于电影评论写作任务,然后是该模型可用于未来研究的方式,并概述了研究和设计的机会。
translated by 谷歌翻译
在线众包平台使对算法输出进行评估变得容易,并提出诸如“哪个图像更好,A或B?”之类的问题的调查,在视觉和图形研究论文中的这些“用户研究”的扩散导致了增加匆忙进行的研究充其量是草率且无知的,并且可能有害和误导。我们认为,在计算机视觉和图形论文中的用户研究的设计和报告需要更多关注。为了提高从业者的知识并提高用户研究的可信度和可复制性,我们提供了用户体验研究(UXR),人类计算机互动(HCI)和相关领域的方法论的概述。我们讨论了目前在计算机视觉和图形研究中未利用的基础用户研究方法(例如,需要调查),但可以为研究项目提供宝贵的指导。我们为有兴趣探索其他UXR方法的读者提供了进一步的指导。最后,我们描述了研究界的更广泛的开放问题和建议。我们鼓励作者和审稿人都认识到,并非每项研究贡献都需要用户研究,而且根本没有研究比不小心进行的研究更好。
translated by 谷歌翻译
在本文中,我们介绍了在阿拉伯语编码的突尼斯阿拉伯语项目的最终结果,该项目是基于拉丁语的数字对话写作系统。该项目导致创建了两个集成和独立的资源:一个语料库和一个NLP工具,以通过各种语言信息来注释前者:单词分类,音译,标记,标记,pos tagging,lemmatization。我们从计算和语言方法论以及为改善结果而采用的策略中讨论我们的选择。我们报告了执行的实验,以概述我们的研究路径。最后,我们解释了为什么我们相信这些资源对计算和语言研究的潜力。关键词:突尼斯阿拉伯语,注释语料库,神经网络体系结构
translated by 谷歌翻译
本文提出了创造和管理12个主要印度语言的大型并行语言(即将扩展到23种语言)的挑战,作为由信息技术部(DIT),政府部门资助的主要财团项目的一部分。印度,并在印度的10所不同大学中平行运行。为了有效地管理这些巨大的Corpora的创建和传播过程,基于Web的(具有减少的独立版本)的注释工具ILCiann(印度语言语料集团倡议注释工具)已经开发出来。它主要是为POS注释制定的,以及由具有不同竞争力和物理位于相距远的地点的人员的管理器的管理。为了维持在创建Corpora中的一致性和标准,有必要每个人都在这个工具提供的共同平台上。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译