在本文中,我们提出了一种以布尔搜索规则的形式构建强大可解释的分类器的方法。我们开发了一个互动的环境,称为案例(计算机辅助语义探索),它利用Word Co-Instionrence在选择相关搜索条件时引导人类的注释器。该系统无缝促进迭代评估和改进分类规则。该过程使人类注入者能够利用统计信息的好处,同时将其专家直接纳入这些规则的创建。我们评估在4个数据集中使用我们的案例系统创建的分类器,并将结果与​​机器学习方法进行比较,包括Skope规则,随机林,支持向量机和FastText分类器。结果推动了关于布尔搜索规则的卓越紧凑性,简单性和直观之间的权衡的讨论与文本分类的最先进的机器学习模型的更好性能。
translated by 谷歌翻译
我们分析预先训练的语言模型在使用不同类型系统注释的数据集中传输知识的能力,并概括在域名和数据集之外,他们接受了培训。我们创建了一个元任务,在多个数据集上集中于预测修辞角色。在案例决策中扮演句子扮演的修辞角色的预测是AI&法律中的重要且经常学习的任务。通常,它需要批注大量句子来训练模型,这可能是耗时和昂贵的。此外,模型的应用受到培训的相同数据集。我们微调语言模型并在数据集中评估它们的性能,以研究模型的拓展域的能力。我们的结果表明,该方法可以有助于克服主动或Interactie学习中的冷启动问题,并显示模型跨越数据集和域的能力。
translated by 谷歌翻译
人类表演的法律文件中句子的注释是许多基于机器学习的系统支持法律任务的重要先决条件。通常,注释是按顺序完成的,句子句子通常是耗时的,因此昂贵。在本文中,我们介绍了一个概念验证系统,用于横向注释句子。该方法基于观察到含义类似的句子通常在特定类型系统方面具有相同的标签。我们在允许注释器中使用此观察来快速查看和注释在整个文档语料库中使用与给定句子的语义类似的句子。在这里,我们介绍了系统的界面并经验评估方法。实验表明,横向注释有可能使注释过程更快,更加一致。
translated by 谷歌翻译
越来越多的工作已经认识到利用机器学习(ML)进步的重要性,以满足提取访问控制属性,策略挖掘,策略验证,访问决策等有效自动化的需求。在这项工作中,我们调查和总结了各种ML解决不同访问控制问题的方法。我们提出了ML模型在访问控制域中应用的新分类学。我们重点介绍当前的局限性和公开挑战,例如缺乏公共现实世界数据集,基于ML的访问控制系统的管理,了解黑盒ML模型的决策等,并列举未来的研究方向。
translated by 谷歌翻译
法律文本经常使用难以理解的概念。律师在其他事物仔细研究他们过去习惯的情况下,阐述了这种概念的含义。寻找以有用方式提及特定概念的文本片段是乏味,耗时的,因此,昂贵。我们组装了一个来自法律案例决策的26,959个句子的数据集,并在他们解释所选法律概念的实用性方面标记它们。使用DataSet我们研究了基于Transformer的模型的有效性,在大型语言语料上进行了预先培训,以检测哪些句子是有用的。根据模型的预测,我们分析了解释性句子的各种语言特性,以及他们与需要解释的法律概念的关系。我们表明,基于变压器的模型能够学习令人惊讶的复杂功能,优于前进的任务方法。
translated by 谷歌翻译
在人口稠密的国家中,悬而未决的法律案件呈指数增长。需要开发处理和组织法律文件的技术。在本文中,我们引入了一个新的语料库来构建法律文件。特别是,我们介绍了用英语的法律判断文件进行的,这些文件被分割为局部和连贯的部分。这些零件中的每一个都有注释,标签来自预定义角色的列表。我们开发基线模型,以根据注释语料库自动预测法律文档中的修辞角色。此外,我们展示了修辞角色在提高总结和法律判断预测任务的绩效方面的应用。我们发布了语料库和基线模型代码以及纸张。
translated by 谷歌翻译
在临床研究和临床决策中,重要的是要知道学习是否发生或仅支持目前的特定疾病管理的护理标准。我们将这种变化定义为变换性和作为增量研究的支持。它通常需要大量的人类专业知识和时间来完成这些任务。教师意见为我们提供了一个关于研究挑战或仅确认建立研究的良好注释的语料库。在本研究中,提出了一种机器学习方法,以区分从增量临床证据的变化。摘要和2年窗口的文本被收集了培训临床研究的培训,由教师观察专家标记。我们通过随机林为分类器,达到0.755(0.705-0.875)的平均AUC的最佳性能,并引用句子作为该功能。结果表明,与抽象句不同,转型研究具有引用句子的典型语言模式。我们提供了一个有效的工具,用于识别这些临床证据挑战或仅确认临床医生和研究人员的索赔。
translated by 谷歌翻译
在本文中,我们研究了多语言句子嵌入的使用,以转移跨管辖区,法律制度(普通和民法),语言和域名的审判决策功能分割的预测模型(即语境)。利用原始环境之外的语言资源的机制在AI和法律中具有显着的潜在利益,因为法律制度,语言或传统之间的差异往往阻碍了更广泛的研究结果。我们使用跨语言可转换的门控复发单元(GRUS)分析使用语言无话句子表示的使用。调查不同背景之间的转移,我们开发了一种审判决策功能分割的注释方案。我们发现模特超出了他们接受培训的背景(例如,在美国的行政决定上培训的模型可以应用于意大利的刑法决定)。此外,我们发现在多种上下文上培训模型增加了鲁棒性并在评估先前看不见的上下文时提高整体性能。最后,我们发现,从所有上下文中汇集训练数据增强了模型的上下文性能。
translated by 谷歌翻译
法律判决预测是NLP,AI和法律联合领域最受欢迎的领域之一。通过法律预测,我们是指能够预测特定司法特征的智能系统,例如司法结果,司法阶级,可以预测特定案例。在这项研究中,我们使用AI分类器来预测巴西法律体系中的司法结果。为此,我们开发了一个文本爬网,以从巴西官方电子法律系统中提取数据。这些文本构成了二级谋杀和主动腐败案件的数据集。我们应用了不同的分类器,例如支持向量机和神经网络,通过分析数据集中的文本功能来预测司法结果。我们的研究表明,回归树,封闭的重复单元和分层注意力网络给出了不同子集的较高指标。作为最终目标,我们探讨了一种算法的权重,即分层注意力网络,以找到用于免除或定罪被告的最重要词的样本。
translated by 谷歌翻译
自论证挖掘领域成立以来,在法律话语中识别,分类和分析的论点一直是研究的重要领域。但是,自然语言处理(NLP)研究人员的模型模型与法院决策中的注释论点与法律专家理解和分析法律论证的方式之间存在重大差异。尽管计算方法通常将论点简化为通用的前提和主张,但法律研究中的论点通常表现出丰富的类型,对于获得一般法律的特定案例和应用很重要。我们解决了这个问题,并做出了一些实质性的贡献,以推动该领域的前进。首先,我们在欧洲人权法院(ECHR)诉讼中为法律论点设计了新的注释计划,该计划深深植根于法律论证研究的理论和实践中。其次,我们编译和注释了373项法院判决(230万令牌和15K注释的论点跨度)的大量语料库。最后,我们训练一个论证挖掘模型,该模型胜过法律NLP领域中最先进的模型,并提供了彻底的基于专家的评估。所有数据集和源代码均可在https://github.com/trusthlt/mining-legal-arguments的开放lincenses下获得。
translated by 谷歌翻译
建模法检索和检索作为预测问题最近被出现为法律智能的主要方法。专注于法律文章检索任务,我们展示了一个名为Lamberta的深度学习框架,该框架被设计用于民法代码,并在意大利民法典上专门培训。为了我们的知识,这是第一项研究提出了基于伯特(来自变压器的双向编码器表示)学习框架的意大利法律制度对意大利法律制度的高级法律文章预测的研究,最近引起了深度学习方法的增加,呈现出色的有效性在几种自然语言处理和学习任务中。我们通过微调意大利文章或其部分的意大利预先训练的意大利预先训练的伯爵来定义Lamberta模型,因为法律文章作为分类任务检索。我们Lamberta框架的一个关键方面是我们构思它以解决极端的分类方案,其特征在于课程数量大,少量学习问题,以及意大利法律预测任务的缺乏测试查询基准。为了解决这些问题,我们为法律文章的无监督标签定义了不同的方法,原则上可以应用于任何法律制度。我们提供了深入了解我们Lamberta模型的解释性和可解释性,并且我们对单一标签以及多标签评估任务进行了广泛的查询模板实验分析。经验证据表明了Lamberta的有效性,以及对广泛使用的深度学习文本分类器和一些构思的几次学习者来说,其优越性是对属性感知预测任务的优势。
translated by 谷歌翻译
在科学研究中,该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展,正在提出,修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息,并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法,为研究任务选择适当的方法并提出新方法。此外,方法实体的演变可以揭示纪律的发展并促进知识发现。因此,本文对方法论和经验作品进行了系统的综述,重点是从全文学术文献中提取方法实体,并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义,我们系统地审查了提取和评估方法实体的方法和指标,重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后,讨论了现有作品的限制以及潜在的下一步。
translated by 谷歌翻译
In the last years many accurate decision support systems have been constructed as black boxes, that is as systems that hide their internal logic to the user. This lack of explanation constitutes both a practical and an ethical issue. The literature reports many approaches aimed at overcoming this crucial weakness sometimes at the cost of scarifying accuracy for interpretability. The applications in which black box decision systems can be used are various, and each approach is typically developed to provide a solution for a specific problem and, as a consequence, delineating explicitly or implicitly its own definition of interpretability and explanation. The aim of this paper is to provide a classification of the main problems addressed in the literature with respect to the notion of explanation and the type of black box system. Given a problem definition, a black box type, and a desired explanation this survey should help the researcher to find the proposals more useful for his own work. The proposed classification of approaches to open black box models should also be useful for putting the many research open questions in perspective.
translated by 谷歌翻译
我们使用不同的语言支持特征预处理方法研究特征密度(FD)的有效性,以估计数据集复杂性,这又用于比较估计任何训练之前机器学习(ML)分类器的潜在性能。我们假设估计数据集复杂性允许减少所需实验迭代的数量。这样我们可以优化ML模型的资源密集型培训,这是由于可用数据集大小的增加以及基于深神经网络(DNN)的模型的不断增加的普及而成为一个严重问题。由于训练大规模ML模型引起的令人惊叹的二氧化碳排放量,不断增加对更强大的计算资源需求的问题也在影响环境。该研究是在多个数据集中进行的,包括流行的数据集,例如用于培训典型情感分析模型的Yelp业务审查数据集,以及最近的数据集尝试解决网络欺凌问题,这是一个严重的社会问题,也是一个严重的社会问题一个更复杂的问题,形成了语言代表的观点。我们使用收集多种语言的网络欺凌数据集,即英语,日语和波兰语。数据集的语言复杂性的差异允许我们另外讨论语言备份的单词预处理的功效。
translated by 谷歌翻译
法律文件是非结构化的,使用法律术语,并且具有相当长的长度,使得难以通过传统文本处理技术自动处理。如果文档可以在语义上分割成连贯的信息单位,法律文件处理系统将基本上受益。本文提出了一种修辞职位(RR)系统,用于将法律文件分组成语义连贯的单位:事实,论点,法规,问题,先例,裁决和比例。在法律专家的帮助下,我们提出了一套13个细粒度的修辞标志标签,并创建了与拟议的RR批发的新的法律文件有条件。我们开发一个系统,以将文件分段为修辞职位单位。特别是,我们开发了一种基于多任务学习的深度学习模型,文档修辞角色标签作为分割法律文件的辅助任务。我们在广泛地尝试各种深度学习模型,用于预测文档中的修辞角色,并且所提出的模型对现有模型显示出卓越的性能。此外,我们应用RR以预测法律案件的判断,并表明与基于变压器的模型相比,使用RR增强了预测。
translated by 谷歌翻译
学术研究是解决以前从未解决过的问题的探索活动。通过这种性质,每个学术研究工作都需要进行文献审查,以区分其Novelties尚未通过事先作品解决。在自然语言处理中,该文献综述通常在“相关工作”部分下进行。鉴于研究文件的其余部分和引用的论文列表,自动相关工作生成的任务旨在自动生成“相关工作”部分。虽然这项任务是在10年前提出的,但直到最近,它被认为是作为科学多文件摘要问题的变种。然而,即使在今天,尚未标准化了自动相关工作和引用文本生成的问题。在这项调查中,我们进行了一个元研究,从问题制定,数据集收集,方法方法,绩效评估和未来前景的角度来比较相关工作的现有文献,以便为读者洞察到国家的进步 - 最内容的研究,以及如何进行未来的研究。我们还调查了我们建议未来工作要考虑整合的相关研究领域。
translated by 谷歌翻译
Deep Learning and Machine Learning based models have become extremely popular in text processing and information retrieval. However, the non-linear structures present inside the networks make these models largely inscrutable. A significant body of research has focused on increasing the transparency of these models. This article provides a broad overview of research on the explainability and interpretability of natural language processing and information retrieval methods. More specifically, we survey approaches that have been applied to explain word embeddings, sequence modeling, attention modules, transformers, BERT, and document ranking. The concluding section suggests some possible directions for future research on this topic.
translated by 谷歌翻译
我们研究了检查问题的事实,旨在识别给定索赔的真实性。具体而言,我们专注于事实提取和验证(发烧)及其伴随数据集的任务。该任务包括从维基百科检索相关文件(和句子)并验证文件中的信息是否支持或驳斥所索赔的索赔。此任务至关重要,可以是假新闻检测和医疗索赔验证等应用程序块。在本文中,我们以通过以结构化和全面的方式呈现文献来更好地了解任务的挑战。我们通过分析不同方法的技术视角并讨论发热数据集的性能结果,描述了所提出的方法,这是最熟悉的和正式结构化的数据集,就是事实提取和验证任务。我们还迄今为止迄今为止确定句子检索组件的有益损失函数的最大实验研究。我们的分析表明,采样负句对于提高性能并降低计算复杂性很重要。最后,我们描述了开放的问题和未来的挑战,我们激励了未来的任务研究。
translated by 谷歌翻译
自动推荐向特定法律案件的相关法律文章引起了很多关注,因为它可以大大释放人工劳动力,从而在大型法律数据库中寻找。然而,目前的研究只支持粗粒度推荐,其中所有相关文章都预测为整体,而无需解释每种文章与之相关的具体事实。由于一个案例可以由许多支持事实形成,因此遍历它们来验证推荐结果的正确性可能是耗时的。我们认为,在每个单一的事实和法律文章之间学习细粒度的对应,对于准确可靠的AI系统至关重要。通过这种动机,我们执行开创性的研究并创建一个手动注释的事实 - 文章的语料库。我们将学习视为文本匹配任务,并提出一个多级匹配网络来解决它。为了帮助模型更好地消化法律文章的内容,我们以随机森林的前提结论对形式解析物品。实验表明,解析的形式产生了更好的性能,结果模型超越了其他流行的文本匹配基线。此外,我们与先前的研究相比,并发现建立细粒度的事实 - 文章对应物可以通过大幅度提高建议准确性。我们最好的系统达到了96.3%的F1得分,使其具有实际使用潜力。它还可以显着提高法律决策预测的下游任务,将F1增加到12.7%。
translated by 谷歌翻译
自动问题应答(QA)系统的目的是以时间有效的方式向用户查询提供答案。通常在数据库(或知识库)或通常被称为语料库的文件集合中找到答案。在过去的几十年里,收购知识的扩散,因此生物医学领域的新科学文章一直是指数增长。因此,即使对于领域专家,也难以跟踪域中的所有信息。随着商业搜索引擎的改进,用户可以在某些情况下键入其查询并获得最相关的一小组文档,以及在某些情况下从文档中的相关片段。但是,手动查找所需信息或答案可能仍然令人疑惑和耗时。这需要开发高效的QA系统,该系统旨在为用户提供精确和精确的答案提供了生物医学领域的自然语言问题。在本文中,我们介绍了用于开发普通域QA系统的基本方法,然后彻底调查生物医学QA系统的不同方面,包括使用结构化数据库和文本集合的基准数据集和几种提出的方​​法。我们还探讨了当前系统的局限性,并探索潜在的途径以获得进一步的进步。
translated by 谷歌翻译