深层自然语言处理(NLP)模型的快速发展导致迫切需要对这些模型单独提出的统一理解。由于缺乏解释低级(例如单词)和高级(例如,短语)特征的统一措施,现有方法无法满足一个框架中不同模型的需求。我们已经开发了一个视觉分析工具DeepNLPVI,以使对文本分类的NLP模型有统一的理解。关键思想是一种基于信息的度量,它提供了有关模型的每一层如何维护样本中输入单词信息的定量解释。我们在每个层的内部和界面信息中对单词对最终预测的重要性以及单词之间的关系(例如短语的形成)进行建模。多层可视化由语料库级,样本级别和单词级可视化组成,支持从整体训练集到单个样本的分析。关于分类任务和模型比较的两个案例研究表明,DeepNLPVI可以帮助用户有效地确定样本和模型架构引起的潜在问题,然后进行明智的改进。
translated by 谷歌翻译
基础学习者和集合中的样本(镜头)几乎没有弹出分类器极大地影响了模型性能。当表现不满意时,通常很难理解基本原因并进行改进。为了解决这个问题,我们提出了一种视觉分析方法FSLDIAGNOTOR。考虑到一组基础学习者和一系列射击的样本,我们考虑了两个问题:1)找到一个很好的基础学习者,可以很好地预测样本集; 2)用更多代表性的镜头代替低质量的镜头,以充分代表样品集。我们将两个问题提出为稀疏子集选择,并开发两种选择算法,分别推荐适当的学习者和射击。将矩阵可视化和散点图组合在一起,以解释上下文中推荐的学习者和镜头,并促进用户调整它们。根据调整,该算法更新了建议结果,以进行另一轮改进。进行了两项案例研究,以证明FSLDIAGNOTOR有助于有效地构建一些分类器,并分别将精度提高12%和21%。
translated by 谷歌翻译
基准数据集在评估自然语言理解(NLU)模型中起重要作用。但是,快捷方式(基准数据集中的不需要的偏差)可能会损害基准数据集在揭示模型的实际功能中的有效性。由于快捷方式在覆盖范围,生产率和语义含义上有所不同,因此NLU专家在创建基准数据集时系统地理解和避免它们是一项挑战。在本文中,我们开发了一个视觉分析系统,即短路,以帮助NLU专家探索NLU基准数据集中的快捷方式。该系统允许用户对快捷方式进行多层次探索。具体而言,统计信息视图可帮助用户掌握统计数据,例如基准数据集中快捷方式的覆盖范围和生产率。模板视图采用层次和可解释的模板来汇总不同类型的快捷方式。实例视图允许用户检查快捷方式涵盖的相应实例。我们进行案例研究和专家访谈,以评估系统的有效性和可用性。结果表明,饭店支持用户通过快捷方式更好地了解基准数据集问题,从而激发他们创建具有挑战性和相关的基准数据集。
translated by 谷歌翻译
Deep Learning and Machine Learning based models have become extremely popular in text processing and information retrieval. However, the non-linear structures present inside the networks make these models largely inscrutable. A significant body of research has focused on increasing the transparency of these models. This article provides a broad overview of research on the explainability and interpretability of natural language processing and information retrieval methods. More specifically, we survey approaches that have been applied to explain word embeddings, sequence modeling, attention modules, transformers, BERT, and document ranking. The concluding section suggests some possible directions for future research on this topic.
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
使用计算笔记本(例如,Jupyter Notebook),数据科学家根据他们的先前经验和外部知识(如在线示例)合理化他们的探索性数据分析(EDA)。对于缺乏关于数据集或问题的具体了解的新手或数据科学家,有效地获得和理解外部信息对于执行EDA至关重要。本文介绍了eDassistant,一个jupyterlab扩展,支持EDA的原位搜索示例笔记本电脑和有用的API的推荐,由搜索结果的新颖交互式可视化供电。代码搜索和推荐是由最先进的机器学习模型启用的,培训在线收集的EDA笔记本电脑的大型语料库。进行用户学习,以调查埃迪卡斯特和数据科学家的当前实践(即,使用外部搜索引擎)。结果证明了埃迪斯坦特的有效性和有用性,与会者赞赏其对EDA的顺利和环境支持。我们还报告了有关代码推荐工具的几种设计意义。
translated by 谷歌翻译
神经语言模型被广泛使用;但是,它们的模型参数通常需要适应时间和资源消耗的应用程序的特定域和任务。因此,最近引入了适配器作为模型适应的轻巧替代方案。它们由一组特定于任务的参数组成,这些参数缩短了训练时间和简单的参数组成。适配器训练和组成的简单性带来了新的挑战,例如保持适配器属性的概述,并有效地比较其生产的嵌入空间。为了帮助开发人员克服这些挑战,我们提供了双重贡献。首先,在与NLP研究人员的密切合作中,我们对支持适配器评估的方法进行了需求分析,并检测到了对固有的(即基于相似性的嵌入相似性)和外部(即基于预测的)解释方法的需求。 。其次,在收集的要求的激励下,我们设计了一个灵活的视觉分析工作空间,可以比较适配器属性。在本文中,我们讨论了几次设计迭代和替代方案,以进行交互式,比较视觉解释方法。我们的比较可视化表明,适应性嵌入媒介的差异和对​​各种人性化概念(例如,人的名字,人类素质)的预测结果。我们通过案例研究评估我们的工作空间,并表明,例如,根据Context-0(deNsTextualized)嵌入对语言偏见任务进行培训的适配器,引入了一种新型的偏见,其中单词(甚至与性别独立的单词)一样与女性代词更类似于女性。我们证明这些是上下文0嵌入的工件。
translated by 谷歌翻译
图形神经网络(GNNS)是一类强大的机器学习工具,可以模拟节点关系,用于制定节点或链接的预测。GNN开发人员依靠预测的定量度量来评估GNN,但类似于许多其他神经网络,他们很难了解GNN是否真正学习如预期的图形的特征。我们提出了一种对应于其节点嵌入(AKA潜像)的输入图的方法,稍后用于预测的GNN的公共组件。我们摘要数据和任务,并开发一个名为corgie的交互式多视图界面,以实例化抽象。作为Corgie的关键功能,我们提出了K-Hop图布局,以显示啤酒花和它们的聚类结构中的拓扑邻居。为了评估Corgie的功能和可用性,我们展示了如何在两种使用情况下使用Corgie,并使用五个GNN专家进行案例研究。
translated by 谷歌翻译
众所周知,端到端的神经NLP体系结构很难理解,这引起了近年来为解释性建模的许多努力。模型解释的基本原则是忠诚,即,解释应准确地代表模型预测背后的推理过程。这项调查首先讨论了忠诚的定义和评估及其对解释性的意义。然后,我们通过将方法分为五类来介绍忠实解释的最新进展:相似性方法,模型内部结构的分析,基于反向传播的方法,反事实干预和自我解释模型。每个类别将通过其代表性研究,优势和缺点来说明。最后,我们从它们的共同美德和局限性方面讨论了上述所有方法,并反思未来的工作方向忠实的解释性。对于有兴趣研究可解释性的研究人员,这项调查将为该领域提供可访问且全面的概述,为进一步探索提供基础。对于希望更好地了解自己的模型的用户,该调查将是一项介绍性手册,帮助选择最合适的解释方法。
translated by 谷歌翻译
The rapid advancement of AI technology has made text generation tools like GPT-3 and ChatGPT increasingly accessible, scalable, and effective. This can pose serious threat to the credibility of various forms of media if these technologies are used for plagiarism, including scientific literature and news sources. Despite the development of automated methods for paraphrase identification, detecting this type of plagiarism remains a challenge due to the disparate nature of the datasets on which these methods are trained. In this study, we review traditional and current approaches to paraphrase identification and propose a refined typology of paraphrases. We also investigate how this typology is represented in popular datasets and how under-representation of certain types of paraphrases impacts detection capabilities. Finally, we outline new directions for future research and datasets in the pursuit of more effective paraphrase detection using AI.
translated by 谷歌翻译
人工智能的最新进展在很大程度上受益于更好的神经网络体系结构。这些体系结构是昂贵的反复试验过程的产物。为了简化此过程,我们开发了Archexplorer,这是一种视觉分析方法,用于了解神经体系结构空间并汇总设计原理。我们方法背后的关键思想是通过利用体系结构之间的结构距离来解释建筑空间。我们将成对距离的计算提出解决,以解决全对最短路径问题。为了提高效率,我们将此问题分解为一组最短的路径问题。时间复杂性从O(KN^2n)降低到O(KNN)。根据它们之间的距离,构造在层次上聚集。已经开发了基于圆圈的架构可视化,以传达群集和每个集群中架构的本地社区之间的全球关系。提出了两项​​案例研究和一项分析后,以证明Argsplorer在总结设计原理和选择表现更好的架构方面的有效性。
translated by 谷歌翻译
社交媒体网络已成为人们生活的重要方面,它是其思想,观点和情感的平台。因此,自动化情绪分析(SA)对于以其他信息来源无法识别人们的感受至关重要。对这些感觉的分析揭示了各种应用,包括品牌评估,YouTube电影评论和医疗保健应用。随着社交媒体的不断发展,人们以不同形式发布大量信息,包括文本,照片,音频和视频。因此,传统的SA算法已变得有限,因为它们不考虑其他方式的表现力。通过包括来自各种物质来源的此类特征,这些多模式数据流提供了新的机会,以优化基于文本的SA之外的预期结果。我们的研究重点是多模式SA的最前沿领域,该领域研究了社交媒体网络上发布的视觉和文本数据。许多人更有可能利用这些信息在这些平台上表达自己。为了作为这个快速增长的领域的学者资源,我们介绍了文本和视觉SA的全面概述,包括数据预处理,功能提取技术,情感基准数据集以及适合每个字段的多重分类方法的疗效。我们还简要介绍了最常用的数据融合策略,并提供了有关Visual Textual SA的现有研究的摘要。最后,我们重点介绍了最重大的挑战,并调查了一些重要的情感应用程序。
translated by 谷歌翻译
多文件摘要(MDS)是信息聚合的有效工具,它从与主题相关文档集群生成信息和简洁的摘要。我们的调查是,首先,系统地概述了最近的基于深度学习的MDS模型。我们提出了一种新的分类学,总结神经网络的设计策略,并进行全面的最先进的概要。我们突出了在现有文献中很少讨论的各种客观函数之间的差异。最后,我们提出了与这个新的和令人兴奋的领域有关的几个方向。
translated by 谷歌翻译
装袋和升压是在机器学习(ml)中的两个流行的集合方法,产生许多单独的决策树。由于这些方法的固有组合特性,它们通常以预测性能更优于单决定树或其他ML模型。然而,为每个决策树生成许多决定路径,增加了模型的整体复杂性,并阻碍了其在需要值得信赖和可解释的决策的域中的域,例如金融,社会护理和保健。因此,随着决策的数量升高,袋装和升降算法(例如随机森林和自适应升压)的解释性降低。在本文中,我们提出了一种视觉分析工具,该工具旨在帮助用户通过彻底的视觉检查工作流程从这种ML模型中提取决策,包括选择一套鲁棒和不同的模型(源自不同的集合学习算法),选择重要的功能根据他们的全球贡献,决定哪些决定对于全球解释(或本地,具体案件)是必不可少的。结果是基于多个模型的协议和用户出口的探索手动决策的最终决定。最后,我们通过用例,使用场景和用户学习评估患者的适用性和有效性。
translated by 谷歌翻译
近年来,人们对开发自然语言处理(NLP)中可解释模型的利益越来越多。大多数现有模型旨在识别输入功能,例如对于模型预测而言重要的单词或短语。然而,在NLP中开发的神经模型通常以层次结构的方式构成单词语义,文本分类需要层次建模来汇总本地信息,以便处理主题和标签更有效地转移。因此,单词或短语的解释不能忠实地解释文本分类中的模型决策。本文提出了一种新型的层次解释性神经文本分类器,称为提示,该分类器可以自动以层次结构方式以标记相关主题的形式生成模型预测的解释。模型解释不再处于单词级别,而是基于主题作为基本语义单元。评论数据集和新闻数据集的实验结果表明,我们所提出的方法与现有最新的文本分类器相当地达到文本分类结果,并比其他可解释的神经文本更忠实于模型的预测和更好地理解人类的解释分类器。
translated by 谷歌翻译
越来越多的电子健康记录(EHR)数据和深度学习技术进步的越来越多的可用性(DL)已经引发了在开发基于DL的诊断,预后和治疗的DL临床决策支持系统中的研究兴趣激增。尽管承认医疗保健的深度学习的价值,但由于DL的黑匣子性质,实际医疗环境中进一步采用的障碍障碍仍然存在。因此,有一个可解释的DL的新兴需求,它允许最终用户评估模型决策,以便在采用行动之前知道是否接受或拒绝预测和建议。在这篇综述中,我们专注于DL模型在医疗保健中的可解释性。我们首先引入深入解释性的方法,并作为该领域的未来研究人员或临床从业者的方法参考。除了这些方法的细节之外,我们还包括对这些方法的优缺点以及它们中的每个场景都适合的讨论,因此感兴趣的读者可以知道如何比较和选择它们供使用。此外,我们讨论了这些方法,最初用于解决一般域问题,已经适应并应用于医疗保健问题以及如何帮助医生更好地理解这些数据驱动技术。总的来说,我们希望这项调查可以帮助研究人员和从业者在人工智能(AI)和临床领域了解我们为提高其DL模型的可解释性并相应地选择最佳方法。
translated by 谷歌翻译
机器学习(ML)生命周期涉及一系列迭代步骤,从有效的收集和准备数据,包括复杂的特征工程流程,对结果的演示和改进,各种步骤中的各种算法选择。特征工程尤其可以对ML非常有益,导致许多改进,例如提高预测结果,降低计算时间,减少过度噪音,并提高培训期间所采取的决策背后的透明度。尽管如此,虽然存在多个视觉分析工具来监控和控制ML生命周期的不同阶段(特别是与数据和算法相关的阶段),但功能工程支持仍然不足。在本文中,我们提出了FightEnvi,一种专门设计用于协助特征工程过程的视觉分析系统。我们建议的系统可帮助用户选择最重要的功能,将原始功能转换为强大的替代方案,并进行不同的特征生成组合。此外,数据空间切片允许用户探索本地和全局尺度上的功能的影响。 Feationenvi利用多种自动特征选择技术;此外,它目视指导用户有统计证据的关于每个特征的影响(或功能的子集)。最终结果是通过多种验证度量评估的重新设计的重新设计特征。用两种用例和案例研究证明了FeatureenVI的有用性和适用性。我们还向评估我们系统的有效性以及评估我们系统的有效性的观众报告反馈。
translated by 谷歌翻译
Any organization needs to improve their products, services, and processes. In this context, engaging with customers and understanding their journey is essential. Organizations have leveraged various techniques and technologies to support customer engagement, from call centres to chatbots and virtual agents. Recently, these systems have used Machine Learning (ML) and Natural Language Processing (NLP) to analyze large volumes of customer feedback and engagement data. The goal is to understand customers in context and provide meaningful answers across various channels. Despite multiple advances in Conversational Artificial Intelligence (AI) and Recommender Systems (RS), it is still challenging to understand the intent behind customer questions during the customer journey. To address this challenge, in this paper, we study and analyze the recent work in Conversational Recommender Systems (CRS) in general and, more specifically, in chatbot-based CRS. We introduce a pipeline to contextualize the input utterances in conversations. We then take the next step towards leveraging reverse feature engineering to link the contextualized input and learning model to support intent recognition. Since performance evaluation is achieved based on different ML models, we use transformer base models to evaluate the proposed approach using a labelled dialogue dataset (MSDialogue) of question-answering interactions between information seekers and answer providers.
translated by 谷歌翻译
建模法检索和检索作为预测问题最近被出现为法律智能的主要方法。专注于法律文章检索任务,我们展示了一个名为Lamberta的深度学习框架,该框架被设计用于民法代码,并在意大利民法典上专门培训。为了我们的知识,这是第一项研究提出了基于伯特(来自变压器的双向编码器表示)学习框架的意大利法律制度对意大利法律制度的高级法律文章预测的研究,最近引起了深度学习方法的增加,呈现出色的有效性在几种自然语言处理和学习任务中。我们通过微调意大利文章或其部分的意大利预先训练的意大利预先训练的伯爵来定义Lamberta模型,因为法律文章作为分类任务检索。我们Lamberta框架的一个关键方面是我们构思它以解决极端的分类方案,其特征在于课程数量大,少量学习问题,以及意大利法律预测任务的缺乏测试查询基准。为了解决这些问题,我们为法律文章的无监督标签定义了不同的方法,原则上可以应用于任何法律制度。我们提供了深入了解我们Lamberta模型的解释性和可解释性,并且我们对单一标签以及多标签评估任务进行了广泛的查询模板实验分析。经验证据表明了Lamberta的有效性,以及对广泛使用的深度学习文本分类器和一些构思的几次学习者来说,其优越性是对属性感知预测任务的优势。
translated by 谷歌翻译
自动错误通常涉及培训数据和学习过程,调试机器学习模型很难。如果我们没有关于模型如何实际工作的线索,这变得更加困难。在这项调查中,我们审查了利用解释的论文使人类提供反馈和调试NLP模型。我们称这个问题解释为基础的人类调试(EBHD)。特别是,我们沿着EBHD的三个维度(错误上下文,工作流程和实验设置)分类和讨论现有工作,编译EBHD组件如何影响反馈提供商的调查结果,并突出可能是未来的研究方向的打开问题。
translated by 谷歌翻译