自动错误通常涉及培训数据和学习过程,调试机器学习模型很难。如果我们没有关于模型如何实际工作的线索,这变得更加困难。在这项调查中,我们审查了利用解释的论文使人类提供反馈和调试NLP模型。我们称这个问题解释为基础的人类调试(EBHD)。特别是,我们沿着EBHD的三个维度(错误上下文,工作流程和实验设置)分类和讨论现有工作,编译EBHD组件如何影响反馈提供商的调查结果,并突出可能是未来的研究方向的打开问题。
translated by 谷歌翻译
视觉问题应答(VQA)任务利用视觉图像和语言分析来回回答图像的文本问题。它是一个流行的研究课题,在过去十年中越来越多的现实应用。本文介绍了我们最近对AliceMind-MMU的研究(阿里巴巴的编码器 - 解码器来自Damo Academy - 多媒体理解的机器智能实验室),其比人类在VQA上获得相似甚至略微更好的结果。这是通过系统地改善VQA流水线来实现的,包括:(1)具有全面的视觉和文本特征表示的预培训; (2)与学习参加的有效跨模型互动; (3)一个新颖的知识挖掘框架,具有专门的专业专家模块,适用于复杂的VQA任务。处理不同类型的视觉问题,需要具有相应的专业知识在提高我们的VQA架构的表现方面发挥着重要作用,这取决于人力水平。进行了广泛的实验和分析,以证明新的研究工作的有效性。
translated by 谷歌翻译
过去十年已经看到人工智能(AI)的显着进展,这导致了用于解决各种问题的算法。然而,通过增加模型复杂性并采用缺乏透明度的黑匣子AI模型来满足这种成功。为了响应这种需求,已经提出了说明的AI(Xai)以使AI更透明,从而提高关键结构域中的AI。虽然有几个关于Xai主题的Xai主题的评论,但在Xai中发现了挑战和潜在的研究方向,这些挑战和研究方向被分散。因此,本研究为Xai组织的挑战和未来的研究方向提出了系统的挑战和未来研究方向:(1)基于机器学习生命周期的Xai挑战和研究方向,基于机器的挑战和研究方向阶段:设计,开发和部署。我们认为,我们的META调查通过为XAI地区的未来探索指导提供了XAI文学。
translated by 谷歌翻译
医学视觉问题应答(VQA)是医疗人工智能和流行的VQA挑战的组合。鉴于医学形象和在自然语言中的临床相关问题,预计医疗VQA系统将预测符号和令人信服的答案。虽然一般域VQA已被广泛研究,但医疗VQA仍然需要特定的调查和探索,因为它的任务特征是。在本调查的第一部分,我们涵盖并讨论了关于数据源,数据数量和任务功能的公开可用的医疗VQA数据集。在第二部分中,我们审查了医疗VQA任务中使用的方法。在最后,我们分析了该领域的一些有效的挑战,并讨论了未来的研究方向。
translated by 谷歌翻译
与此同时,在可解释的人工智能(XAI)的研究领域中,已经开发了各种术语,动机,方法和评估标准。随着XAI方法的数量大大增长,研究人员以及从业者以及从业者需要一种方法:掌握主题的广度,比较方法,并根据特定用例所需的特征选择正确的XAI方法语境。在文献中,可以找到许多不同细节水平和深度水平的XAI方法分类。虽然他们经常具有不同的焦点,但它们也表现出许多重叠点。本文统一了这些努力,并提供了XAI方法的分类,这是关于目前研究中存在的概念的概念。在结构化文献分析和元研究中,我们识别并审查了XAI方法,指标和方法特征的50多个最引用和最新的调查。总结在调查调查中,我们将文章的术语和概念合并为统一的结构化分类。其中的单一概念总计超过50个不同的选择示例方法,我们相应地分类。分类学可以为初学者,研究人员和从业者提供服务作为XAI方法特征和方面的参考和广泛概述。因此,它提供了针对有针对性的,用例导向的基础和上下文敏感的未来研究。
translated by 谷歌翻译
随着AI系统表现出越来越强烈的预测性能,它们的采用已经在许多域中种植。然而,在刑事司法和医疗保健等高赌场域中,由于安全,道德和法律问题,往往是完全自动化的,但是完全手工方法可能是不准确和耗时的。因此,对研究界的兴趣日益增长,以增加人力决策。除了为此目的开发AI技术之外,人民AI决策的新兴领域必须采用实证方法,以形成对人类如何互动和与AI合作做出决定的基础知识。为了邀请和帮助结构研究努力了解理解和改善人为 - AI决策的研究,我们近期对本课题的实证人体研究的文献。我们总结了在三个重要方面的100多篇论文中的研究设计选择:(1)决定任务,(2)AI模型和AI援助要素,以及(3)评估指标。对于每个方面,我们总结了当前的趋势,讨论了现场当前做法中的差距,并列出了未来研究的建议。我们的调查强调了开发共同框架的需要考虑人类 - AI决策的设计和研究空间,因此研究人员可以在研究设计中进行严格的选择,研究界可以互相构建并产生更广泛的科学知识。我们还希望这项调查将成为HCI和AI社区的桥梁,共同努力,相互塑造人类决策的经验科学和计算技术。
translated by 谷歌翻译
由于自然语言处理和基于计算机视觉模型的显着进步,视觉问题应答(VQA)系统变得越来越聪明,高级。然而,在处理相对复杂的问题时,它们仍然易于出错。因此,在采用结果之前了解VQA模型的行为非常重要。在本文中,我们通过生成反事实图像来引入VQA模型的可解释方法。具体地,所生成的图像应该具有对原始图像具有最小可能的改变,并引导VQA模型来提供不同的答案。此外,我们的方法确保生成的图像是逼真的。由于无法使用定量度量来评估模型的可解释性,因此我们进行了用户学习,以评估我们方法的不同方面。除了在单个图像上解释VQA模型的结果,所获得的结果和讨论还提供了对VQA模型的行为的广泛解释。
translated by 谷歌翻译
我们介绍了视觉问题应答(VQA)的评估方法,以更好地诊断捷径学习案例。当模型利用虚假统计规则产生正确答案但实际上没有部署所需的行为时,会发生这些情况。需要在数据集中识别可能的快捷方式,并在部署现实世界中的模型之前评估它们的使用。 VQA的研究界专注于基于问题的快捷方式,其中模型可能是通过依赖于先前的问题条件培训并提供重量的问题条件培训来回答“天空的颜色”。视觉证据。我们进一步逐步,考虑涉及两个问题和图像的多模式捷径。我们首先通过挖掘琐碎的预测规则,例如诸如单词和视觉元素的共同发生的琐碎的预测规则来确定流行的VQA V2培训中的潜在捷径。然后,我们将介绍VQA-Consterexamples(VQA-CE),一个评估协议,基于我们的反例等的子集i.e.图像 - 问题答案三胞胎,我们的规则导致错误的答案。我们在大规模研究VQA现有方法中使用这一新评估。我们表明即使是最先进的模型也表现不佳,并且在这种情况下,降低偏差的现有技术在很大程度上无效。我们的研究结果表明,过去的vqa中的基于问题的偏差的工作仅签署了一个复杂问题的一个方面。我们方法的代码可在https://github.com/cdancette/detect-shortcut中获得。
translated by 谷歌翻译
目前的视觉问题应答(VQA)任务主要考虑回答自然图像的人为注释问题。然而,除了自然图像之外,在视觉理解和推理研究中仍然可以解读具有语义丰富性的抽象图。在这项工作中,我们介绍了ICON问题的新挑战(ICONQA),其目标是在图标图像上下文中回答问题。我们发布了ICONQA,这是一个由107,439个问题和三个子任务组成的大型数据集:多图像选择,多文本选择和填充空白。 ICONQA数据集是由真实世界图中的启发,突出了抽象图理解和综合认知推理的重要性。因此,ICONQA不仅需要对象识别和文本理解等感知技能,而且还需要多种认知推理技能,例如几何推理,致辞推理和算术推理。为了促进潜在的iconqa模型来学习图标图像的语义表示,我们进一步发布了一个图标数据集图标645,其中包含377级上的645,687个彩色图标。我们进行广泛的用户研究和盲目实验,并重现各种先进的VQA方法来基准iconQA任务。此外,我们开发了一个强大的ICONQA基线Patch-TRM,它应用金字塔跨模型变压器,其中包含在图标数据集上预先培训的输入图嵌入式。 iconqa和图标645可在https://iconqa.github.io提供。
translated by 谷歌翻译
视觉问题应答(VQA)是一个具有挑战性的任务,在计算机视觉和自然语言处理领域中引起了越来越多的关注。然而,目前的视觉问题回答具有语言偏差问题,这减少了模型的稳健性,对视觉问题的实际应用产生了不利影响。在本文中,我们首次对该领域进行了全面的审查和分析,并根据三个类别对现有方法进行分类,包括增强视觉信息,弱化语言前瞻,数据增强和培训策略。与此同时,依次介绍相关的代表方法,依次汇总和分析。揭示和分类语言偏见的原因。其次,本文介绍了主要用于测试的数据集,并报告各种现有方法的实验结果。最后,我们讨论了该领域的可能的未来研究方向。
translated by 谷歌翻译
尽管有无数的同伴审查的论文,证明了新颖的人工智能(AI)基于大流行期间的Covid-19挑战的解决方案,但很少有临床影响。人工智能在Covid-19大流行期间的影响因缺乏模型透明度而受到极大的限制。这种系统审查考察了在大流行期间使用可解释的人工智能(Xai)以及如何使用它可以克服现实世界成功的障碍。我们发现,Xai的成功使用可以提高模型性能,灌输信任在最终用户,并提供影响用户决策所需的值。我们将读者介绍给常见的XAI技术,其实用程序以及其应用程序的具体例子。 XAI结果的评估还讨论了最大化AI的临床决策支持系统的价值的重要步骤。我们说明了Xai的古典,现代和潜在的未来趋势,以阐明新颖的XAI技术的演变。最后,我们在最近出版物支持的实验设计过程中提供了建议的清单。潜在解决方案的具体示例也解决了AI解决方案期间的共同挑战。我们希望本次审查可以作为提高未来基于AI的解决方案的临床影响的指导。
translated by 谷歌翻译
基于知识的视觉问题的问题涉及除了图像内容之外还涉及需要外部知识的问题。这些知识通常有各种形式,包括视觉,文本和致辞知识。使用更多知识来源,增加了检索更无关紧要或嘈杂的事实的可能性,使其充实并找到答案的挑战。为了解决这一挑战,我们使用外部知识(MAVEX)提出了多模态答案验证,其中该想法是根据答案特定知识检索验证一组有希望的答案候选者。而不是在大多数现有方法中搜索大量不相关的事实中的答案,Mavex旨在学习如何从嘈杂来源中提取相关知识,这是对每个答复候选者的信任,以及如何使用候选者那个来源。除了以维基百科句子和概念概念的形式之外,我们的多模态设置是第一个利用外部视觉知识(使用谷歌搜索的图像)。我们的实验与OK-VQA是一个具有挑战性的知识VQA数据集,证明了MAVEX实现了新的最先进的结果。我们的代码可在https://github.com/jialinwu17/mavex提供
translated by 谷歌翻译
最先进的深度学习方法在许多任务上实现了类似人类的表现,但仍会犯错。用易于解释的术语表征这些错误,可以深入了解分类器是否容易出现系统错误,但也提供了一种行动和改善分类器的方法。我们建议发现与正确响应密切相关的那些特征值组合(即模式)。错误的预测,以获取任意分类器的全局和可解释的描述。我们证明这是更通用的标签描述问题的实例,我们根据最小描述长度原理提出了这一点。要发现一个良好的模式集,我们开发了有效的前提算法。通过大量的实验,我们表明它在合成数据和现实世界中的实践中表现出色。与现有的解决方案不同,即使在许多功能上的高度不平衡数据上,它也可以恢复地面真相模式。通过两个有关视觉问题答案和命名实体识别的案例研究,我们确认前提可以清楚且可行的见解对现代NLP分类器的系统错误。
translated by 谷歌翻译
自动问题应答(QA)系统的目的是以时间有效的方式向用户查询提供答案。通常在数据库(或知识库)或通常被称为语料库的文件集合中找到答案。在过去的几十年里,收购知识的扩散,因此生物医学领域的新科学文章一直是指数增长。因此,即使对于领域专家,也难以跟踪域中的所有信息。随着商业搜索引擎的改进,用户可以在某些情况下键入其查询并获得最相关的一小组文档,以及在某些情况下从文档中的相关片段。但是,手动查找所需信息或答案可能仍然令人疑惑和耗时。这需要开发高效的QA系统,该系统旨在为用户提供精确和精确的答案提供了生物医学领域的自然语言问题。在本文中,我们介绍了用于开发普通域QA系统的基本方法,然后彻底调查生物医学QA系统的不同方面,包括使用结构化数据库和文本集合的基准数据集和几种提出的方​​法。我们还探讨了当前系统的局限性,并探索潜在的途径以获得进一步的进步。
translated by 谷歌翻译
在本报告中,我们展示了ICDAR 2021版文档视觉问题挑战的结果。此版本在单个文档VQA和Document Collection VQA上补充了以前的任务,并在Infographics VQA上进行了新引入的。信息图表VQA基于超过5,000个信息图表图像和30,000个问题答案对的新数据集。获胜者方法在Infographics VQA任务中获得了0.6120个ANL,0.7743 anlsl在文档集中的VQA任务和单个文档VQA中的0.8705 ANL中。我们展示了用于每个任务的数据集的摘要,每个提交的方法的描述以及它们的性能的结果和分析。由于还提出了自从第一版DocVQA 2020挑战以来在单个文档VQA上取得的摘要。
translated by 谷歌翻译
背景信息:在过去几年中,机器学习(ML)一直是许多创新的核心。然而,包括在所谓的“安全关键”系统中,例如汽车或航空的系统已经被证明是非常具有挑战性的,因为ML的范式转变为ML带来完全改变传统认证方法。目的:本文旨在阐明与ML为基础的安全关键系统认证有关的挑战,以及文献中提出的解决方案,以解决它们,回答问题的问题如何证明基于机器学习的安全关键系统?'方法:我们开展2015年至2020年至2020年之间发布的研究论文的系统文献综述(SLR),涵盖了与ML系统认证有关的主题。总共确定了217篇论文涵盖了主题,被认为是ML认证的主要支柱:鲁棒性,不确定性,解释性,验证,安全强化学习和直接认证。我们分析了每个子场的主要趋势和问题,并提取了提取的论文的总结。结果:单反结果突出了社区对该主题的热情,以及在数据集和模型类型方面缺乏多样性。它还强调需要进一步发展学术界和行业之间的联系,以加深域名研究。最后,它还说明了必须在上面提到的主要支柱之间建立连接的必要性,这些主要柱主要主要研究。结论:我们强调了目前部署的努力,以实现ML基于ML的软件系统,并讨论了一些未来的研究方向。
translated by 谷歌翻译
在本文中,我们提出了端到端的结构化多峰关注(SMA)神经网络,主要解决了上述前两个问题。 SMA首先使用结构图表示来编码图像中出现的对象对象,对象文本和文本文本关系,然后设计多模式图注意网络以推理它。最后,由上述模块的输出由全局本地注意力应答模块处理,以通过跟随M4C迭代地生成从两个OCR和常规词汇拼接的答案。我们所提出的模型优于TextVQA数据集上的SOTA模型以及除基于预先训练的水龙头之外的所有模型中的所有模型中的ST-VQA数据集的两个任务。展示了强大的推理能力,它还在TextVQA挑战中获得了第一名的第一名。我们在几种推理模型中广泛测试了不同的OCR方法,并调查了逐步提高了OCR性能对TextVQA基准的影响。通过更好的OCR结果,不同的型号对VQA准确性的戏剧性提高,但我们的模型受益最强烈的文本视觉推理能力。要授予我们的方法,并为进一步作品提供公平的测试基础,我们还为TextVQA数据集提供人为的地面实际OCR注释,这些ocr注释未在原始版本中提供。 TextVQA数据集的代码和地面ocr注释在https://github.com/chenyugao-cs/sma提供
translated by 谷歌翻译
人工智能(AI)使机器能够从人类经验中学习,适应新的输入,并执行人类的人类任务。 AI正在迅速发展,从过程自动化到认知增强任务和智能流程/数据分析的方式转换业务方式。然而,人类用户的主要挑战是理解和适当地信任AI算法和方法的结果。在本文中,为了解决这一挑战,我们研究并分析了最近在解释的人工智能(XAI)方法和工具中所做的最新工作。我们介绍了一种新颖的XAI进程,便于生产可解释的模型,同时保持高水平的学习性能。我们提出了一种基于互动的证据方法,以帮助人类用户理解和信任启用AI的算法创建的结果和输出。我们在银行域中采用典型方案进行分析客户交易。我们开发数字仪表板以促进与算法的互动结果,并讨论如何提出的XAI方法如何显着提高数据科学家对理解启用AI的算法结果的置信度。
translated by 谷歌翻译
每年医生对患者的基于形象的诊断需求越来越大,是最近的人工智能方法可以解决的问题。在这种情况下,我们在医学图像的自动报告领域进行了调查,重点是使用深神经网络的方法,了解:(1)数据集,(2)架构设计,(3)解释性和(4)评估指标。我们的调查确定了有趣的发展,也是留下挑战。其中,目前对生成的报告的评估尤为薄弱,因为它主要依赖于传统的自然语言处理(NLP)指标,这不准确地捕获医疗正确性。
translated by 谷歌翻译
Deep neural networks (DNNs) have demonstrated superior performance over classical machine learning to support many features in safety-critical systems. Although DNNs are now widely used in such systems (e.g., self driving cars), there is limited progress regarding automated support for functional safety analysis in DNN-based systems. For example, the identification of root causes of errors, to enable both risk analysis and DNN retraining, remains an open problem. In this paper, we propose SAFE, a black-box approach to automatically characterize the root causes of DNN errors. SAFE relies on a transfer learning model pre-trained on ImageNet to extract the features from error-inducing images. It then applies a density-based clustering algorithm to detect arbitrary shaped clusters of images modeling plausible causes of error. Last, clusters are used to effectively retrain and improve the DNN. The black-box nature of SAFE is motivated by our objective not to require changes or even access to the DNN internals to facilitate adoption.Experimental results show the superior ability of SAFE in identifying different root causes of DNN errors based on case studies in the automotive domain. It also yields significant improvements in DNN accuracy after retraining, while saving significant execution time and memory when compared to alternatives. CCS Concepts: • Software and its engineering → Software defect analysis; • Computing methodologies → Machine learning.
translated by 谷歌翻译