尽管最近的人工智能和机器学习进展,但许多最先进的方法缺乏解释性和透明度。解释机器学习模型的预测能力和准确评估这些模型的能力是至关重要的。在本文中,我们提出了一种互动可视化工具来阐明主动学习的培训过程。该工具使一个人能够选择有趣的数据点的样本,查看他们的预测值如何在不同的查询阶段改变,从而更好地了解活动学习工作的时间和程度。此外,用户可以利用此工具同时比较不同的主动学习策略,并检查为什么某些策略在某些情况下表达他人。通过一些初步实验,我们证明了我们的可视化面板在各种主动学习实验中使用了很大的潜力,并帮助用户适当地评估其模型。
translated by 谷歌翻译
尽管机器学习取得了巨大进步(ML),但数据不平衡的培训仍然在许多现实世界中构成挑战。在解决此问题的一系列不同技术中,采样算法被视为有效的解决方案。但是,问题更为根本,许多作品强调了实例硬度的重要性。这个问题是指管理不安全或可能嘈杂的实例的重要性,这些实例更可能被错误分类并作为分类绩效不佳的根本原因。本文介绍了Hardvis,这是一种视觉分析系统,旨在处理实例硬度,主要在分类场景中。我们提出的系统协助用户在视觉上比较数据类型的不同分布,根据局部特征选择实例类型,这些实例后来将受主动采样方法的影响,并验证来自底漆或过采样技术的建议对ML模型有益。此外,我们允许用户找到和采样轻松且难以对所有课程的培训实例进行分类,而不是统一地采样/过采样。用户可以从不同角度探索数据子集以决定所有这些参数,而HardVis则跟踪其步骤并评估模型在测试集中分别评估模型的预测性能。最终结果是一个均衡的数据集,可增强ML模型的预测能力。通过假设使用情况和用例证明了Hardvis的功效和有效性。最后,我们还研究了系统的有用,基于我们从ML专家那里收到的反馈。
translated by 谷歌翻译
As an important data selection schema, active learning emerges as the essential component when iterating an Artificial Intelligence (AI) model. It becomes even more critical given the dominance of deep neural network based models, which are composed of a large number of parameters and data hungry, in application. Despite its indispensable role for developing AI models, research on active learning is not as intensive as other research directions. In this paper, we present a review of active learning through deep active learning approaches from the following perspectives: 1) technical advancements in active learning, 2) applications of active learning in computer vision, 3) industrial systems leveraging or with potential to leverage active learning for data iteration, 4) current limitations and future research directions. We expect this paper to clarify the significance of active learning in a modern AI model manufacturing process and to bring additional research attention to active learning. By addressing data automation challenges and coping with automated machine learning systems, active learning will facilitate democratization of AI technologies by boosting model production at scale.
translated by 谷歌翻译
虽然深度学习(DL)是渴望数据的,并且通常依靠广泛的标记数据来提供良好的性能,但主动学习(AL)通过从未标记的数据中选择一小部分样本进行标签和培训来降低标签成本。因此,近年来,在有限的标签成本/预算下,深入的积极学习(DAL)是可行的解决方案,可在有限的标签成本/预算下最大化模型性能。尽管已经开发了大量的DAL方法并进行了各种文献综述,但在公平比较设置下对DAL方法的性能评估尚未可用。我们的工作打算填补这一空白。在这项工作中,我们通过重新实现19种引用的DAL方法来构建DAL Toolkit,即Deepal+。我们调查和分类与DAL相关的作品,并构建经常使用的数据集和DAL算法的比较实验。此外,我们探讨了影响DAL功效的一些因素(例如,批处理大小,训练过程中的时期数),这些因素为研究人员设计其DAL实验或执行DAL相关应用程序提供了更好的参考。
translated by 谷歌翻译
装袋和升压是在机器学习(ml)中的两个流行的集合方法,产生许多单独的决策树。由于这些方法的固有组合特性,它们通常以预测性能更优于单决定树或其他ML模型。然而,为每个决策树生成许多决定路径,增加了模型的整体复杂性,并阻碍了其在需要值得信赖和可解释的决策的域中的域,例如金融,社会护理和保健。因此,随着决策的数量升高,袋装和升降算法(例如随机森林和自适应升压)的解释性降低。在本文中,我们提出了一种视觉分析工具,该工具旨在帮助用户通过彻底的视觉检查工作流程从这种ML模型中提取决策,包括选择一套鲁棒和不同的模型(源自不同的集合学习算法),选择重要的功能根据他们的全球贡献,决定哪些决定对于全球解释(或本地,具体案件)是必不可少的。结果是基于多个模型的协议和用户出口的探索手动决策的最终决定。最后,我们通过用例,使用场景和用户学习评估患者的适用性和有效性。
translated by 谷歌翻译
本文解决了在水模型部署民主化中采用了机器学习的一些挑战。第一个挑战是减少了在主动学习的帮助下减少了标签努力(因此关注数据质量),模型推断与Oracle之间的反馈循环:如在保险中,未标记的数据通常丰富,主动学习可能会成为一个重要的资产减少标签成本。为此目的,本文在研究其对合成和真实数据集的实证影响之前,阐述了各种古典主动学习方法。保险中的另一个关键挑战是模型推论中的公平问题。我们将在此主动学习框架中介绍和整合一个用于多级任务的后处理公平,以解决这两个问题。最后对不公平数据集的数值实验突出显示所提出的设置在模型精度和公平性之间存在良好的折衷。
translated by 谷歌翻译
在主动学习中,一个有趣但没有广泛研究的问题是样本可重复使用性:一个学习者在多大程度上可以被另一个学习者重复使用?本文解释了为什么样本可重复使用性具有实际兴趣,为什么重复使用可能是一个问题,如何通过重要性加权的积极学习来改善可重复使用性以及哪些普遍可重复使用性的障碍仍然存在。通过理论论点和实际演示,本文认为普遍的可重复性是不可能的。因为每个活跃的学习策略都必须调解样本空间的某些领域,因此依赖于这些领域样本的学习者将从随机的样本选择中学习更多。本文描述了一些具有重要性加权的活跃学习的实验,这些实验表明了可重复性问题在实践中的影响。该实验证实了普遍的可重复使用性不存在,尽管在某些情况下 - 在某些数据集和某些分类器上 - 有样本可重复使用性。最后,本文探讨了可以保证两个分类器之间可重复使用性的条件。
translated by 谷歌翻译
在本文中,我们提出了DendroMap,这是一种新颖的方法,用于互动地探索用于机器学习的大规模图像数据集(ML)。 ML从业人员通常通过使用降低降低技术(例如T-SNE)生成图像的网格或将图像的高维表示分为2-D来探索图像数据集。但是,两种方法都没有有效地扩展到大型数据集,因为图像是无效组织的,并且相互作用不足。为了应对这些挑战,我们通过适应Treemaps(一种众所周知的可视化技术)来开发树突。树突图通过从图像的高维表示中提取层次群集结构来有效地组织图像。它使用户能够理解数据集的整体分布,并在多个抽象级别上进行交互放大到特定的兴趣领域。我们使用广泛使用的图像数据集进行深度学习的案例研究表明,用户可以通过检查图像的多样性,确定表现不佳的子组并分析分类错误,从而发现有关数据集和训练模型的见解。我们进行了一项用户研究,该研究通过将其与T-SNE的网状版本进行比较,评估了树突图在分组和搜索任务中的有效性,并发现参与者更喜欢DendroMap。 DendroMap可在https://div-lab.github.io/dendromap/上获得。
translated by 谷歌翻译
投影技术经常用于可视化高维数据,使用户能够更好地理解在2D屏幕上的多维空间的总体结构。尽管存在着许多这样的方法,相当小的工作已经逆投影的普及方法来完成 - 绘制投影点,或者更一般的过程中,投影空间回到原来的高维空间。在本文中我们提出NNInv,用近似的任何突起或映射的逆的能力的深学习技术。 NNInv学会重建上的二维投影空间从任意点高维数据,给用户在视觉分析系统所学习的高维表示的能力进行交互。我们提供NNInv的参数空间的分析,并在选择这些参数提供指导。我们通过一系列定量和定性分析的延长NNInv的有效性验证。交互式实例中插值,分级协议,梯度可视化:然后,我们把它应用到三个可视化任务,验证了该方法的效用。
translated by 谷歌翻译
Time-series anomaly detection is an important task and has been widely applied in the industry. Since manual data annotation is expensive and inefficient, most applications adopt unsupervised anomaly detection methods, but the results are usually sub-optimal and unsatisfactory to end customers. Weak supervision is a promising paradigm for obtaining considerable labels in a low-cost way, which enables the customers to label data by writing heuristic rules rather than annotating each instance individually. However, in the time-series domain, it is hard for people to write reasonable labeling functions as the time-series data is numerically continuous and difficult to be understood. In this paper, we propose a Label-Efficient Interactive Time-Series Anomaly Detection (LEIAD) system, which enables a user to improve the results of unsupervised anomaly detection by performing only a small amount of interactions with the system. To achieve this goal, the system integrates weak supervision and active learning collaboratively while generating labeling functions automatically using only a few labeled data. All of these techniques are complementary and can promote each other in a reinforced manner. We conduct experiments on three time-series anomaly detection datasets, demonstrating that the proposed system is superior to existing solutions in both weak supervision and active learning areas. Also, the system has been tested in a real scenario in industry to show its practicality.
translated by 谷歌翻译
One of the most successful paradigms for reward learning uses human feedback in the form of comparisons. Although these methods hold promise, human comparison labeling is expensive and time consuming, constituting a major bottleneck to their broader applicability. Our insight is that we can greatly improve how effectively human time is used in these approaches by batching comparisons together, rather than having the human label each comparison individually. To do so, we leverage data dimensionality-reduction and visualization techniques to provide the human with a interactive GUI displaying the state space, in which the user can label subportions of the state space. Across some simple Mujoco tasks, we show that this high-level approach holds promise and is able to greatly increase the performance of the resulting agents, provided the same amount of human labeling time.
translated by 谷歌翻译
自动错误通常涉及培训数据和学习过程,调试机器学习模型很难。如果我们没有关于模型如何实际工作的线索,这变得更加困难。在这项调查中,我们审查了利用解释的论文使人类提供反馈和调试NLP模型。我们称这个问题解释为基础的人类调试(EBHD)。特别是,我们沿着EBHD的三个维度(错误上下文,工作流程和实验设置)分类和讨论现有工作,编译EBHD组件如何影响反馈提供商的调查结果,并突出可能是未来的研究方向的打开问题。
translated by 谷歌翻译
业务分析和机器学习已成为各个行业的基本成功因素 - 具有成本密集的收集和数据标签的缺点。很少有学习可以解决这一挑战,并通过学习新颖的课程的标记数据来减少数据收集和标记成本。在本文中,我们设计了一个人类的(HITL)系统,用于几次学习,并分析了广泛的机制,这些机制可用于获得不确定预测结果的实例的人类专家知识。我们表明,获得人类专家知识的获取可以显着加速鉴于可忽略的标签工作,这使得少量模型的表现。我们在计算机视觉和现实世界数据集中的基准数据集上的各种实验中验证了我们的发现。我们进一步证明了HITL系统的成本效益,用于几次学习。总体而言,我们的工作旨在支持研究人员和从业人员有效地将机器学习模型以降低的成本调整为新颖的课程。
translated by 谷歌翻译
主动学习(AL)算法旨在识别注释的最佳数据子集,使得深神经网络(DNN)在此标记子集上培训时可以实现更好的性能。 AL特别有影响的工业规模设置,其中数据标签成本高,从业者使用各种工具来处理,以提高模型性能。最近自我监督预测(SSP)的成功突出了利用丰富的未标记数据促进模型性能的重要性。通过将AL与SSP结合起来,我们可以使用未标记的数据,同时标记和培训特别是信息样本。在这项工作中,我们研究了Imagenet上的AL和SSP的组合。我们发现小型玩具数据集上的性能 - 文献中的典型基准设置 - 由于活动学习者选择的类不平衡样本,而不是想象中的性能。在我们测试的现有基线中,各种小型和大规​​模设置的流行AL算法未能以随机抽样优于差异。为了解决类别不平衡问题,我们提出了平衡选择(基础),这是一种简单,可伸缩的AL算法,通过选择比现有方法更加平衡样本来始终如一地始终采样。我们的代码可用于:https://github.com/zeyademam/active_learning。
translated by 谷歌翻译
我们查看模型可解释性的特定方面:模型通常需要限制在大小上才能被认为是可解释的,例如,深度5的决策树比深度50中的一个更容易解释。但是,较小的模型也倾向于高偏见。这表明可解释性和准确性之间的权衡。我们提出了一种模型不可知论技术,以最大程度地减少这种权衡。我们的策略是首先学习甲骨文,这是培训数据上高度准确的概率模型。 Oracle预测的不确定性用于学习培训数据的抽样分布。然后,对使用此分布获得的数据样本进行了可解释的模型,通常会导致精确度明显更高。我们将抽样策略作为优化问题。我们的解决方案1具有以下关键的有利属性:(1)它使用固定数量的七个优化变量,而与数据的维度(2)无关,它是模型不可知的 - 因为可解释的模型和甲骨文都可能属于任意性模型家族(3)它具有模型大小的灵活概念,并且可以容纳向量大小(4)它是一个框架,使其能够从优化领域的进度中受益。我们还提出了以下有趣的观察结果:(a)通常,小型模型大小的最佳训练分布与测试分布不同; (b)即使可解释的模型和甲骨文来自高度截然不同的模型家族,也存在这种效果:我们通过使用封闭的复发单位网络作为甲骨文来提高决策树的序列分类精度,从而在文本分类任务上显示此效果。使用字符n-grams; (c)对于模型,我们的技术可用于确定给定样本量的最佳训练样本。
translated by 谷歌翻译
注意力指导是一种解决深度学习中数据集偏见的方法,该模型依赖于错误的功能来做出决策。为了关注图像分类任务,我们提出了一个有效的人类在环境系统中,以交互性地将分类器的注意力引向用户指定的区域,从而降低了共发生偏见的影响,并提高了DNN的可传递性和可解释性。以前的注意力指导需要准备像素级注释,而不是被设计为交互式系统。我们提出了一种新的交互式方法,可让用户简单地点击注释图像,并研究一种新颖的主动学习策略,以显着减少注释的数量。我们既进行了数值评估,又进行了用户研究,以评估多个数据集上提出的系统。与现有的非活性学习方法相比,通常依靠大量基于多边形的分割口罩来微调或训练DNNS,我们的系统可以节省大量的劳动力和金钱,并获得一个效用更好的网络即使数据集有偏见。实验结果表明,所提出的系统是有效,合理且可靠的。
translated by 谷歌翻译
主动学习通过从未标记的数据集中标记有信息的样本来有效地构建标记的数据集。在现实世界中的活跃学习方案中,考虑到所选样本的多样性至关重要,因为存在许多冗余或高度相似的样本。核心设定方法是基于多样性的有希望的方法,根据样品之间的距离选择不同的样品。然而,与选择最困难的样本的基于不确定性的方法相比,该方法的性能差,神经模型表现出低置信度。在这项工作中,我们通过密度的晶状体分析特征空间,有趣的是,观察到局部稀疏区域往往比密集区域具有更多信息样本。通过我们的分析,我们将核心设定方法赋予密度意识,并提出密度感知的核心集(DACS)。该策略是估计未标记样品的密度,并主要从稀疏区域选择不同的样品。为了减少估计密度的计算瓶颈,我们还基于对区域敏感的散列引入了新的密度近似。实验结果清楚地表明了DAC在分类和回归任务中的功效,并特别表明DAC可以在实际情况下产生最先进的性能。由于DACS微弱地取决于神经体系结构,因此我们提出了一种简单而有效的组合方法,以表明现有方法可以与DAC合并。
translated by 谷歌翻译
决策支持系统在农业领域越来越受欢迎。随着自动化机器学习的发展,农业专家现在能够使用切削刃机器学习(ML)模型来培训,评估和做出预测,而无需大得多。虽然这种自动化方法导致了许多情况下的成功结果,但在某些情况下(例如,当有很多标记的数据集可用时)选择具有类似性能度量的不同模型中是一项艰巨的任务。此外,这些系统通常不允许用户纳入其域知识,这些域知识可以促进模型选择的任务,并深入了解最终决策的预测系统。为了解决这些问题,在本文中,我们展示了一种视觉支持系统,允许域专家更好地理解,诊断和比较不同的回归模型,主要是通过丰富具有域知识的模型不可知的解释。为了验证AHMOSE,我们描述了葡萄栽培领域的用例场景,葡萄质量预测,系统使用户能够诊断和选择更好的预测模型。我们还讨论了关于ML和葡萄栽培专家的工具设计的反馈。
translated by 谷歌翻译
无论是在功能选择的领域还是可解释的AI领域,都有基于其重要性的“排名”功能的愿望。然后可以将这种功能重要的排名用于:(1)减少数据集大小或(2)解释机器学习模型。但是,在文献中,这种特征排名没有以系统的,一致的方式评估。许多论文都有不同的方式来争论哪些具有重要性排名最佳的特征。本文通过提出一种新的评估方法来填补这一空白。通过使用合成数据集,可以事先知道特征重要性得分,从而可以进行更系统的评估。为了促进使用新方法的大规模实验,在Python建造了一个名为FSEVAL的基准测定框架。该框架允许并行运行实验,并在HPC系统上的计算机上分布。通过与名为“权重和偏见”的在线平台集成,可以在实时仪表板上进行交互探索图表。该软件作为开源软件发布,并在PYPI平台上以包裹发行。该研究结束时,探索了一个这样的大规模实验,以在许多方面找到参与算法的优势和劣势。
translated by 谷歌翻译
标记数据可以是昂贵的任务,因为它通常由域专家手动执行。对于深度学习而言,这是繁琐的,因为它取决于大型标记的数据集。主动学习(AL)是一种范式,旨在通过仅使用二手车型认为最具信息丰富的数据来减少标签努力。在文本分类设置中,在AL上完成了很少的研究,旁边没有涉及最近的最先进的自然语言处理(NLP)模型。在这里,我们介绍了一个实证研究,可以将基于不确定性的基于不确定性的算法与Bert $ _ {base} $相比,作为使用的分类器。我们评估两个NLP分类数据集的算法:斯坦福情绪树木银行和kvk-Front页面。此外,我们探讨了旨在解决不确定性的al的预定问题的启发式;即,它是不可规范的,并且易于选择异常值。此外,我们探讨了查询池大小对al的性能的影响。虽然发现,AL的拟议启发式没有提高AL的表现;我们的结果表明,使用BERT $ _ {Base} $概率使用不确定性的AL。随着查询池大小变大,性能的这种差异可以减少。
translated by 谷歌翻译