目的:分类器传输通常带有数据集偏移。为了克服它们,必须采用在线策略。对于实际应用,必须考虑用于适应批处理学习算法(例如SVM)的计算资源的局限性。方法:我们审查并比较了在线学习的几种策略与SVM。我们专注于限制存储培训数据大小的数据选择策略[...]主要结果:对于不同的数据移动,不同的标准是合适的。对于合成数据,将所有样品添加到所考虑的样品库中的性能通常比其他标准差得多。特别是,仅添加错误分类的样本表现出色。在这里,当其他标准没有得到很好的选择时,平衡标准非常重要。对于转移设置,结果表明,最佳策略取决于转移过程中漂移的强度。添加全部并删除最古老的样品会导致最佳性能,而对于较小的漂移,仅添加SVM的潜在新支持向量就足以减少处理资源。意义:对于基于脑电图模型的BCIS,使用了校准会话中的数据,先前的录制会话,甚至是与一个或其他主题的录音会话进行培训。学习模型的这种转移通常会降低性能,因此可以从在线学习中受益,从而适应了像已建立的SVM这样的分类器。我们表明,通过使用正确的数据选择标准组合,可以适应分类器并在很大程度上提高性能。此外,在某些情况下,可以通过使用特殊样本的子集更新并保留一小部分样品来训练分类器来加快处理并节省计算。
translated by 谷歌翻译
流数据分类的重要问题之一是概念漂移的发生,包括分类任务的概率特征的变化。这种现象不稳定了分类模型的性能,并严重降低了其质量。需要抵消这种现象的适当策略来使分类器适应变化的概率特征。实现此类解决方案的一个重要问题是访问数据标签。它通常是昂贵的,从而最大限度地减少与该过程相关的费用,提出了基于半监督学习的学习策略,例如,采用主动学习方法,该方法指示哪些传入对象是有价值的,以便标记为提高分类器的性能。本文提出了一种基于基于分类器集合学习的非静止数据流的基于块的方法,以及考虑可以成功应用于任何数据流分类算法的有限预算的主动学习策略。已经通过使用真实和生成的数据流进行了计算机实验来评估所提出的方法。结果证实了最先进的方法的高质量。
translated by 谷歌翻译
Concept drift primarily refers to an online supervised learning scenario when the relation between the input data and the target variable changes over time. Assuming a general knowledge of supervised learning in this paper we characterize adaptive learning process, categorize existing strategies for handling concept drift, overview the most representative, distinct and popular techniques and algorithms, discuss evaluation methodology of adaptive algorithms, and present a set of illustrative applications. The survey covers the different facets of concept drift in an integrated way to reflect on the existing scattered state-of-the-art. Thus, it aims at providing a comprehensive introduction to the concept drift adaptation for researchers, industry analysts and practitioners.
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译
Concept drift describes unforeseeable changes in the underlying distribution of streaming data over time. Concept drift research involves the development of methodologies and techniques for drift detection, understanding and adaptation. Data analysis has revealed that machine learning in a concept drift environment will result in poor learning results if the drift is not addressed. To help researchers identify which research topics are significant and how to apply related techniques in data analysis tasks, it is necessary that a high quality, instructive review of current research developments and trends in the concept drift field is conducted. In addition, due to the rapid development of concept drift in recent years, the methodologies of learning under concept drift have become noticeably systematic, unveiling a framework which has not been mentioned in literature. This paper reviews over 130 high quality publications in concept drift related research areas, analyzes up-to-date developments in methodologies and techniques, and establishes a framework of learning under concept drift including three main components: concept drift detection, concept drift understanding, and concept drift adaptation. This paper lists and discusses 10 popular synthetic datasets and 14 publicly available benchmark datasets used for evaluating the performance of learning algorithms aiming at handling concept drift. Also, concept drift related research directions are covered and discussed. By providing state-of-the-art knowledge, this survey will directly support researchers in their understanding of research developments in the field of learning under concept drift.
translated by 谷歌翻译
大多数机器学习算法由一个或多个超参数配置,必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置,可以采用各种自动超参数优化(HPO)方法,例如,基于监督机器学习的重新采样误差估计。本文介绍了HPO后,本文审查了重要的HPO方法,如网格或随机搜索,进化算法,贝叶斯优化,超带和赛车。它给出了关于进行HPO的重要选择的实用建议,包括HPO算法本身,性能评估,如何将HPO与ML管道,运行时改进和并行化结合起来。这项工作伴随着附录,其中包含关于R和Python的特定软件包的信息,以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑,这些笔记本展示了这项工作的概念作为补充文件。
translated by 谷歌翻译
脑电图(EEG)解码旨在识别基于非侵入性测量的脑活动的神经处理的感知,语义和认知含量。当应用于在静态,受控的实验室环境中获取的数据时,传统的EEG解码方法取得了适度的成功。然而,开放世界的环境是一个更现实的环境,在影响EEG录音的情况下,可以意外地出现,显着削弱了现有方法的鲁棒性。近年来,由于其在特征提取的卓越容量,深入学习(DL)被出现为潜在的解决方案。它克服了使用浅架构提取的“手工制作”功能或功能的限制,但通常需要大量的昂贵,专业标记的数据 - 并不总是可获得的。结合具有域特定知识的DL可能允许开发即使具有小样本数据,也可以开发用于解码大脑活动的鲁棒方法。虽然已经提出了各种DL方法来解决EEG解码中的一些挑战,但目前缺乏系统的教程概述,特别是对于开放世界应用程序。因此,本文为开放世界EEG解码提供了对DL方法的全面调查,并确定了有前途的研究方向,以激发现实世界应用中的脑电图解码的未来研究。
translated by 谷歌翻译
Label noise is an important issue in classification, with many potential negative consequences. For example, the accuracy of predictions may decrease, whereas the complexity of inferred models and the number of necessary training samples may increase. Many works in the literature have been devoted to the study of label noise and the development of techniques to deal with label noise. However, the field lacks a comprehensive survey on the different types of label noise, their consequences and the algorithms that consider label noise. This paper proposes to fill this gap. First, the definitions and sources of label noise are considered and a taxonomy of the types of label noise is proposed. Second, the potential consequences of label noise are discussed. Third, label noise-robust, label noise cleansing, and label noise-tolerant algorithms are reviewed. For each category of approaches, a short discussion is proposed to help the practitioner to choose the most suitable technique in its own particular field of application. Eventually, the design of experiments is also discussed, what may interest the researchers who would like to test their own algorithms. In this paper, label noise consists of mislabeled instances: no additional information is assumed to be available like e.g. confidences on labels.
translated by 谷歌翻译
机器学习(ML)应用程序的数据量不断增长。不仅是观察的数量,特别是测量变量的数量(特征)增加了持续的数字化。选择最适合预测建模的功能是ML在商业和研究中取得成功的重要杠杆。特征选择方法(FSM)独立于某种ML算法 - 所谓的过滤方法 - 已毫无意义地建议,但研究人员和定量建模的指导很少,以选择典型ML问题的适当方法。本次审查在特征选择基准上综合了大量文献,并评估了58种方法在广泛使用的R环境中的性能。对于具体的指导,我们考虑了四种典型的数据集方案,这些情况挑战ML模型(嘈杂,冗余,不平衡数据和具有比观察特征更多的案例)。绘制早期基准的经验,该基准测试较少的FSMS,我们根据四个标准进行比较方法的性能(预测性能,所选的相关功能数,功能集和运行时的稳定性)。我们发现依赖于随机森林方法的方法,双输入对称相关滤波器(浪费)和联合杂质滤波器(Jim)是给定的数据集方案的良好性候选方法。
translated by 谷歌翻译
从不平衡数据中学习是一项具有挑战性的任务。在进行不平衡数据训练时,标准分类算法的性能往往差。需要通过修改数据分布或重新设计基础分类算法以实现理想的性能来采用一些特殊的策略。现实世界数据集中不平衡的流行率导致为班级不平衡问题创造了多种策略。但是,并非所有策略在不同的失衡情况下都有用或提供良好的性能。处理不平衡的数据有许多方法,但是尚未进行此类技术的功效或这些技术之间的实验比较。在这项研究中,我们对26种流行抽样技术进行了全面分析,以了解它们在处理不平衡数据方面的有效性。在50个数据集上进行了严格的实验,具有不同程度的不平衡,以彻底研究这些技术的性能。已经提出了对技术的优势和局限性的详细讨论,以及如何克服此类局限性。我们确定了影响采样策略的一些关键因素,并提供有关如何为特定应用选择合适的采样技术的建议。
translated by 谷歌翻译
苏黎世认知语言处理语料库(Zuco)提供了来自两种读取范例,正常读取和特定任务读数的眼跟踪和脑电图信号。我们分析了机器学习方法是否能够使用眼睛跟踪和EEG功能对这两个任务进行分类。我们使用聚合的句子级别功能以及细粒度的单词级别来实现模型。我们在主题内和交叉对象评估方案中测试模型。所有模型都在Zuco 1.0和Zuco 2.0数据子集上进行测试,其特征在于不同的记录程序,因此允许不同的概括水平。最后,我们提供了一系列的控制实验,以更详细地分析结果。
translated by 谷歌翻译
Labeling a module defective or non-defective is an expensive task. Hence, there are often limits on how much-labeled data is available for training. Semi-supervised classifiers use far fewer labels for training models, but there are numerous semi-supervised methods, including self-labeling, co-training, maximal-margin, and graph-based methods, to name a few. Only a handful of these methods have been tested in SE for (e.g.) predicting defects and even that, those tests have been on just a handful of projects. This paper takes a wide range of 55 semi-supervised learners and applies these to over 714 projects. We find that semi-supervised "co-training methods" work significantly better than other approaches. However, co-training needs to be used with caution since the specific choice of co-training methods needs to be carefully selected based on a user's specific goals. Also, we warn that a commonly-used co-training method ("multi-view"-- where different learners get different sets of columns) does not improve predictions (while adding too much to the run time costs 11 hours vs. 1.8 hours). Those cautions stated, we find using these "co-trainers," we can label just 2.5% of data, then make predictions that are competitive to those using 100% of the data. It is an open question worthy of future work to test if these reductions can be seen in other areas of software analytics. All the codes used and datasets analyzed during the current study are available in the https://GitHub.com/Suvodeep90/Semi_Supervised_Methods.
translated by 谷歌翻译
癫痫患者的长期监测来自实时检测和可穿戴设备设计的工程角度呈现出具有挑战性的问题。它需要新的解决方案,允许连续无阻碍的监控和可靠的癫痫发作检测和预测。在癫痫发作期间的人,脑状态和时间实例中存在脑电图(EEG)模式的高可变性,而且在非扣押期间。这使得癫痫癫痫发作检测非常具有挑战性,特别是如果数据仅在癫痫发作和非癫痫标签下分组。超方(HD)计算,一种新型机器学习方法,作为一个有前途的工具。但是,当数据显示高级别的可变性时,它具有一定的限制。因此,在这项工作中,我们提出了一种基于多心高清计算的新型半监督学习方法。多质心方法允许有几个代表癫痫发作和非癫痫发作状态的原型向量,这导致与简单的2级HD模型相比显着提高了性能。此外,现实生活数据不平衡造成了额外的挑战,并且在数据的平衡子集上报告的性能可能被高估。因此,我们测试我们的多质心方法,具有三个不同的数据集平衡方案,显示较少平衡数据集的性能提升更高。更具体地,在不平衡的测试集上实现了高达14%的改进,而不是比癫痫发作数据更加不癫痫发布的10倍。与此同时,与平衡数据集相比,子类的总数不会显着增加。因此,所提出的多质心方法可以是实现具有现实数据余额或在线学习期间实现高性能的重要因素,癫痫发作不常见。
translated by 谷歌翻译
基于电动机图像(MI)的脑电脑界面(BCIS)允许通过解码神经生理现象来控制几种应用,这些现象通常通过使用非侵入性技术被脑电图(EEG)记录。尽管在基于MI的BCI的进展方面很大,但脑电图有特定于受试者和各种变化随时间。这些问题指出了提高分类绩效的重大挑战,特别是在独立的方式。为了克服这些挑战,我们提出了Min2Net,这是一个新的端到端多任务学习来解决这项任务。我们将深度度量学习集成到多任务AutoEncoder中,以从脑电图中学习紧凑且识别的潜在表示,并同时执行分类。这种方法降低了预处理的复杂性,导致EEG分类的显着性能改善。实验结果以本语独立的方式表明,MIN2Net优于最先进的技术,在SMR-BCI和OpenBMI数据集中分别实现了6.72%的F1分数提高,以及2.23%。我们证明MIN2NET在潜在代表中提高了歧视信息。本研究表明使用此模型的可能性和实用性为新用户开发基于MI的BCI应用,而无需校准。
translated by 谷歌翻译
我们展示了一个新的数据集和基准,其目的是在大脑活动和眼球运动的交叉口中推进研究。我们的数据集EEGEYENET包括从三种不同实验范式中收集的356个不同受试者的同时脑电图(EEG)和眼睛跟踪(ET)录像。使用此数据集,我们还提出了一种评估EEG测量的凝视预测的基准。基准由三个任务组成,难度越来越高:左右,角度幅度和绝对位置。我们在该基准测试中运行大量实验,以便根据经典机器学习模型和大型神经网络提供实心基线。我们释放了我们的完整代码和数据,并提供了一种简单且易于使用的界面来评估新方法。
translated by 谷歌翻译
A systematic review on machine-learning strategies for improving generalizability (cross-subjects and cross-sessions) electroencephalography (EEG) based in emotion classification was realized. In this context, the non-stationarity of EEG signals is a critical issue and can lead to the Dataset Shift problem. Several architectures and methods have been proposed to address this issue, mainly based on transfer learning methods. 418 papers were retrieved from the Scopus, IEEE Xplore and PubMed databases through a search query focusing on modern machine learning techniques for generalization in EEG-based emotion assessment. Among these papers, 75 were found eligible based on their relevance to the problem. Studies lacking a specific cross-subject and cross-session validation strategy and making use of other biosignals as support were excluded. On the basis of the selected papers' analysis, a taxonomy of the studies employing Machine Learning (ML) methods was proposed, together with a brief discussion on the different ML approaches involved. The studies with the best results in terms of average classification accuracy were identified, supporting that transfer learning methods seem to perform better than other approaches. A discussion is proposed on the impact of (i) the emotion theoretical models and (ii) psychological screening of the experimental sample on the classifier performances.
translated by 谷歌翻译
可穿戴设备,不断收集用户的各种传感器数据,增加了无意和敏感信息的推论的机会,例如在物理键盘上键入的密码。我们彻底看看使用电拍摄(EMG)数据的潜力,这是一个新的传感器模式,这是市场新的,但最近在可穿戴物的上下文中受到关注,用于增强现实(AR),用于键盘侧通道攻击。我们的方法是基于使用Myo Armband收集传感器数据的逼真场景中对象攻击之间的神经网络。在我们的方法中,与加速度计和陀螺相比,EMG数据被证明是最突出的信息来源,增加了击键检测性能。对于我们对原始数据的端到端方法,我们报告了击键检测的平均平衡准确性,击键检测的平均高度高精度为52级,为不同优势密码的密钥识别约32% 。我们创建了一个广泛的数据集,包括从37个志愿者录制的310 000次击键,它可作为开放式访问,以及用于创建给定结果的源代码。
translated by 谷歌翻译
无论是在功能选择的领域还是可解释的AI领域,都有基于其重要性的“排名”功能的愿望。然后可以将这种功能重要的排名用于:(1)减少数据集大小或(2)解释机器学习模型。但是,在文献中,这种特征排名没有以系统的,一致的方式评估。许多论文都有不同的方式来争论哪些具有重要性排名最佳的特征。本文通过提出一种新的评估方法来填补这一空白。通过使用合成数据集,可以事先知道特征重要性得分,从而可以进行更系统的评估。为了促进使用新方法的大规模实验,在Python建造了一个名为FSEVAL的基准测定框架。该框架允许并行运行实验,并在HPC系统上的计算机上分布。通过与名为“权重和偏见”的在线平台集成,可以在实时仪表板上进行交互探索图表。该软件作为开源软件发布,并在PYPI平台上以包裹发行。该研究结束时,探索了一个这样的大规模实验,以在许多方面找到参与算法的优势和劣势。
translated by 谷歌翻译
挖掘数据流姿势存在许多挑战,包括数据的连续和非静止性质,待处理的大量信息和限制计算资源。虽然在文献中提出了一些针对这个问题的监督解决方案,但大多数人都假定访问地面真理(以类标签的形式)是无限的,并且在更新学习系统时可以立即使用此类信息。这远非现实,因为必须考虑获取标签的基本成本。因此,需要解决流方案中实际真相要求的解决方案。在本文中,通过组合来自主动学习和自我标签的信息,提出了一种用于预算的挖水数据流的新框架。我们介绍了几种策略,可以利用智能实例选择和半监督程序,同时考虑到概念漂移的潜在存在。这种混合方法允许有效的探索和利用在现实标记预算中的流数据结构。由于我们的框架工作为包装器,因此它可以应用于不同的学习算法。实验研究,在具有各种类型的概念漂移的多样化现实数据流中进行的实验研究,证明了在处理对类标签的高度限制时拟议的策略的有用性。当一个人不能增加标签或更换低效分类器的预算时,呈现的混合方法尤其可行。我们为我们的战略提供了一套关于适用性领域的建议。
translated by 谷歌翻译
超参数优化构成了典型的现代机器学习工作流程的很大一部分。这是由于这样一个事实,即机器学习方法和相应的预处理步骤通常只有在正确调整超参数时就会产生最佳性能。但是在许多应用中,我们不仅有兴趣仅仅为了预测精度而优化ML管道;确定最佳配置时,必须考虑其他指标或约束,从而导致多目标优化问题。由于缺乏知识和用于多目标超参数优化的知识和容易获得的软件实现,因此通常在实践中被忽略。在这项工作中,我们向读者介绍了多个客观超参数优化的基础知识,并激励其在应用ML中的实用性。此外,我们从进化算法和贝叶斯优化的领域提供了现有优化策略的广泛调查。我们说明了MOO在几个特定ML应用中的实用性,考虑了诸如操作条件,预测时间,稀疏,公平,可解释性和鲁棒性之类的目标。
translated by 谷歌翻译