基于规则的分类器,其提取诱导规则的子集,以便在保留可辨别信息的同时有效地学习/挖掘,在人工可解释的人工智能中起着至关重要的作用。但是,在这个大数据的时代,整个数据集上的规则感应是计算密集的。到目前为止,据我们所知,报道了没有针对加速规则诱导的已知方法。这是首先要考虑减少规则感应规模的加速技术的研究。我们提出了一种基于模糊粗略理论的规则感应的加速器;加速器可以避免冗余计算并加速规则分类器的构建。首先,提出基于一致程度的规则感应方法,称为基于一致的基于值(CVR),并用作加速的基础。其次,我们引入了一个被称为关键集的压实的搜索空间,其只包含更新诱导规则所需的关键实例,以减少值。关键集的单调性可确保我们的加速器的可行性。第三,基于密钥集设计了规则感应加速器,从理论上保证将与未被插布的版本的结果相同的结果。具体地,键集的等级保存属性可确保通过加速器和未燃道的方法实现的规则感应之间的一致性。最后,广泛的实验表明,所提出的加速器可以比未被基于规则的分类器方法更快地执行,特别是在具有许多实例的数据集上。
translated by 谷歌翻译
本文提出了一种基于粗糙集的强大数据挖掘方法,可以同时实现特征选择,分类和知识表示。粗糙集具有良好的解释性,是一种流行的特征选择方法。但效率低,精度低是其主要缺点,限制了其应用能力。在本文中,对应于准确性,首先找到粗糙集的无效,因为过度装备,尤其是在处理噪声属性中,并为属性提出了一个稳健的测量,称为相对重要性。我们提出了“粗糙概念树”的概念用于知识表示和分类。在公共基准数据集上的实验结果表明,所提出的框架达到比七种流行或最先进的特征选择方法更高的精度。
translated by 谷歌翻译
Pawlak粗糙集和邻居粗糙集是两个最常见的粗糙设置理论模型。 Pawlawk可以使用等价类来表示知识,但无法处理连续数据;邻域粗糙集可以处理连续数据,但它失去了使用等价类代表知识的能力。为此,本文介绍了基于格兰拉球计算的粒状粗糙集。颗粒球粗糙集可以同时代表佩皮克粗集,以及邻域粗糙集,以实现两者的统一表示。这使得粒度球粗糙集不仅可以处理连续数据,而且可以使用对知识表示的等价类。此外,我们提出了一种颗粒球粗糙集的实现算法。基准数据集的实验符合证明,由于颗粒球计算的鲁棒性和适应性的组合,与Pawlak粗糙集和传统的邻居粗糙相比,粒状球粗糙集的学习准确性得到了大大提高放。颗粒球粗糙集也优于九流行或最先进的特征选择方法。
translated by 谷歌翻译
颗粒球计算是一种有效,坚固,可扩展,可扩展和粒度计算的学习方法。颗粒球计算的基础是颗粒球产生方法。本文提出了一种使用该划分加速粒度球的方法来代替$ k $ -means。它可以大大提高颗粒球生成的效率,同时确保与现有方法类似的准确性。此外,考虑粒子球的重叠消除和一些其他因素,提出了一种新的颗粒球生成的新自适应方法。这使得在真实意义上的无参数和完全自适应的颗粒球生成过程。此外,本文首先为颗粒球覆盖物提供了数学模型。一些真实数据集的实验结果表明,所提出的两个颗粒球生成方法具有与现有方法相似的准确性,而实现适应性或加速度。
translated by 谷歌翻译
对比模式挖掘(CPM)是数据挖掘的重要且流行的子场。传统的顺序模式无法描述不同类别数据之间的对比度信息,而涉及对比概念的对比模式可以描述不同对比条件下数据集之间的显着差异。根据该领域发表的论文数量,我们发现研究人员对CPM的兴趣仍然活跃。由于CPM有许多研究问题和研究方法。该领域的新研究人员很难在短时间内了解该领域的一般状况。因此,本文的目的是为对比模式挖掘的研究方向提供最新的全面概述。首先,我们对CPM提出了深入的理解,包括评估歧视能力的基本概念,类型,采矿策略和指标。然后,我们根据CPM方法根据其特征分类为基于边界的算法,基于树的算法,基于进化模糊的系统算法,基于决策树的算法和其他算法。此外,我们列出了这些方法的经典算法,并讨论它们的优势和缺点。提出了CPM中的高级主题。最后,我们通过讨论该领域的挑战和机遇来结束调查。
translated by 谷歌翻译
基于模糊规则的系统(FRBS)是一个基于规则的系统,它使用语言模糊变量作为前身,因此代表人类可理解的知识。它们已应用于整个文献的各种应用和领域。但是,FRBS遭受了许多缺点,例如不确定性表示,大量规则,解释性损失,学习时间高的计算时间等,以克服FRBS的这些问题,存在许多范围的FRBS。在本文中,我们介绍了模糊系统(FRBS)的各种类型和突出领域的概述和文献综述,即遗传模糊系统(GFS),层次结构模糊系统(HFS),Neuro Fuzzy System(NFS),不断发展的模糊系统(EFS)(EFS)(EFS) ),在2010 - 2021年期间,用于大数据的FRBS,用于数据不平衡数据的FRBS,用于不平衡数据的FRBS,用于使用集群质心作为模糊规则的FRB和FRBS。 GFS使用遗传/进化方法来提高FRBS的学习能力,HFS解决了FRBS的尺寸诅咒,NFS在EFS中考虑使用神经网络和动态系统来提高FRBS的近似能力,并且在EFS中考虑了动态系统。 FRBs被视为大数据和不平衡数据的好解决方案,近年来,由于高维度和大数据和规则,使用集群质心来限制FRBS中的规则数量,因此FRBS的可解释性已受欢迎。本文还强调了该领域的重要贡献,出版统计和当前趋势。该论文还涉及几个需要从FRBS研究社区进一步关注的开放研究领域。
translated by 谷歌翻译
本文考虑了在分解正常形式(DNF,ANDS的DNF,ANDS,相当于判定规则集)或联合正常形式(CNF,ORS)作为分类模型的联合正常形式的学习。为规则简化,将整数程序配制成最佳贸易分类准确性。我们还考虑公平设定,并扩大制定,以包括对两种不同分类措施的明确限制:机会平等和均等的赔率。列生成(CG)用于有效地搜索候选条款(连词或剖钉)的指数数量,而不需要启发式规则挖掘。此方法还会绑定所选规则集之间的间隙和培训数据上的最佳规则集。要处理大型数据集,我们建议使用随机化的近似CG算法。与三个最近提出的替代方案相比,CG算法主导了16个数据集中的8个中的精度简单折衷。当最大限度地提高精度时,CG与为此目的设计的规则学习者具有竞争力,有时发现明显更简单的解决方案,这些解决方案不太准确。与其他公平和可解释的分类器相比,我们的方法能够找到符合较严格的公平概念的规则集,以适度的折衷准确性。
translated by 谷歌翻译
在时间序列预测的各种软计算方法中,模糊认知地图(FCM)已经显示出显着的结果作为模拟和分析复杂系统动态的工具。 FCM具有与经常性神经网络的相似之处,可以被分类为神经模糊方法。换句话说,FCMS是模糊逻辑,神经网络和专家系统方面的混合,它作为模拟和研究复杂系统的动态行为的强大工具。最有趣的特征是知识解释性,动态特征和学习能力。本调查纸的目标主要是在文献中提出的最相关和最近的基于FCCM的时间序列预测模型概述。此外,本文认为介绍FCM模型和学习方法的基础。此外,该调查提供了一些旨在提高FCM的能力的一些想法,以便在处理非稳定性数据和可扩展性问题等现实实验中涵盖一些挑战。此外,具有快速学习算法的FCMS是该领域的主要问题之一。
translated by 谷歌翻译
决策树学习是机器学习中广泛使用的方法,在需要简洁明了的模型的应用中受到青睐。传统上,启发式方法用于快速生产具有相当高准确性的模型。然而,一个普遍的批评是,从精度和大小方面,所产生的树可能不一定是数据的最佳表示。近年来,这激发了最佳分类树算法的发展,这些算法与执行一系列本地最佳决策的启发式方法相比,在全球范围内优化决策树。我们遵循这一工作线,并提供了一种基于动态编程和搜索的最佳分类树的新颖算法。我们的算法支持对树的深度和节点数量的约束。我们方法的成功归因于一系列专门技术,这些技术利用了分类树独有的属性。传统上,最佳分类树的算法受到了高运行时的困扰和有限的可伸缩性,但我们在一项详细的实验研究中表明,我们的方法仅使用最先进的时间所需的时间,并且可以处理数十个数据集的数据集在数千个实例中,提供了几个数量级的改进,并特别有助于实现最佳决策树的实现。
translated by 谷歌翻译
Multi-label classification is becoming increasingly ubiquitous, but not much attention has been paid to interpretability. In this paper, we develop a multi-label classifier that can be represented as a concise set of simple "if-then" rules, and thus, it offers better interpretability compared to black-box models. Notably, our method is able to find a small set of relevant patterns that lead to accurate multi-label classification, while existing rule-based classifiers are myopic and wasteful in searching rules,requiring a large number of rules to achieve high accuracy. In particular, we formulate the problem of choosing multi-label rules to maximize a target function, which considers not only discrimination ability with respect to labels, but also diversity. Accounting for diversity helps to avoid redundancy, and thus, to control the number of rules in the solution set. To tackle the said maximization problem we propose a 2-approximation algorithm, which relies on a novel technique to sample high-quality rules. In addition to our theoretical analysis, we provide a thorough experimental evaluation, which indicates that our approach offers a trade-off between predictive performance and interpretability that is unmatched in previous work.
translated by 谷歌翻译
Concept drift describes unforeseeable changes in the underlying distribution of streaming data over time. Concept drift research involves the development of methodologies and techniques for drift detection, understanding and adaptation. Data analysis has revealed that machine learning in a concept drift environment will result in poor learning results if the drift is not addressed. To help researchers identify which research topics are significant and how to apply related techniques in data analysis tasks, it is necessary that a high quality, instructive review of current research developments and trends in the concept drift field is conducted. In addition, due to the rapid development of concept drift in recent years, the methodologies of learning under concept drift have become noticeably systematic, unveiling a framework which has not been mentioned in literature. This paper reviews over 130 high quality publications in concept drift related research areas, analyzes up-to-date developments in methodologies and techniques, and establishes a framework of learning under concept drift including three main components: concept drift detection, concept drift understanding, and concept drift adaptation. This paper lists and discusses 10 popular synthetic datasets and 14 publicly available benchmark datasets used for evaluating the performance of learning algorithms aiming at handling concept drift. Also, concept drift related research directions are covered and discussed. By providing state-of-the-art knowledge, this survey will directly support researchers in their understanding of research developments in the field of learning under concept drift.
translated by 谷歌翻译
越来越多的工作已经认识到利用机器学习(ML)进步的重要性,以满足提取访问控制属性,策略挖掘,策略验证,访问决策等有效自动化的需求。在这项工作中,我们调查和总结了各种ML解决不同访问控制问题的方法。我们提出了ML模型在访问控制域中应用的新分类学。我们重点介绍当前的局限性和公开挑战,例如缺乏公共现实世界数据集,基于ML的访问控制系统的管理,了解黑盒ML模型的决策等,并列举未来的研究方向。
translated by 谷歌翻译
当在条件属性上以某种方式相关的实例时,发生预测问题的不一致不会遵循决策属性的相同关系。例如,在具有单调性约束的序数分类中,当在条件属性上占据另一个实例的实例已经分配给更糟糕的决策类时,会发生它。它通常出现在由不完全知识(缺少属性)或通过数据生成期间发生的随机效果引起的数据的扰动(在决策属性值的评估中的不稳定性)引起的数据中的扰动。可以使用符号方法如粗糙集理论等象征方法处理和涉及优化方法的统计/机器学习方法,处理相对于清晰的预购关系(表达实例之间的差异或实例之间的无漏能格)不一致。模糊粗糙集也可以被视为对模糊关系处理不一致的象征性方法。在本文中,我们介绍了一种新的机器学习方法,用于对模糊预订关系进行不一致处理。新颖的方法是由用于清脆关系的现有机器学习方法的激励。我们为IT提供统计基础,并开发可用于消除不一致的优化程序。本文还证明了重要的财产,并载有这些程序的教学例子。
translated by 谷歌翻译
在过去十年中,图形内核引起了很多关注,并在结构化数据上发展成为一种快速发展的学习分支。在过去的20年中,该领域发生的相当大的研究活动导致开发数十个图形内核,每个图形内核都对焦于图形的特定结构性质。图形内核已成功地成功地在广泛的域中,从社交网络到生物信息学。本调查的目标是提供图形内核的文献的统一视图。特别是,我们概述了各种图形内核。此外,我们对公共数据集的几个内核进行了实验评估,并提供了比较研究。最后,我们讨论图形内核的关键应用,并概述了一些仍有待解决的挑战。
translated by 谷歌翻译
In the era of big data, it is desired to develop efficient machine learning algorithms to tackle massive data challenges such as storage bottleneck, algorithmic scalability, and interpretability. In this paper, we develop a novel efficient classification algorithm, called fast polynomial kernel classification (FPC), to conquer the scalability and storage challenges. Our main tools are a suitable selected feature mapping based on polynomial kernels and an alternating direction method of multipliers (ADMM) algorithm for a related non-smooth convex optimization problem. Fast learning rates as well as feasibility verifications including the efficiency of an ADMM solver with convergence guarantees and the selection of center points are established to justify theoretical behaviors of FPC. Our theoretical assertions are verified by a series of simulations and real data applications. Numerical results demonstrate that FPC significantly reduces the computational burden and storage memory of existing learning schemes such as support vector machines, Nystr\"{o}m and random feature methods, without sacrificing their generalization abilities much.
translated by 谷歌翻译
无论是在功能选择的领域还是可解释的AI领域,都有基于其重要性的“排名”功能的愿望。然后可以将这种功能重要的排名用于:(1)减少数据集大小或(2)解释机器学习模型。但是,在文献中,这种特征排名没有以系统的,一致的方式评估。许多论文都有不同的方式来争论哪些具有重要性排名最佳的特征。本文通过提出一种新的评估方法来填补这一空白。通过使用合成数据集,可以事先知道特征重要性得分,从而可以进行更系统的评估。为了促进使用新方法的大规模实验,在Python建造了一个名为FSEVAL的基准测定框架。该框架允许并行运行实验,并在HPC系统上的计算机上分布。通过与名为“权重和偏见”的在线平台集成,可以在实时仪表板上进行交互探索图表。该软件作为开源软件发布,并在PYPI平台上以包裹发行。该研究结束时,探索了一个这样的大规模实验,以在许多方面找到参与算法的优势和劣势。
translated by 谷歌翻译
神经网络(NNS)和决策树(DTS)都是机器学习的流行模型,但具有相互排斥的优势和局限性。为了带来两个世界中的最好,提出了各种方法来明确或隐式地集成NN和DTS。在这项调查中,这些方法是在我们称为神经树(NTS)的学校中组织的。这项调查旨在对NTS进行全面审查,并尝试确定它们如何增强模型的解释性。我们首先提出了NTS的彻底分类学,该分类法表达了NNS和DTS的逐步整合和共同进化。之后,我们根据NTS的解释性和绩效分析,并建议解决其余挑战的可能解决方案。最后,这项调查以讨论有条件计算和向该领域的有希望的方向进行讨论结束。该调查中审查的论文列表及其相应的代码可在以下网址获得:https://github.com/zju-vipa/awesome-neural-trees
translated by 谷歌翻译
由于其简单性和实用性,密度峰值聚类已成为聚类算法的NOVA。但是,这是一个主要的缺点:由于其高计算复杂性,这是耗时的。在此,开发了稀疏搜索和K-D树的密度峰聚类算法来解决此问题。首先,通过使用k-d树来替换原始的全等级距离矩阵来计算稀疏距离矩阵,以加速局部密度的计算。其次,提出了一种稀疏的搜索策略,以加快与$ k $最近邻居的集合与由数据点组成的集合之间的相互分离的计算。此外,采用了决策值的二阶差异方法来自适应确定群集中心。最后,通过与其他六种最先进的聚类算法进行比较,在具有不同分布特性的数据集上进行实验。事实证明,该算法可以有效地将原始DPC的计算复杂性从$ O(n^2k)$降低到$ O(n(n^{1-1/k}+k))$。特别是对于较大的数据集,效率更加明显地提高。此外,聚类精度也在一定程度上提高了。因此,可以得出结论,新提出的算法的总体性能非常好。
translated by 谷歌翻译
We introduce a new rule-based optimization method for classification with constraints. The proposed method takes advantage of linear programming and column generation, and hence, is scalable to large datasets. Moreover, the method returns a set of rules along with their optimal weights indicating the importance of each rule for learning. Through assigning cost coefficients to the rules and introducing additional constraints, we show that one can also consider interpretability and fairness of the results. We test the performance of the proposed method on a collection of datasets and present two case studies to elaborate its different aspects. Our results show that a good compromise between interpretability and fairness on the one side, and accuracy on the other side, can be obtained by the proposed rule-based learning method.
translated by 谷歌翻译
模糊或神经模糊系统的主要限制是他们无法处理高维数据集的故障。这主要是由于使用T-Norm,特别是产品或最小(或其更软的版本)。因此,几乎没有任何处理与尺寸超过一百个以上的数据集。在这里,我们提出了一种神经模糊框架,可以处理尺寸甚至超过7000的数据集!在这种情况下,我们提出了一种自适应软培蛋白(ADA-Softmin),其有效地克服了在处理高维问题的同时为现有的模糊系统产生的“数字下溢”和“假最小最小值”的缺点。我们称之为Adaptive Takagi-Sugeno-kang(Adatsk)模糊系统。然后,我们用综合方式装备ADATSK系统以执行特征选择和规则提取。在这种情况下,仅在随后的零件中引入并嵌入了一种新颖的栅极功能,其可以在学习的两个连续阶段中确定有用的特征和规则。与传统的模糊规则基础不同,我们设计增强的模糊规则基础(EN-FRB),该基础(EN-FRB)保持了足够的规则,但不会以模糊神经网络的尺寸呈指数呈指数规则的数量。集成特征选择和规则提取ADATSK(FSRE-ADATSK)系统由三个连续阶段组成:(i)特征选择,(ii)规则提取,和(iii)微调。 FSRE-Adatsk的有效性在19个数据集上展示了五个,其中五个是2000多个维度,包括两个大于7000的尺寸。这可能是第一次模糊系统实现涉及超过7000个输入功能的分类。
translated by 谷歌翻译