模糊或神经模糊系统的主要限制是他们无法处理高维数据集的故障。这主要是由于使用T-Norm,特别是产品或最小(或其更软的版本)。因此,几乎没有任何处理与尺寸超过一百个以上的数据集。在这里,我们提出了一种神经模糊框架,可以处理尺寸甚至超过7000的数据集!在这种情况下,我们提出了一种自适应软培蛋白(ADA-Softmin),其有效地克服了在处理高维问题的同时为现有的模糊系统产生的“数字下溢”和“假最小最小值”的缺点。我们称之为Adaptive Takagi-Sugeno-kang(Adatsk)模糊系统。然后,我们用综合方式装备ADATSK系统以执行特征选择和规则提取。在这种情况下,仅在随后的零件中引入并嵌入了一种新颖的栅极功能,其可以在学习的两个连续阶段中确定有用的特征和规则。与传统的模糊规则基础不同,我们设计增强的模糊规则基础(EN-FRB),该基础(EN-FRB)保持了足够的规则,但不会以模糊神经网络的尺寸呈指数呈指数规则的数量。集成特征选择和规则提取ADATSK(FSRE-ADATSK)系统由三个连续阶段组成:(i)特征选择,(ii)规则提取,和(iii)微调。 FSRE-Adatsk的有效性在19个数据集上展示了五个,其中五个是2000多个维度,包括两个大于7000的尺寸。这可能是第一次模糊系统实现涉及超过7000个输入功能的分类。
translated by 谷歌翻译
最近,一些研究声称,使用特定于类的功能子集比使用单个功能子集代表分类问题的数据提供了一定优势。与传统的特征选择方法不同,特定于类的特征选择方法为每个类选择一个最佳特征子集。通常,特定于类的特征特征选择(CSF)方法使用数据集的全部分配,这会导致类别不平衡,决策聚合和高计算开销等问题。我们提出了一种嵌入基于模糊规则的分类器中的特定类特征选择方法,该方法不受与大多数现有类特异性方法相关的缺点。此外,我们可以通过在学习目标中添加合适的正规器来调整我们的方法来控制特定于类特征特征子集中的冗余水平。我们的方法导致涉及特定类别子集的特定类别规则。我们还提出了一个扩展程序,其中特定类的不同规则由不同的特征子集定义,以模拟类中不同的子结构。该方法的有效性已通过对三个合成数据集的实验进行了验证。
translated by 谷歌翻译
在时间序列预测的各种软计算方法中,模糊认知地图(FCM)已经显示出显着的结果作为模拟和分析复杂系统动态的工具。 FCM具有与经常性神经网络的相似之处,可以被分类为神经模糊方法。换句话说,FCMS是模糊逻辑,神经网络和专家系统方面的混合,它作为模拟和研究复杂系统的动态行为的强大工具。最有趣的特征是知识解释性,动态特征和学习能力。本调查纸的目标主要是在文献中提出的最相关和最近的基于FCCM的时间序列预测模型概述。此外,本文认为介绍FCM模型和学习方法的基础。此外,该调查提供了一些旨在提高FCM的能力的一些想法,以便在处理非稳定性数据和可扩展性问题等现实实验中涵盖一些挑战。此外,具有快速学习算法的FCMS是该领域的主要问题之一。
translated by 谷歌翻译
模型的可解释性对于许多实际应用是必不可少的,例如临床决策支持系统。在本文中,提出了一种新的可解释机学习方法,可以模拟人类理解规则中的输入变量与响应之间的关系。该方法是通过将热带几何形状应用于模糊推理系统构建的,其中通过监督学习可以发现可变编码功能和突出规则。进行了使用合成数据集的实验,以研究所提出的算法在分类和规则发现中的性能和容量。此外,将所提出的方法应用于鉴定心力衰竭患者的临床应用,这些患者将受益于心脏移植或耐用的机械循环支撑等先进的疗法。实验结果表明,该网络在分类任务方面取得了很大的表现。除了从数据集中学习人类可理解的规则外,现有的模糊域知识可以很容易地转移到网络中,并用于促进模型培训。从我们的结果,所提出的模型和学习现有领域知识的能力可以显着提高模型的概括性。所提出的网络的特征使其在需要模型可靠性和理由的应用中承诺。
translated by 谷歌翻译
异质的大数据在机器学习中构成了许多挑战。它的巨大规模,高维度和固有的不确定性使机器学习的几乎每个方面都变得困难,从提供足够的处理能力到保持模型准确性到保护隐私。但是,也许最引人注目的问题是,大数据通常散布在敏感的个人数据中。因此,我们提出了一个保护隐私的层次模糊神经网络(PP-HFNN),以应对这些技术挑战,同时也减轻了隐私问题。通过两阶段优化算法对网络进行训练,并且基于众所周知的交替方向方法,通过方案学习了层次级别低级别的参数,该方案不会向其他代理揭示本地数据。高级层次结构的协调通过交替优化方法来处理,该方法的收敛很快。整个训练过程是可扩展的,快速的,并且不会遭受基于后传播的方法等梯度消失的问题。对回归和分类任务进行的综合模拟证明了所提出的模型的有效性。
translated by 谷歌翻译
癫痫发作是最重要的神经障碍之一,其早期诊断将有助于临床医生为患者提供准确的治疗方法。脑电图(EEG)信号广泛用于癫痫癫痫发作检测,其提供了关于大脑功能的实质性信息的专家。本文介绍了采用模糊理论和深层学习技术的新型诊断程序。所提出的方法在Bonn大学数据集上进行了评估,具有六个分类组合以及弗赖堡数据集。可以使用可调谐Q小波变换(TQWT)来将EEG信号分解为不同的子带。在特征提取步骤中,从TQWT的不同子带计算了13个不同的模糊熵,并且计算它们的计算复杂性以帮助研究人员选择各种任务的最佳集合。在下文中,采用具有六层的AutoEncoder(AE)用于减少维数。最后,标准自适应神经模糊推理系统(ANFIS)以及其具有蚱蜢优化算法(ANFIS-GOA),粒子群优化(ANFIS-PSO)和育种群优化(ANFIS-BS)方法的变体分类。使用我们所提出的方法,ANFIS-BS方法在弗赖堡数据集上分为两类分为两类和准确度,在两类分类中获得99.46%的准确性,以及弗赖堡数据集的99.28%,达到最先进的两个人的表演。
translated by 谷歌翻译
最近,分布式的半监督学习(DSSL)算法表明,它们在利用未标记的样本优于互连网络方面的有效性,在这些网络上,代理无法彼此共享其原始数据,并且只能与邻居传达非敏感信息。但是,现有的DSSL算法无法应对数据不确定性,并且可能会遭受高度计算和通信开销问题的困扰。为了解决这些问题,我们提出了一个分布式的半监督模糊回归(DSFR)模型,该模型具有模糊的规则和插值一致性正则化(ICR)。 ICR最近是针对半监督问题的,可以迫使决策边界通过稀疏的数据区域,从而增加模型的鲁棒性。但是,尚未考虑其在分布式方案中的应用。在这项工作中,我们提出了分布式模糊C均值(DFCM)方法和分布式插值一致性正则化(DICR)(DICR)构建在众所周知的乘数交替方向方法上,以分别定位DSFR的先行和结果组件中的参数。值得注意的是,DSFR模型的收敛非常快,因为它不涉及后传播过程,并且可扩展到从DFCM和DICR的利用率中受益的大规模数据集。人工和现实世界数据集的实验结果表明,就损失价值和计算成本而言,提出的DSFR模型可以比最新的DSSL算法获得更好的性能。
translated by 谷歌翻译
情感计算在人与机器之间的关系中非常重要。在本文中,提出了一种基于语音信号的语音情感识别(SER)的系统,其利用不同处理阶段的新技术。该系统由三个阶段组成:功能提取,功能选择,最终要素分类。在第一阶段,使用新的和多样性特征(如韵律,光谱和频谱)特征,从语音信号和光泽 - 波形信号中提取复杂的长期统计特征。 SER系统的挑战之一是区分相关情绪。这些特征是言语情绪的好鉴别者,并提高Ser识别类似和不同情绪的能力。此特征向量具有大量维度自然具有冗余。在第二阶段,使用经典特征选择技术以及用于减少特征向量维度的新量子启发技术,减少了特征向量尺寸的数量。在第三阶段,优化的特征向量由加权深稀疏的极端学习机(ELM)分类器分类。分类器以三个步骤执行分类:稀疏随机特征学习,使用奇异值分解(SVD)技术的正交随机投影,以及使用广义Tikhonov正规技术的最后一步中的鉴别分类。此外,许多现有的情绪数据集遭受数据不平衡分布的问题,这反过来增加了分类误差并降低了系统性能。在本文中,还提出了一种新的加权方法来处理类别不平衡,比现有的加权方法更有效。所提出的方法是在三个标准情绪数据库上进行评估。
translated by 谷歌翻译
由于巨大的未标记数据的出现,现在已经增加了更加关注无监督的功能选择。需要考虑使用更有效的顺序使用样品训练学习方法的样本和潜在效果的分布,以提高该方法的鲁棒性。自定步学习是考虑样本培训顺序的有效方法。在本研究中,通过整合自花枢学习和子空间学习框架来提出无监督的特征选择。此外,保留了局部歧管结构,并且特征的冗余受到两个正则化术语的约束。 $ l_ {2,1 / 2} $ - norm应用于投影矩阵,旨在保留歧视特征,并进一步缓解数据中噪声的影响。然后,提出了一种迭代方法来解决优化问题。理论上和实验证明了该方法的收敛性。将所提出的方法与九个现实世界数据集上的其他技术的算法进行比较。实验结果表明,该方法可以提高聚类方法的性能,优于其他比较算法。
translated by 谷歌翻译
多变量分析(MVA)包括用于特征提取的众所周知的方法,该方法提取,其利用表示数据的输入变量之间的相关性。大多数此类方法享有的一个重要属性是提取特征之间的不相关性。最近,MVA方法的正则化版本在文献中出现,主要是为了获得解决方案的解释性。在这些情况下,不再以封闭的方式获得解决方案,并且经常使用更复杂的优化方法,依赖于两个步骤的迭代。本文回到了替代方法来解决这个迭代问题。这种方法的主要新颖性在于保持原始方法的几个属性,最值得注意的是提取特征的不相关性。在此框架下,我们提出了一种新的方法,该方法利用L-21规范在特征提取过程中执行变量选择。不同问题的实验结果证实了与现有化配方的拟议配方的优点。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
Pawlak粗糙集和邻居粗糙集是两个最常见的粗糙设置理论模型。 Pawlawk可以使用等价类来表示知识,但无法处理连续数据;邻域粗糙集可以处理连续数据,但它失去了使用等价类代表知识的能力。为此,本文介绍了基于格兰拉球计算的粒状粗糙集。颗粒球粗糙集可以同时代表佩皮克粗集,以及邻域粗糙集,以实现两者的统一表示。这使得粒度球粗糙集不仅可以处理连续数据,而且可以使用对知识表示的等价类。此外,我们提出了一种颗粒球粗糙集的实现算法。基准数据集的实验符合证明,由于颗粒球计算的鲁棒性和适应性的组合,与Pawlak粗糙集和传统的邻居粗糙相比,粒状球粗糙集的学习准确性得到了大大提高放。颗粒球粗糙集也优于九流行或最先进的特征选择方法。
translated by 谷歌翻译
肺炎是儿童死亡率的主要原因之一,尤其是在全球收入的地区。尽管可以通过不太复杂的仪器和药物进行检测和治疗,但肺炎检测仍然是发展中国家的主要关注点。基于计算机辅助的诊断(CAD)系统可在此类国家 /地区使用,因为其运营成本低于专业医疗专家。在本文中,我们使用深度学习的概念和一种元神父算法提出了一个从胸部X射线检测的CAD系统,以检测胸部X射线。我们首先从预先训练的RESNET50中提取深度功能,该功能在目标肺炎数据集上进行了微调。然后,我们提出了一种基于粒子群优化(PSO)的特征选择技术,该技术使用基于内存的适应参数进行了修改,并通过将利他行为纳入代理人而丰富。我们将功能选择方法命名为自适应和利他的PSO(AAPSO)。提出的方法成功地消除了从RESNET50模型获得的非信息性特征,从而提高了整体框架的肺炎检测能力。对公开可用的肺炎数据集进行了广泛的实验和彻底分析,确定了所提出的方法比用于肺炎检测的其他几个框架的优越性。除了肺炎检测外,AAPSO还可以在某些标准的UCI数据集,用于癌症预测的基因表达数据集和COVID-19预测数据集上进行评估。总体结果令人满意,从而确认AAPSO在处理各种现实生活问题方面的实用性。可以在https://github.com/rishavpramanik/aapso上找到此工作的支持源代码
translated by 谷歌翻译
FCM和PCM聚类方法都被广泛应用于模式识别和数据聚类。尽管如此,FCM对噪声和PCM偶尔会产生一致的簇。 PFCM是通过组合FCM和PCM的PCM模型的扩展,但这种方法仍然遭受PCM和FCM的弱点。在目前的纸张中,校正了PFCM算法的弱点,并提出了增强的可能性模糊C-MATIOM(EPFCM)聚类算法。 EPFCM仍然对噪音敏感。因此,我们通过利用模糊成员资格和两个fuzzifers $({\ theta} _1,{\ theta} _2 )$的可能性典型。我们的计算结果表明,与文献中的几种最先进的技术相比,拟议方法的优势。最后,实施了所提出的方法,用于分析微阵列基因表达数据。
translated by 谷歌翻译
基于规则的分类器,其提取诱导规则的子集,以便在保留可辨别信息的同时有效地学习/挖掘,在人工可解释的人工智能中起着至关重要的作用。但是,在这个大数据的时代,整个数据集上的规则感应是计算密集的。到目前为止,据我们所知,报道了没有针对加速规则诱导的已知方法。这是首先要考虑减少规则感应规模的加速技术的研究。我们提出了一种基于模糊粗略理论的规则感应的加速器;加速器可以避免冗余计算并加速规则分类器的构建。首先,提出基于一致程度的规则感应方法,称为基于一致的基于值(CVR),并用作加速的基础。其次,我们引入了一个被称为关键集的压实的搜索空间,其只包含更新诱导规则所需的关键实例,以减少值。关键集的单调性可确保我们的加速器的可行性。第三,基于密钥集设计了规则感应加速器,从理论上保证将与未被插布的版本的结果相同的结果。具体地,键集的等级保存属性可确保通过加速器和未燃道的方法实现的规则感应之间的一致性。最后,广泛的实验表明,所提出的加速器可以比未被基于规则的分类器方法更快地执行,特别是在具有许多实例的数据集上。
translated by 谷歌翻译
本文介绍了一种能够构建具有自适应形状的不可分离模糊规则的新间隔-2模糊神经网络。为了反映不确定性,模糊集的形状被认为是不确定的。因此,提出了一种基于能够构造不同形状(包括三角形,钟形,梯形)的通用高斯模型的新形式的间隔类型-2模糊组。要考虑输入变量之间的相互作用,输入向量将转换为新的特征空间,具有用于定义每个模糊规则的不相关变量。接下来,使用具有自适应形状的所提出的间隔类型-2模糊组来馈送到模糊化层。因此,考虑变量和不确定性的局部相互作用,因此形成具有适当形状的间隔类型-2不可分离的模糊规则。对于缩短的缩小,每个模糊规则的上部和下射击强度的贡献自适应地单独选择。为了培训网络的不同参数,利用Levenberg-Marquadt优化方法。在清洁和嘈杂的数据集上调查了所提出的方法的性能,以表明考虑不确定性的能力。此外,所提出的范式,成功地应用于现实世界的时间序列预测,回归问题和非线性系统识别。根据实验结果,我们提出的模型的性能优于具有更加规模的结构的其他方法。
translated by 谷歌翻译
Label noise is an important issue in classification, with many potential negative consequences. For example, the accuracy of predictions may decrease, whereas the complexity of inferred models and the number of necessary training samples may increase. Many works in the literature have been devoted to the study of label noise and the development of techniques to deal with label noise. However, the field lacks a comprehensive survey on the different types of label noise, their consequences and the algorithms that consider label noise. This paper proposes to fill this gap. First, the definitions and sources of label noise are considered and a taxonomy of the types of label noise is proposed. Second, the potential consequences of label noise are discussed. Third, label noise-robust, label noise cleansing, and label noise-tolerant algorithms are reviewed. For each category of approaches, a short discussion is proposed to help the practitioner to choose the most suitable technique in its own particular field of application. Eventually, the design of experiments is also discussed, what may interest the researchers who would like to test their own algorithms. In this paper, label noise consists of mislabeled instances: no additional information is assumed to be available like e.g. confidences on labels.
translated by 谷歌翻译
天然气管道中的泄漏检测是石油和天然气行业的一个重要且持续的问题。这尤其重要,因为管道是运输天然气的最常见方法。这项研究旨在研究数据驱动的智能模型使用基本操作参数检测天然气管道的小泄漏的能力,然后使用现有的性能指标比较智能模型。该项目应用观察者设计技术,使用回归分类层次模型来检测天然气管道中的泄漏,其中智能模型充当回归器,并且修改后的逻辑回归模型充当分类器。该项目使用四个星期的管道数据流研究了五个智能模型(梯度提升,决策树,随机森林,支持向量机和人工神经网络)。结果表明,虽然支持向量机和人工神经网络比其他网络更好,但由于其内部复杂性和所使用的数据量,它们并未提供最佳的泄漏检测结果。随机森林和决策树模型是最敏感的,因为它们可以在大约2小时内检测到标称流量的0.1%的泄漏。所有智能模型在测试阶段中具有高可靠性,错误警报率为零。将所有智能模型泄漏检测的平均时间与文献中的实时短暂模型进行了比较。结果表明,智能模型在泄漏检测问题中的表现相对较好。该结果表明,可以与实时瞬态模型一起使用智能模型,以显着改善泄漏检测结果。
translated by 谷歌翻译
颗粒球计算是一种有效,坚固,可扩展,可扩展和粒度计算的学习方法。颗粒球计算的基础是颗粒球产生方法。本文提出了一种使用该划分加速粒度球的方法来代替$ k $ -means。它可以大大提高颗粒球生成的效率,同时确保与现有方法类似的准确性。此外,考虑粒子球的重叠消除和一些其他因素,提出了一种新的颗粒球生成的新自适应方法。这使得在真实意义上的无参数和完全自适应的颗粒球生成过程。此外,本文首先为颗粒球覆盖物提供了数学模型。一些真实数据集的实验结果表明,所提出的两个颗粒球生成方法具有与现有方法相似的准确性,而实现适应性或加速度。
translated by 谷歌翻译
Recently, evolutionary multitasking (EMT) has been successfully used in the field of high-dimensional classification. However, the generation of multiple tasks in the existing EMT-based feature selection (FS) methods is relatively simple, using only the Relief-F method to collect related features with similar importance into one task, which cannot provide more diversified tasks for knowledge transfer. Thus, this paper devises a new EMT algorithm for FS in high-dimensional classification, which first adopts different filtering methods to produce multiple tasks and then modifies a competitive swarm optimizer to efficiently solve these related tasks via knowledge transfer. First, a diversified multiple task generation method is designed based on multiple filtering methods, which generates several relevant low-dimensional FS tasks by eliminating irrelevant features. In this way, useful knowledge for solving simple and relevant tasks can be transferred to simplify and speed up the solution of the original high-dimensional FS task. Then, a competitive swarm optimizer is modified to simultaneously solve these relevant FS tasks by transferring useful knowledge among them. Numerous empirical results demonstrate that the proposed EMT-based FS method can obtain a better feature subset than several state-of-the-art FS methods on eighteen high-dimensional datasets.
translated by 谷歌翻译