当执行模式识别时,分类器的准确性主要与输入特征向量的质量和代表性相关。特征选择是一个过程,可以正确表示信息并可能提高分类器的准确性。此过程负责找到最佳的功能,从而使我们能够确定A类模式所属的属性。功能选择方法可以归类为过滤器,包装器和嵌入。本文介绍了一些用于手工特征选择的过滤器和包装方法的调查。还提供了一些关于数据结构,处理时间和能够很好地代表特征向量的讨论,以明确说明某些方法以执行特征选择的适当方式。因此,如果应用其积极因素和负面因素,则提出的特征选择方法可以准确有效,发现哪个最适合问题的域可能是最艰巨的任务。
translated by 谷歌翻译
由于货运车数量的增加,在城市地区采用了电动汽车(EV),以减少环境污染和全球变暖。但是,路由最后一英里物流的轨迹仍在继续影响社会和经济可持续性时仍然存在缺陷。因此,在本文中,提出了一种称为超高神性自适应模拟退火的超增压性(HH)方法,并提出了增强学习(HHASA $ _ {RL} $)。它由多军匪徒方法和自适应模拟退火(SA)元启示术算法组成,用于解决该问题称为电容的电动汽车路由问题(CEVRP)。由于充电站数量有限和电动汽车的旅行范围,因此电动汽车必须提前为电池充电时刻,并减少旅行时间和成本。 HH实施的HH改善了多个最低最低知名解决方案,并为IEEE WCCI2020竞赛的拟议基准测试获得了一些高维实例的最佳平均值。
translated by 谷歌翻译
Multi-objective feature selection is one of the most significant issues in the field of pattern recognition. It is challenging because it maximizes the classification performance and, at the same time, minimizes the number of selected features, and the mentioned two objectives are usually conflicting. To achieve a better Pareto optimal solution, metaheuristic optimization methods are widely used in many studies. However, the main drawback is the exploration of a large search space. Another problem with multi-objective feature selection approaches is the interaction between features. Selecting correlated features has negative effect on classification performance. To tackle these problems, we present a novel multi-objective feature selection method that has several advantages. Firstly, it considers the interaction between features using an advanced probability scheme. Secondly, it is based on the Pareto Archived Evolution Strategy (PAES) method that has several advantages such as simplicity and its speed in exploring the solution space. However, we improve the structure of PAES in such a way that generates the offsprings, intelligently. Thus, the proposed method utilizes the introduced probability scheme to produce more promising offsprings. Finally, it is equipped with a novel strategy that guides it to find the optimum number of features through the process of evolution. The experimental results show a significant improvement in finding the optimal Pareto front compared to state-of-the-art methods on different real-world datasets.
translated by 谷歌翻译
肺炎是儿童死亡率的主要原因之一,尤其是在全球收入的地区。尽管可以通过不太复杂的仪器和药物进行检测和治疗,但肺炎检测仍然是发展中国家的主要关注点。基于计算机辅助的诊断(CAD)系统可在此类国家 /地区使用,因为其运营成本低于专业医疗专家。在本文中,我们使用深度学习的概念和一种元神父算法提出了一个从胸部X射线检测的CAD系统,以检测胸部X射线。我们首先从预先训练的RESNET50中提取深度功能,该功能在目标肺炎数据集上进行了微调。然后,我们提出了一种基于粒子群优化(PSO)的特征选择技术,该技术使用基于内存的适应参数进行了修改,并通过将利他行为纳入代理人而丰富。我们将功能选择方法命名为自适应和利他的PSO(AAPSO)。提出的方法成功地消除了从RESNET50模型获得的非信息性特征,从而提高了整体框架的肺炎检测能力。对公开可用的肺炎数据集进行了广泛的实验和彻底分析,确定了所提出的方法比用于肺炎检测的其他几个框架的优越性。除了肺炎检测外,AAPSO还可以在某些标准的UCI数据集,用于癌症预测的基因表达数据集和COVID-19预测数据集上进行评估。总体结果令人满意,从而确认AAPSO在处理各种现实生活问题方面的实用性。可以在https://github.com/rishavpramanik/aapso上找到此工作的支持源代码
translated by 谷歌翻译
生物医学决策涉及来自不同传感器或来自不同信道的多个信号处理。在这两种情况下,信息融合发挥着重要作用。在脑电图循环交替模式中,在这项工作中进行了深度学习的脑电图通道的特征级融合。通过两个优化算法,即遗传算法和粒子群优化优化了频道选择,融合和分类程序。通过融合来自多个脑电图信道的信息来评估开发的方法,用于夜间胸癫痫和没有任何神经疾病的患者的患者,与其他艺术艺术的工作相比,这在显着更具挑战性。结果表明,两种优化算法都选择了一种具有类似特征级融合的可比结构,包括三个脑电图通道,这与帽协议一致,以确保多个通道的唤起帽检测。此外,两种优化模型在接收器的工作特性曲线下达到了0.82的一个区域,平均精度为77%至79%,这是在专业协议的上部范围内的结果。尽管数据集是困难的数据集,所提出的方法仍处于最佳状态的上层,并且具有困难的数据集,并且具有在不需要任何手动过程的情况下提供全自动分析的优点。最终,模型显示出抗噪声和有弹性的多声道损耗。
translated by 谷歌翻译
信息科学的快速发展引起的“维度诅咒”在处理大数据集时可能会产生负面影响。在本文中,我们提出了Sparrow搜索算法(SSA)的一种变体,称为帐篷L \'evy飞行麻雀搜索算法(TFSSA),并使用它来选择包装模式中最佳的特征子集以进行分类。 SSA是最近提出的算法,尚未系统地应用于特征选择问题。通过CEC2020基准函数进行验证后,TFSSA用于选择最佳功能组合,以最大化分类精度并最大程度地减少所选功能的数量。将拟议的TFSSA与文献中的九种算法进行了比较。 9个评估指标用于正确评估和比较UCI存储库中21个数据集上这些算法的性能。此外,该方法应用于冠状病毒病(COVID-19)数据集,分别获得最佳的平均分类精度和特征选择的平均数量,为93.47%和2.1。实验结果证实了所提出的算法在提高分类准确性和减少与其他基于包装器的算法相比的选定特征数量方面的优势。
translated by 谷歌翻译
算法配置(AC)与对参数化算法最合适的参数配置的自动搜索有关。目前,文献中提出了各种各样的交流问题变体和方法。现有评论没有考虑到AC问题的所有衍生物,也没有提供完整的分类计划。为此,我们引入分类法以分别描述配置方法的交流问题和特征。我们回顾了分类法的镜头中现有的AC文献,概述相关的配置方法的设计选择,对比方法和问题变体相互对立,并描述行业中的AC状态。最后,我们的评论为研究人员和从业人员提供了AC领域的未来研究方向。
translated by 谷歌翻译
在过去的几十年中,经典的车辆路由问题(VRP),即为车辆分配一组订单并规划他们的路线已经被密集研究。仅作为车辆的订单分配和他们的路线已经是一个NP完整的问题,因此在实践中的应用通常无法考虑在现实世界应用中应用的约束和限制,所谓的富VRP所谓的富VRP(RVRP)并且仅限于单一方面。在这项工作中,我们融入了主要的相关真实限制和要求。我们提出了一种两级策略和时间线窗口和暂停时间的时间线算法,并将遗传算法(GA)和蚁群优化(ACO)单独应用于问题以找到最佳解决方案。我们对四种不同问题实例的评估,针对四个最先进的算法表明,我们的方法在合理的时间内处理所有给定的约束。
translated by 谷歌翻译
无论是在功能选择的领域还是可解释的AI领域,都有基于其重要性的“排名”功能的愿望。然后可以将这种功能重要的排名用于:(1)减少数据集大小或(2)解释机器学习模型。但是,在文献中,这种特征排名没有以系统的,一致的方式评估。许多论文都有不同的方式来争论哪些具有重要性排名最佳的特征。本文通过提出一种新的评估方法来填补这一空白。通过使用合成数据集,可以事先知道特征重要性得分,从而可以进行更系统的评估。为了促进使用新方法的大规模实验,在Python建造了一个名为FSEVAL的基准测定框架。该框架允许并行运行实验,并在HPC系统上的计算机上分布。通过与名为“权重和偏见”的在线平台集成,可以在实时仪表板上进行交互探索图表。该软件作为开源软件发布,并在PYPI平台上以包裹发行。该研究结束时,探索了一个这样的大规模实验,以在许多方面找到参与算法的优势和劣势。
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译
尽管机器学习方法已在金融领域广泛使用,但在非常成功的学位上,这些方法仍然可以根据解释性,可比性和可重复性来定制特定研究和不透明。这项研究的主要目的是通过提供一种通用方法来阐明这一领域,该方法是调查 - 不合Snostic且可解释给金融市场从业人员,从而提高了其效率,降低了进入的障碍,并提高了实验的可重复性。提出的方法在两个自动交易平台组件上展示。也就是说,价格水平,众所周知的交易模式和一种新颖的2步特征提取方法。该方法依赖于假设检验,该假设检验在其他社会和科学学科中广泛应用,以有效地评估除简单分类准确性之外的具体结果。提出的主要假设是为了评估所选的交易模式是否适合在机器学习设置中使用。在整个实验中,我们发现在机器学习设置中使用所考虑的交易模式仅由统计数据得到部分支持,从而导致效果尺寸微不足道(反弹7- $ 0.64 \ pm 1.02 $,反弹11 $ 0.38 \ pm 0.98 $,并且篮板15- $ 1.05 \ pm 1.16 $),但允许拒绝零假设。我们展示了美国期货市场工具上的通用方法,并提供了证据表明,通过这种方法,我们可以轻松获得除传统绩效和盈利度指标之外的信息指标。这项工作是最早将这种严格的统计支持方法应用于金融市场领域的工作之一,我们希望这可能是更多研究的跳板。
translated by 谷歌翻译
大多数机器学习算法由一个或多个超参数配置,必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置,可以采用各种自动超参数优化(HPO)方法,例如,基于监督机器学习的重新采样误差估计。本文介绍了HPO后,本文审查了重要的HPO方法,如网格或随机搜索,进化算法,贝叶斯优化,超带和赛车。它给出了关于进行HPO的重要选择的实用建议,包括HPO算法本身,性能评估,如何将HPO与ML管道,运行时改进和并行化结合起来。这项工作伴随着附录,其中包含关于R和Python的特定软件包的信息,以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑,这些笔记本展示了这项工作的概念作为补充文件。
translated by 谷歌翻译
野火是一种高度普遍的多毒环境现象。这种现象的影响包括人类损失,环境破坏和高昂的经济成本。为了减轻这些效果,已经开发了几个计算机模拟系统,以根据一组输入参数预测火灾行为,也称为场景(风速和方向;温度;等)。但是,由于未知的变量值的不确定性,模拟的结果通常具有高度的误差,因为它们尚不清楚,或者由于其测量可能是不精确,错误或无法实时执行的。先前的工作提出了多种结果的组合,以减少这种不确定性。最先进的方法基于并行优化策略,该策略使用健身函数来指导所有可能场景之间的搜索。尽管这些方法显示了预测质量的改善,但它们具有与用于选择场景的算法有关的一些局限性。为了克服这些局限性,在这项工作中,我们建议应用新颖性搜索范式,该范围取代了目标函数的量度,以衡量所找到的解决方案的新颖性,这使搜索可以与彼此不同的行为不断生成解决方案。这种方法避免了本地Optima,并且可能能够找到有用的解决方案,而其他算法很难或无法找到。与现有方法一样,该提案也可以适用于其他传播模型(洪水,雪崩或滑坡)。
translated by 谷歌翻译
预防和无线网络检测入侵和攻击已成为一个重要而严峻​​的挑战。在另一方面,由于无线节点的资源有限,使用监测在无线传感器网络中的永久监视节点,以防止和检测这种类型的网络的入侵和攻击的是几乎不存在。因此,今天来克服这个问题的解决方案是远程控制系统的讨论,并已成为在各个领域感兴趣的话题之一。远程监控的无线传感器网络节点的性能和行为,除了在网络内检测恶意节点,也可以在以后的预测恶意节点的行为。在目前的研究,采用基于鲸优化算法(WOA)和遗传算法(GA)和基于样本的分类的组合特征选择一个网络入侵检测系统,提出了在这项研究中,标准的数据集KDDCUP1999已经使用在这关系到健康的节点和类型的恶意节点的特性被存储基础网络中的攻击类型。该方法是基于特征选择的基础上的精度标准方面鲸优化算法和遗传算法KNN分类相结合,具有比其他以前的方法更好的结果。在此基础上,它可以说是鲸鱼优化算法和遗传算法提取了相关的类标签井的特征和KNN方法已经能够很好地检测出在无线网络的入侵检测数据集的不当行为节点。
translated by 谷歌翻译
超参数优化构成了典型的现代机器学习工作流程的很大一部分。这是由于这样一个事实,即机器学习方法和相应的预处理步骤通常只有在正确调整超参数时就会产生最佳性能。但是在许多应用中,我们不仅有兴趣仅仅为了预测精度而优化ML管道;确定最佳配置时,必须考虑其他指标或约束,从而导致多目标优化问题。由于缺乏知识和用于多目标超参数优化的知识和容易获得的软件实现,因此通常在实践中被忽略。在这项工作中,我们向读者介绍了多个客观超参数优化的基础知识,并激励其在应用ML中的实用性。此外,我们从进化算法和贝叶斯优化的领域提供了现有优化策略的广泛调查。我们说明了MOO在几个特定ML应用中的实用性,考虑了诸如操作条件,预测时间,稀疏,公平,可解释性和鲁棒性之类的目标。
translated by 谷歌翻译
特征选择是数据科学流水线的重要步骤,以减少与大型数据集相关的复杂性。虽然对本主题的研究侧重于优化预测性能,但很少研究在特征选择过程的上下文中调查稳定性。在这项研究中,我们介绍了重复的弹性网技术(租金)进行特色选择。租金使用具有弹性净正常化的广义线性模型的集合,每个训练都培训了训练数据的不同子集。该特征选择基于三个标准评估所有基本模型的重量分布。这一事实导致选择具有高稳定性的特征,从而提高最终模型的稳健性。此外,与已建立的特征选择器不同,租金提供了有关在训练期间难以预测的数据中难以预测的对象的模型解释的有价值信息。在我们的实验中,我们在八个多变量数据集中对六个已建立的特征选择器进行基准测试,用于二进制分类和回归。在实验比较中,租金在预测性能和稳定之间展示了均衡的权衡。最后,我们强调了租金的额外解释价值与医疗保健数据集的探索性后HOC分析。
translated by 谷歌翻译
本文提出了一种基于条件互信息(CMI)的新型特征选择方法。提出的高阶条件互信息最大化(HOCMIM)将高阶依赖性纳入特征选择过程中,并且由于其自下而上的推导而具有直接的解释。HOCMIM源自CMI的链膨胀,并表示为最大化优化问题。最大化问题是使用贪婪的搜索过程解决的,该过程加快了整个功能选择过程。实验是在一组基准数据集上运行的(总共20个)。将HOCMIM与两个有监督的学习分类器(支持向量机和K-Nearest邻居)的结果进行比较。HOCMIM在准确性方面取得了最佳效果,并且表明要比高级特征选择的速度快。
translated by 谷歌翻译
包括机器学习在内的计算分析方法对基因组学和医学领域具有重大影响。高通量基因表达分析方法,例如微阵列技术和RNA测序产生大量数据。传统上,统计方法用于基因表达数据的比较分析。但是,针对样品观察分类或发现特征基因的分类的更复杂的分析需要复杂的计算方法。在这篇综述中,我们编译了用于分析表达微阵列数据的各种统计和计算工具。即使在表达微阵列的背景下讨论了这些方法,也可以将它们应用于RNA测序和定量蛋白质组学数据集的分析。我们讨论缺失价值的类型以及其插补中通常采用的方法和方法。我们还讨论了数据归一化,特征选择和特征提取的方法。最后,详细描述了分类和类发现方法及其评估参数。我们认为,这项详细的审查将帮助用户根据预期结果选择适当的方法来预处理和分析其数据。
translated by 谷歌翻译
特征选择是一个棘手的问题,因此实用算法通常折衷对计算时间解的精度。在本文中,我们提出了利用近似,或代理人的多层次的一种新型的多阶段特征选择框架。这种框架允许使用的包装在计算上更多有效的方式方法,显著增加的特征选择的解决方案的质量可以实现的,尤其是在大型数据集。我们设计和评估是一个替代辅助遗传算法(SAGA),它利用这个概念在勘探早期阶段,引导进化搜索。 SAGA只有切换到在最后开发阶段评估原有的功能。我们证明了上限SAGA替代辅助阶段的运行时间是雪上加霜等于包装GA,而且更好地扩展为实例数高位复杂性的归纳算法。我们证明,使用来自UCI ML储存部14个集,在实践中SAGA显著降低与基线相比包装遗传算法(GA)的计算时间,而汇聚成显著精度更高的解决方案。我们的实验表明,SAGA能以接近最优的解决方案不是一个包装GA快三倍到达,平均。我们还展示了旨在防止代理人误导向错误的最优进化搜索进化控制方法的重要性。
translated by 谷歌翻译
Metaheuristics are popularly used in various fields, and they have attracted much attention in the scientific and industrial communities. In recent years, the number of new metaheuristic names has been continuously growing. Generally, the inventors attribute the novelties of these new algorithms to inspirations from either biology, human behaviors, physics, or other phenomena. In addition, these new algorithms, compared against basic versions of other metaheuristics using classical benchmark problems without shift/rotation, show competitive performances. In this study, we exhaustively tabulate more than 500 metaheuristics. To comparatively evaluate the performance of the recent competitive variants and newly proposed metaheuristics, 11 newly proposed metaheuristics and 4 variants of established metaheuristics are comprehensively compared on the CEC2017 benchmark suite. In addition, whether these algorithms have a search bias to the center of the search space is investigated. The results show that the performance of the newly proposed EBCM (effective butterfly optimizer with covariance matrix adaptation) algorithm performs comparably to the 4 well performing variants of the established metaheuristics and possesses similar properties and behaviors, such as convergence, diversity, exploration and exploitation trade-offs, in many aspects. The performance of all 15 of the algorithms is likely to deteriorate due to certain transformations, while the 4 state-of-the-art metaheuristics are less affected by transformations such as the shifting of the global optimal point away from the center of the search space. It should be noted that, except EBCM, the other 10 new algorithms proposed mostly during 2019-2020 are inferior to the well performing 2017 variants of differential evolution and evolution strategy in terms of convergence speed and global search ability on CEC 2017 functions.
translated by 谷歌翻译