免疫反应是一个动态过程,通过该过程,身体决定抗原是自我还是非自然。这种动态过程的状态由构成该决策过程的炎症和监管参与者的相对平衡和种群定义。免疫疗法的目的,例如因此,类风湿关节炎(RA)是为了使免疫状态偏向于监管参与者,从而在反应中关闭自身免疫性途径。尽管有几种已知的免疫疗法方法,但治疗的有效性将取决于这种干预措施如何改变该状态的演变。不幸的是,此过程不仅取决于该过程的动力学,而且是在干预时的系统状态决定的 - 这种状态在应用治疗之前很难确定即使不是不可能的状态。
translated by 谷歌翻译
估计变量的重要性是现代机器学习的重要任务。这有助于评估给定模型中功能的优点。在过去的十年中,已经开发了几种估计变量重要性的技术。在本文中,我们提出了对可变重要性估计的新兴方法的计算和理论探索,即:绝对收缩和选择操作员(LASSO),支持向量机(SVM),预测误差函数(Perf),随机森林(随机森林)( RF)和极端梯度提升(XGBOOST)在不同类型的现实生活和模拟数据上进行了测试。所有这些方法都可以无缝处理回归和分类任务,但是在处理包含丢失值的数据时都失败了。该实现表明,在高度相关数据的情况下,PURD具有最佳性能,紧随其后的是RF。 perf和xgboost是“渴望数据”的方法,它们在小数据尺寸上的性能最差,但在执行时间方面它们是最快的。当数据集中许多冗余功能时,SVM是最合适的。 perf的盈余是其自然截止量的零截止,有助于将正面和负分数分开,所有正分数表明基本和重要的特征,而负面分数表示无用的特征。 RF和Lasso的通用性非常多,尽管它们没有给予最佳效果,但它们几乎可以在所有情况下使用。
translated by 谷歌翻译
许多现实生活中的优化问题通常包含一个或多个没有明确公式的约束或目标。但是,如果可用数据,这些数据可用于学习约束。清楚地看到了这种方法的好处,但是需要以结构化的方式进行此过程。因此,本文提供了一个使用约束学习(OCL)进行优化的框架,我们认为这将有助于正式化和指导从数据中学习的过程。该框架包括以下步骤:(i)设置概念优化模型,(ii)数据收集和预处理,(iii)选择和培训预测模型,(iv)解决优化模型以及(v)验证和验证和验证和验证改进优化模型。然后,我们根据该框架回顾了最近的OCL文献,并强调了当前的趋势以及未来研究的领域。
translated by 谷歌翻译
特征选择是数据科学流水线的重要步骤,以减少与大型数据集相关的复杂性。虽然对本主题的研究侧重于优化预测性能,但很少研究在特征选择过程的上下文中调查稳定性。在这项研究中,我们介绍了重复的弹性网技术(租金)进行特色选择。租金使用具有弹性净正常化的广义线性模型的集合,每个训练都培训了训练数据的不同子集。该特征选择基于三个标准评估所有基本模型的重量分布。这一事实导致选择具有高稳定性的特征,从而提高最终模型的稳健性。此外,与已建立的特征选择器不同,租金提供了有关在训练期间难以预测的数据中难以预测的对象的模型解释的有价值信息。在我们的实验中,我们在八个多变量数据集中对六个已建立的特征选择器进行基准测试,用于二进制分类和回归。在实验比较中,租金在预测性能和稳定之间展示了均衡的权衡。最后,我们强调了租金的额外解释价值与医疗保健数据集的探索性后HOC分析。
translated by 谷歌翻译
我们为学习限制建立了混合整数优化的广泛方法论基础。我们提出了一种用于数据驱动决策的端到端管道,其中使用机器学习直接从数据中学习限制和目标,并且培训的模型嵌入在优化配方中。我们利用许多机器学习方法的混合整数优化 - 焦点,包括线性模型,决策树,集合和多层的感知。对多种方法的考虑允许我们捕获决策,上下文变量和结果之间的各种潜在关系。我们还使用观察结果的凸船体来表征决策信任区域,以确保可信的建议并避免推断。我们有效地使用列生成和聚类来纳入这个表示。结合域驱动的约束和客观术语,嵌入式模型和信任区域定义了处方生成的混合整数优化问题。我们将此框架实施为从业者的Python包(OptiCl)。我们展示了化疗优化和世界食物计划规划中的方法。案例研究说明了在生成高质量处方的框架中的框架,由信任区域添加的值,加入多个机器学习方法以及包含多个学习约束的框架。
translated by 谷歌翻译
In recent years there has been growing attention to interpretable machine learning models which can give explanatory insights on their behavior. Thanks to their interpretability, decision trees have been intensively studied for classification tasks, and due to the remarkable advances in mixed-integer programming (MIP), various approaches have been proposed to formulate the problem of training an Optimal Classification Tree (OCT) as a MIP model. We present a novel mixed-integer quadratic formulation for the OCT problem, which exploits the generalization capabilities of Support Vector Machines for binary classification. Our model, denoted as Margin Optimal Classification Tree (MARGOT), encompasses the use of maximum margin multivariate hyperplanes nested in a binary tree structure. To enhance the interpretability of our approach, we analyse two alternative versions of MARGOT, which include feature selection constraints inducing local sparsity of the hyperplanes. First, MARGOT has been tested on non-linearly separable synthetic datasets in 2-dimensional feature space to provide a graphical representation of the maximum margin approach. Finally, the proposed models have been tested on benchmark datasets from the UCI repository. The MARGOT formulation turns out to be easier to solve than other OCT approaches, and the generated tree better generalizes on new observations. The two interpretable versions are effective in selecting the most relevant features and maintaining good prediction quality.
translated by 谷歌翻译
相关特征的识别,即确定系统的过程或属性的驱动变量,是对具有大量变量的数据集分析的重要组成部分。量化这些特征相关性的数学严格方法是相互信息。相互信息确定特征在其联合相互依赖与感兴趣的财产方面的相关性。但是,相互信息需要作为输入概率分布,这不能可靠地从连续分布(例如长度或能量)等连续分布中估计。在这里,我们介绍了总累积共同信息(TCMI),这是对相互依赖关系的相关性的度量,该信息将相互信息扩展到基于累积概率分布的连续分布的随机变量。 TCMI是一种非参数,鲁棒和确定性的度量,可促进具有不同基数的特征集之间的比较和排名。 TCMI诱导的排名允许特征选择,即,考虑到数据示例的数量以及一组变量集的基数,识别与感兴趣属性的非线性统计学相关的变量集的识别。我们通过模拟数据评估测量的性能,将其性能与类似的多元依赖性度量进行比较,并在一组标准数据集中证明了我们的功能选择方法的有效性以及材料科学中的典型情况。
translated by 谷歌翻译
在医疗保健系统中,需要患者使用可穿戴设备进行远程数据收集和对健康数据的实时监控以及健康状况的状态。可穿戴设备的这种采用导致收集和传输的数据量显着增加。由于设备由较小的电池电源运行,因此由于设备的高处理要求以进行数据收集和传输,因此可以快速减少它们。鉴于医疗数据的重要性,必须所有传输数据遵守严格的完整性和可用性要求。减少医疗保健数据的量和传输频率将通过使用推理算法改善设备电池寿命。有一个以准确性和效率改善传输指标的问题,彼此之间的权衡,例如提高准确性会降低效率。本文表明,机器学习可用于分析复杂的健康数据指标,例如数据传输的准确性和效率,以使用Levenberg-Marquardt算法来克服权衡问题,从而增强这两个指标,从而通过少较少的样本来传输,同时保持维护准确性。使用标准心率数据集测试该算法以比较指标。结果表明,LMA最好以3.33倍的效率进行样本数据尺寸和79.17%的精度,在7种不同的采样案例中具有相似的准确性,用于测试,但表明效率提高。与具有高效率的现有方法相比,这些提出的方法使用机器学习可以显着改善两个指标,而无需牺牲其他指标。
translated by 谷歌翻译
拖延是任务的非理性延迟,是在线学习中的普遍情况。潜在的负面后果包括更高的辍学风险,增加压力和情绪减少。由于学习管理系统和学习分析的增加,可以检测到这种行为的指标,从而预测未来的拖延和其他扩张行为。但是,关注此类预测的研究很少。此外,几乎不存在涉及不同类型的预测指标和预测性能之间的比较的研究。在这项研究中,我们旨在通过分析多个机器学习算法的性能来填补这些研究空白,以预测具有两类预测指标的高等教育环境中在线作业的延迟或及时提交:基于主观的,基于问卷的变量和目标,客观,客观,客观,目标,客观,客观,客观,客观,从学习管理系统中提取的基于日志数据的指标。结果表明,具有客观预测变量的模型始终优于主观预测指标的模型,并且两种变量类型的组合表现稍好一些。对于这三个选项中的每一个,一种不同的方法盛行(主观,贝叶斯多层次模型的梯度增强机器,共同预测指标的随机森林)。我们得出的结论是,在学习管理系统中实施此类模型之前,应仔细注意预测变量和算法。
translated by 谷歌翻译
肾脏是人体的重要器官。它保持体内平衡并通过尿液去除有害物质。肾细胞癌(RCC)是肾癌最常见的形式。大约90%的肾脏癌归因于RCC。最有害的RCC类型是清晰的细胞肾细胞癌(CCRCC),占所有RCC病例的80%。需要早期和准确的CCRCC检测,以防止其他器官进一步扩散该疾病。在本文中,进行了详细的实验,以确定可以在不同阶段诊断CCRCC的重要特征。 CCRCC数据集从癌症基因组图集(TCGA)获得。考虑了从8种流行特征选择方法获得的特征顺序的新型相互信息和集合的特征排名方法。通过使用2个不同的分类器(ANN和SVM)获得的总体分类精度来评估所提出方法的性能。实验结果表明,所提出的特征排名方法能够获得更高的精度(分别使用SVM和NN分别使用SVM和NN),与现有工作相比,使用SVM和NN分别使用SVM和NN进行分类。还要注意的是,在现有TNM系统(由AJCC和UICC提出的)提到的3个区分特征中,我们提出的方法能够选择其中两个(肿瘤的大小,转移状态)作为顶部 - 大多数。这确立了我们提出的方法的功效。
translated by 谷歌翻译
天然气管道中的泄漏检测是石油和天然气行业的一个重要且持续的问题。这尤其重要,因为管道是运输天然气的最常见方法。这项研究旨在研究数据驱动的智能模型使用基本操作参数检测天然气管道的小泄漏的能力,然后使用现有的性能指标比较智能模型。该项目应用观察者设计技术,使用回归分类层次模型来检测天然气管道中的泄漏,其中智能模型充当回归器,并且修改后的逻辑回归模型充当分类器。该项目使用四个星期的管道数据流研究了五个智能模型(梯度提升,决策树,随机森林,支持向量机和人工神经网络)。结果表明,虽然支持向量机和人工神经网络比其他网络更好,但由于其内部复杂性和所使用的数据量,它们并未提供最佳的泄漏检测结果。随机森林和决策树模型是最敏感的,因为它们可以在大约2小时内检测到标称流量的0.1%的泄漏。所有智能模型在测试阶段中具有高可靠性,错误警报率为零。将所有智能模型泄漏检测的平均时间与文献中的实时短暂模型进行了比较。结果表明,智能模型在泄漏检测问题中的表现相对较好。该结果表明,可以与实时瞬态模型一起使用智能模型,以显着改善泄漏检测结果。
translated by 谷歌翻译
隆升建模是一种因果学习技术,可估计亚组级别的治疗效果。它通常在行业和其他地方用于定位广告等任务。在典型的设置中,Ruplift模型可以将数千个功能作为输入,这是昂贵的,并且导致了诸如过度拟合和模型可解释性差的问题。因此,需要选择建模最重要的功能的子集。但是,进行功能选择的传统方法不适合该任务,因为它们是为标准的机器学习模型而设计的,其目标与隆升模型重要。为了解决这个问题,我们介绍了一组针对提升建模的特征选择方法,从统计和信息理论中汲取灵感。我们对公开可用数据集的拟议方法进行了经验评估,证明了与传统特征选择相比,提出的方法的优势。我们将建议的方法公开作为Causalml开源软件包的一部分。
translated by 谷歌翻译
机器学习(ML)应用程序的数据量不断增长。不仅是观察的数量,特别是测量变量的数量(特征)增加了持续的数字化。选择最适合预测建模的功能是ML在商业和研究中取得成功的重要杠杆。特征选择方法(FSM)独立于某种ML算法 - 所谓的过滤方法 - 已毫无意义地建议,但研究人员和定量建模的指导很少,以选择典型ML问题的适当方法。本次审查在特征选择基准上综合了大量文献,并评估了58种方法在广泛使用的R环境中的性能。对于具体的指导,我们考虑了四种典型的数据集方案,这些情况挑战ML模型(嘈杂,冗余,不平衡数据和具有比观察特征更多的案例)。绘制早期基准的经验,该基准测试较少的FSMS,我们根据四个标准进行比较方法的性能(预测性能,所选的相关功能数,功能集和运行时的稳定性)。我们发现依赖于随机森林方法的方法,双输入对称相关滤波器(浪费)和联合杂质滤波器(Jim)是给定的数据集方案的良好性候选方法。
translated by 谷歌翻译
痴呆症是一种神经精神脑障碍,通常会在一个或多个脑细胞停止部分或根本停止工作时发生。在疾病的早期阶段诊断这种疾病是从不良后果中挽救生命并为他们提供更好的医疗保健的至关重要的任务。事实证明,机器学习方法在预测疾病早期痴呆症方面是准确的。痴呆的预测在很大程度上取决于通常从归一化的全脑体积(NWBV)和地图集缩放系数(ASF)收集的收集数据类型,这些数据通常测量并从磁共振成像(MRIS)中进行校正。年龄和性别等其他生物学特征也可以帮助诊断痴呆症。尽管许多研究使用机器学习来预测痴呆症,但我们无法就这些方法的稳定性得出结论,而这些方法在不同的实验条件下更准确。因此,本文研究了有关痴呆预测的机器学习算法的性能的结论稳定性。为此,使用7种机器学习算法和两种功能还原算法,即信息增益(IG)和主成分分析(PCA)进行大量实验。为了检查这些算法的稳定性,IG的特征选择阈值从20%更改为100%,PCA尺寸从2到8。这导致了7x9 + 7x7 = 112实验。在每个实验中,都记录了各种分类评估数据。获得的结果表明,在七种算法中,支持向量机和天真的贝叶斯是最稳定的算法,同时更改选择阈值。同样,发现使用IG似乎比使用PCA预测痴呆症更有效。
translated by 谷歌翻译
包括机器学习在内的计算分析方法对基因组学和医学领域具有重大影响。高通量基因表达分析方法,例如微阵列技术和RNA测序产生大量数据。传统上,统计方法用于基因表达数据的比较分析。但是,针对样品观察分类或发现特征基因的分类的更复杂的分析需要复杂的计算方法。在这篇综述中,我们编译了用于分析表达微阵列数据的各种统计和计算工具。即使在表达微阵列的背景下讨论了这些方法,也可以将它们应用于RNA测序和定量蛋白质组学数据集的分析。我们讨论缺失价值的类型以及其插补中通常采用的方法和方法。我们还讨论了数据归一化,特征选择和特征提取的方法。最后,详细描述了分类和类发现方法及其评估参数。我们认为,这项详细的审查将帮助用户根据预期结果选择适当的方法来预处理和分析其数据。
translated by 谷歌翻译
分类器的合奏结合了几个单个分类器,以提供最终的预测或分类决策。一个越来越令人发指的问题是,此类系统是否可以胜过单个最佳分类器。如果是这样,哪种形式的分类器合奏(也称为多个分类器学习系统或多个分类器)在合奏本身的规模或多样性中产生最重要的好处?鉴于用于检测自闭症特征的测试是耗时且昂贵的,因此开发了一种将提供最佳结果和测量自闭症谱系障碍(ASD)的系统。在本文中,评估了几个单一和后来的多个分类器学习系统,以预测和确定影响或有助于ASD的因素出于早期筛查目的的能力。行为数据和机器人增强疗法的3,000次课程和300小时的数据集,该疗法被记录为61名儿童。仿真结果表明,与单个分类器相比,多个分类器学习系统(尤其是每个集合具有三个分类器的人)的优越预测性能,可以通过装袋和增强获得出色的结果。看来,社会交流手势仍然是儿童ASD问题的关键因素。
translated by 谷歌翻译
Precision Medicine根据患者的特征为患者提供定制的治疗方法,是提高治疗效率的一种有希望的方法。大规模的OMICS数据对于患者表征很有用,但是它们的测量经常会随着时间而变化,从而导致纵向数据。随机森林是用于构建预测模型的最先进的机器学习方法之一,并且可以在精密医学中发挥关键作用。在本文中,我们回顾了标准随机森林方法的扩展,以进行纵向数据分析。扩展方法根据其设计的数据结构进行分类。我们考虑单变量和多变量响应,并根据时间效应是否相关,进一步对重复测量进行分类。还提供了审查扩展程序的可用软件实现信息。最后,我们讨论了我们审查的局限性和一些未来的研究指示。
translated by 谷歌翻译
从大量嘈杂的候选人中选择一小部分信息功能是一个充满挑战的问题,即机器学习和近似贝叶斯计算中的许多应用程序。在实践中,还需要考虑计算信息丰富功能的成本。这对于网络尤为重要,因为单个功能的计算成本可以跨越几个数量级。我们使用两种方法解决了网络模型选择问题的问题。首先,我们调整了九种功能选择方法来说明功能成本。我们为两类网络模型显示,可以通过两个数量级降低成本,而不会极大地影响分类精度(正确识别的模型的比例)。其次,我们使用具有较小网络的Pilot模拟选择了功能。这种方法将计算成本降低了50倍,而不会影响分类精度。为了证明我们的方法的实用性,我们将其应用于三个不同的酵母蛋白相互作用网络,并确定了最合适的重复差异模型。
translated by 谷歌翻译
我们介绍了数据科学预测生命周期中各个阶段开发和采用自动化的技术和文化挑战的说明概述,从而将重点限制为使用结构化数据集的监督学习。此外,我们回顾了流行的开源Python工具,这些工具实施了针对自动化挑战的通用解决方案模式,并突出了我们认为进步仍然需要的差距。
translated by 谷歌翻译
机器学习对图像和视频数据的应用通常会产生高维特征空间。有效的功能选择技术确定了一个判别特征子空间,该子空间可降低计算和建模成本,而绩效很少。提出了一种新颖的监督功能选择方法,用于这项工作中的机器学习决策。所得测试分别称为分类和回归问题的判别功能测试(DFT)和相关特征测试(RFT)。 DFT和RFT程序进行了详细描述。此外,我们将DFT和RFT的有效性与几种经典特征选择方法进行了比较。为此,我们使用LENET-5为MNIST和时尚流行数据集获得的深度功能作为说明性示例。其他具有手工制作和基因表达功能的数据集也包括用于性能评估。实验结果表明,DFT和RFT可以在保持较高的决策绩效的同时明确,稳健地选择较低的尺寸特征子空间。
translated by 谷歌翻译