作为深度学习模式,深入信心筛查森林(GClestcs)在各种应用中取得了巨大的成功。与传统的深森林方法相比,GcForestcs通过将一些实例直接传递到最后阶段,有效地减少了高度的情况。然而,在高置信区中存在一组具有低精度的实例,其被称为错误分区的实例。要查找这些错误分区实例,本文提出了一个深入的融合信心筛选森林(DBC-Forest)模型,基于他们的信心将所有情况包装成垃圾箱。以这种方式,可以将更准确的实例传递到最终阶段,并且性能得到改善。实验结果表明,DBC-Forest对相同的超参数实现高度准确的预测,比其他类似模型更快,以实现相同的准确性。
translated by 谷歌翻译
作为一种新颖的深度学习模型,GCFOREST已被广泛用于各种应用中。但是,当前的GCFOREST多透明扫描会产生许多冗余特征向量,这增加了模型的时间成本。为了筛选冗余特征向量,我们引入了一种用于多透明扫描的哈希筛选机制,并提出了一种称为HW-Forest的模型,该模型采用了两种策略,即哈希筛选和窗口筛选。 HW-Forest采用感知散列算法来计算哈希筛选策略中特征向量之间的相似性,该策略用于删除由多透明扫描产生的冗余特征向量,并可以大大降低时间成本和记忆消耗。此外,我们采用了一种自适应实例筛选策略来提高我们的方法的性能,称为窗口筛选,可以实现更高的精度,而无需在不同数据集上进行超参数调整。我们的实验结果表明,HW-Forest的精度比其他模型更高,并且时间成本也降低。
translated by 谷歌翻译
鉴定抗微生物肽的靶标是研究先天免疫反应和打击抗生素抗性的基本步骤,更广泛,精确的药物和公共卫生。关于鉴定(I)肽是抗微生物肽(AMP)的统计和计算方法是否有广泛的研究,或者是哪种靶向这些序列(克阳性,革兰氏阴性)的靶序列, 等等。)。尽管存在对此问题的深度学习方法,但大多数都无法处理小型AMP类(抗昆虫,抗寄生虫等)。更重要的是,一些AMP可以有多个目标,前面的方法无法考虑。在这项研究中,我们通过从各种AMP数据库收集和清洁氨基酸来构建多样化和综合的多标签蛋白序列数据库。为了为小类数据集产生有效的表示和特征,我们利用培训的蛋白质语言模型,培训了超过2.5亿蛋白序列。基于此,我们开发了一个端到端的分层多标签深森林框架,HMD-AMP,全面注释放大器。在识别AMP之后,它进一步预测了AMP可以从11个可用类中有效杀死的目标。广泛的实验表明,我们的框架在二进制分类任务和多标签分类任务中占据了最先进的模型,尤其是在次要类上。模型对抗特征和小扰动并产生有前途的结果。我们认为HMD-AMP对不同抗微生物肽的未来湿式实验室调查有助于不同抗菌肽的先天结构性质,并为抗生素进行精确药物构建有前途的实证内衬。
translated by 谷歌翻译
机器学习对图像和视频数据的应用通常会产生高维特征空间。有效的功能选择技术确定了一个判别特征子空间,该子空间可降低计算和建模成本,而绩效很少。提出了一种新颖的监督功能选择方法,用于这项工作中的机器学习决策。所得测试分别称为分类和回归问题的判别功能测试(DFT)和相关特征测试(RFT)。 DFT和RFT程序进行了详细描述。此外,我们将DFT和RFT的有效性与几种经典特征选择方法进行了比较。为此,我们使用LENET-5为MNIST和时尚流行数据集获得的深度功能作为说明性示例。其他具有手工制作和基因表达功能的数据集也包括用于性能评估。实验结果表明,DFT和RFT可以在保持较高的决策绩效的同时明确,稳健地选择较低的尺寸特征子空间。
translated by 谷歌翻译
本文调查了股票回购,特别是分享回购公告。它解决了如何识别此类公告,股票回购的超额回报以及股票回购公告后的回报的预测。我们说明了两种NLP方法,用于自动检测股票回购公告。即使有少量的培训数据,我们也可以达到高达90%的准确性。该论文利用这些NLP方法生成一个由57,155个股票回购公告组成的大数据集。通过分析该数据集,本论文的目的是表明大多数宣布回购的公司的大多数公司都表现不佳。但是,少数公司的表现极大地超过了MSCI世界。当查看所有公司的平均值时,这种重要的表现过高会导致净收益。如果根据公司的规模调整了基准指数,则平均表现过高,并且大多数表现不佳。但是,发现宣布股票回购的公司至少占其市值的1%,即使使用调整后的基准,也平均交付了显着的表现。还发现,在危机时期宣布股票回购的公司比整个市场更好。此外,生成的数据集用于训练72个机器学习模型。通过此,它能够找到许多可以达到高达77%并产生大量超额回报的策略。可以在六个不同的时间范围内改善各种性能指标,并确定明显的表现。这是通过训练多个模型的不同任务和时间范围以及结合这些不同模型的方法来实现的,从而通过融合弱学习者来产生重大改进,以创造一个强大的学习者。
translated by 谷歌翻译
我们查看模型可解释性的特定方面:模型通常需要限制在大小上才能被认为是可解释的,例如,深度5的决策树比深度50中的一个更容易解释。但是,较小的模型也倾向于高偏见。这表明可解释性和准确性之间的权衡。我们提出了一种模型不可知论技术,以最大程度地减少这种权衡。我们的策略是首先学习甲骨文,这是培训数据上高度准确的概率模型。 Oracle预测的不确定性用于学习培训数据的抽样分布。然后,对使用此分布获得的数据样本进行了可解释的模型,通常会导致精确度明显更高。我们将抽样策略作为优化问题。我们的解决方案1具有以下关键的有利属性:(1)它使用固定数量的七个优化变量,而与数据的维度(2)无关,它是模型不可知的 - 因为可解释的模型和甲骨文都可能属于任意性模型家族(3)它具有模型大小的灵活概念,并且可以容纳向量大小(4)它是一个框架,使其能够从优化领域的进度中受益。我们还提出了以下有趣的观察结果:(a)通常,小型模型大小的最佳训练分布与测试分布不同; (b)即使可解释的模型和甲骨文来自高度截然不同的模型家族,也存在这种效果:我们通过使用封闭的复发单位网络作为甲骨文来提高决策树的序列分类精度,从而在文本分类任务上显示此效果。使用字符n-grams; (c)对于模型,我们的技术可用于确定给定样本量的最佳训练样本。
translated by 谷歌翻译
In this paper, we investigate the problem of predictive confidence in face and kinship verification. Most existing face and kinship verification methods focus on accuracy performance while ignoring confidence estimation for their prediction results. However, confidence estimation is essential for modeling reliability in such high-risk tasks. To address this issue, we first introduce a novel yet simple confidence measure for face and kinship verification, which allows the verification models to transform the similarity score into a confidence score for a given face pair. We further propose a confidence-calibrated approach called angular scaling calibration (ASC). ASC is easy to implement and can be directly applied to existing face and kinship verification models without model modifications, yielding accuracy-preserving and confidence-calibrated probabilistic verification models. To the best of our knowledge, our approach is the first general confidence-calibrated solution to face and kinship verification in a modern context. We conduct extensive experiments on four widely used face and kinship verification datasets, and the results demonstrate the effectiveness of our approach.
translated by 谷歌翻译
数据有效的图像分类是一项具有挑战性的任务,旨在使用小型培训数据来解决图像分类。基于神经网络的深度学习方法对于图像分类很有效,但是它们通常需要大规模的培训数据,并且具有重大局限性,例如需要专业知识来设计网络架构和具有差的可解释性。进化深度学习是一个最近的热门话题,将进化计算与深度学习结合在一起。但是,大多数进化的深度学习方法都集中在神经网络的架构上,这些方法仍然遭受诸如不良解释性之类的局限性。为了解决这个问题,本文提出了一种新的基于基因编程的进化深度学习方法,以进行数据有效的图像分类。新方法可以使用来自图像和分类域的许多重要运算符自动发展可变长度模型。它可以从颜色或灰度图像中学习不同类型的图像特征,并构建有效而多样的合奏以进行图像分类。灵活的多层表示可以使新方法自动构建浅层或深模型/树以进行不同的任务,并通过多个内部节点对输入数据进行有效的转换。新方法用于解决具有不同训练集大小的五个图像分类任务。结果表明,在大多数情况下,它比深度学习方法的图像分类更好。深入的分析表明,新方法具有良好的收敛性,并演变具有高解释性,不同长度/尺寸/形状以及良好可传递性的模型。
translated by 谷歌翻译
解决现实数据科学问题的一个关键元素正在选择要使用的模型类型。通常建议使用表格数据的分类和回归问题的树集合模型(如XGBoost)。然而,最近已经提出了几种用于表格数据的深层学习模型,声称对某些用例倾斜XGBoost。本文探讨了这些深度模型是否应该是通过严格将新的深层模型与各种数据集上的XGBoost进行比较来推荐的表格数据。除了系统地比较他们的性能外,我们还考虑他们所需要的调谐和计算。我们的研究表明,XGBoost在数据集中优于这些深度模型,包括提出深层模型的论文中使用的数据集。我们还证明XGBoost需要更少的调整。在积极的一面,我们表明,深层模型和XGBoost的集合在这些数据集上仅仅比XGBoost更好。
translated by 谷歌翻译
背景:感染细菌和古代的原核病毒是生物圈中最丰富和多样化的生物实体。要了解各种生态系统中的监管作用,并利用治疗中使用的噬菌体的潜力,需要了解有病毒宿主关系的知识。高通量测序及其对微生物组的应用已经为预测宿主特定病毒可能感染的预测提供了新的机会。但是,计算宿主预测存在两个主要挑战。首先,经验上已知的病毒 - 宿主关系非常有限。其次,虽然病毒与其原核寄存器之间的序列相似度被用作宿主预测的主要特征,但在许多情况下,对齐在丢失或含糊不清。因此,仍然需要提高宿主预测的准确性。结果:在这项工作中,我们提出了一个半监督的学习模型,名为Hostg,为新颖病毒进行主机预测。我们通过利用病毒病毒蛋白质相似性和病毒宿主DNA序列相似性构建知识图。然后采用图形卷积网络(GCN)来利用或没有已知主机在培训中进行病毒来提高学习能力。在GCN培训期间,我们最小化预期的校准错误(ECE),以确保预测的信心。我们在模拟和实际测序数据上测试了HostG,并将其性能与其他用于病毒主机分类(VHM-Net,Wish,PHP,Hophage,Rafah,VHulk和VPF-Class)设计的最先进的方法。结论:Hostg优于其他流行的方法,展示了使用基于GCN的半监督学习方法的功效。 Hostg的特殊优势是它能够从新的分类群中预测主机。
translated by 谷歌翻译
决策树的集合被称为随机森林。如Breiman所提出的,不稳定学习者的实力和它们之间的多样性是集合模型的核心力量。在本文中,我们提出了两种用于生成双随机森林的合奏方法。在第一种方法中,我们提出了一种基于双随机森林的旋转组合。在基于旋转的双随机林,在每个节点处产生特征空间的转换或旋转。在每个节点上选择不同随机特征子空间进行评估,因此每个节点处的变换是不同的。不同的转变导致基本学习者之间更好的多样性,因此,更好的泛化性能。随着双随机森林作为基础学习者,每个节点的数据通过两个不同的变换转换,即主成分分析和线性判别分析。在第二种方法中,我们提出了双随机森林的倾斜组合。在随机林和双随机森林中的决策树是单变量的,这导致轴并行分裂的产生,这不能捕获数据的几何结构。此外,标准随机森林可能不会产生足够大的决策树,从而导致次优的性能。为了捕获几何属性并生长足够深度的决策树,我们提出了双随机森林的倾斜集合。双随机森林模型的倾斜集合是多元决策树。在每个非叶节点上,多面近端支持向量机产生最佳平面以获得更好的泛化性能。此外,不同的正则化技术(Tikhonov正则化和轴并行分裂正则化)用于解决双随机林的倾斜组合决策树中的小样本大小问题。
translated by 谷歌翻译
机器学习(ML)应用程序的数据量不断增长。不仅是观察的数量,特别是测量变量的数量(特征)增加了持续的数字化。选择最适合预测建模的功能是ML在商业和研究中取得成功的重要杠杆。特征选择方法(FSM)独立于某种ML算法 - 所谓的过滤方法 - 已毫无意义地建议,但研究人员和定量建模的指导很少,以选择典型ML问题的适当方法。本次审查在特征选择基准上综合了大量文献,并评估了58种方法在广泛使用的R环境中的性能。对于具体的指导,我们考虑了四种典型的数据集方案,这些情况挑战ML模型(嘈杂,冗余,不平衡数据和具有比观察特征更多的案例)。绘制早期基准的经验,该基准测试较少的FSMS,我们根据四个标准进行比较方法的性能(预测性能,所选的相关功能数,功能集和运行时的稳定性)。我们发现依赖于随机森林方法的方法,双输入对称相关滤波器(浪费)和联合杂质滤波器(Jim)是给定的数据集方案的良好性候选方法。
translated by 谷歌翻译
电池性能数据集通常是非正常和多色性的。推断出用于模型预测的这些数据集需要注意这些特性。本研究探讨了数据正常性对建筑机械学习模型的影响。在这项工作中,基于树的回归模型和多元线性回归模型每个都是由具有多卷曲性的高度偏斜的非正常数据集构建。有几种技术是必要的,例如数据转换,以实现具有此数据集的良好多个线性回归模型;讨论了最有用的技术。利用这些技术,最佳的多元线性回归模型达到了R ^ 2 = 81.23%,并且没有对本研究中使用的数据集没有多种性效应。基于树的模型在此数据集上执行更好,因为它们是非参数,能够在变量之间处理复杂关系而不受彩细量的影响。我们在使用随机森林时,我们展示了袋装,减少了过度装备。我们最佳的基于树的模型实现了R ^ 2 = 97.73%的准确性。本研究解释了为什么基于树的回归应该作为非正常分布式多元图数据的机器学习模型。
translated by 谷歌翻译
特征选择是数据科学流水线的重要步骤,以减少与大型数据集相关的复杂性。虽然对本主题的研究侧重于优化预测性能,但很少研究在特征选择过程的上下文中调查稳定性。在这项研究中,我们介绍了重复的弹性网技术(租金)进行特色选择。租金使用具有弹性净正常化的广义线性模型的集合,每个训练都培训了训练数据的不同子集。该特征选择基于三个标准评估所有基本模型的重量分布。这一事实导致选择具有高稳定性的特征,从而提高最终模型的稳健性。此外,与已建立的特征选择器不同,租金提供了有关在训练期间难以预测的数据中难以预测的对象的模型解释的有价值信息。在我们的实验中,我们在八个多变量数据集中对六个已建立的特征选择器进行基准测试,用于二进制分类和回归。在实验比较中,租金在预测性能和稳定之间展示了均衡的权衡。最后,我们强调了租金的额外解释价值与医疗保健数据集的探索性后HOC分析。
translated by 谷歌翻译
Bootstrap aggregating (Bagging) and boosting are two popular ensemble learning approaches, which combine multiple base learners to generate a composite model for more accurate and more reliable performance. They have been widely used in biology, engineering, healthcare, etc. This paper proposes BoostForest, which is an ensemble learning approach using BoostTree as base learners and can be used for both classification and regression. BoostTree constructs a tree model by gradient boosting. It increases the randomness (diversity) by drawing the cut-points randomly at node splitting. BoostForest further increases the randomness by bootstrapping the training data in constructing different BoostTrees. BoostForest generally outperformed four classical ensemble learning approaches (Random Forest, Extra-Trees, XGBoost and LightGBM) on 35 classification and regression datasets. Remarkably, BoostForest tunes its parameters by simply sampling them randomly from a parameter pool, which can be easily specified, and its ensemble learning framework can also be used to combine many other base learners.
translated by 谷歌翻译
合奏的基本分支混合合奏在许多机器学习问题,尤其是回归中蓬勃发展。几项研究证实了多样性的重要性。但是,以前的合奏仅考虑在子模型训练阶段的多样性,与单个模型相比,改进有限。相反,本研究从异质模型池中选择和权重子模型。它使用内点过滤线性搜索算法解决了优化问题。这种优化问题创新地将负相关学习作为惩罚项,可以选择多种模型子集。实验结果显示了一些有意义的观点。模型池构造需要不同类别的模型,每个类别都作为子模型为所有可能的参数集。选择每个类的最佳子模型以构建基于NCL的合奏,该集合比子模型的平均值要好得多。此外,与经典常数和非恒定加权方法相比,基于NCL的合奏在几种预测指标中具有重要优势。实际上,由于模型不确定性,很难在事先结论数据集的最佳子模型。但是,我们的方法将获得可比较的精度作为RMSE度量的潜在最佳子模型。总之,这项研究的价值在于它的易用性和有效性,使混合团合奏可以接受多样性和准确性。
translated by 谷歌翻译
This paper presents a novel technique based on gradient boosting to train the final layers of a neural network (NN). Gradient boosting is an additive expansion algorithm in which a series of models are trained sequentially to approximate a given function. A neural network can also be seen as an additive expansion where the scalar product of the responses of the last hidden layer and its weights provide the final output of the network. Instead of training the network as a whole, the proposed algorithm trains the network sequentially in $T$ steps. First, the bias term of the network is initialized with a constant approximation that minimizes the average loss of the data. Then, at each step, a portion of the network, composed of $J$ neurons, is trained to approximate the pseudo-residuals on the training data computed from the previous iterations. Finally, the $T$ partial models and bias are integrated as a single NN with $T \times J$ neurons in the hidden layer. Extensive experiments in classification and regression tasks, as well as in combination with deep neural networks, are carried out showing a competitive generalization performance with respect to neural networks trained with different standard solvers, such as Adam, L-BFGS, SGD and deep models. Furthermore, we show that the proposed method design permits to switch off a number of hidden units during test (the units that were last trained) without a significant reduction of its generalization ability. This permits the adaptation of the model to different classification speed requirements on the fly.
translated by 谷歌翻译
合奏学习在机器学习方面取得了成功,比其他学习方法具有重大优势。袋装是一种突出的合奏学习方法,它创建了被称为袋子的数据子组,该数据被单独的机器学习方法(例如决策树)培训。随机森林是学习过程中具有其他功能的袋装的重要例子。 \ textColor {black} {当单个学习者具有较高的偏见时,包装的限制是汇总预测中的高偏置(模型不足)。}进化算法已突出用于优化问题,并且也用于机器学习。进化算法是无梯度的方法,具有多种候选解决方案,可维持创建新解决方案的多样性。在传统的包装合奏学习中,制作了一次袋子,而在培训示例方面,内容是在学习过程中固定的。在我们的论文中,我们提出了进化装袋的合奏学习,我们利用进化算法来发展袋子的内容,以通过迭代袋中提供多样性来增强合奏。结果表明,在某些约束下,我们的进化合奏装袋方法优于几个基准数据集的常规合奏方法(包装和随机森林)。进化装袋可以固有地维持一套不同的行李,而无需牺牲任何数据。
translated by 谷歌翻译
功能工程已成为提高模型预测性能并生产优质数据集的最重要步骤之一。但是,此过程需要非平凡的域知识,涉及耗时的过程。因此,自动化此过程已成为研究的积极领域,并在工业应用中感兴趣。在本文中,提出了一种称为基于元学习和因果关系的特征工程(MACFE)的新方法。我们的方法基于使用元学习,特征分布编码和因果关系特征选择。在MacFe中,使用元学习来找到最佳的转换,然后通过预选为“原始”功能来加速搜索,鉴于其因果关系的相关性。对流行分类数据集的实验评估表明,MACFE可以改善八个分类器的预测性能,表现平均最低的最新方法至少提高6.54%,并且比最佳先前工作的提高了2.71%。
translated by 谷歌翻译
研究了自闭症数据集,以确定自闭症和健康组之间的差异。为此,分析了这两组的静止状态功能磁共振成像(RS-FMRI)数据,并创建了大脑区域之间的连接网络。开发了几个分类框架,以区分组之间的连接模式。比较了统计推断和精度的最佳模型,并分析了精度和模型解释性之间的权衡。最后,据报道,分类精度措施证明了我们框架的性能。我们的最佳模型可以以71%的精度将自闭症和健康的患者分类为多站点I数据。
translated by 谷歌翻译