数据不平衡在生产数据中很常见,其中受控生产设置需要数据落入狭窄的变化范围内,并以质量评估收集数据,而不是数据分析见解。这种不平衡对模型的预测性能产生负面影响在不足的观测中。我们建议采样来调整这种不平衡,目标是提高历史生产数据培训的模型的性能。我们调查使用三种采样方法来调整不平衡。目标是降低培训数据中的协变量,随后适合回归模型。我们调查模型的预测功率如何在使用采样或原始数据进行培训时更改。我们在从青霉素生产的高级模拟中应用我们的方法,并发现使用采样数据拟合模型,这在整体预测性能下减少了较小,但在不足的观察中产生了系统更好的性能。此外,结果强调需要替代,公平和平衡的模型评估。
translated by 谷歌翻译
自动数据收集方案的扩散和传感器的进步正在增加我们能够实时监控的数据量。但是,鉴于高注册成本和质量检查所需的时间,数据通常以未标记的形式获得。这正在促进使用主动学习来开发软传感器和预测模型。在生产中,通过评估未标记数据的信息内容来收集标签,而不是进行随机检查以获取产品信息。文献中已经提出了一些有关回归的查询策略框架,但大多数重点都专门用于基于静态池的场景。在这项工作中,我们为基于流的方案提出了一种新的策略,在该方案中,将实例顺序提供给学习者,该实例必须立即决定是否执行质量检查以获取标签或丢弃实例。该方法受到最佳实验设计理论的启发,决策过程的迭代方面是通过对未标记数据点的信息设定阈值来解决的。使用数值模拟和田纳西州伊士曼工艺模拟器评估所提出的方法。结果证实,选择提出的算法建议的示例可以更快地减少预测误差。
translated by 谷歌翻译
最近关于机器学习和优化集成的研究的扩散。该研究流中的一个膨胀区域是预测模型嵌入式优化,其使用预先接受训练的预测模型来实现优化问题的目标函数,因此预测模型的特征成为优化问题中的决策变量。尽管该领域最近出版物飙升,但这一决策管道的一个方面已经很大程度上被忽视的是培训相关性,即确保对优化问题的解决方案应该类似于用于训练预测模型的数据。在本文中,我们提出了旨在实施培训相关性的限制,并通过集合来展示添加建议的约束显着提高所获得的溶液质量。
translated by 谷歌翻译
太阳耀斑,尤其是M级和X级耀斑,通常与冠状质量弹出(CMES)有关。它们是太空天气影响的最重要来源,可能会严重影响近地环境。因此,必须预测耀斑(尤其是X级),以减轻其破坏性和危险后果。在这里,我们介绍了几种统计和机器学习方法,以预测AR的耀斑指数(FI),这些方法通过考虑到一定时间间隔内的不同类耀斑的数量来量化AR的耀斑生产力。具体而言,我们的样本包括2010年5月至2017年12月在太阳能磁盘上出现的563个AR。25个磁性参数,由空中震动和磁性成像器(HMI)的太空天气HMI活性区域(Sharp)提供的太阳能动力学观测值(HMI)。 (SDO),表征了代理中存储在ARS中的冠状磁能,并用作预测因子。我们研究了这些尖锐的参数与ARS的FI与机器学习算法(样条回归)和重采样方法(合成少数群体过度采样技术,用于使用高斯噪声回归的合成少数群体过度采样技术,smogn简短)。基于既定关系,我们能够在接下来的1天内预测给定AR的FIS值。与其他4种流行的机器学习算法相比,我们的方法提高了FI预测的准确性,尤其是对于大型FI。此外,我们根据Borda Count方法从由9种不同的机器学习方法渲染的等级计算出尖锐参数的重要性。
translated by 谷歌翻译
Uncertainty quantification (UQ) has increasing importance in building robust high-performance and generalizable materials property prediction models. It can also be used in active learning to train better models by focusing on getting new training data from uncertain regions. There are several categories of UQ methods each considering different types of uncertainty sources. Here we conduct a comprehensive evaluation on the UQ methods for graph neural network based materials property prediction and evaluate how they truly reflect the uncertainty that we want in error bound estimation or active learning. Our experimental results over four crystal materials datasets (including formation energy, adsorption energy, total energy, and band gap properties) show that the popular ensemble methods for uncertainty estimation is NOT the best choice for UQ in materials property prediction. For the convenience of the community, all the source code and data sets can be accessed freely at \url{https://github.com/usccolumbia/materialsUQ}.
translated by 谷歌翻译
深度学习模型记住培训数据,这损害了他们推广到代表性不足的课程的能力。我们从经验上研究了卷积神经网络对图像数据不平衡数据的内部表示,并测量了训练和测试集中模型特征嵌入之间的概括差距,这表明该差距对于少数类别的差异更大。这个洞察力使我们能够为不平衡数据设计有效的三相CNN培训框架。该框架涉及训练网络端到端的数据不平衡数据以学习准确的功能嵌入,在学习的嵌入式空间中执行数据增强以平衡火车分布,并在嵌入式平衡的培训数据上微调分类器头。我们建议在培训框架中使用广泛的过采样(EOS)作为数据增强技术。 EOS形成合成训练实例,作为少数族类样本与其最近的敌人之间的凸组合,以减少概括差距。提出的框架提高了与不平衡学习中常用的领先成本敏感和重新采样方法的准确性。此外,它比标准数据预处理方法(例如SMOTE和基于GAN的过采样)更有效,因为它需要更少的参数和更少的训练时间。
translated by 谷歌翻译
计算和实验能力的改进正在迅速增加常规产生的科学数据量。在受内存和计算强度约束的应用中,过大的数据集可能阻碍科学发现,使数据降低数据驱动方法的关键组件。数据集在两个方向上增长:数据点数及其维度。虽然数据压缩技术涉及减少维度,但这里的重点是减少数据点的数量。建议策略选择数据点,使得它们统一地跨越数据的相位空间。所提出的算法依赖于估计数据的概率图并使用它来构造接受概率。使用迭代方法来准确地估计当仅使用小型数据集的小子集来构造概率图时稀有数据点的概率。代替将相位空间融合以估计概率图,其功能形式近似于标准化流程。因此,该方法自然地延伸到高维数据集。所提出的框架被证明是一种可行的途径,以便在可以使用丰富的数据时实现数据有效的机器学习。该方法的实现是在伴随存储库中(https://github.com/nrer/phase-space-sampling)。
translated by 谷歌翻译
以知情方式监测和管理地球林是解决生物多样性损失和气候变化等挑战的重要要求。虽然森林评估的传统或空中运动提供了在区域一级分析的准确数据,但将其扩展到整个国家,以外的高度分辨率几乎不可能。在这项工作中,我们提出了一种贝叶斯深度学习方法,以10米的分辨率为全国范围的森林结构变量,使用自由可用的卫星图像作为输入。我们的方法将Sentinel-2光学图像和Sentinel-1合成孔径雷达图像共同变换为五种不同的森林结构变量的地图:95th高度百分位,平均高度,密度,基尼系数和分数盖。我们从挪威的41个机载激光扫描任务中培训和测试我们的模型,并证明它能够概括取消测试区域,从而达到11%和15%之间的归一化平均值误差,具体取决于变量。我们的工作也是第一个提出贝叶斯深度学习方法的工作,以预测具有良好校准的不确定性估计的森林结构变量。这些提高了模型的可信度及其适用于需要可靠的信心估计的下游任务,例如知情决策。我们提出了一组广泛的实验,以验证预测地图的准确性以及预测的不确定性的质量。为了展示可扩展性,我们为五个森林结构变量提供挪威地图。
translated by 谷歌翻译
In this work, we propose a novel generative model for mapping inputs to structured, high-dimensional outputs using structured conditional normalizing flows and Gaussian process regression. The model is motivated by the need to characterize uncertainty in the input/output relationship when making inferences on new data. In particular, in the physical sciences, limited training data may not adequately characterize future observed data; it is critical that models adequately indicate uncertainty, particularly when they may be asked to extrapolate. In our proposed model, structured conditional normalizing flows provide parsimonious latent representations that relate to the inputs through a Gaussian process, providing exact likelihood calculations and uncertainty that naturally increases away from the training data inputs. We demonstrate the methodology on laser-induced breakdown spectroscopy data from the ChemCam instrument onboard the Mars rover Curiosity. ChemCam was designed to recover the chemical composition of rock and soil samples by measuring the spectral properties of plasma atomic emissions induced by a laser pulse. We show that our model can generate realistic spectra conditional on a given chemical composition and that we can use the model to perform uncertainty quantification of chemical compositions for new observed spectra. Based on our results, we anticipate that our proposed modeling approach may be useful in other scientific domains with high-dimensional, complex structure where it is important to quantify predictive uncertainty.
translated by 谷歌翻译
数据通常以表格格式存储。几个研究领域(例如,生物医学,断层/欺诈检测),容易出现不平衡的表格数据。由于阶级失衡,对此类数据的监督机器学习通常很困难,从而进一步增加了挑战。合成数据生成,即过采样是一种用于提高分类器性能的常见补救措施。最先进的线性插值方法,例如洛拉斯和普罗拉斯,可用于从少数族裔类的凸空间中生成合成样本,以在这种情况下提高分类器的性能。生成的对抗网络(GAN)是合成样本生成的常见深度学习方法。尽管GAN被广泛用于合成图像生成,但在不平衡分类的情况下,它们在表格数据上的范围没有充分探索。在本文中,我们表明,与线性插值方法相比,现有的深层生成模型的性能较差,该方法从少数族裔类的凸空间中生成合成样本,对于小规模的表格数据集中的分类问题不平衡。我们提出了一个深厚的生成模型,将凸出空间学习和深层生成模型的思想结合在一起。 Convgen了解了少数族类样品的凸组合的系数,因此合成数据与多数类的不同。我们证明,与现有的深层生成模型相比,我们提出的模型Convgen在与现有的线性插值方法相当的同时,改善了此类小数据集的不平衡分类。此外,我们讨论了如何将模型用于一般的综合表格数据生成,甚至超出了数据不平衡的范围,从而提高了凸空间学习的整体适用性。
translated by 谷歌翻译
Function estimation/approximation is viewed from the perspective of numerical optimization in function space, rather than parameter space. A connection is made between stagewise additive expansions and steepestdescent minimization. A general gradient descent "boosting" paradigm is developed for additive expansions based on any fitting criterion. Specific algorithms are presented for least-squares, least absolute deviation, and Huber-M loss functions for regression, and multiclass logistic likelihood for classification. Special enhancements are derived for the particular case where the individual additive components are regression trees, and tools for interpreting such "TreeBoost" models are presented. Gradient boosting of regression trees produces competitive, highly robust, interpretable procedures for both regression and classification, especially appropriate for mining less than clean data. Connections between this approach and the boosting methods of Freund and Shapire and Friedman, Hastie and Tibshirani are discussed.
translated by 谷歌翻译
本文提出了一种基于对不平衡数据集的图形的新的RWO采样(随机步行过度采样)。在该方法中,引入了基于采样的下采样和过采样方法的两种方案,以使接近信息保持对噪声和异常值的鲁棒。在构建少数群体类上的第一个图形之后,RWO取样将在选定的样本上实现,其余部分保持不变。第二图是为多数类构造的,除去低密度区域(异常值)中的样品被移除。最后,在所提出的方法中,选择高密度区域中的多数类别的样品,并消除其余部分。此外,利用RWO取样,虽然未提高异常值,但虽然少数群体类的边界增加。测试该方法,并将评估措施的数量与先前的九个连续属性数据集进行比较,具有不同的过采集率和一个数据集,用于诊断Covid-19疾病。实验结果表明了所提出的不平衡数据分类方法的高效率和灵活性
translated by 谷歌翻译
The Bayesian additive regression trees (BART) model is an ensemble method extensively and successfully used in regression tasks due to its consistently strong predictive performance and its ability to quantify uncertainty. BART combines "weak" tree models through a set of shrinkage priors, whereby each tree explains a small portion of the variability in the data. However, the lack of smoothness and the absence of a covariance structure over the observations in standard BART can yield poor performance in cases where such assumptions would be necessary. We propose Gaussian processes Bayesian additive regression trees (GP-BART) as an extension of BART which assumes Gaussian process (GP) priors for the predictions of each terminal node among all trees. We illustrate our model on simulated and real data and compare its performance to traditional modelling approaches, outperforming them in many scenarios. An implementation of our method is available in the R package rGPBART available at: https://github.com/MateusMaiaDS/gpbart
translated by 谷歌翻译
反事实可以以人类的可解释方式解释神经网络的分类决策。我们提出了一种简单但有效的方法来产生这种反事实。更具体地说,我们执行合适的差异坐标转换,然后在这些坐标中执行梯度上升,以查找反事实,这些反事实是由置信度良好的指定目标类别分类的。我们提出了两种方法来利用生成模型来构建完全或大约差异的合适坐标系。我们使用Riemannian差异几何形状分析了生成过程,并使用各种定性和定量测量方法验证了生成的反事实质量。
translated by 谷歌翻译
机器学习的回归分支纯粹集中于连续值的预测。监督学习分支具有许多基于回归的方法,具有参数和非参数学习模型。在本文中,我们旨在针对与基于距离的回归模型相关的非常微妙的点。所使用的基于距离的模型是K-Nearest邻居回归器,它是一种监督的非参数方法。我们要证明的观点是模型的k参数的效果及其影响指标的波动。我们使用的指标是根平方误差和R平方拟合的优点,其值相对于K值的值表示。
translated by 谷歌翻译
与高维数据集的探索性分析(例如主成分分析(PCA))相反,邻居嵌入(NE)技术倾向于更好地保留高维数据的局部结构/拓扑。然而,保留局部结构的能力是以解释性为代价的:诸如T-分布的随机邻居嵌入(T-SNE)或统一的歧管近似和投影(UMAP)等技术没有提供拓扑结构的介绍(UMAP)(UMAP)(UMAP)(UMAP)(UMAP)(UMAP)(UMAP)。在相应的嵌入中看到的群集)结构。在这里,我们提出了基于PCA,Q-残基和Hotelling的T2贡献的化学计量学领域的不同“技巧”,并结合了新型可视化方法,从而得出了邻居嵌入的局部和全局解释。我们展示了我们的方法如何使用标准的单变量或多变量方法来识别数据点组之间的歧视性特征。
translated by 谷歌翻译
通常向用户提出自动模型选择,以选择用于应用给定回归任务的机器学习模型(或方法)。在本文中,我们表明,组合不同的回归模型比选择单个(“最佳”)回归模型可以产生更好的结果,并概述了一种有效的方法,该方法从异质性回归模型集中获得最佳加权凸线性组合。更具体地说,在本文中,在上一篇论文中使用的启发式权重优化被使用凸二次编程的精确优化算法取代。我们证明了直接配方的二次编程公式和具有加权数据点的配方的凸度。新颖的重量优化不仅(更多)精确,而且更有效。我们在本文中开发的方法是通过github-open源实现和提供的。它们可以在常见的硬件上执行,并提供透明且易于解释的接口。结果表明,该方法在一系列数据集上的表现优于模型选择方法,包括来自药物发现应用程序的混合变量类型的数据集。
translated by 谷歌翻译
质量不足的质量生产可能会对工具,生产下降和低质量产品造成极为昂贵的损害。非常需要自动,快速和廉价的策略来估算质量控制,降低风险和故障预测的重要材料特性。在这项工作中,我们分析了高吞吐量的基于钢的产品。目前,使用手动破坏性测试检查材料质量,该测试缓慢,浪费,仅覆盖一小部分材料。为了获得完整的测试覆盖范围,我们的工业合作者开发了一种非接触式,无创的电磁传感器,以实时测量所有材料。我们的贡献是三个方面:1)我们在受控的实验中表明,传感器可以通过故意改变特性区分钢。 2)对48个钢管进行了全面测量,并对样品进行了其他破坏性测试,以作为地面真理。拟合线性模型可从非侵入性测量中预测通常通过破坏性测试获得的两种关键材料特性(屈服强度和拉伸强度)。在剩余的交叉验证中评估性能。 3)所得模型用于分析用非侵入性传感器测量的〜108 km的处理材料的实际生产数据上的材料特性和与记录的产品故障的关系。该模型实现了出色的性能(F3得分为0.95),预测材料的拉伸强度规格不足。模型预测和记录的产品故障的组合表明,如果大量的估计收益应力值不超出规格,则产品故障的风险很高。我们的分析证明了实时质量控制,风险监控和故障检测的有希望的方向。
translated by 谷歌翻译
不平衡的数据是机器学习中经常遇到的问题。尽管有关数据不平衡的抽样技术有大量文献,但仍有有限的研究解决了最佳抽样比率的问题。在本文中,我们试图通过对抽样比对分类准确性的影响进行大规模研究来填补文献中的空白。我们考虑10种流行的抽样方法,并根据20个数据集评估其性能。数值实验的结果表明,最佳采样比在0.7至0.8之间,尽管确切比率取决于数据集。此外,我们发现,尽管原始不平衡比率或功能数量在确定最佳比率方面没有可见作用,但数据集中的样本数量可能会产生切实效果。
translated by 谷歌翻译
深度生成模型的最新进展导致各种应用领域的令人印象深刻。由于深入学习模型可能会记住部分输入数据的可能性,已经增加了努力,了解出现的记忆。在这项工作中,我们将最近提出的监督学习记忆衡量标准(Feldman,2019)扩展到无监督的密度估算问题,并使它更加计算效率。接下来,我们提出了一项关于概率在诸如变形AutoEncoders等概率深度生成模型中可能发生的记忆的研究。这表明,这些模型易感的记忆形式与模式崩溃和过度装备根本不同。此外,我们表明,所提出的记忆分数测量普通使用的最近邻测试未捕获的现象。最后,我们讨论了几种可用于限制在实践中的记忆的策略。因此,我们的工作提供了理解概率生成模型中有问题的记忆的框架。
translated by 谷歌翻译