最近邻算法是一种懒惰学习算法,其中算法试图通过训练数据集中的相似向量来近似预测。 K-NearestNeighbors算法所做的预测是基于对空间邻居的目标值进行平均。 Hermitian空间中邻居的选择过程是在距离度量的帮助下完成的,例如欧氏距离,Minkowskidistance,Mahalanobis距离等。大多数度量,例如欧几里德距离是尺度变量,这意味着结果可能因使用的不同范围值而变化对于功能。用于缩放因子的正规化的标准技术是特征缩放方法,例如Z分数归一化技术,Min-Max缩放等。缩放方法对所有特征均匀地赋予权重,这可能导致非理想情况。本文提出了一种新颖的方法。借助于从构造多个决策树模型获得的袋外错误来为单个特征分配权重的方法。
translated by 谷歌翻译
Medical and social sciences demand sampling techniques which are robust, reliable, replicable and have the least dissimilarity between the samples obtained. Majority of the applications of sampling use randomized sampling, albeit with stratification where applicable. The randomized technique is not consistent, and may provide different samples each time, and the different samples themselves may not be similar to each other. In this paper, we introduce a novel non-statistical no-replacement sampling technique called Wobbly Center Algorithm, which relies on building clusters iteratively based on maximizing the heterogeneity inside each cluster. The algorithm works on the principle of stepwise building of clusters by finding the points with the maximal distance from the cluster center. The obtained results are validated statistically using Analysis of Variance tests by comparing the samples obtained to check if they are representative of each other. The obtained results generated from running the Wobbly Center algorithm on benchmark datasets when compared against other sampling algorithms indicate the superiority of the Wobbly Center Algorithm.
translated by 谷歌翻译
在欠定线性回归模型中恢复稀疏向量的支持,\ textit {aka},压缩感知在许多信号处理应用中很重要。高SNR一致性(HSC),即支持恢复技术以增加信噪比(SNR)正确识别支持的能力是越来越流行的标准,以限定支持恢复技术的高SNR最优性。 HSC结果可用于支持恢复技术的文献,适用于欠绝对线性回归模型,如最小绝对收缩和选择算子(LASSO),正交匹配追踪(OMP)等假设\ textit {先验}噪声方差或信号稀疏性的知识。但是,这些参数在大多数实际应用中都不可用。此外,在欠定的回归模型中估计噪声方差或信号稀疏性是非常困难的。这限制了现有HSC结果的效用。在本文中,我们提出两种技术,\ textit {viz。},剩余比率最小化(RRM)和残差率阈值与自适应(RRTA)来操作OMP算法,而没有\ textit {a priroi}知识的噪声方差和信号大小并建立它们HSC在分析和数值上。据我们所知,这些是第一个也是唯一一个用于在欠定回归模型中报告HSC的噪声统计遗忘算法。
translated by 谷歌翻译
磁共振成像(MRI)是人体组织成分分析的非侵入性选择,因为它具有出色的软组织对比度和电离辐射。然而,身体成分的量化要求从MRimages精确分割脂肪,肌肉和其他组织,由于强度重叠,这仍然是一个具有挑战性的目标。在这项研究中,我们提出了一个全自动,数据驱动的图像分割平台,解决了MRimages分割中的多个困难,例如变化的不均匀性,非标准性和噪声,同时产生不同组织的高质量定义。与文献中的mostapproaches相反,我们通过结合三种不同的MRI对比和一种新的分割工具来执行分割操作,该分割工具考虑了数据中的可变量。所提出的系统基于模糊连接(FC)图像分割系列内的新颖的亲和定义,防止了对用户干预和这些分段算法的重新参数化的需要。为了使整个系统完全自动化,我们采用亲和传播聚类算法来粗略地识别组织区域和图像背景。我们对提出的算法的各个步骤进行了全面的评估,并与文献中关于肌肉/脂肪分离主要应用的几种方法进行了比较。此外,进行全身组织成分和脑组织描绘,以显示所提出的系统的泛化能力。这种新的自动化平台优于其他最先进的分割方法,包括不准确性和效率。
translated by 谷歌翻译
受高斯噪声(inlier)污染的线性回归模型和可能的无界稀疏异常值在许多信号处理应用中很常见。在这种回归模型中,稀疏恢复激发鲁棒回归(SRIRR)技术被证明可以提供高质量的估计性能。不幸的是,大多数SRIRR技术都假设textit {a priori}知识噪声统计数据,如inlier噪声方差或离群值统计数据,如异常值数。内部噪声和异常噪声统计很少被人知道\ textit {a priori},这限制了许多SRIRR算法的有效操作。本文提出了一种新的噪声统计遗忘算法,称为剩余比率阈值GARD(RRT-GARD),用于在稀疏异常值存在下的鲁棒回归。 RRT-GARD是通过修改最近提出的噪声统计相关贪婪算法来实现的,用于鲁棒去噪(GARD)。有限样本和渐近分析结果都表明,RTR-GARD与GARD几乎相似,具有\ textit {先验}噪声统计知识。实际和合成数据集中的数值模拟也与RRT-GARD的高竞争性能相吻合。
translated by 谷歌翻译
在过去的几年中,对存在异常值的PCA问题进行了广泛的研究。在这里,我们关注的是异常模型中的Robust PCA,其中数据矩阵的每一列都是一个内部oran异常值。该模型的大多数现有方法假定较低维子空间的维数知识或系统中的异常值的分数。然而,在许多应用中,这些参数的知识不可用。受此启发,我们提出了一种用于鲁棒PCA的参数自由出口识别方法,其中a)不需要离群分数的知识,b)不需要知道基础子空间的维数,c)计算简单且快速d)可以处理结构化和非结构化的异常值。此外,分析保证被导出用于异常值识别,并且算法的性能与用于各种异常值结构的真实和合成数据中的现有技术方法相比较。
translated by 谷歌翻译