音频和图像处理等许多应用程序显示,稀疏表示是一种强大而有效的信号建模技术。找到一个最佳词典,同时生成的数据和最小近似误差是由字典学习(DL)接近的难题。我们研究DL如何在信号集中检测信号集中的异常样本。在本文中,我们使用特定的DL配方,其寻求均匀的稀疏表示模型来使用K-SVD型算法检测数据集中大多数样本的基础子空间。数值模拟表明,人们可以有效地使用此产生的子空间来辨别常规数据点的异常。
translated by 谷歌翻译
可分离的或克朗克蛋白产品,字典为2D信号提供自然分解,例如图像。在本文中,我们描述了一种高度平行化的算法,该算法学习此词典,该词典达到漏洞表示与文献中的前一种艺术字典学习算法的先前状态,但以较低的计算成本。我们突出了所提出的方法稀疏地代表图像和高光谱数据的性能,以及用于图像去噪。
translated by 谷歌翻译
Discriminative features extracted from the sparse coding model have been shown to perform well for classification. Recent deep learning architectures have further improved reconstruction in inverse problems by considering new dense priors learned from data. We propose a novel dense and sparse coding model that integrates both representation capability and discriminative features. The model studies the problem of recovering a dense vector $\mathbf{x}$ and a sparse vector $\mathbf{u}$ given measurements of the form $\mathbf{y} = \mathbf{A}\mathbf{x}+\mathbf{B}\mathbf{u}$. Our first analysis proposes a geometric condition based on the minimal angle between spanning subspaces corresponding to the matrices $\mathbf{A}$ and $\mathbf{B}$ that guarantees unique solution to the model. The second analysis shows that, under mild assumptions, a convex program recovers the dense and sparse components. We validate the effectiveness of the model on simulated data and propose a dense and sparse autoencoder (DenSaE) tailored to learning the dictionaries from the dense and sparse model. We demonstrate that (i) DenSaE denoises natural images better than architectures derived from the sparse coding model ($\mathbf{B}\mathbf{u}$), (ii) in the presence of noise, training the biases in the latter amounts to implicitly learning the $\mathbf{A}\mathbf{x} + \mathbf{B}\mathbf{u}$ model, (iii) $\mathbf{A}$ and $\mathbf{B}$ capture low- and high-frequency contents, respectively, and (iv) compared to the sparse coding model, DenSaE offers a balance between discriminative power and representation.
translated by 谷歌翻译
In recent years there has been a growing interest in the study of sparse representation of signals. Using an overcomplete dictionary that contains prototype signal-atoms, signals are described by sparse linear combinations of these atoms. Applications that use sparse representation are many and include compression, regularization in inverse problems, feature extraction, and more. Recent activity in this field has concentrated mainly on the study of pursuit algorithms that decompose signals with respect to a given dictionary. Designing dictionaries to better fit the above model can be done by either selecting one from a prespecified set of linear transforms or adapting the dictionary to a set of training signals. Both of these techniques have been considered, but this topic is largely still open. In this paper we propose a novel algorithm for adapting dictionaries in order to achieve sparse signal representations. Given a set of training signals, we seek the dictionary that leads to the best representation for each member in this set, under strict sparsity constraints. We present a new method-the K-SVD algorithm-generalizing the K-means clustering process. K-SVD is an iterative method that alternates between sparse coding of the examples based on the current dictionary and a process of updating the dictionary atoms to better fit the data. The update of the dictionary columns is combined with an update of the sparse representations, thereby accelerating convergence. The K-SVD algorithm is flexible and can work with any pursuit method (e.g., basis pursuit, FOCUSS, or matching pursuit). We analyze this algorithm and demonstrate its results both on synthetic tests and in applications on real image data.
translated by 谷歌翻译
异常(或异常值)在现实世界的经验观察中普遍存在,并且潜在地掩盖了重要的基础结构。准确识别异常样品对于下游数据分析任务的成功至关重要。为了自动识别异常,我们提出了概率鲁棒性自动编码器(PRAE)。 PRAE的目的是同时删除异常值并确定嵌入式样品的低维表示。我们首先提出了强大的自动编码器(RAE)目标,作为将数据拆分为嵌入式和离群值的最小化问题。我们的目标旨在排除离群值,同时包括可以使用自动编码器(AE)有效重建的样本(Inliers)的子集。 RAE最小化自动编码器的重建误差,同时合并尽可能多的样品。可以通过减去$ \ ell_0 $ norm对重建项中所选样本的数量进行$ \ ell_0 $ norm来制定这一点。不幸的是,这导致了一个棘手的组合问题。因此,我们提出了两种RAE的概率放松,它们是可区分的,可以减轻组合搜索的需求。我们证明,解决PRAE问题的解决方案等效于RAE的解决方案。我们使用合成数据来表明PRAE可以准确地删除广泛污染水平的异常值。最后,我们证明,使用PRAE进行异常检测会导致各种基准数据集中的最新结果。
translated by 谷歌翻译
约束的张量和矩阵分子化模型允许从多道数据中提取可解释模式。因此,对于受约束的低秩近似度的可识别性特性和有效算法是如此重要的研究主题。这项工作涉及低秩近似的因子矩阵的列,以众所周知的和可能的过度顺序稀疏,该模型包括基于字典的低秩近似(DLRA)。虽然早期的贡献集中在候选列字典内的发现因子列,即一稀疏的近似值,这项工作是第一个以大于1的稀疏性解决DLRA。我建议专注于稀疏编码的子问题,在解决DLRA时出现的混合稀疏编码(MSC)以交替的优化策略在解决DLRA时出现。提供了基于稀疏编码启发式的几种算法(贪婪方法,凸起放松)以解决MSC。在模拟数据上评估这些启发式的性能。然后,我展示了如何基于套索来调整一个有效的MSC求解器,以计算高光谱图像处理和化学测量学的背景下的基于词典的基于矩阵分解和规范的多adic分解。这些实验表明,DLRA扩展了低秩近似的建模能力,有助于降低估计方差并提高估计因子的可识别性和可解释性。
translated by 谷歌翻译
通过收集大量数据,然后使用获得的数据直接优化系统参数,正在设计越来越多的系统。通常,这是在没有分析数据集结构的情况下完成的。随着任务复杂性,数据大小和参数都增加到数百万甚至数十亿,数据汇总正成为一个主要挑战。在这项工作中,我们通过字典学习〜(DL)研究了数据汇总,利用了最近引入的非负核回归(NNK)图的属性。与以前的DL技术(例如KSVD)不同,我们提出的NNK均值学习了代表输入数据空间的原子的几何词典。实验表明,与KMeans和KSVD的线性和内核版本相比,使用NNK均值的汇总可以提供更好的类别分离。此外,NNK均值是可扩展的,其运行时复杂性与Kmeans相似。
translated by 谷歌翻译
信号或数据的稀疏表示(SR)具有良好的创立理论,具有严格的数学误差界和证明。信号的SR由矩阵的叠加为称为字典的叠加,隐含地减少了维度。培训词典使它们表示具有最小损失的每种信号称为字典学习(DL)。字典学习方法,如最佳方向(MOD)和K-SVD的方法,已成功地用于图像处理中的重建应用,如图像“去噪”,“伪装”等。其他判别k-svd和标签一致的K-SVD等字典学习算法是基于K-SVD的监督学习方法。在我们的经验中,当前方法的一个缺点是,在Telugu OCR数据集等数据集中,分类性能并不令人印象深刻,具有大量的课程和高维度。在这个方向上有所改善,许多研究人员使用统计方法来设计分类词典。本章介绍了统计技术的审查及其在学习歧视性词典中的应用。这里描述的方法的目的是使用稀疏表示来改善分类。在本章中,描述了混合方法,其中生成输入数据的稀疏系数。我们使用一个简单的三层多层Perceptron,背传播培训作为具有输入的稀疏代码的分类器。结果与其他计算密集型方法相当可比。关键词:统计建模,字典学习,歧视性词典,稀疏表示,高斯先前,Cauchy先前,熵,隐马尔可夫模型,混合词典学习
translated by 谷歌翻译
我们提出了一种监督学习稀疏促进正规化器的方法,以降低信号和图像。促进稀疏性正则化是解决现代信号重建问题的关键要素。但是,这些正规化器的基础操作员通常是通过手动设计的,要么以无监督的方式从数据中学到。监督学习(主要是卷积神经网络)在解决图像重建问题方面的最新成功表明,这可能是设计正规化器的富有成果的方法。为此,我们建议使用带有参数,稀疏的正规器的变异公式来贬低信号,其中学会了正常器的参数,以最大程度地减少在地面真实图像和测量对的训练集中重建的平均平方误差。培训涉及解决一个具有挑战性的双层优化问题;我们使用denoising问题的封闭形式解决方案得出了训练损失梯度的表达,并提供了随附的梯度下降算法以最大程度地减少其。我们使用结构化1D信号和自然图像的实验表明,所提出的方法可以学习一个超过众所周知的正规化器(总变化,DCT-SPARSITY和无监督的字典学习)的操作员和用于DeNoisis的协作过滤。尽管我们提出的方法是特定于denoising的,但我们认为它可以适应线性测量模型的较大类反问题,使其在广泛的信号重建设置中适用。
translated by 谷歌翻译
Deep autoencoders, and other deep neural networks, have demonstrated their e ectiveness in discovering non-linear features across many problem domains. However, in many real-world problems, large outliers and pervasive noise are commonplace, and one may not have access to clean training data as required by standard deep denoising autoencoders. Herein, we demonstrate novel extensions to deep autoencoders which not only maintain a deep autoencoders' ability to discover high quality, non-linear features but can also eliminate outliers and noise without access to any clean training data. Our model is inspired by Robust Principal Component Analysis, and we split the input data X into two parts, X = L D + S, where L D can be e ectively reconstructed by a deep autoencoder and S contains the outliers and noise in the original data X . Since such spli ing increases the robustness of standard deep autoencoders, we name our model a "Robust Deep Autoencoder (RDA)". Further, we present generalizations of our results to grouped sparsity norms which allow one to distinguish random anomalies from other types of structured corruptions, such as a collection of features being corrupted across many instances or a collection of instances having more corruptions than their fellows. Such "Group Robust Deep Autoencoders (GRDA)" give rise to novel anomaly detection approaches whose superior performance we demonstrate on a selection of benchmark problems.
translated by 谷歌翻译
本文提出了一个低成本且高度准确的ECG监测系统,用于针对可穿戴移动传感器的个性化早期心律不齐检测。对个性化心电图监测的早期监督方法需要异常和正常的心跳来训练专用分类器。但是,在真实的情况下,个性化算法嵌入了可穿戴设备中,这种训练数据不适合没有心脏障碍史的健康人。在这项研究中,(i)我们对通过稀疏字典学习获得的健康信号空间进行了无空间分析,并研究了如何简单的无效空间投影或基于最小二乘的规范性分类方法可以降低计算复杂性,而无需牺牲牺牲计算的复杂性。与基于稀疏表示的分类相比,检测准确性。 (ii)然后,我们引入了基于稀疏表示的域适应技术,以便将其他现有用户的异常和正常信号投射到新用户的信号空间上,使我们能够训练专用的分类器而无需​​新用户的任何异常心跳。因此,无需合成异常的心跳产生,可以实现零射学习。在基准MIT-BIH ECG数据集上执行的一组大量实验表明,当该基于域的基于域的训练数据生成器与简单的1-D CNN分类器一起使用时,该方法以明显的差距优于先前的工作。 (iii)然后,通过组合(i)和(ii),我们提出了一个整体分类器,以进一步提高性能。这种零射门心律失常检测的方法的平均准确性水平为98.2%,F1得分为92.8%。最后,使用上述创新提出了一个个性化的节能ECG监测计划。
translated by 谷歌翻译
在依赖添加剂线性组合的模型中,出现了多个右侧(MNNL)的非负平方问题。特别是,它们是大多数非负矩阵分解算法的核心,并且具有许多应用。已知非负约束自然有利于稀疏性,即几乎没有零条目的解决方案。但是,它通常可以进一步增强这种稀疏性很有用,因为它可以提高结果的解释性并有助于减少噪声,从而导致稀疏的MNNL问题。在本文中,与大多数实施稀疏柱或行的大多数作品相反,我们首先引入了稀疏MNNL的新颖配方,并具有矩阵的稀疏性约束。然后,我们提出了一种两步算法来解决这个问题。第一步将稀疏的MNNL划分为子问题,每列的原始问题一列。然后,它使用不同的算法来确切或大约为每个子问题产生一个帕累托正面,即产生一组代表重建误差和稀疏性之间不同权衡的解决方案。第二步选择了这些帕累托前部之间的解决方案,以构建一个稀疏约束矩阵,以最大程度地减少重建误差。我们对面部和高光谱图像进行实验,我们表明我们提出的两步方法比最新的稀疏编码启发式方法提供了更准确的结果。
translated by 谷歌翻译
Data-driven neighborhood definitions and graph constructions are often used in machine learning and signal processing applications. k-nearest neighbor~(kNN) and $\epsilon$-neighborhood methods are among the most common methods used for neighborhood selection, due to their computational simplicity. However, the choice of parameters associated with these methods, such as k and $\epsilon$, is still ad hoc. We make two main contributions in this paper. First, we present an alternative view of neighborhood selection, where we show that neighborhood construction is equivalent to a sparse signal approximation problem. Second, we propose an algorithm, non-negative kernel regression~(NNK), for obtaining neighborhoods that lead to better sparse representation. NNK draws similarities to the orthogonal matching pursuit approach to signal representation and possesses desirable geometric and theoretical properties. Experiments demonstrate (i) the robustness of the NNK algorithm for neighborhood and graph construction, (ii) its ability to adapt the number of neighbors to the data properties, and (iii) its superior performance in local neighborhood and graph-based machine learning tasks.
translated by 谷歌翻译
监督字典学习(SDL)是一种经典的机器学习方法,同时寻求特征提取和分类任务,不一定是先验的目标。 SDL的目的是学习类歧视性词典,这是一组潜在特征向量,可以很好地解释特征以及观察到的数据的标签。在本文中,我们提供了SDL的系统研究,包括SDL的理论,算法和应用。首先,我们提供了一个新颖的框架,该框架将“提升” SDL作为组合因子空间中的凸问题,并提出了一种低级别的投影梯度下降算法,该算法将指数成倍收敛于目标的全局最小化器。我们还制定了SDL的生成模型,并根据高参数制度提供真实参数的全局估计保证。其次,我们被视为一个非convex约束优化问题,我们为SDL提供了有效的块坐标下降算法,该算法可以保证在$ O(\ varepsilon^{ - 1}(\ log)中找到$ \ varepsilon $ - 定位点(\ varepsilon \ varepsilon^{ - 1})^{2})$ iterations。对于相应的生成模型,我们为受约束和正则化的最大似然估计问题建立了一种新型的非反应局部一致性结果,这可能是独立的。第三,我们将SDL应用于监督主题建模和胸部X射线图像中的肺炎检测中,以进行不平衡的文档分类。我们还提供了模拟研究,以证明当最佳的重建性和最佳判别词典之间存在差异时,SDL变得更加有效。
translated by 谷歌翻译
我们提出了一个健壮的主成分分析(RPCA)框架,以从时间观察中恢复低级别和稀疏矩阵。我们开发了批处理时间算法的在线版本,以处理较大的数据集或流数据。我们从经验上将提出的方法与不同的RPCA框架进行比较,并在实际情况下显示出其有效性。
translated by 谷歌翻译
半监督异常检测旨在使用在正常数据上培训的模型来检测来自正常样本的异常。随着近期深度学习的进步,研究人员设计了高效的深度异常检测方法。现有作品通常使用神经网络将数据映射到更具内容性的表示中,然后应用异常检测算法。在本文中,我们提出了一种方法,DASVDD,它共同学习AutoEncoder的参数,同时最小化其潜在表示上的封闭超球的音量。我们提出了一个异常的分数,它是自动化器的重建误差和距离潜在表示中封闭边距中心的距离的组合。尽量减少这种异常的分数辅助我们在培训期间学习正常课程的潜在分布。包括异常分数中的重建错误确保DESVDD不受常见的极度崩溃问题,因为DESVDD模型不会收敛到映射到潜在表示中的恒定点的常量点。几个基准数据集上的实验评估表明,该方法优于常用的最先进的异常检测算法,同时在不同的异常类中保持鲁棒性能。
translated by 谷歌翻译
We address the image denoising problem, where zero-mean white and homogeneous Gaussian additive noise is to be removed from a given image. The approach taken is based on sparse and redundant representations over trained dictionaries. Using the K-SVD algorithm, we obtain a dictionary that describes the image content effectively. Two training options are considered: using the corrupted image itself, or training on a corpus of high-quality image database. Since the K-SVD is limited in handling small image patches, we extend its deployment to arbitrary image sizes by defining a global image prior that forces sparsity over patches in every location in the image. We show how such Bayesian treatment leads to a simple and effective denoising algorithm. This leads to a state-of-the-art denoising performance, equivalent and sometimes surpassing recently published leading alternative denoising methods.
translated by 谷歌翻译
我们考虑在有限数据设置下一般损失函数下线性分类问题。过度装备是这里的常见问题。防止过度装备的标准方法是减少和正则化的维度。但是减少了维度的丢失信息,而正规化要求用户选择规范,或之前或距离度量。我们提出了一种称为Rolin的算法,不需要用户选择并适用于大类丢失功能。 Rolin将顶部主成分的可靠信息与强大的优化组合,以从不可靠的子空间中提取任何有用的信息。它还包括一种新的强大交叉验证,比有限数据设置中的现有交叉验证方法更好。在$ 25 $现实世界数据集和三个标准损失功能的实验表明,Rolin广泛优于维度,减少和正规。与Rolin相比,维数减少有14 \% - 40 \%$较差的测试损失。防止$ L_1 $和$ L_2 $正则化,Rolin可以更好地为3倍,对于平方铰链损耗更好的逻辑损耗和12倍。对于小型样本尺寸,差异最大,其中Rolin实现了比任何竞争方法更多的数据集的2倍至3x的最佳损失。对于某些数据集,Rolin以$ 15 $培训样本比为1500美元的最佳规范正常化更好。
translated by 谷歌翻译
可以通过学习所有类别的接受区域来获得的旨在确定观察属于的所有合理类的新分类范式,旨在识别所有观察属性的所有合理类别。许多现有的设置值分类方法没有考虑到训练数据中从未出现的新类别出现在测试数据中的可能性。此外,当类的数量很大时,它们在计算上很昂贵。我们提出了一种广义预测集(GPS)方法,以估计接受区域,同时考虑测试数据中新类的可能性。提出的分类器可最大程度地减少预测集的预期大小,同时确保特定于类的精度至少为预先指定的值。与以前的方法不同,所提出的方法在准确性,效率和异常检测率之间达到了良好的平衡。此外,我们的方法可以与所有类平行应用以减轻计算负担。进行了理论分析和数值实验,以说明该方法的有效性。
translated by 谷歌翻译
We provide stronger and more general primal-dual convergence results for Frank-Wolfe-type algorithms (a.k.a. conditional gradient) for constrained convex optimization, enabled by a simple framework of duality gap certificates. Our analysis also holds if the linear subproblems are only solved approximately (as well as if the gradients are inexact), and is proven to be worst-case optimal in the sparsity of the obtained solutions.On the application side, this allows us to unify a large variety of existing sparse greedy methods, in particular for optimization over convex hulls of an atomic set, even if those sets can only be approximated, including sparse (or structured sparse) vectors or matrices, low-rank matrices, permutation matrices, or max-norm bounded matrices. We present a new general framework for convex optimization over matrix factorizations, where every Frank-Wolfe iteration will consist of a low-rank update, and discuss the broad application areas of this approach.
translated by 谷歌翻译