自从深网的成立以来,训练模型所需的计算资源一直在增加。大规模数据集中的培训神经网络已成为一项具有挑战性且耗时的任务。因此,需要减少数据集而不损害准确性。在本文中,我们介绍了一种早期方法,即通过均匀聚类来减少数据集大小的新颖方法。所提出的方法基于将数据集划分为均匀簇的想法,并选择对准确性产生显着贡献的图像。我们提出了两种变体:用于图像数据降低的几何均匀聚类(GHCIDR)和合并GHCIDR在基线算法 - 通过均匀聚类(RHC)降低(RHC),以实现更好的准确性和训练时间。 GHCIDR背后的直觉涉及通过簇权重和训练集的几何分布选择数据点。合并GHCIDR涉及使用完整的链接聚类的群集合并相同的标签。我们使用了三个深度学习模型 - 完全连接的网络(FCN),VGG1和VGG16。我们在四个数据集中进行了两个变体 - MNIST,CIFAR10,Fashion-Mnist和Tiny-Imagenet。与RHC相同百分比的合并GHCIDR在MNIST,Fashion-Mnist,CIFAR10和Tiny-Imagenet上分别增加了2.8%,8.9%,7.6%和3.5%。
translated by 谷歌翻译
在本文中,我们介绍了一种早期方法的新颖变化,称为均质聚类算法,用于降低数据集大小。本文提出的方法背后的直觉是将数据集划分为均匀簇,并选择一些对准确性产生重大贡献的图像。选定的图像是训练数据的正确子集,因此是可读的。我们在基线算法RHC上提出了四个变体。第一种方法背后的直觉是,边界点有助于簇的代表。它涉及选择群集质心的最远的k和一个最近的邻居。在以下两种方法(KONCW和CWKC)中,我们介绍了簇权重的概念。它们是基于这样一个事实,即较大的簇贡献比较小的群集的贡献更多。最终变化是GHCIDR,它根据数据分布的几何方面选择点。我们在两个深度学习模型 - 完全连接的网络(FCN)和VGG1上进行了实验。我们在三个数据集中的四个变体中进行了实验:MNIST,CIFAR10和Fashion-Mnist。我们发现,GHCIDR的最佳准确度分别为99.35%,81.10%和91.66%,培训数据降低了87.27%,32.34%和76.80%,分别为MNIST,CIFAR10和时尚。
translated by 谷歌翻译
$ k $ -means集群是各学科的基本问题。此问题是非核解,并且标准算法仅保证找到本地最佳算法。利用[1]的本地解决方案的结构,我们提出了一种用于逃离不良局部解决方案并恢复全球解决方案(或地面真理)的一般算法框架。该框架包括迭代:(i)在本地解决方案中检测MIS指定的群集,并通过非本地操作来改进当前本地解决方案。我们讨论这些步骤的实施,并阐明所提出的框架如何从几何视角统一文献中的k $ -means算法的变体。此外,我们介绍了所提出的框架的两个自然扩展,其中初始数量的群集被遗漏。我们为我们的方法提供了理论理的理由,这是通过广泛的实验证实的。
translated by 谷歌翻译
广泛应用的密度峰聚类(DPC)算法使得直观的群集形成假设假设集群中心通常被具有较低局部密度的数据点包围,远离具有较高局部密度的其他数据点。然而,这种假设遭受一个限制,即在识别具有较低密度的簇时通常有问题,因为它们可以容易地合并到具有更高密度的其他簇中。结果,DPC可能无法识别具有变分密度的簇。为了解决这个问题,我们提出了一种变分浓度峰值聚类(VDPC)算法,该算法旨在系统地和自主地在具有各种类型的密度分布的数据集上执行聚类任务。具体而言,我们首先提出了一种新的方法,以确定所有数据点中的代表,并根据所确定的代表构建初始集群,以进一步分析集群财产。此外,我们根据其本地密度将所有数据点划分为不同的级别,并通过组合DPC和DBSCAN的优点来提出统一的聚类框架。因此,系统地处理跨越不同密度水平跨越不同密度水平的所有识别的初始簇以形成最终簇。为了评估所提出的VDPC算法的有效性,我们使用20个数据集进行广泛的实验,包括八个合成,六个现实世界和六个图像数据集。实验结果表明,VDPC优于两个经典算法(即,DPC和DBSCAN)和四种最先进的扩展DPC算法。
translated by 谷歌翻译
区域化是将数据集分解为彼此异质的连续均匀区域的行为。存在许多不同的算法用于进行区域化;但是,在大型现实世界数据集上使用这些算法仅在近年来的计算功率方面变得可行。比较了不同的区域化方法,并且确实缺乏分析记忆,可扩展性,地理指标和大规模现实世界应用的研究。这项研究使用现实世界的健康决定因素(SDOH)数据比较了最新的区域化方法,即集聚聚类,滑冰者,REDCAP,AZP和MAX-P区域。在本研究中,现实世界中SDOH数据的规模最多100万个数据点,不仅比较了不同数据集的算法,而且为每种单独的区域化算法提供了应力测试,其中大多数以前从未在此类尺度上运行。我们使用几个新的地理指标来比较算法并执行比较记忆分析。然后,将普遍的区域化方法与无限制的K-均值聚类进行比较,它们在弗吉尼亚州和华盛顿特区分离实际健康数据的能力。
translated by 谷歌翻译
高维空间中的大约最近的邻居搜索(ANN)对于许多现实生活应用程序(例如电子商务,Web,多媒体等)至关重要。在本文中,我们提出了一个端到端的学习框架,该框架将分区(ANN的一个关键步骤)和使用自定义损失函数进行学习进行搜索步骤。我们提出的解决方案的关键优势是,它不需要对数据集进行任何昂贵的预处理,这是最新方法的关键局限性之一。我们通过制定不需要地面真实标签来量化数据空间分区的质量的多目标自定义损失函数来实现上述边缘,从而完全不受监督。我们还通过在损失功能中添加不同的输入权重来训练模型集合以增强搜索质量来提出一种结合技术。在几个标准的ANN标准基准上,我们表明我们的方法击败了最新的空间分区方法和无处不在的K-均值聚类方法,同时使用较少的参数和较短的离线训练时间。在没有一般性的情况下,我们的无监督分区方法被证明是许多广泛使用的聚类方法(例如K-均值聚类和DBSCAN)的有希望的替代方法。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
Deep neural networks (DNNs) have demonstrated superior performance over classical machine learning to support many features in safety-critical systems. Although DNNs are now widely used in such systems (e.g., self driving cars), there is limited progress regarding automated support for functional safety analysis in DNN-based systems. For example, the identification of root causes of errors, to enable both risk analysis and DNN retraining, remains an open problem. In this paper, we propose SAFE, a black-box approach to automatically characterize the root causes of DNN errors. SAFE relies on a transfer learning model pre-trained on ImageNet to extract the features from error-inducing images. It then applies a density-based clustering algorithm to detect arbitrary shaped clusters of images modeling plausible causes of error. Last, clusters are used to effectively retrain and improve the DNN. The black-box nature of SAFE is motivated by our objective not to require changes or even access to the DNN internals to facilitate adoption.Experimental results show the superior ability of SAFE in identifying different root causes of DNN errors based on case studies in the automotive domain. It also yields significant improvements in DNN accuracy after retraining, while saving significant execution time and memory when compared to alternatives. CCS Concepts: • Software and its engineering → Software defect analysis; • Computing methodologies → Machine learning.
translated by 谷歌翻译
聚类是一种无监督的机器学习方法,其中未标记的元素/对象被分组在一起,旨在构建成熟的群集,以根据其相似性对其元素进行分类。该过程的目的是向研究人员提供有用的帮助,以帮助她/他确定数据中的模式。在处理大型数据库时,如果没有聚类算法的贡献,这种模式可能无法轻易检测到。本文对最广泛使用的聚类方法进行了深入的描述,并伴随着有关合适的参数选择和初始化的有用演示。同时,本文不仅代表了一篇评论,该评论突出了所检查的聚类技术的主要要素,而且强调了这些算法基于3个数据集的聚类效率的比较,从而在对抗性和复杂性中揭示了其现有的弱点和能力,在持续的离散和持续的离散和离散和持续的差异。观察。产生的结果有助于我们根据数据集的大小提取有关检查聚类技术的适当性的宝贵结论。
translated by 谷歌翻译
我们提出了一种新的方法,用于训练神经网络进行图像分类,以动态减少输入数据,以降低训练神经网络模型的成本。随着深度学习任务变得越来越流行,它们的计算复杂性会增加,从而导致更复杂的算法和模型,这些算法和模型具有更长的时间,并且需要更多的输入数据。结果是按时,硬件和环境资源的成本更高。通过使用数据降低技术,我们减少了执行的工作量以及AI技术的环境影响,并且通过动态数据降低,我们表明可以在将运行时保持高达50%的同时保持准确性,并按比例减少碳排放。
translated by 谷歌翻译
在本文中,我们提出了DendroMap,这是一种新颖的方法,用于互动地探索用于机器学习的大规模图像数据集(ML)。 ML从业人员通常通过使用降低降低技术(例如T-SNE)生成图像的网格或将图像的高维表示分为2-D来探索图像数据集。但是,两种方法都没有有效地扩展到大型数据集,因为图像是无效组织的,并且相互作用不足。为了应对这些挑战,我们通过适应Treemaps(一种众所周知的可视化技术)来开发树突。树突图通过从图像的高维表示中提取层次群集结构来有效地组织图像。它使用户能够理解数据集的整体分布,并在多个抽象级别上进行交互放大到特定的兴趣领域。我们使用广泛使用的图像数据集进行深度学习的案例研究表明,用户可以通过检查图像的多样性,确定表现不佳的子组并分析分类错误,从而发现有关数据集和训练模型的见解。我们进行了一项用户研究,该研究通过将其与T-SNE的网状版本进行比较,评估了树突图在分组和搜索任务中的有效性,并发现参与者更喜欢DendroMap。 DendroMap可在https://div-lab.github.io/dendromap/上获得。
translated by 谷歌翻译
Large training data and expensive model tweaking are standard features of deep learning for images. As a result, data owners often utilize cloud resources to develop large-scale complex models, which raises privacy concerns. Existing solutions are either too expensive to be practical or do not sufficiently protect the confidentiality of data and models. In this paper, we study and compare novel \emph{image disguising} mechanisms, DisguisedNets and InstaHide, aiming to achieve a better trade-off among the level of protection for outsourced DNN model training, the expenses, and the utility of data. DisguisedNets are novel combinations of image blocktization, block-level random permutation, and two block-level secure transformations: random multidimensional projection (RMT) and AES pixel-level encryption (AES). InstaHide is an image mixup and random pixel flipping technique \cite{huang20}. We have analyzed and evaluated them under a multi-level threat model. RMT provides a better security guarantee than InstaHide, under the Level-1 adversarial knowledge with well-preserved model quality. In contrast, AES provides a security guarantee under the Level-2 adversarial knowledge, but it may affect model quality more. The unique features of image disguising also help us to protect models from model-targeted attacks. We have done an extensive experimental evaluation to understand how these methods work in different settings for different datasets.
translated by 谷歌翻译
In this paper, we propose a recurrent framework for Joint Unsupervised LEarning (JULE) of deep representations and image clusters. In our framework, successive operations in a clustering algorithm are expressed as steps in a recurrent process, stacked on top of representations output by a Convolutional Neural Network (CNN). During training, image clusters and representations are updated jointly: image clustering is conducted in the forward pass, while representation learning in the backward pass. Our key idea behind this framework is that good representations are beneficial to image clustering and clustering results provide supervisory signals to representation learning. By integrating two processes into a single model with a unified weighted triplet loss and optimizing it end-to-end, we can obtain not only more powerful representations, but also more precise image clusters. Extensive experiments show that our method outperforms the state-of-the-art on image clustering across a variety of image datasets. Moreover, the learned representations generalize well when transferred to other tasks. The source code can be downloaded from https://github.com/ jwyang/joint-unsupervised-learning.
translated by 谷歌翻译
In semi-supervised representation learning frameworks, when the number of labelled data is very scarce, the quality and representativeness of these samples become increasingly important. Existing literature on semi-supervised learning randomly sample a limited number of data points for labelling. All these labelled samples are then used along with the unlabelled data throughout the training process. In this work, we ask two important questions in this context: (1) does it matter which samples are selected for labelling? (2) does it matter how the labelled samples are used throughout the training process along with the unlabelled data? To answer the first question, we explore a number of unsupervised methods for selecting specific subsets of data to label (without prior knowledge of their labels), with the goal of maximizing representativeness w.r.t. the unlabelled set. Then, for our second line of inquiry, we define a variety of different label injection strategies in the training process. Extensive experiments on four popular datasets, CIFAR-10, CIFAR-100, SVHN, and STL-10, show that unsupervised selection of samples that are more representative of the entire data improves performance by up to ~2% over the existing semi-supervised frameworks such as MixMatch, ReMixMatch, FixMatch and others with random sample labelling. We show that this boost could even increase to 7.5% for very few-labelled scenarios. However, our study shows that gradually injecting the labels throughout the training procedure does not impact the performance considerably versus when all the existing labels are used throughout the entire training.
translated by 谷歌翻译
Clustering is central to many data-driven application domains and has been studied extensively in terms of distance functions and grouping algorithms. Relatively little work has focused on learning representations for clustering. In this paper, we propose Deep Embedded Clustering (DEC), a method that simultaneously learns feature representations and cluster assignments using deep neural networks. DEC learns a mapping from the data space to a lower-dimensional feature space in which it iteratively optimizes a clustering objective. Our experimental evaluations on image and text corpora show significant improvement over state-of-the-art methods.
translated by 谷歌翻译
随着大数据的爆炸性增加,培训机器学习(ML)模型成为计算密集型工作量,需要几天甚至几周。因此,重用已经训练的模型受到了受关注的,称为转移学习。转移学习避免通过将知识从源任务转移到目标任务来避免从头开始培训新模型。现有的传输学习方法主要专注于如何通过特定源模型提高目标任务的性能,并假设给出了源模型。虽然有许多源模型可用,但数据科学家难以手动选择目标任务的最佳源模型。因此,如何在模型数据库中有效地选择合适的源模型进行模型重用是一个有趣但未解决的问题。在本文中,我们提出了SMS,有效,高效,灵活的源模型选择框架。即使源数据集具有明显不同的数据标签,SMS也是有效的,并且灵活地支持具有任何类型的结构的源模型,并且有效地避免任何培训过程。对于每个源模型,SMS首先将目标数据集中的样本加速到软标签中,通过直接将该模型直接应用于目标数据集,然后使用高斯分布适合软标签的集群,最后测量源模型使用的显着能力高斯混合的公制。此外,我们提出了一种改进的SMS(I-SMS),其降低了源模型的输出数量。 I-SMS可以显着降低选择时间,同时保留SMS的选择性能。关于一系列实用模型重用工作负载的广泛实验证明了SMS的有效性和效率。
translated by 谷歌翻译
数据不平衡,即来自不同课程的培训观测数量之间的歧视,仍然是影响当代机器学习的最重要挑战之一。数据预处理技术可以减少数据不平衡对传统分类算法的负面影响,可以减少操纵训练数据以人为地降低不平衡程度的方法。然而,现有的数据预处理技术,特别是粉迹及其衍生物构成最普遍的数据预处理的范式,往往易于各种数据难度因素。这部分是由于原始粉碎算法不利用有关多数类观察的信息的事实。本文的重点是利用少数群体和多数阶级的分布的信息,自然地发展新的数据重采样策略。本文总结了12个研究论文的内容,专注于所提出的二进制数据重采采样策略,它们与多级环境的翻译,以及对组织病理数据分类问题的实际应用。
translated by 谷歌翻译
基于敏感数据的机器学习模型在现实世界的承诺中,在医学筛查到疾病爆发,农业,工业,国防科学等地区的进步。在许多应用中,学习参与者通信转舍受益于收集自己的私​​有数据集,在真实数据上教导详细的机器学习模型,并共享使用这些模型的好处。由于现有的隐私和安全问题,大多数人都避免敏感数据分享进行培训。如果没有每个用户向中央服务器演示其本地数据,联邦学习允许各方共同地在其共享数据上培训机器学习算法。这种集体隐私学习方法导致培训期间的重要沟通。大多数大型机器学习应用程序需要基于各种设备和地点生成的数据集的分散学习。这样的数据集代表了分散学习的基本障碍,因为它们的各种环境有助于跨设备和位置的数据交付的显着差异。研究人员提出了几种方法来实现联邦学习系统中的数据隐私。但是,仍存在均匀的本地数据仍存在挑战。该研究方法是选择节点(用户)以在联合学习中共享他们的数据,以便为基于独立的数据的平衡来提高准确性,降低培训时间和增加收敛。因此,本研究介绍了基于名为DQRE-SCNet的光谱聚类的组合的深度QREInforceNce学习合奏,以在每个通信中选择设备的子集。基于结果,展示了可以减少联合学习所需的通信轮数量。
translated by 谷歌翻译
这项研究重点是探索局部可解释性方法来解释时间序列聚类模型。许多最先进的聚类模型无法直接解释。为了提供这些聚类算法的解释,我们训练分类模型以估计群集标签。然后,我们使用可解释性方法来解释分类模型的决策。这些解释用于获得对聚类模型的见解。我们执行一项详细的数值研究,以测试多个数据集,聚类模型和分类模型上所提出的方法。结果的分析表明,所提出的方法可用于解释时间序列聚类模型,特别是当基础分类模型准确时。最后,我们对结果进行了详细的分析,讨论了如何在现实生活中使用我们的方法。
translated by 谷歌翻译
手写数字识别(HDR)是光学特征识别(OCR)领域中最具挑战性的任务之一。不管语言如何,HDR都存在一些固有的挑战,这主要是由于个人跨个人的写作风格的变化,编写媒介和环境的变化,无法在反复编写任何数字等时保持相同的笔触。除此之外,特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来,研究人员开发了许多离线和在线HDR管道,其中不同的图像处理技术与传统的机器学习(ML)基于基于的和/或基于深度学习(DL)的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据,例如:英语,阿拉伯语,印度,法尔西,中文等,但几乎没有对孟加拉人HDR(BHDR)的调查,这缺乏对孟加拉语HDR(BHDR)的研究,而这些调查缺乏对孟加拉语HDR(BHDR)的研究。挑战,基础识别过程以及可能的未来方向。在本文中,已经分析了孟加拉语手写数字的特征和固有的歧义,以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外,还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编,煽动了对相关研究的新途径的探索,这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。
translated by 谷歌翻译