最近邻算法是一种懒惰学习算法,其中算法试图通过训练数据集中的相似向量来近似预测。 K-NearestNeighbors算法所做的预测是基于对空间邻居的目标值进行平均。 Hermitian空间中邻居的选择过程是在距离度量的帮助下完成的,例如欧氏距离,Minkowskidistance,Mahalanobis距离等。大多数度量,例如欧几里德距离是尺度变量,这意味着结果可能因使用的不同范围值而变化对于功能。用于缩放因子的正规化的标准技术是特征缩放方法,例如Z分数归一化技术,Min-Max缩放等。缩放方法对所有特征均匀地赋予权重,这可能导致非理想情况。本文提出了一种新颖的方法。借助于从构造多个决策树模型获得的袋外错误来为单个特征分配权重的方法。
translated by 谷歌翻译
Medical and social sciences demand sampling techniques which are robust, reliable, replicable and have the least dissimilarity between the samples obtained. Majority of the applications of sampling use randomized sampling, albeit with stratification where applicable. The randomized technique is not consistent, and may provide different samples each time, and the different samples themselves may not be similar to each other. In this paper, we introduce a novel non-statistical no-replacement sampling technique called Wobbly Center Algorithm, which relies on building clusters iteratively based on maximizing the heterogeneity inside each cluster. The algorithm works on the principle of stepwise building of clusters by finding the points with the maximal distance from the cluster center. The obtained results are validated statistically using Analysis of Variance tests by comparing the samples obtained to check if they are representative of each other. The obtained results generated from running the Wobbly Center algorithm on benchmark datasets when compared against other sampling algorithms indicate the superiority of the Wobbly Center Algorithm.
translated by 谷歌翻译
近年来社交媒体的快速增长引发了一些高度不受欢迎的现象,例如互联网上滥用和冒犯性语言的泛滥。以前的研究表明,这些仇恨内容往往来自那些共享一组共同刻板印象并形成社区群体的用户。当前最先进的仇恨语音检测方法无视用户和社区信息,完全依赖于文本(即词汇和语义)线索。在本文中,我们提出了一种新方法来解决这个问题,该方法结合了Twitterusers的基于社区的分析功能。通过对16k推文数据集的实验,我们发现我们的方法在仇恨语音检测方面明显优于当前的技术水平。此外,我们对模型特征进行了定性分析。我们发布代码,预先训练的模型以及公共领域中使用的所有资源。
translated by 谷歌翻译
化学化合物的毒性预测是一项巨大的挑战。最近,它在准确性方面取得了重大进展,但使用了大量功能,实现了复杂的黑盒技术,如深度神经网络,并开发了大量的计算资源。在本文中,我们强烈论证了机器学习特性简单,计算资源使用效率高,以及实现非常高精度水平的强大模型和方法。为了证明这一点,我们开发了一个基于任务的单一化学毒性预测框架,仅使用计算密集度较低的2D特征。我们有效地使用决策树从数千个集合中获取最佳数量的特征。我们使用浅层神经网络,并将决策树与网络参数和输入特征结合起来,共同优化它。我们的模型只需要一分钟就可以在单个CPU上进行训练,而使用深度神经网络的现有方法在NVidia Tesla K40 GPU上需要大约10分钟。但是,我们在几个毒性基准测试任务中获得了类似或更好的性能。我们还开发了累积特征排序方法,使我们能够识别可以帮助化学家有效地对有毒化合物进行预筛选的特征。
translated by 谷歌翻译
手写签名验证领域在过去的几十年中得到了广泛的研究,但仍然是一个开放的研究问题。在离线(静态)签名验证中,签名写入过程的动态信息丢失,并且难以设计出能够区分真实签名和熟练伪造的良好特征提取器。在编写者独立的场景中,这个验证任务更加困难,这无疑是财务上的现实案例。在本文中,我们提出了一个用于离线写入器的集合模型,具有深度学习的独立签名验证任务。我们使用两个CNN进行特征提取,然后使用RGBT进行分类和堆叠以生成最终预测向量。我们对来自不同来源的各种数据集进行了大量实验,以维持数据集中的方差。我们已经在各种数据集上实现了最先进的性能。
translated by 谷歌翻译
用于生物医学图像分析的卷积神经网络(CNN)通常具有非常大的尺寸,导致高存储器需求和高操作延迟。为特定成像应用搜索baseCNN的可接受的压缩表示通常涉及一系列耗时的训练/验证实验,以实现网络大小和准确度之间的良好折衷。为了应对这一挑战,我们提出了CC-Net,一种用于生物医学图像分割的新的图像复杂性引导CNN压缩方案。给定CNN模型,CC-Net基于从训练数据计算的平均图像复杂度来预测不同大小的网络的最终准确度。然后,它选择乘法因子来生成具有可接受的网络精度和大小的期望网络。实验表明,CC-Net对于生成压缩分段网络是有效的,在最佳情况下保留高达95%的基本网络分段准确度,并且仅利用0.1%的全尺寸网络的可训练参数。
translated by 谷歌翻译
天文学中的图像处理是一个主要的研究领域,涉及许多技术,这些技术有助于改善天体特征的分析或从图像数据中获得初步推断。在本文中,我们提供了一个全面的案例研究,应用于天文银河图像的先进图像处理技术,以改善分析,准确的参考和更快的分析。
translated by 谷歌翻译
Word嵌入是分析语言的一种强大的方法,并且在信息检索和文本挖掘的众多任务中广泛流行。在大型语料库上训练嵌入是计算上昂贵的,因为输入通常是顺序处理的,并且参数是同步更新的。已经提出的用于异步训练的分布式体系结构或者专注于扩展词汇量大小和维度,或者遭受昂贵的同步延迟。在本文中,我们提出了一种可扩展的方法,通过对输入空间进行分区来训练单词嵌入,以便在不牺牲嵌入性能的情况下扩展到大量文本语料库。我们的训练过程不涉及任何参数同步,除了通常在几分钟内执行的最终子模型合并阶段。我们的分布式培训无缝扩展到大型语料库大小,我们使用我们的分布式程序训练的模型在各种NLP基准测试中获得可比性,有时甚至高达45%的性能提升,这需要基线方法花费1/10美元的时间。最后,我们还表明,我们对缺少单词insub-models是健壮的,并且能够有效地重建单词表示。
translated by 谷歌翻译
在本文中,我们解决了手绘草图识别的问题。在贝叶斯决策理论的启发下,我们提出了一个深度度量学习损失,目的是最小化贝叶斯错误分类的风险。在训练期间对每个小批量的风险进行评估,并通过在端到端可训练的范例中将其反向传播到深度神经网络来学习强大的深度嵌入。尽管类内变化和类间相似性自然地呈现吸入绘制的草图图像,但我们学到的嵌入是具有辨别力和稳健性的。在草图识别方面表现优于现有技术,我们的方法分别在TU-Berlin-250和TU-Berlin-160基准测试中达到82.2%和88.7%。
translated by 谷歌翻译
卷积神经网络是科学史上最强大的工具之一。已经进行了大量研究以改善其性能和稳健性,同时他们的内部工作在很大程度上未被探索。它们通常被定义为可以有效映射非线性数据的黑盒子。本文试图展示CNN如何学习如何看待动画。所提出的算法利用CNN的基本数学来回溯它正在考虑预测的重要像素。这是一种简单的算法,它不需要对可以分类的预先训练的CNN进行任何自己的训练。
translated by 谷歌翻译