最近邻算法是一种懒惰学习算法,其中算法试图通过训练数据集中的相似向量来近似预测。 K-NearestNeighbors算法所做的预测是基于对空间邻居的目标值进行平均。 Hermitian空间中邻居的选择过程是在距离度量的帮助下完成的,例如欧氏距离,Minkowskidistance,Mahalanobis距离等。大多数度量,例如欧几里德距离是尺度变量,这意味着结果可能因使用的不同范围值而变化对于功能。用于缩放因子的正规化的标准技术是特征缩放方法,例如Z分数归一化技术,Min-Max缩放等。缩放方法对所有特征均匀地赋予权重,这可能导致非理想情况。本文提出了一种新颖的方法。借助于从构造多个决策树模型获得的袋外错误来为单个特征分配权重的方法。
translated by 谷歌翻译
Medical and social sciences demand sampling techniques which are robust, reliable, replicable and have the least dissimilarity between the samples obtained. Majority of the applications of sampling use randomized sampling, albeit with stratification where applicable. The randomized technique is not consistent, and may provide different samples each time, and the different samples themselves may not be similar to each other. In this paper, we introduce a novel non-statistical no-replacement sampling technique called Wobbly Center Algorithm, which relies on building clusters iteratively based on maximizing the heterogeneity inside each cluster. The algorithm works on the principle of stepwise building of clusters by finding the points with the maximal distance from the cluster center. The obtained results are validated statistically using Analysis of Variance tests by comparing the samples obtained to check if they are representative of each other. The obtained results generated from running the Wobbly Center algorithm on benchmark datasets when compared against other sampling algorithms indicate the superiority of the Wobbly Center Algorithm.
translated by 谷歌翻译
互联网上的滥用是我们这个时代的重大社会问题。对Twitter中自动滥用语言检测的前期研究表明,基于社区的用户分析是一项很有前途的技术。然而,现有方法只能通过建模捕获在线社区的浅层属性。跟随者关系。相比之下,使用图形卷积网络(GCN),我们提出了第一种方法,它不仅捕获在线社区的结构,而且还捕获其中用户的语言行为。我们表明,这种异构的图形结构的社区建模显着推动了滥用语言检测的当前艺术状态。
translated by 谷歌翻译
我们的论文介绍了既定技术的有效组合,以提高分类器性能,在准确性和培训时间方面。通过动态调整学习速率,在接近现有技术精度,不同模型架构的情况下,实现两倍到十倍的加速。我们发现在小数据集的情况下尤其有益,其中机器推理的可靠性较低。我们通过比较我们对CIFAR-10的methodversus vanilla培训来验证我们的方法。我们还通过在不平衡的诊断​​图像语料库上实现它的实际可行性。
translated by 谷歌翻译
双曲流形是一个具有负常曲率的光滑流形。虽然双曲流形在文献中得到了很好的研究,但由于其在连续层次模型中的有用性,它在机器学习和自然语言处理中获得了兴趣。具有分层结构的任务在这些领域中无处不在,并且对于学习双曲线表示或嵌入此类任务存在普遍兴趣。此外,这些相关任务的嵌入也可以共享低秩空间。在这项工作中,我们建议学习双曲线嵌入,使得它们也位于低维子空间中。特别是,我们考虑学习双曲线嵌入的低秩分解的问题。我们将这些问题作为多方面的优化问题来提出,并提出了计算效率高的算法。实证结果说明了所提出的方法的有效性。
translated by 谷歌翻译
受机器翻译中利用多种模态的最新进展的启发,我们引入了编码器 - 解码器流水线,其使用(1)图像内的特定对象及其对象标签,(2)用于解码对象特征和对象标签的联合嵌入的语言模型。我们的管道预先在图像中检测到对象及其对象标签,然后选择描述特定图像的字幕序列。解码器模型通过解码由编码器组件调节的对象视觉特征及其对象类的联合表示来学习从头开始提取图像的描述。该模型的想法是集中于图像的特定对象及其标签,用于生成图像的描述而不是整个图像的视觉特征。模型需要通过调整参数和设置进行更多校准,以获得更好的准确性和性能。
translated by 谷歌翻译
近年来社交媒体的快速增长引发了一些高度不受欢迎的现象,例如互联网上滥用和冒犯性语言的泛滥。以前的研究表明,这些仇恨内容往往来自那些共享一组共同刻板印象并形成社区群体的用户。当前最先进的仇恨语音检测方法无视用户和社区信息,完全依赖于文本(即词汇和语义)线索。在本文中,我们提出了一种新方法来解决这个问题,该方法结合了Twitterusers的基于社区的分析功能。通过对16k推文数据集的实验,我们发现我们的方法在仇恨语音检测方面明显优于当前的技术水平。此外,我们对模型特征进行了定性分析。我们发布代码,预先训练的模型以及公共领域中使用的所有资源。
translated by 谷歌翻译
化学化合物的毒性预测是一项巨大的挑战。最近,它在准确性方面取得了重大进展,但使用了大量功能,实现了复杂的黑盒技术,如深度神经网络,并开发了大量的计算资源。在本文中,我们强烈论证了机器学习特性简单,计算资源使用效率高,以及实现非常高精度水平的强大模型和方法。为了证明这一点,我们开发了一个基于任务的单一化学毒性预测框架,仅使用计算密集度较低的2D特征。我们有效地使用决策树从数千个集合中获取最佳数量的特征。我们使用浅层神经网络,并将决策树与网络参数和输入特征结合起来,共同优化它。我们的模型只需要一分钟就可以在单个CPU上进行训练,而使用深度神经网络的现有方法在NVidia Tesla K40 GPU上需要大约10分钟。但是,我们在几个毒性基准测试任务中获得了类似或更好的性能。我们还开发了累积特征排序方法,使我们能够识别可以帮助化学家有效地对有毒化合物进行预筛选的特征。
translated by 谷歌翻译
手写签名验证领域在过去的几十年中得到了广泛的研究,但仍然是一个开放的研究问题。在离线(静态)签名验证中,签名写入过程的动态信息丢失,并且难以设计出能够区分真实签名和熟练伪造的良好特征提取器。在编写者独立的场景中,这个验证任务更加困难,这无疑是财务上的现实案例。在本文中,我们提出了一个用于离线写入器的集合模型,具有深度学习的独立签名验证任务。我们使用两个CNN进行特征提取,然后使用RGBT进行分类和堆叠以生成最终预测向量。我们对来自不同来源的各种数据集进行了大量实验,以维持数据集中的方差。我们已经在各种数据集上实现了最先进的性能。
translated by 谷歌翻译
用于生物医学图像分析的卷积神经网络(CNN)通常具有非常大的尺寸,导致高存储器需求和高操作延迟。为特定成像应用搜索baseCNN的可接受的压缩表示通常涉及一系列耗时的训练/验证实验,以实现网络大小和准确度之间的良好折衷。为了应对这一挑战,我们提出了CC-Net,一种用于生物医学图像分割的新的图像复杂性引导CNN压缩方案。给定CNN模型,CC-Net基于从训练数据计算的平均图像复杂度来预测不同大小的网络的最终准确度。然后,它选择乘法因子来生成具有可接受的网络精度和大小的期望网络。实验表明,CC-Net对于生成压缩分段网络是有效的,在最佳情况下保留高达95%的基本网络分段准确度,并且仅利用0.1%的全尺寸网络的可训练参数。
translated by 谷歌翻译