最近邻算法是一种懒惰学习算法,其中算法试图通过训练数据集中的相似向量来近似预测。 K-NearestNeighbors算法所做的预测是基于对空间邻居的目标值进行平均。 Hermitian空间中邻居的选择过程是在距离度量的帮助下完成的,例如欧氏距离,Minkowskidistance,Mahalanobis距离等。大多数度量,例如欧几里德距离是尺度变量,这意味着结果可能因使用的不同范围值而变化对于功能。用于缩放因子的正规化的标准技术是特征缩放方法,例如Z分数归一化技术,Min-Max缩放等。缩放方法对所有特征均匀地赋予权重,这可能导致非理想情况。本文提出了一种新颖的方法。借助于从构造多个决策树模型获得的袋外错误来为单个特征分配权重的方法。
translated by 谷歌翻译
Medical and social sciences demand sampling techniques which are robust, reliable, replicable and have the least dissimilarity between the samples obtained. Majority of the applications of sampling use randomized sampling, albeit with stratification where applicable. The randomized technique is not consistent, and may provide different samples each time, and the different samples themselves may not be similar to each other. In this paper, we introduce a novel non-statistical no-replacement sampling technique called Wobbly Center Algorithm, which relies on building clusters iteratively based on maximizing the heterogeneity inside each cluster. The algorithm works on the principle of stepwise building of clusters by finding the points with the maximal distance from the cluster center. The obtained results are validated statistically using Analysis of Variance tests by comparing the samples obtained to check if they are representative of each other. The obtained results generated from running the Wobbly Center algorithm on benchmark datasets when compared against other sampling algorithms indicate the superiority of the Wobbly Center Algorithm.
translated by 谷歌翻译
卷积神经网络(CNN)正在取得显着进步的各种计算机视觉任务。在过去几年中,遥感社区观察到深度神经网络(DNN)最终在几个具有挑战性的领域中起飞。在本研究中,我们提出DNN使用并发低分辨率(LR)频带和现有HR频带的集合来生成预定义的高分辨率(HR)合成频谱带。特别令人感兴趣的是,所提出的网络,即DeepSWIR,在24m和5m GSD处使用绿色(G),红色(R)和近红外(NIR)频带合成短波红外(SWIR)带状5m地面采样距离(GSD),和SWIR乐队在24米GSD。据我们所知,商业可交付的SWIR频段的最高空间分辨率为7.5mGSD。此外,我们提出了一种基于高斯羽化的图像拼接方法,可用于处理大型卫星图像。为了通过实验验证合成的HR SWIR波段,我们使用最先进的评估指标对DeepSWIR产生的定性和定量结果进行了批判性分析。此外,我们将合成的DN值转换为Top of Atmosphere(TOA)反射率,并与Sentinel-2B的相应波段进行比较。最后,我们展示了合成波段的一个真实世界应用,通过使用它来映射我们感兴趣的区域的湿地资源。
translated by 谷歌翻译
可再生能源,尤其是风能和光伏电站的能源产生量在过去十年中迅速增长。电力系统的可靠和经济运行因此需要准确估算可再生发电厂产生的电力,特别是间歇性电力。在自然界。这突出了需要找到一个有效和可扩展的方案来预测气象参数,如太阳辐射,具有更好的准确性。对于短期太阳辐射预测,传统的点预测方法对太阳能的非平稳特性没有多大用处。在这项研究工作中,我们提出了一种统一的架构,用于使用递归神经网络(RNN)和长期短期记忆网络(LSTM)进行日间太阳辐照度预测的多时间尺度预测。本文还提出了将这种建模方法扩展到小时内预测方法的框架,从而使其成为一种能够预测小时内和日内太阳辐照度的多时间范围预测方法。我们开发了端到端管道来实现所提出的架构。通过对美国各地区散布的地点进行的案例研究,证明了该方法的稳健性。这些预测表明,我们提出的基于统一架构的方法对于多时间尺度的预测是有效的,并且当针对文献中记录的最佳性能方法进行基准测试时实现较低的均方根预测误差,该方法在每个时间尺度期间使用单独的模型。天。所提出的方法使得能够利用实时输入进行多时间范围预测,这对于不断发展的电网中的实际工业应用具有显着的潜力。
translated by 谷歌翻译
解释训练的深度神经网络(DNN)的一种方式是通过检查模型中的神经元响应的特性,例如通过迭代地优化模型输入(例如,图像)以最大化地激活特定的神经元。然而,这需要仔细选择超参数以生成每个感兴趣的神经元的可解释的示例,并且当前的方法依赖于对每个设置的手动的定性评估,这是非常慢的。我们引入了一个新的度量标准,它使用Fr \'echet InceptionDistance(FID)来鼓励模型激活之间的真实和生成数据之间的相似性。这为每个超参数设置评估一组生成样本提供了有效的方法。我们还提出了一种新颖的基于GAN的方法,用于生成解释,使得能够有效地搜索输入空间并强加先前有利的实际输出。我们将我们的方法应用于训练的分类模型,以预测音频录音是否包含歌声。我们的结果表明,这个提出的度量成功地选择了超参数,导致可解释的示例,避免了手动评估的需要。此外,我们看到合成的样本被分别用于最大化或最小化语音存在的预测概率,分别表现出声音或非声音特征,这表明我们的方法能够生成合适的解释以理解由神经网络学习的概念。
translated by 谷歌翻译
我们提出了基于草图的图像检索(SBIR)的概率模型,其中,在检索时,我们给出了来自新类的草图,这些草图在训练时不存在。现有的SBIR方法,其中大多数依赖于草图和图像之间的学习分类对应关系,通常仅适用于先前看到的草图类,并且导致新类的检索性能差。为了解决这个问题,我们提出了一种生成模型,它可以学习生成图像,并以给定的新类草图为条件。这使我们能够将SBIR问题减少到标准的图像到图像搜索问题。我们的模型基于基于逆自回归流的变分自动编码器,具有反馈机制以确保稳健的图像生成。我们在两个非常具有挑战性的数据集Sketchy和TU Berlin上评估我们的模型,并进行了新的列车测试分割。所提出的方法显着优于两个数据集上的各种基线。
translated by 谷歌翻译
互联网上的滥用是我们这个时代的重大社会问题。对Twitter中自动滥用语言检测的前期研究表明,基于社区的用户分析是一项很有前途的技术。然而,现有方法只能通过建模捕获在线社区的浅层属性。跟随者关系。相比之下,使用图形卷积网络(GCN),我们提出了第一种方法,它不仅捕获在线社区的结构,而且还捕获其中用户的语言行为。我们表明,这种异构的图形结构的社区建模显着推动了滥用语言检测的当前艺术状态。
translated by 谷歌翻译
我们的论文介绍了既定技术的有效组合,以提高分类器性能,在准确性和培训时间方面。通过动态调整学习速率,在接近现有技术精度,不同模型架构的情况下,实现两倍到十倍的加速。我们发现在小数据集的情况下尤其有益,其中机器推理的可靠性较低。我们通过比较我们对CIFAR-10的methodversus vanilla培训来验证我们的方法。我们还通过在不平衡的诊断​​图像语料库上实现它的实际可行性。
translated by 谷歌翻译
最近,通过灵活的随机走路方法,新的优化目标和深层架构,无监督网络表示学习(UNRL)方法在图表方面取得了可观的进展。然而,没有共同的基础来进行系统比较嵌入,以了解不同图形和任务的行为。在本文中,我们理论上在一个统一的框架下对不同的方法进行分组,并实证研究不同网络表示方法的有效性。特别值得一提的是,UNRL的大多数方法都明确地或隐含地模拟了一个节点的索引上下文信息。因此,我们提出了一个框架,将基于随机游走,矩阵分解和基于深度学习的各种方法投射到基于上下文的统一优化函数中。我们基于它们的相似性和差异系统地对方法进行分组。我们详细研究了这些方法之间的差异,这些方法用于解释它们的性能差异(下游任务)。我们进行了一项大规模的实证研究,考虑了9种流行的和最近的UNRL技术以及11种具有不同结构特性和两个常见任务的真实数据集 - 节点分类和链接预测。我们发现没有一种方法是明显的赢家,并且选择合适的方法取决于嵌入方法的某些属性,底层图的任务和结构属性。此外,我们还报告了评估UNRL方法的常见缺陷,并提出了实验设计和结果解释的建议。
translated by 谷歌翻译
双曲流形是一个具有负常曲率的光滑流形。虽然双曲流形在文献中得到了很好的研究,但由于其在连续层次模型中的有用性,它在机器学习和自然语言处理中获得了兴趣。具有分层结构的任务在这些领域中无处不在,并且对于学习双曲线表示或嵌入此类任务存在普遍兴趣。此外,这些相关任务的嵌入也可以共享低秩空间。在这项工作中,我们建议学习双曲线嵌入,使得它们也位于低维子空间中。特别是,我们考虑学习双曲线嵌入的低秩分解的问题。我们将这些问题作为多方面的优化问题来提出,并提出了计算效率高的算法。实证结果说明了所提出的方法的有效性。
translated by 谷歌翻译