我们证明,如果输入维数是常数,则对应于拉普拉斯核的再生核HilbertSpace中的最小范数插值不一致。即使基于数据选择,下限也适用于任何内核带宽选择。结果支持经验观察,即RKHS中的最小范数插值(即,训练数据的精确拟合)对于一些高维数据集而言是好的,但对于低维数据集则不是。
translated by 谷歌翻译
A widespread folklore for explaining the success of Convolutional Neural Networks (CNNs) is that CNNs use a more compact representation than the Fully-connected Neural Network (FNN) and thus require fewer training samples to accurately estimate their parameters. We initiate the study of rigorously characterizing the sample complexity of estimating CNNs. We show that for an m-dimensional convolutional filter with linear activation acting on a d-dimensional input, the sample complexity of achieving population prediction error of is r Opm{ 2 q 2 , whereas the sample-complexity for its FNN counterpart is lower bounded by Ωpd{ 2 q samples. Since, in typical settings m ! d, this result demonstrates the advantage of using a CNN. We further consider the sample complexity of estimating a one-hidden-layer CNN with linear activation where both the m-dimensional convolu-tional filter and the r-dimensional output weights are unknown. For this model, we show that the sample complexity is r O ` pm`rq{pm`pm`rq{ 2 ˘ when the ratio between the stride size and the filter size is a constant. For both models, we also present lower bounds showing our sample complexities are tight up to logarithmic factors. Our main tools for deriving these results are a localized empirical process analysis and a new lemma characterizing the convolutional structure. We believe that these tools may inspire further developments in understanding CNNs.
translated by 谷歌翻译
无监督的视觉表示学习在计算机视觉研究中仍然是一个很大程度上未解决的问题。在最近提出的用于无监督学习视觉表示的方法中,一类自我监督技术在许多具有挑战性的基准上实现了卓越的性能。已经研究了大量的自我监督学习的前提任务,但其他重要的方面,如卷积神经网络(CNN)的选择,并没有得到同等的关注。因此,我们重新审视了许多以前提出的自我监督模型,进行彻底的大规模研究,结果发现了多个关键的问题。我们挑战了自我监督的视觉表现学习中的一些常见实践,并观察到CNN设计的标准配方并不总是转化为自我监督的表征学习。作为我们研究的一部分,我们大大提高了先前提出的技术的性能,并且大大优于以前发布的最先进的结果。
translated by 谷歌翻译
深度量度学习旨在学习将图像像素映射到嵌入特征向量的函数,所述特征向量模拟图像之间的相似性。当前方法的大多数是非参数的,通过监视相似(对)或相对类似(三元组)图像来间接地学习度量。训练这些方法的一个困难的挑战是挖掘图像的信息样本,因为仅仅在单个小批量中存在的局部环境学习度量空间。替代方法使用参数度量学习来消除通过监视图像到代理进行采样的需要。虽然这简化了优化,但这种基于代理的方法在性能方面落后了。在这项工作中,我们证明了标准分类网络可以转化为基于代理的度量学习的变体,其在各种图像检索任务中与非参数方法竞争。我们解决了基于代理的度量学习中的关键挑战,例如极端分类下的性能,并描述了稳定和学习更高维度嵌入的技术。我们评估了我们针对图像检索和聚类的CAR-196,CUB-200-2011,斯坦福在线产品和店内数据集的方法。最后,我们展示了我们的softmax分类方法可以学习高维二进制嵌入,这些嵌入在所有使用与竞争方法相同或更小的内存占用评估的数据集上实现最新的性能。
translated by 谷歌翻译
条件GAN处于自然图像合成的最前沿。这些模型的maindrawback是标记数据的必要性。在这项工作中,我们开发了两种流行的无监督学习技术,对抗性训练和自我监督,以缩小有条件和无条件GAN之间的差距。特别是,我们允许网络在代表性学习的任务上进行合作,而对于经典的GAN游戏则是对抗性的。 。自我监督的作用是鼓励鉴别者容忍有意义的特征表征,这些表征在训练期间不会被遗忘。我们根据经验测试学习图像表示的质量和合成图像的质量。在相同条件下,自我监督的GAN获得了类似性能的现有条件对应物。最后,我们表明这种完全无监督学习的方法可以扩展到无条件ImageNet生成的FID达到33。
translated by 谷歌翻译
GAN涉及在对抗性游戏中训练两个网络,其中每个网络的任务取决于其对手。最近,一些作品将GAN培训作为在线或持续学习问题。我们关注的是识别者,它必须在(对侧)移位数据分布下进行分类。在接受顺序任务训练时,神经网络禁止\ emph {遗忘}。对于GAN,鉴别器遗忘会导致训练不稳定。为了抵制遗忘,我们鼓励歧视者通过增加自我监督来维持有用的陈述。条件GAN使用标签具有相似的效果。然而,我们的自我监督的GAN不需要标签,并且缩小了条件和无条件模型之间的性能差距。我们表明,在这样做时,自我监督的鉴别器比常规的GAN学习更好的表示。
translated by 谷歌翻译
目前关于人类注视和显着性建模的大多数研究都使用了高质量的刺激。然而,在现实世界中,捕获的图像在整个采集,传输和显示链期间经历各种类型的失真。一些失真类型包括运动模糊,灯光变化和旋转。尽管做了很少的努力,但普遍存在的失真对视觉注意和显着性模型的影响尚未得到系统的研究。在本文中,我们首先创建了一个大型数据库,其中包括超过1900种图像的10个观察者的眼睛运动,这些图像因19种类型的扭曲而退化。其次,通过分析眼球运动和显着性模型,我们发现:a)观察者在失真与原始图像上观察不同位置,b)显着性模型的性能在扭曲图像上受到严重阻碍,最大性能下降属于旋转和剪切扭曲。最后,我们研究了在提供数据增强转换时不同失真的有效性。实验结果验证了保留人类视线参考图像的一些有用的数据增强变换可以改善深度显着模型以防止失真,而一些严重改变人类注视的无效变换会降低性能。
translated by 谷歌翻译
虽然变形金刚翻译模型(Vaswani et al。,2017)已经在各种翻译任务中实现了最先进的表现,但是如何使用文档级语境来处理对于变形金刚来说有问题的话语现象仍然是一个挑战。在这项工作中,我们使用新的上下文编码器扩展Transformermodel,以表示文档级上下文,然后将其合并到原始编码器和解码器中。由于通常没有大规模的平行语料库,我们引入了两步训练方法来充分利用丰富的句子级平行语料库和有限的文档级并行语料库。在NIST中英文数据集和IWSLT法语 - 英语数据集上的实验表明,我们的方法显着改善了Transformer。
translated by 谷歌翻译
最近关于人员重新识别的研究主要集中在两个方面。一种是学习基于部分的局部特征以形成更具信息性的特征描述符。另一个是设计有效的度量学习损失函数,例如Triplet损失族。我们认为,即使采用简单且经济高效的架构设计,学习具有分类丢失的全局特征也可以实现相同的目标。我们提出了一种以信道分组和多分支策略为特征的人重建框架,将全局特征划分为多个信道组,并通过多分支分类层学习判别信道组特征。在广泛的实验中,我们的网络在准确性和推理成本方面优于最先进的人员重构框架。
translated by 谷歌翻译
我们定义了一种新方法来估计文本分类的质心,这是基于训练文档中单词分布与其类质心之间的对称KL-分歧。在几个标准数据集上的实验表明,新方法相对于传统分类器实现了实质性改进。
translated by 谷歌翻译