Unbiased learning to rank (ULTR) studies the problem of mitigating various biases from implicit user feedback data such as clicks, and has been receiving considerable attention recently. A popular ULTR approach for real-world applications uses a two-tower architecture, where click modeling is factorized into a relevance tower with regular input features, and a bias tower with bias-relevant inputs such as the position of a document. A successful factorization will allow the relevance tower to be exempt from biases. In this work, we identify a critical issue that existing ULTR methods ignored - the bias tower can be confounded with the relevance tower via the underlying true relevance. In particular, the positions were determined by the logging policy, i.e., the previous production model, which would possess relevance information. We give both theoretical analysis and empirical results to show the negative effects on relevance tower due to such a correlation. We then propose three methods to mitigate the negative confounding effects by better disentangling relevance and bias. Empirical results on both controlled public datasets and a large-scale industry dataset show the effectiveness of the proposed approaches.
translated by 谷歌翻译
Domain adaptation aims to transfer the knowledge acquired by models trained on (data-rich) source domains to (low-resource) target domains, for which a popular method is invariant representation learning. While they have been studied extensively for classification and regression problems, how they apply to ranking problems, where the data and metrics have a list structure, is not well understood. Theoretically, we establish a domain adaptation generalization bound for ranking under listwise metrics such as MRR and NDCG. The bound suggests an adaptation method via learning list-level domain-invariant feature representations, whose benefits are empirically demonstrated by unsupervised domain adaptation experiments on real-world ranking tasks, including passage reranking. A key message is that for domain adaptation, the representations should be analyzed at the same level at which the metric is computed, as we show that learning invariant representations at the list level is most effective for adaptation on ranking problems.
translated by 谷歌翻译
在本文中,我们研究了从许多嘈杂的随机线性测量值中恢复低级别基质的问题。我们考虑以下设置的设置,即基地矩阵的等级是未知的,并使用矩阵变量的过度指定的分组表示,其中全局最佳解决方案过拟合,并且与基础基础真相不符。然后,我们使用梯度下降和小的随机初始化解决了相关的非凸问题。我们表明,只要测量运算符能够满足受限的等轴测特性(RIP),其等级参数缩放具有地面真相矩阵等级,而不是使用过度指定的矩阵变量进行缩放,那么梯度下降迭代就会在特定的轨迹上朝向地面。 - 正确矩阵并在适当停止时获得了几乎信息理论上的最佳恢复。然后,我们提出了一种基于共同持有方法的有效的早期停止策略,并表明它可以检测到几乎最佳的估计量。此外,实验表明,所提出的验证方法也可以有效地用于图像恢复,并具有深层图像先验,从而使图像过度参与了深层网络。
translated by 谷歌翻译
最近,已经提出了许多有效的变压器,以降低由软磁性注意引起的标准变压器的二次计算复杂性。但是,他们中的大多数只是用有效的注意机制交换SoftMax,而无需考虑定制的体系结构,特别是为了有效的关注。在本文中,我们认为手工制作的香草变压器体系结构可用于软马克斯的注意力可能不适合有效的变压器。为了解决这个问题,我们提出了一个新框架,通过神经体系结构搜索(NAS)技术找到有效变压器的最佳体系结构。提出的方法在流行的机器翻译和图像分类任务上进行了验证。我们观察到,与标准变压器相比,有效变压器的最佳体系结构的计算降低,但总体准确性较低。这表明SoftMax的注意力和有效的注意力具有自己的区别,但它们都无法同时平衡准确性和效率。这激发了我们混合两种注意力以减少性能失衡。除了现有NAS变压器方法中常用的搜索空间外,我们还提出了一个新的搜索空间,该空间允许NAS算法与架构一起自动搜索注意变体。 WMT'EN-DE和CIFAR-10上的广泛实验表明,我们的搜索架构与标准变压器保持了可比的精度,并具有明显提高的计算效率。
translated by 谷歌翻译
张量火车的分解因其高维张量的简洁表示,因此在机器学习和量子物理学中广泛使用,克服了维度的诅咒。交叉近似 - 从近似形式开发用于从一组选定的行和列中表示矩阵,这是一种有效的方法,用于构建来自其少数条目的张量的张量列器分解。虽然张量列车交叉近似在实际应用中取得了显着的性能,但迄今为止缺乏其理论分析,尤其是在近似误差方面的理论分析。据我们所知,现有结果仅提供元素近似精度的保证,这会导致扩展到整个张量时的束缚非常松。在本文中,我们通过提供精确测量和嘈杂测量的整个张量来保证准确性来弥合这一差距。我们的结果说明了选定子观察器的选择如何影响交叉近似的质量,并且模型误差和/或测量误差引起的近似误差可能不会随着张量的顺序而指数增长。这些结果通过数值实验来验证,并且可能对高阶张量的交叉近似值(例如在量子多体状态的描述中遇到的)具有重要意义。
translated by 谷歌翻译
视觉变压器在众多计算机视觉任务上表现出了巨大的成功。然而,由于计算复杂性和记忆足迹是二次的,因此其中心分量(软磁性注意力)禁止视觉变压器扩展到高分辨率图像。尽管在自然语言处理(NLP)任务中引入了线性注意以减轻类似问题,但直接将现有的线性注意力应用于视觉变压器可能不会导致令人满意的结果。我们研究了这个问题,发现与NLP任务相比,计算机视觉任务更多地关注本地信息。基于这一观察结果,我们提出了附近的关注,该关注引入了具有线性复杂性的视觉变压器的局部性偏见。具体而言,对于每个图像补丁,我们根据其相邻贴片测量的2D曼哈顿距离调整了注意力重量。在这种情况下,相邻的补丁比遥远的补丁会受到更大的关注。此外,由于我们的附近注意力要求令牌长度比特征维度大得多,以显示其效率优势,因此我们进一步提出了一个新的附近视觉变压器(VVT)结构,以减少特征维度而不脱离准确性。我们在CIFAR100,ImagEnet1k和ADE20K数据集上进行了广泛的实验,以验证我们方法的有效性。当输入分辨率增加时,与以前的基于变压器和基于卷积的网络相比,GFLOP的增长率较慢。特别是,我们的方法达到了最新的图像分类精度,其参数比以前的方法少50%。
translated by 谷歌翻译
The click-through rate (CTR) prediction task is to predict whether a user will click on the recommended item. As mind-boggling amounts of data are produced online daily, accelerating CTR prediction model training is critical to ensuring an up-to-date model and reducing the training cost. One approach to increase the training speed is to apply large batch training. However, as shown in computer vision and natural language processing tasks, training with a large batch easily suffers from the loss of accuracy. Our experiments show that previous scaling rules fail in the training of CTR prediction neural networks. To tackle this problem, we first theoretically show that different frequencies of ids make it challenging to scale hyperparameters when scaling the batch size. To stabilize the training process in a large batch size setting, we develop the adaptive Column-wise Clipping (CowClip). It enables an easy and effective scaling rule for the embeddings, which keeps the learning rate unchanged and scales the L2 loss. We conduct extensive experiments with four CTR prediction networks on two real-world datasets and successfully scaled 128 times the original batch size without accuracy loss. In particular, for CTR prediction model DeepFM training on the Criteo dataset, our optimization framework enlarges the batch size from 1K to 128K with over 0.1% AUC improvement and reduces training time from 12 hours to 10 minutes on a single V100 GPU. Our code locates at https://github.com/bytedance/LargeBatchCTR.
translated by 谷歌翻译
多字符分类(MCC)是一个基本机器学习问题,其旨在将每个实例分类为预定义的类集中的一个。鉴于实例,分类模型计算每个类的分数,然后所有类别都用于对类进行排序。分类模型的性能通常通过TOP-K精度/误差(例如,k = 1或5)来测量。在本文中,我们不会旨在提出新的神经表征学习模型,因为最近的作品,但要表明通过排名镜头可以轻松提高MCC性能。特别是,通过将MCC视为对实例的等级等级,我们首先争辩说排名指标,例如归一化的折扣累积增益(NDCG),可以比现有的Top-K度量更具信息化。我们进一步证明主导的神经MCC架构可以用特定的设计选择制定为神经排名框架。基于这种概括,我们表明,利用丰富的信息检索文献利用技术将技术效果简单,直观地将MCC性能从盒子中提高。具有不同数据集和骨干型号的文本和图像分类任务的广泛经验结果(例如,用于文本和图像分类的BERT和RESET)显示了我们提出的框架的价值。
translated by 谷歌翻译
面部反欺骗(FAS)在确保人脸识别系统中起着至关重要的作用。经验上,给定图像,在该图像的不同视图上具有更一致的输出的模型通常更好地执行,如图1所示。通过这种令人兴奋的观察,我们猜想令人鼓舞的特征符合不同视图的一致性可能是提升FAS模型的有希望的方法。在本文中,我们通过增强FAS中的嵌入级和预测级别一致性正规(EPCR)来彻底探讨这种方式。具体地,在嵌入级别,我们设计了密集的相似性损失,以最大化两个中间特征映射的所有位置之间以自我监督的方式;虽然在预测级别,我们优化了两个视图的预测之间的均方误差。值得注意的是,我们的EPCR没有注释,可以直接融入半监督的学习计划。考虑到不同的应用方案,我们进一步设计了五种不同的半监督协议,以衡量半监督的FAS技术。我们进行广泛的实验表明EPCR可以显着提高基准数据集上几个监督和半监控任务的性能。代码和协议即将发布。
translated by 谷歌翻译
面部反欺骗(FAS)保护人脸识别从演示攻击(PAS)。现有的FAS方法通常监控PA探测器,使用手工制作二进制或像素 - 明智标签。然而,手工制作的标签可能不是监督PA探测器学习足够和内在欺骗线索的最适当的方式。我们提出了一种新的元师FAS(MT-FAS)方法来培训Meta-Tears FAS(MT-FAS)方法,用于更有效地监督PA探测器。元师以双层优化方式接受培训,以了解监督PA探测器学习丰富欺骗线索的能力。双级优化包含两个关键组件:1)元教师在培训集上监督探测器的学习过程的较低级别培训; 2)通过最大限度地减少探测器的验证损失,优化了元教师教学性能的更高级别培训。我们的元老师与现有的教师学生模型有很大不同,因为元教师明确培训,以便更好地教导探测器(学生),而现有教师受过卓越的准确性忽视教学能力。在五个FAS基准上的广泛实验表明,随着拟议的MT-FA,训练有素的Meta-Buiter 1)提供比手工标签和现有教师学生模型更适合的监督; 2)显着提高了PA探测器的性能。
translated by 谷歌翻译