Contemporary domain adaptation methods are very effective at aligning feature distributions of source and target domains without any target supervision. However, we show that these techniques perform poorly when even a few labeled examples are available in the target domain. To address this semi-supervised domain adaptation (SSDA) setting, we propose a novel Minimax Entropy (MME) approach that adversarially optimizes an adaptive few-shot model. Our base model consists of a feature encoding network , followed by a classification layer that computes the features' similarity to estimated prototypes (representatives of each class). Adaptation is achieved by alternately maximizing the conditional entropy of unlabeled target data with respect to the classifier and minimizing it with respect to the feature encoder. We empirically demonstrate the superiority of our method over many baselines, including conventional feature alignment and few-shot methods, setting a new state of the art for SSDA.
translated by 谷歌翻译
我们提出了引导式缩放,这种方法利用空间接地来做出更明智的预测。它通过确保模型具有预测的“正确理由”来实现,被定义为与在训练时间做出类似正确决策的一致的原因。深度神经网络进行预测的原因/证据被定义为在像素空间中对于模型输出中的特定类条件概率的空间基础。引导缩放问题用于进行预测的证据是多么合理。在最先进的深单标签分类模型中,top-k(k = 2,3,4,...)精度通常显着高于top-1精度。这是更明显的细粒度数据集,其中类之间的差异非常微妙。通过引导式缩放,可以在三个细粒度分类数据集上细化模型的分类精度。我们还探讨了不同基础技术的互补性,通过将它们的整体与一种对抗性擦除方法进行比较,该方法迭代地揭示了下一个最具歧视性的证据。
translated by 谷歌翻译
大多数现有的工作都是以图像中的自然语言短语为基础,假设所讨论的短语与图像相关。在本文中,我们讨论了一个更加真实的自然语言背景任务版本,我们必须确定该短语是否与图像相关并将该词组本地化。这也可以被视为对开放式词汇表的对象检测的概括,主要是引入少量和零射击检测的元素。我们为此任务提出了一个短语R-CNN网络,它扩展了更快的R-CNN以关联图像区域和短语。通过使用规范相关分析(CCA)仔细初始化我们网络的分类层,我们鼓励在相似短语之间进行推理时更加清晰的解决方案,导致与两个流行的短语接地数据,Flickr30K实体和引用游戏的天真适应相比,性能超过两倍,测试时间短语词汇分别为5K和39K。
translated by 谷歌翻译
Foveation,能够顺序获取最初在低敏锐度下观察的场景的高敏锐度区域,是生物视觉系统的关键属性。在计算机视觉系统中,还希望能够提高数据效率并获得与任务相关的特征。然而,大多数现有的深度学习模型缺乏能力。在本文中,我们提出了一种基于深度强化学习的中转模型DRIFT,并将其应用于挑战细粒度分类任务。 DRIFT的培训仅需要图像级别的标签,并鼓励修复包含歧视性信息,同时保持数据效率。具体而言,我们将发展制定为一个连续的决策过程,并通过条件批评和指导(DDPGC3)算法训练一个新的深度确定性政策梯度的主体行为网络。此外,我们建议在每次录制后制定奖励提供信息反馈,以更好地指导RL训练。我们证明了我们的方法对五个细粒度分类基准数据集的有效性,并表明所提出的方法使用数量级更少的像素实现了最先进的性能。
translated by 谷歌翻译
我们提出了两阶段哈希方法的理论和实证改进。我们首先对二进制码的质量进行理论分析,并表明,在温和假设下,残差学习方案可以构造适合任意邻域结构的二进制码,具有任意精度。其次,我们表明,对于诸如CNN的高容量散列函数,对于许多标准邻居定义,二进制代码推断可以被大大简化,产生更小的优化问题和更多的鲁棒代码。结合我们的研究结果,我们提出了一种新颖的两阶段散列方法,该方法在广泛使用的图像检索基准测试中明显优于以前的散列研究。
translated by 谷歌翻译
We address the problem of text-based activity retrieval in video. Given a sentence describing an activity, our task is to retrieve matching clips from an untrimmed video. To capture the inherent structures present in both text and video, we introduce a multilevel model that integrates vision and language features earlier and more tightly than prior work. First, we inject text features early on when generating clip proposals, to help eliminate unlikely clips and thus speed up processing and boost performance. Second, to learn a fine-grained similarity metric for retrieval, we use visual features to modulate the processing of query sentences at the word level in a recurrent neural network. A multi-task loss is also employed by adding query re-generation as an auxiliary task. Our approach significantly outperforms prior work on two challenging benchmarks: Charades-STA and ActivityNet Captions.
translated by 谷歌翻译
二进制矢量嵌入使得在高维对象的大数据库中能够快速最近邻检索,并且在诸如图像和视频检索的许多实际应用中起重要作用。我们研究了在监督环境下学习二元矢量嵌入的问题,也称为哈希。我们提出了一种基于信息理论数量优化的新型监督哈希方法:互信息。我们表明,优化相互信息可以减少学习汉明空间中诱导邻域结构的模糊性,这对于获得高检索性能至关重要。为此,我们利用小批量随机梯度下降优化深度神经网络中的互信息,并使用最大限度地有效利用可用监督的公式。关于图像检索基准的实验,包括ImageNet,证实了我们的方法在学习最近邻居检索的高质量二进制嵌入方面的有效性。
translated by 谷歌翻译
哈希或学习二进制数据嵌入经常用于最近邻检索。在本文中,我们开发学习以对公式进行排序,旨在直接优化基于排名的评估指标,如平均精度(AP)和标准化折扣累积增益(NDCG)。我们首先观察到整数值汉明距离经常导致绑定,并建议使用绑定感知版本的AP和NDCG来评估搜索的搜索。然后,为了优化领带感知排名指标,我们推导出他们的连续松弛,并使用深度网络执行基于梯度的优化。我们的结果通过汉明在共同基准测试中的排名建立了最先进的图像检索技术。
translated by 谷歌翻译
由于深度网络和大型数据集,已知类别对象的视点估计得到了显着改善,但泛化的已知类别仍然非常具有挑战性。为了提高未知类别的表现,我们引入了类别级别的镜头观点估计问题。我们设计了一个新的框架来成功地为新类别训练视点网络,只有很少的例子(10个或更少)。我们将问题表述为学习估计特定类别的3D扫描形状,相关深度估计和语义2D关键点之一。我们应用元学习来学习我们网络的权重,这些权重是特定于特定类别的微观微调。此外,我们设计了一个灵活的暹罗网络,在元学习过程中最大化信息共享。通过对ObjectNet3D和Pascal3D + benchmark数据集的大量实验,我们证明我们的框架,我们称之为MetaView,明显优于微调状态。 -art模型与fewexamples,我们的方法的具体架构创新是实现良好性能的关键。
translated by 谷歌翻译
近年来,在线社交平台一直是用户的战场,彼此具有不同的态度和态度。虽然性别歧视在文献中被认为是一种仇恨言论,但有一种非全面的定义和性别歧视类别吸引了自然语言处理技术。将性别歧视分为仁慈或敌对主义是如此广泛,以至于很容易忽视社会媒体上其他类别的性别歧视。 Sharifirad S和Matwin S 2018提出了一个定义明确的性别歧视类别,包括间接骚扰,信息威胁,性骚扰和身体骚扰,这些都是出于自然语言处理技术的目的而受到社会科学的启发。在本文中,我们利用SemEval-2018中新发布的数据集task1:影响推文,以显示每个类别中的情绪类型和情绪强度。我们在SemEval-2018数据集上训练,测试和评估不同的分类方法,并选择具有最高准确度的分类器,用于测试每个类别的词条推文,以了解每个类别中用户的心理状态和影响状态。这是一个很好的探索途径,因为并非所有的网页都是直接的性别歧视,并且它们会带来不同的用户情绪。这是第一部关于影响力检测的工作,深入研究这些推文。根据我们的最佳知识,它们都是对现场的新贡献;我们是第一个在性别推文上展示如此深入的情感分析能力的人。
translated by 谷歌翻译