Deep embeddings answer one simple question: How similar are two images?Learning these embeddings is the bedrock of verification, zero-shot learning,and visual search. The most prominent approaches optimize a deep convolutionalnetwork with a suitable loss function, such as contrastive loss or tripletloss. While a rich line of work focuses solely on the loss functions, we showin this paper that selecting training examples plays an equally important role.We propose distance weighted sampling, which selects more informative andstable examples than traditional approaches. In addition, we show that a simplemargin based loss is sufficient to outperform all other loss functions. Weevaluate our approach on the Stanford Online Products, CAR196, and theCUB200-2011 datasets for image retrieval and clustering, and on the LFW datasetfor face verification. Our method achieves state-of-the-art performance on allof them.
translated by 谷歌翻译
我们研究了为\ emph {sets}定义的机器学习任务的模型设计问题。与在固定维向量上操作的传统方法相比,我们考虑在不同于排列的集合上定义的目标函数。这些问题很普遍,包括对人口统计数据的估计,以及堤坝的压力计数据中的异常检测\引用{Jung15Exploration},tocosmology \ cite {Ntampaka16Dynamical,Ravanbakhsh16ICML1}。我们的主要定理描述了置换不变函数,并提供了任何置换不变目标函数必须属于的族函数。这个函数族具有一种特殊的结构,使我们能够设计出可以在集合上运行且可以在各种上部署的陡峭网络体系结构。场景包括无监督和有监督的学习任务。我们还得出了深部模型中置换等变性的充分必要条件。我们证明了我们的方法在人口统计估计,点云分类,集合扩展和异常检测方面的适用性。
translated by 谷歌翻译
我们提出了一种解决同时检测和分割问题的新方法。使用分层结构,我们使用一个有效且准确的过程,利用Locacy Sensitive Hashing利用层次结构特征信息。我们建立在最近的工作基础上,利用卷积神经网络来检测图像中的边界框,然后在散列后使用最适合每个边界框的顶级相似的分层区域,我们采用这种方法进行iSegmentation。然后,我们通过自动层次结构修剪来优化我们的最终分割结果。 iSegmentation为Hypercolumns引入了免费替代品。我们对PASCAL VOC2012分割数据集进行了大量实验,表明iSegmentation提供了具有竞争力的最先进的对象分割。
translated by 谷歌翻译
下一代内核方法(KMNG)引入了一个框架,在小批量设置中使用kernelapproximates,使用SGD Optimizer作为深度学习的替代方案。 McKernel是KMNG ML大规模的C ++库。它包含FastFood算法的CPU优化实现,允许在对数线性时间内计算近似内核扩展。该算法需要计算Walsh Hadamard变换(WHT)矩阵的乘积。 Acache友好的SIMD Fast Walsh Hadamard变换(FWHT)已经开发出来,其速度快,并且优于当前最先进的方法。 McKernel允许获得非线性分类组合快速食品和线性分类器。
translated by 谷歌翻译
在针对非常大的问题进行风险最小化和凸出游戏时,在线学习算法具有令人印象深刻的收敛性。然而,它们在设计上具有内在的顺序性,这使它们无法利用现代多核架构。在本文中,我们证明了延迟更新的在线学习收敛良好,从而促进了并行在线学习。
translated by 谷歌翻译
We review machine learning methods employing positive definite kernels. Thesemethods formulate learning and estimation problems in a reproducing kernelHilbert space (RKHS) of functions defined on the data domain, expanded in termsof a kernel. Working in linear spaces of function has the benefit offacilitating the construction and analysis of learning algorithms while at thesame time allowing large classes of functions. The latter include nonlinearfunctions as well as functions defined on nonvectorial data. We cover a widerange of methods, ranging from binary classifiers to sophisticated methods forestimation with structured data.
translated by 谷歌翻译
在这项工作中,提出了一个进化艺术项目,其中图像区域通过不同类型的透明,重叠和几何形状(例如,多边形,圆形,线条)进行近似。表示几何形状的特征和顺序的基因型利用适应度函数进化,该适应度函数具有输入图像的相应像素作为目标目标。因此,将基因型 - 表型作图应用于渲染图像,因为选择的遗传表示是间接的,即基因型不包括像素,而是形状与其性质的组合。形状,形状数量,突变类型和种群的不同组合进行了测试。这里的工作目标有两个:(1)用进化的间接编码尽可能精确地近似图像,(2)产生视觉上吸引人的结果和新颖的艺术风格。
translated by 谷歌翻译
对话是交换信息的有效方式,但细微的细节和资金非常重要。虽然重大进展为使用算法进行视觉对话铺平了道路,但细节和细微差别仍然是一个挑战。注意机制已经证明了提取细节隐形问题答案的引人注目的结果,并且由于其可解释性和有效性而为视觉对话提供了令人信服的框架。然而,伴随视觉对话的许多数据都挑战了现有的注意技术。我们解决了这个问题,并开发了visualdialog的一般注意机制,可以在任意数量的数据工具上运行。为此,我们设计了一个基于因子图的注意机制,它结合了任意数量的效用表示。我们说明了所提出的方法对具有挑战性和最近引入的VisDial数据集的适用性,在VisDial0.9中表现优于最近的最新方法1.1%,在VisRial1.0 onMRR上表现优于2%。我们的集合模型将VisDial1.0的MRR得分提高了6%以上。
translated by 谷歌翻译
如今几乎任何给定的任务都可以使用深网动物园,并且越来越不清楚在处理新任务时要从哪个网开始,或者将网用作初始化以微调新模型。为了解决这个问题,在本文中,我们开发了知识流,将“知识”从多个深层网络(称为教师)移动到一个新的深度网络模型,称为学生。教师和学生的结构可以不同,他们可以在不同的输出空间上完成不同任务的训练。在通过知识流程进行培训后,学生将独立于教师。我们展示了我们对各种监督和执行学习任务的方法,超越了微调和其他“知识交换”方法。
translated by 谷歌翻译
协作是执行超出oneagent功能的任务的必要技能。广泛应用于传统和现代AI,多代理协作通常在简单的网格世界中进行研究。我们认为合作存在固有的视觉方面,应该在视觉丰富的环境中进行研究。一个关键的元素合作是通过显式,通过消息或隐式,通过对其他代理和视觉世界的感知来进行的交流。学习在视觉环境中进行协作需要学习(1)执行任务,(2)何时和沟通的内容,以及(3)如何根据这些沟通和视觉世界的感知采取行动。在本文中,我们研究了在AI2-THOR中学习直接从像素协作的问题,并展示了显式和隐式通信模式对于执行视觉任务的好处。有关更多详细信息,请参阅我们的项目页面:https://prior.allenai.org/projects/two-body-problem
translated by 谷歌翻译