时尚推荐通常被拒绝,因为它是找到适合给定用户的查询服装或检索服装的互补物品的任务。在这项工作中,我们通过根据提议的敷料的样式添加附加语义层来解决问题。我们根据两个重要方面的样式建模:颜色组合图案背后隐藏的情绪和情感以及给定类型的社交事件所检索的服装的适当性。为了解决前者,我们依靠Shigenobu Kobayashi的颜色图像量表,这将情感模式和情绪与色彩三元组相关联。相反,通过从社交事件的图像中提取服装来分析后者。总体而言,我们集成了最先进的服装建议框架样式分类器和事件分类器,以便在给定的查询上建议建议。
translated by 谷歌翻译
在这项工作中,我们解决了4D面部表情生成的问题。通常,通过对中性3D面动画来达到表达峰,然后回到中立状态来解决这一问题。但是,在现实世界中,人们表现出更复杂的表情,并从一个表达式转换为另一种表达。因此,我们提出了一个新模型,该模型在不同表达式之间产生过渡,并综合了长长的4D表达式。这涉及三个子问题:(i)建模表达式的时间动力学,(ii)它们之间的学习过渡,以及(iii)变形通用网格。我们建议使用一组3D地标的运动编码表达式的时间演变,我们学会通过训练一个具有歧管值的gan(Motion3dgan)来生成。为了允许生成组成的表达式,该模型接受两个编码起始和结尾表达式的标签。网格的最终顺序是由稀疏的2块网格解码器(S2D-DEC)生成的,该解码器将地标位移映射到已知网格拓扑的密集,每位vertex位移。通过明确处理运动轨迹,该模型完全独立于身份。五个公共数据集的广泛实验表明,我们提出的方法在以前的解决方案方面带来了重大改进,同时保留了良好的概括以看不见数据。
translated by 谷歌翻译
在过去的几年中,在文化遗产领域中使用深度学习和计算机视觉在文化遗产领域变得非常相关,其中包括有关音频智能指南,互动博物馆和增强现实的大量应用。所有这些技术都需要大量数据才能有效工作并对用户有用。在艺术品的背景下,专家在昂贵且耗时的过程中注释了此类数据。特别是,对于每件艺术品,必须收集艺术品和描述表的图像,以执行诸如视觉问题回答之类的常见任务。在本文中,我们提出了一种视觉问题回答的方法,该方法允许在运行时生成一个描述表,该表可用于回答有关艺术品的视觉和上下文问题,从而完全避免了图像和注释过程。为此,我们研究了使用GPT-3来生成描述用于艺术品,以分析通过字幕指标分析生成的描述的质量。最后,我们评估了视觉问答答案和字幕任务的性能。
translated by 谷歌翻译
深度学习的高级面部识别以实现前所未有的准确性。但是,了解面部的本地部分如何影响整体识别性能仍然不清楚。除其他外,面部掉期已经进行了实验,但只是为了整个脸。在本文中,我们建议交换面部零件,以剥夺不同面部零件(例如眼睛,鼻子和嘴巴)的识别相关性。在我们的方法中,通过拟合3D先验来交换从源面转换为目标的零件,该零件在零件之间建立密集的像素对应关系,同时还要处理姿势差异。然后,无缝克隆用于在映射的源区域和目标面的形状和肤色之间获得平滑的过渡。我们设计了一个实验协议,该协议使我们能够在通过深网进行分类时得出一些初步结论,表明眼睛和眉毛区域的突出性。可在https://github.com/clferrari/facepartsswap上找到代码
translated by 谷歌翻译
近年来,已经开发了几种无监督和自我监督的方法,以从大规模未标记的数据集中学习视觉功能。然而,它们的主要缺点是,如果简单地旋转或相机的视角更改,这些方法几乎无法识别同一对象的视觉特征。为了克服此限制,同时利用有用的监督来源,我们考虑了视频对象轨道。遵循直觉,轨道中的两个补丁应该在学习的特征空间中具有相似的视觉表示形式,我们采用了一种无监督的基于群集的方法,并约束此类表示为同一类别,因为它们可能属于同一对象或对象零件。与先前的工作相比,不同数据集上两个下游任务的实验结果证明了我们在线深度聚类(ODCT)方法的有效性,而视频轨道一致性(ODCT)方法没有利用时间信息。此外,我们表明,与依靠昂贵和精确的轨道注释相比,利用无监督的类不知所措但嘈杂的轨道生成器的产量提高了准确性。
translated by 谷歌翻译
在本文中,我们为连续表示学习问题提出了一种新颖的培训程序,其中依次学习了神经网络模型,以减轻视觉搜索任务中的灾难性遗忘。我们的方法称为对比度有监督的蒸馏(CSD),在学习判别特征的同时,还会减少忘记。这是通过在蒸馏设置中利用标签信息来实现的,在蒸馏设置中,从教师模型中对学生模型进行了相反的学习。广泛的实验表明,CSD在减轻灾难性遗忘方面的表现优于当前最新方法。我们的结果还提供了进一步的证据,表明在视觉检索任务中评估的功能忘记不像分类任务那样灾难性。代码:https://github.com/niccobiondi/contrastivesupervisedistillation。
translated by 谷歌翻译
在本文中,我们提出了一种学习内部特征表示模型的新方法,该模型是\ Textit {兼容}与先前学识的。兼容功能可用于直接比较旧和新的学习功能,允许它们随时间互换使用。这消除了在顺序升级表示模型时,可以对视觉搜索系统提取用于在画廊集中的所有先前看到的图像的新功能。在非常大的画廊集和/或实时系统(即面部识别系统,社交网络,终身系统,终身系统,机器人和监测系统)的情况下,提取新功能通常是非常昂贵或不可行的。我们的方法是通过实质性(核心)称为兼容表示,通过鼓励自身定义到学习的表示模型来实现兼容性,而无需依赖以前学习的模型。实用性允许功能在随时间偏移下不改变的统计属性,以便当前学习的功能与旧版本相互操作。我们评估了种植大规模训练数据集中的单一和连续的多模型升级,我们表明我们的方法通过大幅度实现了实现兼容特征来提高现有技术。特别是,通过从Casia-Webface培训和在野外(LFW)中的标记面上评估的培训数据升级十次,我们获得了49 \%的测量倍数达到兼容的平均次数,这是544 \%对先前最先进的相对改善。
translated by 谷歌翻译
在本文中,我们考虑了使用嘈杂的中间量子量子(NISQ)设备的几种用于量子计算机视觉的算法,并将它们基于对其经典对应物的真正问题进行基准测试。具体而言,我们考虑了两种方法:基于通用门的量子计算机上的量子支持向量机(QSVM),以及Qubost在量子退火器上。量子视觉系统是针对图像不平衡数据集进行基准测试的,其目的是检测制成的汽车件中的缺陷。我们看到,量子算法以几种方式优于其经典对应物,QBoost允许使用当今的量子退火器分析更大的问题。还讨论了数据预处理,包括降低维度和对比度增强,以及Qboost中的超参数调整。据我们所知,这是量子计算机视觉系统的首次实施,用于制造生产线中的工业相关性问题。
translated by 谷歌翻译
本文提出了一种具有多个循环训练的训练方法,可在低位量化的卷积神经网络(CNN)中实现增强性能。量化是获得轻量级CNN的流行方法,其中使用预审计模型的初始化被广泛用于克服低分辨率量化中的降解性能。但是,实际值及其低位量化量之间的大量量化错误在获得复杂网络和大型数据集的可接受性能方面遇到了困难。所提出的训练方法在多个量化步骤中轻轻地将验证模型的知识传达给了低位量化模型。在每个量化步骤中,模型的训练重量用于初始化下一个模型的权重,而量化位深度减少了一个。随着量化位深度的微小变化,可以弥合性能差距,从而提供更好的权重初始化。在循环训练中,在训练低位量化模型后,其训练的权重用于初始化其准确模型要训练。通过以迭代方式使用精确模型的更好的训练能力,该方法可以在每个循环中为低位量化模型产生增强的训练重量。值得注意的是,训练方法可以分别提高ImageNet数据集上的二进制RESNET-18的TOP-1和前5个精度,分别为5.80%和6.85%。
translated by 谷歌翻译
Mazumdar和Saha \ Cite {MS17A}的开创性论文引入了有关聚类的广泛工作,并带有嘈杂的查询。然而,尽管在问题上取得了重大进展,但所提出的方法至关重要地取决于了解基础全随随随之而来的甲骨文错误的确切概率。在这项工作中,我们开发了可靠的学习方法,这些方法可以忍受一般的半随机噪声,从而在定性上获得与全随机模型中最佳方法相同的保证。更具体地说,给定一组$ n $点带有未知的基础分区,我们可以查询点$ u,v $检查它们是否在同一群集中,但是有了概率$ p $,答案可能可以受到对抗的选择。我们在理论上显示信息$ o \ left(\ frac {nk \ log n} {(1-2p)^2} \ right)$查询足以学习任何足够大尺寸的群集。我们的主要结果是一种计算高效算法,可以用$ o \ left(\ frac {nk \ log n} {(1-2p)^2} \ right) + \ text {poly} \ left(\ log(\ log) n,k,\ frac {1} {1-2p} \ right)$查询,与完全随机模型中最知名算法的保证相匹配。作为我们方法的推论,我们为全随机模型开发了第一个无参数算法,并通过\ cite {ms17a}回答一个空的问题。
translated by 谷歌翻译