In this paper, we introduced the novel concept of advisor network to address the problem of noisy labels in image classification. Deep neural networks (DNN) are prone to performance reduction and overfitting problems on training data with noisy annotations. Weighting loss methods aim to mitigate the influence of noisy labels during the training, completely removing their contribution. This discarding process prevents DNNs from learning wrong associations between images and their correct labels but reduces the amount of data used, especially when most of the samples have noisy labels. Differently, our method weighs the feature extracted directly from the classifier without altering the loss value of each data. The advisor helps to focus only on some part of the information present in mislabeled examples, allowing the classifier to leverage that data as well. We trained it with a meta-learning strategy so that it can adapt throughout the training of the main model. We tested our method on CIFAR10 and CIFAR100 with synthetic noise, and on Clothing1M which contains real-world noise, reporting state-of-the-art results.
translated by 谷歌翻译
我们提出了一种自动方法,以根据从视频中提取的面部标志来估算自我报告的疼痛。对于每个视频序列,我们将面部分解为四个不同的区域,并通过使用这些区域的地标对面部运动的动态进行建模来衡量疼痛强度。基于革兰氏矩阵的公式用于代表固定等级的对称正极半明确矩阵Riemannian歧管上的地标轨迹。曲线拟合算法用于平滑轨迹,并执行时间对齐以计算歧管上的轨迹之间的相似性。然后对支持矢量回归分类器进行训练,以编码与自我报告的疼痛强度测量一致的疼痛强度水平。最后,进行每个区域的估计后期融合以获得最终的预测疼痛水平。提出的方法将在两个公开可用的数据集上进行评估,即UNBCMCMASTER肩部疼痛档案和Biovid热疼痛数据集。我们使用不同的测试协议将我们的方法与两个数据集的最新方法进行了比较,以显示所提出的方法的竞争力。
translated by 谷歌翻译
时尚推荐通常被拒绝,因为它是找到适合给定用户的查询服装或检索服装的互补物品的任务。在这项工作中,我们通过根据提议的敷料的样式添加附加语义层来解决问题。我们根据两个重要方面的样式建模:颜色组合图案背后隐藏的情绪和情感以及给定类型的社交事件所检索的服装的适当性。为了解决前者,我们依靠Shigenobu Kobayashi的颜色图像量表,这将情感模式和情绪与色彩三元组相关联。相反,通过从社交事件的图像中提取服装来分析后者。总体而言,我们集成了最先进的服装建议框架样式分类器和事件分类器,以便在给定的查询上建议建议。
translated by 谷歌翻译
在这项工作中,我们解决了4D面部表情生成的问题。通常,通过对中性3D面动画来达到表达峰,然后回到中立状态来解决这一问题。但是,在现实世界中,人们表现出更复杂的表情,并从一个表达式转换为另一种表达。因此,我们提出了一个新模型,该模型在不同表达式之间产生过渡,并综合了长长的4D表达式。这涉及三个子问题:(i)建模表达式的时间动力学,(ii)它们之间的学习过渡,以及(iii)变形通用网格。我们建议使用一组3D地标的运动编码表达式的时间演变,我们学会通过训练一个具有歧管值的gan(Motion3dgan)来生成。为了允许生成组成的表达式,该模型接受两个编码起始和结尾表达式的标签。网格的最终顺序是由稀疏的2块网格解码器(S2D-DEC)生成的,该解码器将地标位移映射到已知网格拓扑的密集,每位vertex位移。通过明确处理运动轨迹,该模型完全独立于身份。五个公共数据集的广泛实验表明,我们提出的方法在以前的解决方案方面带来了重大改进,同时保留了良好的概括以看不见数据。
translated by 谷歌翻译
在过去的几年中,在文化遗产领域中使用深度学习和计算机视觉在文化遗产领域变得非常相关,其中包括有关音频智能指南,互动博物馆和增强现实的大量应用。所有这些技术都需要大量数据才能有效工作并对用户有用。在艺术品的背景下,专家在昂贵且耗时的过程中注释了此类数据。特别是,对于每件艺术品,必须收集艺术品和描述表的图像,以执行诸如视觉问题回答之类的常见任务。在本文中,我们提出了一种视觉问题回答的方法,该方法允许在运行时生成一个描述表,该表可用于回答有关艺术品的视觉和上下文问题,从而完全避免了图像和注释过程。为此,我们研究了使用GPT-3来生成描述用于艺术品,以分析通过字幕指标分析生成的描述的质量。最后,我们评估了视觉问答答案和字幕任务的性能。
translated by 谷歌翻译
深度学习的高级面部识别以实现前所未有的准确性。但是,了解面部的本地部分如何影响整体识别性能仍然不清楚。除其他外,面部掉期已经进行了实验,但只是为了整个脸。在本文中,我们建议交换面部零件,以剥夺不同面部零件(例如眼睛,鼻子和嘴巴)的识别相关性。在我们的方法中,通过拟合3D先验来交换从源面转换为目标的零件,该零件在零件之间建立密集的像素对应关系,同时还要处理姿势差异。然后,无缝克隆用于在映射的源区域和目标面的形状和肤色之间获得平滑的过渡。我们设计了一个实验协议,该协议使我们能够在通过深网进行分类时得出一些初步结论,表明眼睛和眉毛区域的突出性。可在https://github.com/clferrari/facepartsswap上找到代码
translated by 谷歌翻译
近年来,已经开发了几种无监督和自我监督的方法,以从大规模未标记的数据集中学习视觉功能。然而,它们的主要缺点是,如果简单地旋转或相机的视角更改,这些方法几乎无法识别同一对象的视觉特征。为了克服此限制,同时利用有用的监督来源,我们考虑了视频对象轨道。遵循直觉,轨道中的两个补丁应该在学习的特征空间中具有相似的视觉表示形式,我们采用了一种无监督的基于群集的方法,并约束此类表示为同一类别,因为它们可能属于同一对象或对象零件。与先前的工作相比,不同数据集上两个下游任务的实验结果证明了我们在线深度聚类(ODCT)方法的有效性,而视频轨道一致性(ODCT)方法没有利用时间信息。此外,我们表明,与依靠昂贵和精确的轨道注释相比,利用无监督的类不知所措但嘈杂的轨道生成器的产量提高了准确性。
translated by 谷歌翻译
在本文中,我们为连续表示学习问题提出了一种新颖的培训程序,其中依次学习了神经网络模型,以减轻视觉搜索任务中的灾难性遗忘。我们的方法称为对比度有监督的蒸馏(CSD),在学习判别特征的同时,还会减少忘记。这是通过在蒸馏设置中利用标签信息来实现的,在蒸馏设置中,从教师模型中对学生模型进行了相反的学习。广泛的实验表明,CSD在减轻灾难性遗忘方面的表现优于当前最新方法。我们的结果还提供了进一步的证据,表明在视觉检索任务中评估的功能忘记不像分类任务那样灾难性。代码:https://github.com/niccobiondi/contrastivesupervisedistillation。
translated by 谷歌翻译
使多模式数据中的每种模式贡献贡献至关重要,对于学习多功能多模式模型至关重要。但是,现有的方法通常在模型训练过程中由一种或几种模式主导,从而导致次优性能。在本文中,我们将此问题称为模态偏见,并试图在多模式分类的背景下进行系统,全面地进行研究。在进行了几个经验分析之后,我们认识到一种模式会影响模型预测,因为这种模式与实例标签具有虚假的相关性。为了主要促进对模式偏差问题的评估,我们分别构建了两个数据集,以根据分布式(OOD)协议一致的彩色数字识别和视频动作识别任务。在视觉问题回答任务中与基准合作,我们经验证明了这些OOD数据集中现有方法的性能退化是合理的,这是证明模式偏见学习合理的证据。此外,为了克服这个问题,我们提出了一种插件损失功能方法,从而根据训练集统计数据可以自适应地学习每个标签的特征空间。此后,我们将此方法应用于八个基准,以测试其有效性。从四个数据集的结果有关上述三个任务的结果,我们的方法与基准相比产生了显着的性能改进,这表明其在减少模态偏差问题上的优势。
translated by 谷歌翻译
在本文中,我们提出了一种学习内部特征表示模型的新方法,该模型是\ Textit {兼容}与先前学识的。兼容功能可用于直接比较旧和新的学习功能,允许它们随时间互换使用。这消除了在顺序升级表示模型时,可以对视觉搜索系统提取用于在画廊集中的所有先前看到的图像的新功能。在非常大的画廊集和/或实时系统(即面部识别系统,社交网络,终身系统,终身系统,机器人和监测系统)的情况下,提取新功能通常是非常昂贵或不可行的。我们的方法是通过实质性(核心)称为兼容表示,通过鼓励自身定义到学习的表示模型来实现兼容性,而无需依赖以前学习的模型。实用性允许功能在随时间偏移下不改变的统计属性,以便当前学习的功能与旧版本相互操作。我们评估了种植大规模训练数据集中的单一和连续的多模型升级,我们表明我们的方法通过大幅度实现了实现兼容特征来提高现有技术。特别是,通过从Casia-Webface培训和在野外(LFW)中的标记面上评估的培训数据升级十次,我们获得了49 \%的测量倍数达到兼容的平均次数,这是544 \%对先前最先进的相对改善。
translated by 谷歌翻译