由于深度神经网络的开发,尤其是对于最近开发的无监督的JND代模型,对公正的显着差异(JND)建模做出了重大改进。但是,他们有一个主要的缺点,即在现实世界信号域而不是在人脑中的感知结构域中评估了生成的JND。当在这两个域中评估JND时,存在明显的差异,因为在现实世界中的视觉信号在通过人类视觉系统(HVS)传递到大脑之前已编码。因此,我们提出了一个受HVS启发的信号降解网络进行JND估计。为了实现这一目标,我们仔细分析了JND主观观察中的HVS感知过程,以获得相关的见解,然后设计受HVS启发的信号降解(HVS-SD)网络,以表示HVS中的信号降解。一方面,知识渊博的HVS-SD使我们能够评估感知域中的JND。另一方面,它提供了更准确的先验信息,以更好地指导JND生成。此外,考虑到合理的JND不应导致视觉注意力转移的要求,提出了视觉注意力丧失以控制JND的生成。实验结果表明,所提出的方法实现了SOTA性能,以准确估计HVS的冗余性。源代码将在https://github.com/jianjin008/hvs-sd-jnd上找到。
translated by 谷歌翻译
在本文中,我们在CVPR 2022中提供了EGO4D自然语言查询挑战的技术报告。由于对视频内容的全面了解,自然语言查询任务是具有挑战性的。大多数以前的工作基于第三人称视图数据集解决了此任务,而在以自我为中心的视图中,很少有研究兴趣。不过,已经取得了巨大进展,我们注意到以前的作品无法很好地适应以自我为中心的视图数据集,例如,ego4d主要是因为两个原因:1)ego4d中的大多数查询都有很小的时间持续时间(例如,少于5秒钟);2)EGO4D中的查询面临着对长期时间订单的更复杂的视频理解。考虑到这些,我们建议解决这一挑战的解决方案,以解决上述问题。
translated by 谷歌翻译
图像的美学评估可以分为两种主要形式:数值评估和语言评估。照片的美学标题是已解决的审美语言评估的唯一任务。在本文中,我们提出了一项美学评估的新任务:图像的美学视觉和回答(AVQA)。如果我们提出图像美学问题,模型可以预测答案。我们使用\ textit {www.flickr.com}的图像。目标QA对由提出的美学属性分析算法产生。此外,我们引入了主观质量检查对,这些对从审美数字标签和来自大规模培训模型的情感分析转换。我们构建了第一个回答数据集AESVQA的审美视觉问题,其中包含72,168个高质量图像和324,756对美学问题。已经提出并证明了两种调整数据分布的方法,以提高现有模型的准确性。这是解决美学VQA任务并将主观性引入VQA任务的第一项工作。实验结果表明,我们的方法在这项新任务上的表现优于其他VQA模型。
translated by 谷歌翻译
近年来,图像生成在提高图像质量方面取得了长足的进步,从而产生了高保真性。另外,最近还有一些建筑设计,它使甘恩能够毫不客气地学习不同层中表示的语义属性。但是,对于与人类美学更一致的面部图像仍然缺乏研究。基于Eigengan [He等,ICCV 2021],我们将增强学习的技术构建到Eigengan的发电机中。该代理商试图弄清楚如何将生成的人脸的语义属性更改为更可取的面部。为此,我们训练了一种可以进行面部美容预测的美学评分模型。我们还可以利用此评分模型来分析面部属性和美学得分之间的相关性。从经验上讲,使用增强学习的现成技术无法正常工作。因此,相反,我们提出了一种新的变体,该变体纳入了近年来在强化学习社区中出现的成分。与原始生成的图像相比,调整后的图像显示了有关各种属性的明确区别。实验结果使用思维镜,显示了所提出的方法的有效性。更改的面部图像通常更具吸引力,并有明显改善的美学水平。
translated by 谷歌翻译
在这项工作中,我们介绍了梯度暹罗网络(GSN)进行图像质量评估。所提出的方法熟练地捕获了全参考图像质量评估(IQA)任务中扭曲的图像和参考图像之间的梯度特征。我们利用中央微分卷积获得图像对中隐藏的语义特征和细节差异。此外,空间注意力指导网络专注于与图像细节相关的区域。对于网络提取的低级,中级和高级功能,我们创新设计了一种多级融合方法,以提高功能利用率的效率。除了常见的均方根错误监督外,我们还进一步考虑了批处理样本之间的相对距离,并成功地将KL差异丢失应用于图像质量评估任务。我们在几个公开可用的数据集上试验了提出的算法GSN,并证明了其出色的性能。我们的网络赢得了NTIRE 2022感知图像质量评估挑战赛1的第二名。
translated by 谷歌翻译
深度学习推荐模型(DLRMS)已广泛应用于互联网公司。DLRM的嵌入表太大,无法完全适合GPU内存。我们通过利用目标数据集的ID频率统计信息来动态管理CPU和GPU内存空间中的嵌入式表的基于GPU的软件缓存方法。我们提出的软件缓存以同步更新方式有效地在GPU上培训整个DLRM。它还与广泛使用的混合平行训练方法相结合,将其缩放到多个GPU。评估我们的原型系统表明,我们只能保留GPU中嵌入参数的1.5%,以获得体面的端到端训练速度。
translated by 谷歌翻译
面部反欺骗研究被广泛用于面部识别,并受到行业和学者的更多关注。在本文中,我们提出了Eulernet,这是一个新的时间特征融合网络,其中差分过滤器和残留金字塔分别用于从连续帧中提取和扩增异常线索。基于面部标志的轻量级样品标签方法旨在以较低的成本标记大型样品,并且比其他方法(例如3D摄像头)具有更好的结果。最后,我们使用各种移动端来收集30,000个实时和欺骗样本,以创建一个数据集,该数据集在现实世界中复制各种形式的攻击。公共Oulu-NPU的广泛实验表明,我们的算法优于最先进的现状,我们的解决方案已经部署在现实世界中,为数百万用户提供服务。
translated by 谷歌翻译
由于复杂且巨大的模型结构,大多数现有的显着对象检测(SOD)模型很难应用。尽管提出了一些轻巧的模型,但准确性几乎不令人满意。在本文中,我们设计了一种新颖的语义引导的上下文融合网络(SCFNET),该网络重点介绍了多层次特征的交互式融合,以进行准确有效的显着对象检测。此外,我们将知识蒸馏应用于SOD任务,并提供相当大的数据集KD-SOD80K。详细说明,我们通过未标记的图像将丰富的知识从经验丰富的老师转移到未经训练的SCFNET,使SCFNET能够学习强大的概括能力,以更准确地检测显着对象。基于知识蒸馏的SCFNET(KDSCFNET)具有与最先进的重量级方法相当的精度,该方法少于1M参数和174 fps实时检测速度。广泛的实验证明了所提出的蒸馏方法和SOD框架的鲁棒性和有效性。代码和数据:https://github.com/zhangjincv/kd-scfnet。
translated by 谷歌翻译
尽管最近在手动和对象数据集中进行了准确的3D注释做出了努力,但3D手和对象重建仍然存在差距。现有作品利用接触地图来完善不准确的手动姿势构成估计,并在给定的对象模型中生成grasps。但是,它们需要明确的3D监督,因此很少可用,因此仅限于受限的设置,例如,热摄像机观察到操纵物体上剩下的残留热量。在本文中,我们提出了一个新颖的半监督框架,使我们能够从单眼图像中学习接触。具体而言,我们利用大规模数据集中的视觉和几何一致性约束来在半监督学习中生成伪标记,并提出一个有效的基于图形的网络来推断联系。我们的半监督学习框架对接受“有限”注释的数据培训的现有监督学习方法取得了良好的改进。值得注意的是,与常用的基于点网的方法相比,我们所提出的模型能够以不到网络参数和内存访问成本的一半以下的一半获得卓越的结果。我们显示出使用触点图的好处,该触点图规则手动相互作用以产生更准确的重建。我们进一步证明,使用伪标签的培训可以将联系地图估计扩展到域外对象,并在多个数据集中更好地概括。
translated by 谷歌翻译
在线和离线手写的中文文本识别(HTCR)已经研究了数十年。早期方法采用了基于过度裂段的策略,但遭受低速,准确性不足和角色分割注释的高成本。最近,基于连接主义者时间分类(CTC)和注意机制的无分割方法主导了HCTR的领域。但是,人们实际上是按字符读取文本的,尤其是对于中文等意识形态图。这就提出了一个问题:无细分策略真的是HCTR的最佳解决方案吗?为了探索此问题,我们提出了一种基于细分的新方法,用于识别使用简单但有效的完全卷积网络实现的手写中文文本。提出了一种新型的弱监督学习方法,以使网络仅使用笔录注释进行训练。因此,可以避免以前基于细分的方法所需的昂贵字符分割注释。由于缺乏完全卷积网络中的上下文建模,我们提出了一种上下文正则化方法,以在培训阶段将上下文信息集成到网络中,这可以进一步改善识别性能。在四个广泛使用的基准测试中进行的广泛实验,即Casia-HWDB,Casia-Olhwdb,ICDAR2013和Scut-HCCDOC,表明我们的方法在线和离线HCTR上都显着超过了现有方法,并且表现出比CTC/ CTC/ CTC/ CTC/ CTC/速度高得多的方法。基于注意力的方法。
translated by 谷歌翻译