随着移动摄影技术的迅速发展,主要的手机制造商正在争先恐后地提高设备的拍摄能力和软件的照片美化算法。但是,智能设备和算法的改进不能取代人类的主观摄影技术。在本文中,我们提出了图像的美学语言指导(ALG)。我们根据指导规则是基于摄影模板还是指导图像,将ALG分为ALG-T和ALG-I。无论是ALG-T还是ALG-I,我们都会从三个颜色,照明和图像组成的属性中指导摄影。输入图像和摄影模板或指导图像之间的三个属性的差异用自然语言描述,即美学自然语言指导(ALG)。另外,由于景观图像和肖像图像之间的照明和组成差异,我们将输入图像分为景观图像和肖像图像。 ALG-T和ALG-I分别针对两种类型的输入图像(景观图像和肖像图像)进行美学指导。
translated by 谷歌翻译
随着社交软件和多媒体技术的持续发展,图像已成为传播信息和社交的重要载体。如何全面评估图像已成为最近研究的重点。传统的图像美学评估方法通常采用单个数值总体评估评分,该评估具有一定的主观性,无法再满足更高的美学要求。在本文中,我们构建了一个称为Aesthetic混合数据集的新图像属性数据集,该数据集具有属性(AMD-A)和设计融合的外部属性功能。此外,我们还提出了一种有效的方法,用于在混合多属性数据集上进行图像美学属性评估,并通过使用ExtisticNet-B0作为骨干网络来构建多任务网络体系结构。我们的模型可以实现美学分类,整体评分和属性评分。在每个子网络中,我们通过ECA通道注意模块改进特征提取。至于最终的整体评分,我们采用了教师学习网络的想法,并使用分类子网络来指导美学的整体细粒回归。实验结果,使用思维螺旋式的结果表明,我们提出的方法可以有效地改善美学整体和属性评估的性能。
translated by 谷歌翻译
图像或视频外观特征(例如颜色,纹理,音调,照明等)反映了一个人的视觉感知和对图像或视频的直接印象。给定的源图像(视频)和目标图像(视频),图像(视频)颜色传输技术旨在处理源图像或视频的颜色(请注意,源图像或视频也引用了参考图像或一些文献中的视频)使它看起来像目标图像或视频的视频,即将目标图像或视频的外观传输到源图像或视频的外观,从而可以改变对源图像或视频的感知。作为色彩传输的扩展,样式转移是指以风格样本或通过样式传输模型的样式样本或一组图像的艺术家的样式呈现目标图像或视频的内容。作为一个新兴领域,对风格转移的研究吸引了许多研究人员的注意。经过数十年的发展,它已成为一项高度的跨学科研究,并可以实现各种艺术表达方式。本文概述了过去几年的色彩传输和样式转移方法。
translated by 谷歌翻译
图像美学质量评估在过去十年中很受欢迎。除数值评估外,还提出了自然语言评估(美学字幕)来描述图像的一般美学印象。在本文中,我们提出了美学属性评估,即审美属性字幕,即评估诸如组成,照明使用和颜色布置之类的美学属性。标记美学属性的注释是一项非平凡的任务,该评论限制了相应数据集的规模。我们以半自动方式构建了一个名为DPC-CAPTIONSV2的新型数据集。知识从带有完整注释的小型数据集转移到摄影网站的大规模专业评论。 DPC-CAPTIONSV2的图像包含最多4个美学属性的注释:组成,照明,颜色和主题。然后,我们根据BUTD模型和VLPSA模型提出了一种新版本的美学多属性网络(AMANV2)。 AMANV2融合了带有完整注释的小规模PCCD数据集和带有完整注释的大规模DPCCAPTIONSV2数据集的混合物的功能。 DPCCAPTIONSV2的实验结果表明,我们的方法可以预测对4种美学属性的评论,这些评论比上一个Aman模型所产生的方法更接近美学主题。通过图像字幕的评估标准,专门设计的AMANV2模型对CNN-LSTM模型和AMAN模型更好。
translated by 谷歌翻译
图像的美学评估可以分为两种主要形式:数值评估和语言评估。照片的美学标题是已解决的审美语言评估的唯一任务。在本文中,我们提出了一项美学评估的新任务:图像的美学视觉和回答(AVQA)。如果我们提出图像美学问题,模型可以预测答案。我们使用\ textit {www.flickr.com}的图像。目标QA对由提出的美学属性分析算法产生。此外,我们引入了主观质量检查对,这些对从审美数字标签和来自大规模培训模型的情感分析转换。我们构建了第一个回答数据集AESVQA的审美视觉问题,其中包含72,168个高质量图像和324,756对美学问题。已经提出并证明了两种调整数据分布的方法,以提高现有模型的准确性。这是解决美学VQA任务并将主观性引入VQA任务的第一项工作。实验结果表明,我们的方法在这项新任务上的表现优于其他VQA模型。
translated by 谷歌翻译
作为一个常见的图像编辑操作,图像组成旨在将前景从一个图像切割并粘贴在另一个图像上,从而产生复合图像。但是,有许多问题可能使复合图像不现实。这些问题可以总结为前景和背景之间的不一致,包括外观不一致(例如,不兼容的照明),几何不一致(例如不合理的大小)和语义不一致(例如,不匹配的语义上下文)。先前的作品将图像组成任务分为多个子任务,其中每个子任务在一个或多个问题上目标。具体而言,对象放置旨在为前景找到合理的比例,位置和形状。图像混合旨在解决前景和背景之间的不自然边界。图像协调旨在调整前景的照明统计数据。影子生成旨在为前景产生合理的阴影。通过将所有上述努力放在一起,我们可以获取现实的复合图像。据我们所知,以前没有关于图像组成的调查。在本文中,我们对图像组成的子任务进行了全面的调查。对于每个子任务,我们总结了传统方法,基于深度学习的方法,数据集和评估。我们还指出了每个子任务中现有方法的局限性以及整个图像组成任务的问题。图像组合的数据集和代码在https://github.com/bcmi/awesome-image-composition上进行了总结。
translated by 谷歌翻译
传统上,本征成像或内在图像分解被描述为将图像分解为两层:反射率,材料的反射率;和一个阴影,由光和几何之间的相互作用产生。近年来,深入学习技术已广泛应用,以提高这些分离的准确性。在本调查中,我们概述了那些在知名内在图像数据集和文献中使用的相关度量的结果,讨论了预测所需的内在图像分解的适用性。虽然Lambertian的假设仍然是许多方法的基础,但我们表明,对图像形成过程更复杂的物理原理组件的潜力越来越意识到,这是光学准确的材料模型和几何形状,更完整的逆轻型运输估计。考虑使用的前瞻和模型以及驾驶分解过程的学习架构和方法,我们将这些方法分类为分解的类型。考虑到最近神经,逆和可微分的渲染技术的进步,我们还提供了关于未来研究方向的见解。
translated by 谷歌翻译
照明是摄影的决定因素,它影响了情感的样式,表达甚至图像的质量。实际上,创建或找到令人满意的照明条件是费力且耗时的,因此开发一种技术来操纵图像中的照明是非常有价值的。尽管以前的作品已经基于重新保留图像的物理观点探索了技术,但是对于生成合理的图像,必须进行广泛的监督和先验知识,从而限制了这些作品的概括能力。相比之下,我们采用图像到图像翻译的观点,并暗中合并了传统物理观点的观念。在本文中,我们提出了一个照明感知网络(IAN),该网络遵循从层次采样到从单个图像中逐步重新重新效率的指导。此外,旨在近似物理渲染过程并提取光源的精确描述以进行进一步操作,旨在近似物理渲染过程。我们还引入了一个深度引导的几何编码器,以获取有价值的几何形状和与结构相关的表示,一旦深度信息可用。实验结果表明,我们提出的方法比以前的最先进方法产生更好的定量和定性重新确定结果。代码和模型可在https://github.com/nk-cs-zzl/ian上公开可用。
translated by 谷歌翻译
作为非遗迹渲染(NPR)的主要分支,图像样式主要使用计算机算法将照片渲染为艺术绘画。最近的工作表明,样式信息的提取,例如笔触纹理和目标样式图像的颜色是图像风格的关键。鉴于其中风质地和颜色特征,提出了一种新的中风渲染方法,该方法完全考虑了音调特征和原始油画的代表性,以便将原始油画图像的音调适应风格化的图像并制作它接近艺术家的创造性效果。实验验证了所提出模型的功效。这种方法更适合具有相对均匀的方向意识的点尔主义画家的作品,尤其是对于自然场景。当原始绘画笔触具有更清晰的方向感时,使用此方法模拟刷子纹理特征可能会不那么令人满意。
translated by 谷歌翻译
兴趣点检测是计算机视觉和图像处理中最根本,最关键的问题之一。在本文中,我们对图像特征信息(IFI)提取技术进行了全面综述,以进行利益点检测。为了系统地介绍现有的兴趣点检测方法如何从输入图像中提取IFI,我们提出了IFI提取技术的分类学检测。根据该分类法,我们讨论了不同类型的IFI提取技术以进行兴趣点检测。此外,我们确定了与现有的IFI提取技术有关的主要未解决的问题,以及以前尚未讨论过的任何兴趣点检测方法。提供了现有的流行数据集和评估标准,并评估和讨论了18种最先进方法的性能。此外,还详细阐述了有关IFI提取技术的未来研究方向。
translated by 谷歌翻译
图像协调旨在调整前景的外观,使其更兼容背景。由于对背景照明方向缺乏了解,现有的作品无法产生现实的前景着色。在本文中,我们将图像协调分解为两个子问题:1)背景图像的照明估计和前景对象的渲染。在解决这两个子问题之前,我们首先通过神经渲染框架学习方向感知的照明描述符,其中密钥是一个着色模块,其将阴影场分解为给定深度信息的多个着色组件。然后我们设计背景照明估计模块,以从背景中提取方向感知的照明描述符。最后,照明描述符与神经渲染框架结合使用,以生成包含新颖谐波阴影的统一前景图像。此外,我们构建了一种照片 - 现实的合成图像协调数据集,其包含基于图像的照明的许多阴影变化。对该数据集的广泛实验证明了该方法的有效性。我们的数据集和代码将公开可用。
translated by 谷歌翻译
图像的美学质量被定义为图像美的度量或欣赏。美学本质上是一个主观性的财产,但是存在一些影响它的因素,例如图像的语义含量,描述艺术方面的属性,用于射击的摄影设置等。在本文中,我们提出了一种方法基于语义含量分析,艺术风格和图像的组成的图像自动预测图像的美学。所提出的网络包括:用于语义特征的预先训练的网络,提取(骨干网);依赖于骨干功能的多层的Perceptron(MLP)网络,用于预测图像属性(attributeNet);一种自适应的HyperNetwork,可利用以前编码到attributeNet生成的嵌入的属性以预测专用于美学估计的目标网络的参数(AestheticNet)。鉴于图像,所提出的多网络能够预测:风格和组成属性,以及美学分数分布。结果三个基准数据集展示了所提出的方法的有效性,而消融研究则更好地了解所提出的网络。
translated by 谷歌翻译
鉴于一个人的肖像图像和目标照明的环境图,肖像重新旨在重新刷新图像中的人,就好像该人出现在具有目标照明的环境中一样。为了获得高质量的结果,最近的方法依靠深度学习。一种有效的方法是用高保真输入输出对的高保真数据集监督对深神经网络的培训,并以光阶段捕获。但是,获取此类数据需要昂贵的特殊捕获钻机和耗时的工作,从而限制了对少数机智的实验室的访问。为了解决限制,我们提出了一种新方法,该方法可以与最新的(SOTA)重新确定方法相提并论,而无需光阶段。我们的方法基于这样的意识到,肖像图像的成功重新重新取决于两个条件。首先,该方法需要模仿基于物理的重新考虑的行为。其次,输出必须是逼真的。为了满足第一个条件,我们建议通过通过虚拟光阶段生成的训练数据来训练重新网络,该培训数据在不同的环境图下对各种3D合成人体进行了基于物理的渲染。为了满足第二种条件,我们开发了一种新型的合成对真实方法,以将光真实主义带入重新定向网络输出。除了获得SOTA结果外,我们的方法还提供了与先前方法相比的几个优点,包括可控的眼镜和更暂时的结果以重新欣赏视频。
translated by 谷歌翻译
尽管生成的对抗网络能够综合面部,猫,风景或几乎任何其他单一类别的高度逼真的图像,但逐文的油漆综合引擎可以 - 从单个文本提示中 - 合成具有无休止的类别的现实图像,与看似无尽的类别合成任意配置和组合。这项强大的技术为照片法医社区带来了新的挑战。由于文本的油漆不是基于明确的几何或物理模型,以及人类视觉系统对照明不一致的普遍不敏感的事实,我们提供了对DALL-E-2合成图像的照明一致性的初步探索基于基于法医的分析将证明在检测这种新的合成介质时富有成果。
translated by 谷歌翻译
综合照片 - 现实图像和视频是计算机图形的核心,并且是几十年的研究焦点。传统上,使用渲染算法(如光栅化或射线跟踪)生成场景的合成图像,其将几何形状和材料属性的表示为输入。统称,这些输入定义了实际场景和呈现的内容,并且被称为场景表示(其中场景由一个或多个对象组成)。示例场景表示是具有附带纹理的三角形网格(例如,由艺术家创建),点云(例如,来自深度传感器),体积网格(例如,来自CT扫描)或隐式曲面函数(例如,截短的符号距离)字段)。使用可分辨率渲染损耗的观察结果的这种场景表示的重建被称为逆图形或反向渲染。神经渲染密切相关,并将思想与经典计算机图形和机器学习中的思想相结合,以创建用于合成来自真实观察图像的图像的算法。神经渲染是朝向合成照片现实图像和视频内容的目标的跨越。近年来,我们通过数百个出版物显示了这一领域的巨大进展,这些出版物显示了将被动组件注入渲染管道的不同方式。这种最先进的神经渲染进步的报告侧重于将经典渲染原则与学习的3D场景表示结合的方法,通常现在被称为神经场景表示。这些方法的一个关键优势在于它们是通过设计的3D-一致,使诸如新颖的视点合成捕获场景的应用。除了处理静态场景的方法外,我们还涵盖了用于建模非刚性变形对象的神经场景表示...
translated by 谷歌翻译
深面识别(FR)在几个具有挑战性的数据集上取得了很高的准确性,并促进了成功的现实世界应用程序,甚至表现出对照明变化的高度鲁棒性,通常被认为是对FR系统的主要威胁。但是,在现实世界中,有限的面部数据集无法完全涵盖由不同的照明条件引起的照明变化。在本文中,我们从新角度(即对抗性攻击)研究对FR的照明的威胁,并确定一项新任务,即对对抗性的重视。鉴于面部图像,对抗性的重新获得旨在在欺骗最先进的深FR方法的同时产生自然重新的对应物。为此,我们首先提出了基于物理模型的对抗重新攻击(ARA),称为反照率基于反击的对抗性重新攻击(AQ-ARA)。它在物理照明模型和FR系统的指导下生成了自然的对抗光,并合成了对抗性重新重新确认的面部图像。此外,我们通过训练对抗性重新确定网络(ARNET)提出自动预测性的对抗重新攻击(AP-ARA),以根据不同的输入面自动以一步的方式自动预测对抗光,从而允许对效率敏感的应用。更重要的是,我们建议将上述数字攻击通过精确的重新确定设备将上述数字攻击转移到物理ARA(PHY-AARA)上,从而使估计的对抗照明条件在现实世界中可再现。我们在两个公共数据集上验证了三种最先进的深FR方法(即面部,街道和符号)的方法。广泛而有见地的结果表明,我们的工作可以产生逼真的对抗性重新贴心的面部图像,轻松地欺骗了fr,从而揭示了特定的光方向和优势的威胁。
translated by 谷歌翻译
我们介绍了一种基于深度学习的方法,用于将空间变化的视觉材料属性(例如纹理地图或图像样式)传播到相同或类似材料的较大样本。为培训,我们利用在多个照明和专用数据增强策略下采取的材料的图像,使转移到新颖的照明条件和仿射变形。我们的模型依赖于监督的图像到图像转换框架,并且对转移域名不可知;我们展示了语义分割,普通地图和程式化。在图像类比方法之后,该方法仅需要训练数据包含与输入引导相同的视觉结构。我们的方法采用交互式速率,使其适用于材料编辑应用。我们在受控设置中彻底评估了我们的学习方法,提供了性能的定量测量。最后,我们证明训练单个材料上的模型足以推广到相同类型的材料,而无需大量数据集。
translated by 谷歌翻译
着色是一个计算机辅助过程,旨在为灰色图像或视频赋予色彩。它可用于增强黑白图像,包括黑白照片,老式电影和科学成像结果。相反,不着色是将颜色图像或视频转换为灰度。灰度图像或视频是指没有颜色信息的亮度信息的图像或视频。它是一些下游图像处理应用程序的基础,例如模式识别,图像分割和图像增强。与图像脱色不同,视频脱色不仅应考虑每个视频框架中的图像对比度保存,而且还应尊重视频框架之间的时间和空间一致性。研究人员致力于通过平衡时空的一致性和算法效率来开发脱色方法。随着数码相机和手机的流行,研究人员越来越关注图像和视频着色和脱色。本文概述了过去二十年来图像和视频着色和脱色方法的进度。
translated by 谷歌翻译
推断从单个图像的场景照明是计算机视觉和计算机图形中的必不可少的且挑战性的任务。通过回归代表照明参数或直接生成照明映射来估计照明。然而,这些方法通常遭受差的准确性和泛化。本文介绍了几何移动器的光(GMLight),一种采用回归网络和用于有效照明估计的生成投影仪的照明估计框架。我们根据几何光分布,光强度,环境术语和辅助深度参数化照明场景,这可以由回归网络估计。灵感来自地球移动器的距离,我们设计了一种新颖的几何动力损失,以指导光分布参数的准确回归。利用估计的光参数,生成投影机用现实的外观和高频细节合成全景照明图。广泛的实验表明,GALLIVEVES实现了准确的照明估计和卓越的保真度,在欣赏3D对象插入时。该代码可在\ href {https://github.com/fnzhan/illumination- istimation} {https://github.com/fnzhan/illumination-istimation}。
translated by 谷歌翻译
机器学习的最近进步已经创造了利用一类基于坐标的神经网络来解决视觉计算问题的兴趣,该基于坐标的神经网络在空间和时间跨空间和时间的场景或对象的物理属性。我们称之为神经领域的这些方法已经看到在3D形状和图像的合成中成功应用,人体的动画,3D重建和姿势估计。然而,由于在短时间内的快速进展,许多论文存在,但尚未出现全面的审查和制定问题。在本报告中,我们通过提供上下文,数学接地和对神经领域的文学进行广泛综述来解决这一限制。本报告涉及两种维度的研究。在第一部分中,我们通过识别神经字段方法的公共组件,包括不同的表示,架构,前向映射和泛化方法来专注于神经字段的技术。在第二部分中,我们专注于神经领域的应用在视觉计算中的不同问题,超越(例如,机器人,音频)。我们的评论显示了历史上和当前化身的视觉计算中已覆盖的主题的广度,展示了神经字段方法所带来的提高的质量,灵活性和能力。最后,我们展示了一个伴随着贡献本综述的生活版本,可以由社区不断更新。
translated by 谷歌翻译