我们提出了一种新的彩色光度立体(CPS)方法,可以一次性恢复高质量,详细的3D面部几何形状。我们的系统使用三种不同颜色的近点光源和一个摄像头。我们首先利用3D可变形模型(3DMM)和面部部件的语义分割来实现光源的稳健自校准。然后,我们通过将反照率共识,反照率相似性和代理事先纳入统一框架来解决光谱模糊问题。我们避免需要反照率的空间恒定性,并使用基于反照率范数轮廓的反照率相似性的新度量。实验表明,我们的新方法在具有高保真几何形状的单个图像中产生最先进的结果,其中包括皱纹等细节。
translated by 谷歌翻译
未经授权远程访问来自网络摄像机的流式视频的风险突显了对更强大的隐私保护的需求。为此,我们模拟了一个无镜头编码孔径(CA)相机作为外观编码器,即第一层隐私保护。我们的目标是从编码孔径视频中进行人类动作识别,其编码孔径掩模未知并且不需要重建。我们通过使用基于相位相关和对数极坐标变换的不可逆运动特征来插入第二层隐私保护。相位相关对转换进行编码,而对数极坐标变换对面内旋转和缩放进行编码。 Weshow翻译功能的关键属性是掩码不变的。该属性允许我们通过消除对特定掩模设计的依赖来简化分类器的训练。基于UCF和NTUdatasets子集的结果显示了我们系统的可行性。
translated by 谷歌翻译
我们提出了一种强化学习方法,用于可个性化的移动相机的实时曝光控制。我们的方法基于MarkovDecision Process(MDP)。在相机取景器或实时预览模式中,给出当前帧,我们的系统预测曝光的变化,以优化图像质量,快速收敛和最小时间振荡之间的权衡。我们将曝光预测函数建模为完全卷积神经网络,可以通过高斯政策梯度以端到端的方式进行训练。因此,我们的系统可以将场景语义与曝光值相关联;它还可以扩展为个性化用户和设备的曝光调整。我们通过结合将语义与曝光相结合的自适应计量模块来提高学习性能。这种自适应计量模块推广了传统的点或矩阵计量技术。我们使用MIT FiveK和使用iPhone 7和Google Pixel捕获的owndatasets来验证我们的系统。实验结果表明,与通过本机摄像机控制实现的系统相比,我们的系统具有稳定的实时行为,同时提高了视觉质量。
translated by 谷歌翻译
We propose a new technique for visual attribute transfer across images thatmay have very different appearance but have perceptually similar semanticstructure. By visual attribute transfer, we mean transfer of visual information(such as color, tone, texture, and style) from one image to another. Forexample, one image could be that of a painting or a sketch while the other is aphoto of a real scene, and both depict the same type of scene. Our technique finds semantically-meaningful dense correspondences between twoinput images. To accomplish this, it adapts the notion of "image analogy" withfeatures extracted from a Deep Convolutional Neutral Network for matching; wecall our technique Deep Image Analogy. A coarse-to-fine strategy is used tocompute the nearest-neighbor field for generating the results. We validate theeffectiveness of our proposed method in a variety of cases, includingstyle/texture transfer, color/style swap, sketch/painting to photo, and timelapse.
translated by 谷歌翻译
我们在最近普及的分散执行(CTDE)制度的集中培训中探索基于价值的多智能体强化学习(MARL)任务解决方案。然而,VDN和QMIX是代表性的例子,它将联合行动 - 价值函数的因子分解为分散执行的个体化。 VDN和QMIX仅解决可分解的MARL任务的分数,因为它们在诸如可加性和单调性之类的因素中具有结构约束。在本文中,我们提出了一种新的MARL分解方法,即QTRAN,它没有这种结构约束,并采用了一种新的方法将原始的联合作用 - 值函数转换为易于分解的函数,具有相同的优化。 QTRAN保证比VDN或QMIX更通用的因子分解,因此比以前的方法覆盖了更广泛的MARL任务类。多域Gaussian-squeeze和modifiedpredator-prey任务的Ourexperiments展示了QTRAN在游戏中的特殊大规模优越性能,其收益更加积极地惩罚非合作行为。
translated by 谷歌翻译
从图像中自动消除雨水效果有许多应用,例如自动驾驶,无人机驾驶和照片编辑,并且仍然吸引了许多人的注意力。传统方法使用启发式手工制作各种先验,以从图像中移除或分离雨效果。最近提出了基于端到端深度学习的去除方法以提供更大的灵活性和有效性。然而,当遇到大雨的图像时,它们往往不会获得良好的视觉效果。大雨带来了不仅有雨的条纹,还有由于微小雨滴积聚而产生的雾状效应。与以往的去除方法不同,在本文中,我们使用新的雨模型来模拟雨水图像,不仅可以去除雨水条纹,还可以消除类似雾霾的效果。在我们的模型的指导下,我们设计了一个双分支网络来容忍其参数。然后,联合训练SPP结构以改进我们模型的结果,以便灵活地控制去除雾状效果的程度。此外,提出了一种可以定位雨天像素的子网,以指导我们的网络训练。在几个数据集上的广泛实验表明,我们的方法在目标评估和视觉质量方面都优于最先进的技术。
translated by 谷歌翻译
信用评分无处不在,对贷款提供商和监管机构起着重要作用。在本文中,我们展示了如何在实际环境中开发小额贷款信用系统。我们展示了出现的挑战并讨论了解决方案。特别是,我们关注模型的可解释性和数据质量。最后,我们介绍了有助于模型开发和评估其性能的半监督算法。
translated by 谷歌翻译
受视频中不同模态携带互补信息这一事实的启发,我们提出了一种多模态语义注意网络(MSAN),它是一种新的编码器 - 解码器框架,结合了视频字幕的多模态语义属性。在编码阶段,我们通过将其设计为多标签分类问题来检测和生成多模态语义属性。此外,我们在模型中添加辅助分类损失,可以获得更有效的视觉特征和高级多模态语义归因分布,以实现足够的视频编码。在解码阶段,我们将传统LSTM的权重矩阵扩展到属性依赖权重矩阵的集合,并且在字幕处理的每个时间使用注意机制来注意不同的属性。 Weevaluate算法在两个流行的公共基准:MSVD和MSR-VTT,使用当前最先进的六项评估指标获得竞争结果。
translated by 谷歌翻译
人工智能(AI)技术的进步使得可以从现有地图或其他视觉中学习风格设计标准,并转移这些风格以制作新的数字地图。在本文中,我们提出了一种新的框架,使用AI进行地图样式转换,适用于多个地图尺度。具体来说,我们通过两个生成性对抗网络(GAN)模型识别并从一组目标视觉示例(包括Google Maps,OpenStreetMap和艺术绘画)将设计元素转移到未经校正的GIS矢量数据。然后,我们基于深度卷积神经网络训练二元分类器,以评估转移风格的地图图像是否保留了原始地图设计特征。我们的实验结果表明,GAN具有很大的多尺度地图样式转移潜力,但仍存在许多挑战,需要进一步研究。
translated by 谷歌翻译
大数据的出现使我们能够通过应用情感计算从统计角度评估各种人类情感。在这项研究中,提出了一种从不同地方的大规模地理参考照片中提取人类情感的新框架。在基于用户生成的足迹收集的社交媒体网站的空间聚类构建之后,利用在线认知服务利用最先进的计算机视觉技术从面部表情中提取人文动机。并且定义了两个幸福指标用于测量不同地方的人文情绪。为了验证该框架的可行性,以世界各地的80个旅游景点为例,以及根据600多万张照片中检测到的超过200万张面孔的人类情感,生成幸福的地方列表。通过考虑不同类型的地理环境,找出人类情感与环境因素之间的关系。结果表明,不同地方的大部分情感变异可以用一些因素来解释,比如开放性。该研究可以提供关于整合人类情感的见解,以丰富对地理和地方GIS中的地方感的理解。
translated by 谷歌翻译