逆渲染旨在从图像估计物理场景属性(例如,反射率,几何形状和光照)。作为一个长期存在的高度问题,逆渲染主要针对单个3D对象或仅使用仅解决其中一个场景属性的方法进行了研究。据我们所知,我们是第一个提出一种整体方法,用于从具有CNN的单个图像逆向渲染室内场景,其共同估计反射率(反照率和光泽度),表面法线和照明。为了减少标记的真实世界图像,我们创建了一个名为SUNCG-PBR的大规模综合数据集,采用基于物理的渲染,这比以前的数据集有了显着的改进。为了对真实图像进行微调,我们使用重建损失进行自我监督学习,从而合成来自估计分量的输入图像。为了实现对真实数据的自我监督学习,我们的关键贡献是ResidualAppearance渲染器(RAR),它可以被训练以合成复杂的外观效果(例如,相互反射,投射阴影,近场光照和逼真的阴影),这将是实验结果表明,我们的方法优于最先进的方法,特别是在真实图像上。
translated by 谷歌翻译
在本文中,我们提出了一种简单而有效的填充方案,可用作现有卷积神经网络的插入模块。我们称之为基于部分卷积的填充,直觉可以将填充区域视为空洞,将原始输入视为非空洞。具体地,在卷积操作期间,基于填充区域和卷积窗口区域之间的比率,对卷积结果重新加权近图像边界。利用各种深度网络模型对ImageNet分类和语义分割进行的广泛实验表明,所提出的填充方案始终优于标准零填充,具有更高的准确性。
translated by 谷歌翻译
我们通过对过去的帧和过去的光流进行条件化来提出一种用于高分辨率视频帧预测的方法。以前接近重新采样过去的帧,由学习的未来光流或像素的直接生成引导。基于流量的重新采样是不够的,因为它不能处理去除错误。生成模型目前导致模糊结果。最近的方法通过将输入补丁与预测的内核进行卷积来合成像素。然而,它们的内存需求随着内核大小的增加而增加。在这里,我们使用空间位移卷积(SDC)模块进行视频帧预测。我们为每个像素学习运动矢量和内核,并通过在源图像中由预测运动矢量定义的位移位置处应用内核来合成像素。我们的方法继承了基于矢量和基于内核的方法的优点,同时改善了它们各自的缺点。我们在428K未标记的1080p视频游戏帧上训练我们的模型。我们的方法产生了最先进的结果,在高清YouTube-8M视频上获得0.904的SSIM评分,在CaltechPedestrian视频上获得0.918。我们的模型有效地处理大运动并合成具有一致运动的重帧。
translated by 谷歌翻译
我们研究视频到视频合成的问题,其目的是学习从输入源视频(例如,一系列语义分割掩模)到精确描绘源视频内容的输出照片级真实视频的拍摄功能。虽然其图像对应图像到图像合成问题是一个热门话题,但文献中对视频到视频合成问题的研究较少。在不了解时间动态的情况下,将现有的图像合成方法直接应用于输入视频通常会导致视觉质量低的时间不连贯的视频。在本文中,我们提出了一种新的视频到视频合成方法,在生成对抗性学习框架下。通过精心设计的发生器和鉴别器架构,再加上一个时空对称物镜,我们可以在多种输入格式(包括分割面板,草图和姿势)上实现高分辨率,逼真,时间相干的视频效果。多个基准测试的实验表明,与强基线相比,我们的方法具有优势。特别是,我们的模型能够合成长达30秒的街道场景的2K分辨率视频,这显着提升了视频合成的最新技术水平。最后,我们将我们的方法应用于未来的视频预测,超越了几个最先进的竞争系统。
translated by 谷歌翻译
随着移动设备变得越来越流行,移动游戏已经成为一个充满希望的市场,拥有数十亿美元的收入。世界各地已开发出各种移动游戏平台和服务。对这些平台和服务的一个关键挑战是了解移动游戏中的流失行为,这通常涉及微观层面(应用程序和特定用户之间)和宏观层面(应用程序及其所有用户之间)的流失。准确的微观流失预测和宏观级别的流失排名将有利于许多利益相关者,如游戏开发商,广告商和平台运营商。在本文中,我们提出了第一个大规模的流失分析平板电脑分析,它支持微观流失预测和宏观流程排序。对于微观流失预测,鉴于建立在传统机器学习模型上的最先进方法的共同限制,我们设计了一种新颖的半监督和归纳嵌入模型,它共同学习预测功能和用户的嵌入功能 - 应用关系。我们通过深度神经网络对这两个函数进行建模,采用独特的边缘嵌入技术,能够捕获背景信息和关系动态。我们还设计了一种novelattributed随机游走技术,该技术考虑了拓扑性和属性相似性。为了解决宏观级别的流失排名,我们建议构建一个关联图,将估计的微观流失概率作为边权重,并在图上调整链路分析算法。我们设计了一个简单的算法SimSum,并采用了两个更先进的算法PageRank和HITS。我们针对两级churnanalysis问题的解决方案的性能是根据从SamsungGame Launcher平台收集的真实数据进行评估的。
translated by 谷歌翻译
车辆重新识别是一个重要的问题,随着视频监控和智能传输应用的快速扩展而变得可取。通过回顾人类视觉的识别过程,我们发现当人类识别不同的车辆时存在本地的等级依赖性。具体地,人类总是首先确定一个车辆的粗粒度类别,即汽车模型/类型。然后,在预测的汽车模型/类型的分支下,他们将通过细微的视觉线索(例如,定制的绘画和挡风玻璃)在细粒度水平上识别特定的车辆。受粗到细分层过程的启发,我们提出了一种用于车辆重新识别的端到端基于RNN的分层注意(RNN-HA)分类模型。 RNN-HA由三个相互耦合的模块组成:第一个模块生成车辆图像的图像表示,第二个层次模块模拟上述层级依赖关系,最后一个注意模块侧重于捕获特定车辆彼此之间的细微视觉信息识别。通过对两个车辆重新识别基准数据集VeRi和VehicleID进行全面的实验,我们证明了所提出的模型实现了超越现有技术的卓越性能。
translated by 谷歌翻译
具有有限信息反馈(强盗)的在线学习试图解决在线学习者在学习过程中从环境接收部分反馈信息的问题。在此设置下,Flaxman通过提出具有预期梯度(OGDEG)算法的在线梯度下降来扩展Zinkevich的经典在线梯度下降(OGD)算法Zinkevich [2003]。具体来说,它使用一个简单的技巧来估计损失函数$ f_t $的梯度,通过在单个点进行评估并将预期的后悔限制为$ \ mathcal {O}(T ^ {5/6})$ Flaxman等。 [2005]。已经表明,与一阶算法相比,二阶在线学习算法如Online Newton Step(ONS)Hazan等。 [2007]可以显着提高传统在线学习的收敛速度。本文旨在利用二阶信息加速OGDEG的收敛。特别是,我们利用预期梯度技巧扩展了ONS算法,并开发了一种新颖的二阶在线学习算法,即具有预期梯度的在线牛顿步(ONSEG)。理论上,我们证明了所提出的ONSEG算法显着降低了OGDEG的预期遗憾。在强盗反馈场景中从$ \ mathcal {O}(T ^ {5/6})$到$ \ mathcal {O}(T ^ {2/3})$。根据经验,我们在几个真实世界的数据集中展示了所提出的算法的优点。
translated by 谷歌翻译
我们提出了一种新的算法来训练一个强大的神经网络来抵抗对抗攻击。我们的算法受以下两个思想的推动。首先,虽然最近的工作已经证明融合随机性可以提高神经网络的鲁棒性(Liu 2017),但我们注意到,对所有层添加噪声并不是结合随机性的最佳方法。我们在贝叶斯神经网络(BNN)框架下对随机性进行建模,以可扩展的方式正式学习模型的后验分布。其次,我们在BNN中制定了mini-max问题,以学习对抗性攻击下的最佳模式分布,从而导致对抗训练的贝叶斯神经网络。实验结果表明,所提出的算法在强攻击下具有最先进的性能。在CIFAR-10 withVGG网络上,我们的模型与PGDattack下的对抗训练(Madry 2017)和随机自我组合(Liu 2017)相比,在$ 0.035 $失真的情况下,准确度提高了14%,并且在ImageNet的一个子集上差距变得更大。
translated by 谷歌翻译
投注机制是引发代理人对事件预测的一次性投注机制。对于确定性投注机制,现有的不可能性结果表明一些理想的理论性质不相容。特别是,帕累托最优性(在分配之前没有盈利的边注)不能与弱激励兼容性,弱预算平衡和个人理性一起实现。在本文中,我们扩展了投注机制的设计空间,以允许随机化,并询问其中是否有随机化的投注机制,可以实现所有先前考虑​​的所需属性,包括帕累托最优性。我们用两类随机化的投注机制积极地回答这个问题:i)现有确定性投资机制的简单随机抽签式实施,以及ii)我们称之为代理投注机制的另一族简单和随机化投注机制,这些机制是强大的tonoisy基本事实。这一系列机制建立在嘈杂标签学习的基础上(Natarajan等人,2013),以及最近将该信息扩展到信息引出而没有验证设置(Liu和Chen2018)。我们表明,广泛的随机化投注机制家族满足了所有理想的理论属性。
translated by 谷歌翻译
人脸识别近年来取得了长足的进步,主要归功于设计的大容量模型和丰富的标签数据。然而,扩大当前的百万级身份注释变得越来越禁止。在这项工作中,我们表明,未标记的面部数据可以与标记的面部数据一样有效。在这里,我们考虑设置密切模仿现实世界的场景,其中未标记的数据从不受约束的环境收集,并且它们的身份与标记的数据是唯一的。我们的主要观点是,尽管类信息不可用,但我们仍然可以通过以自下而上的方式构建关系图来忠实地近似这些语义关系。我们提出共识驱动传播(CDP)来解决这个具有挑战性的问题,有两个模块,即“委员会”和“调解员”,它们通过仔细聚合多视图信息来强有力地选择正面对。大量实验验证了两个模块的有效性,以丢弃异常值和挖掘硬性积极因素。使用CDP,我们通过仅使用9%的标签实现了对MegaFace识别挑战的78.18%的令人信服的准确度,相比之下,当使用未标记数据时为61.78%,而当使用所有标签时为78.52%。
translated by 谷歌翻译