由于深度网络和大型数据集,已知类别对象的视点估计得到了显着改善,但泛化的已知类别仍然非常具有挑战性。为了提高未知类别的表现,我们引入了类别级别的镜头观点估计问题。我们设计了一个新的框架来成功地为新类别训练视点网络,只有很少的例子(10个或更少)。我们将问题表述为学习估计特定类别的3D扫描形状,相关深度估计和语义2D关键点之一。我们应用元学习来学习我们网络的权重,这些权重是特定于特定类别的微观微调。此外,我们设计了一个灵活的暹罗网络,在元学习过程中最大化信息共享。通过对ObjectNet3D和Pascal3D + benchmark数据集的大量实验,我们证明我们的框架,我们称之为MetaView,明显优于微调状态。 -art模型与fewexamples,我们的方法的具体架构创新是实现良好性能的关键。
translated by 谷歌翻译
零件提供了良好的物体中间表示,相对于相机,姿势和外观变化而言是稳健的。现有的部分分割工作由受监督的方法主导,这些方法依赖于大量的手动注释,并且不能概括为看不见的对象类别。我们提出了一种用于分割的自我监督深度学习方法,其中我们设计了几种损失函数,这些函数有助于预测几何集中的部分片段,对于对象变化是鲁棒的,并且在不同的对象实例中在语义上也是一致的。对不同类型的图像集合进行了大量的实验演示与现有的自我监督技术相比,该方法可以生成遵循对象边界的部分片段,并且在对象实例中也更具语义一致性。
translated by 谷歌翻译
学习以语义相干的方式将对象实例插入图像是一个具有挑战性和有趣的问题。解决它需要(a)确定将对象放置在场景中的位置,以及(b)确定该位置处的外观。这种对象插入模型可以潜在地促进许多图像编辑和场景解析应用。在本文中,我们提出了一种端到端的可训练神经网络,用于将指定类的对象实例掩码插入到图像的语义标签图中。我们的网络由两个生成模块组成,其中一个确定插入的对象掩模应该在哪里(即位置和比例),另一个确定对象掩模形状(和姿势)应该是什么样的。这两个模块通过空间转换网络连接在一起并共同训练。我们设计了一个学习过程,利用监督和非监督数据,并显示我们的模型可以插入具有各种外观的多个位置的对象。我们通过与强基线的比较进行广泛的实验验证,以验证所提出的网络的有效性。
translated by 谷歌翻译
给定随机图像对,任意样式转移方法从参考图像中提取感觉以基于其他内容图像的外观合成输出。最近的任意样式转移方法通过内容图像特征和变换矩阵之间的乘法将来自参考图像的二阶统计量转移到内容图像上,该变换矩阵是利用具有预定算法的特征计算的。这些算法要么需要计算成本高昂的操作,要么无法模拟特征协方差并在合成图像中产生伪像。通过这些方法的推广,在这项工作中,我们从理论上推导出变换矩阵的形式,并提出了一种任意的样式转换方法,用于通过提要来学习转换矩阵 - 前进网络。 Ouralgorithm非常高效,但允许灵活地组合多层次,同时在样式转移过程中保持内容亲和力。我们展示了我们的方法在四个任务上的有效性:艺术风格转移,视频和照片般逼真的风格转移以及领域适应,包括与最先进的方法的比较。
translated by 谷歌翻译
在本文中,我们提出了一种使用深度生成模型的有效面部完成算法。与充分研究的背景完成不同,面部完成任务更具挑战性,因为它经常需要为包含大的外观变化的缺失的关键部件(例如,眼睛和嘴巴)生成语义上的新像素。与搜索要合成的补丁的现有非参数算法不同,我们的算法直接基于神经网络生成缺失区域的内容。该模型通过重建损失,两个对抗性损失和语义解析损失的组合来训练,这确保了像素忠诚度和局部 - 全局内容的一致性。通过广泛的实验结果,我们定性和定量地证明了我们的模型能够处理任意形状的大面积缺失像素并生成逼真的面部完成结果。
translated by 谷歌翻译
本文探讨了利用知识蒸馏改进多任务深度神经网络(MT-DNN)(Liu et al。,2019)来学习跨多种自然语言理解任务的文本表示。 Althoughensemble学习可以提高模型性能,服务于诸如MT-DNN之类的大型DNN的集合可能非常昂贵。在这里,我们在多任务学习环境中应用了知识预测方法(Hinton等,2015)。对于每个任务,我们训练一个不同MT-DNN(教师)的集合,其表现优于任何单个模型,然后训练单个MT- DNN(学生)通过多任务学习来从这些合奏教师中提取{提取}知识。我们证明,蒸馏的MT-DNN明显优于9个GLUE任务中的原始MT-DNNon 7,推动了GLUE基准(单一模型)到83.7 \%(1.5%绝对改进\脚注{基于GLUE排行榜:http://gluebenchmark.com/leaderboard截至2019年4月1日。})。代码和预先训练的模型将通过以下网址公开发布://github.com/namisan/mt-dnn。
translated by 谷歌翻译
随着移动设备变得越来越流行,移动游戏已经成为一个充满希望的市场,拥有数十亿美元的收入。世界各地已开发出各种移动游戏平台和服务。对这些平台和服务的一个关键挑战是了解移动游戏中的流失行为,这通常涉及微观层面(应用程序和特定用户之间)和宏观层面(应用程序及其所有用户之间)的流失。准确的微观流失预测和宏观级别的流失排名将有利于许多利益相关者,如游戏开发商,广告商和平台运营商。在本文中,我们提出了第一个大规模的流失分析平板电脑分析,它支持微观流失预测和宏观流程排序。对于微观流失预测,鉴于建立在传统机器学习模型上的最先进方法的共同限制,我们设计了一种新颖的半监督和归纳嵌入模型,它共同学习预测功能和用户的嵌入功能 - 应用关系。我们通过深度神经网络对这两个函数进行建模,采用独特的边缘嵌入技术,能够捕获背景信息和关系动态。我们还设计了一种novelattributed随机游走技术,该技术考虑了拓扑性和属性相似性。为了解决宏观级别的流失排名,我们建议构建一个关联图,将估计的微观流失概率作为边权重,并在图上调整链路分析算法。我们设计了一个简单的算法SimSum,并采用了两个更先进的算法PageRank和HITS。我们针对两级churnanalysis问题的解决方案的性能是根据从SamsungGame Launcher平台收集的真实数据进行评估的。
translated by 谷歌翻译
车辆重新识别是一个重要的问题,随着视频监控和智能传输应用的快速扩展而变得可取。通过回顾人类视觉的识别过程,我们发现当人类识别不同的车辆时存在本地的等级依赖性。具体地,人类总是首先确定一个车辆的粗粒度类别,即汽车模型/类型。然后,在预测的汽车模型/类型的分支下,他们将通过细微的视觉线索(例如,定制的绘画和挡风玻璃)在细粒度水平上识别特定的车辆。受粗到细分层过程的启发,我们提出了一种用于车辆重新识别的端到端基于RNN的分层注意(RNN-HA)分类模型。 RNN-HA由三个相互耦合的模块组成:第一个模块生成车辆图像的图像表示,第二个层次模块模拟上述层级依赖关系,最后一个注意模块侧重于捕获特定车辆彼此之间的细微视觉信息识别。通过对两个车辆重新识别基准数据集VeRi和VehicleID进行全面的实验,我们证明了所提出的模型实现了超越现有技术的卓越性能。
translated by 谷歌翻译
具有有限信息反馈(强盗)的在线学习试图解决在线学习者在学习过程中从环境接收部分反馈信息的问题。在此设置下,Flaxman通过提出具有预期梯度(OGDEG)算法的在线梯度下降来扩展Zinkevich的经典在线梯度下降(OGD)算法Zinkevich [2003]。具体来说,它使用一个简单的技巧来估计损失函数$ f_t $的梯度,通过在单个点进行评估并将预期的后悔限制为$ \ mathcal {O}(T ^ {5/6})$ Flaxman等。 [2005]。已经表明,与一阶算法相比,二阶在线学习算法如Online Newton Step(ONS)Hazan等。 [2007]可以显着提高传统在线学习的收敛速度。本文旨在利用二阶信息加速OGDEG的收敛。特别是,我们利用预期梯度技巧扩展了ONS算法,并开发了一种新颖的二阶在线学习算法,即具有预期梯度的在线牛顿步(ONSEG)。理论上,我们证明了所提出的ONSEG算法显着降低了OGDEG的预期遗憾。在强盗反馈场景中从$ \ mathcal {O}(T ^ {5/6})$到$ \ mathcal {O}(T ^ {2/3})$。根据经验,我们在几个真实世界的数据集中展示了所提出的算法的优点。
translated by 谷歌翻译
我们提出了一种新的算法来训练一个强大的神经网络来抵抗对抗攻击。我们的算法受以下两个思想的推动。首先,虽然最近的工作已经证明融合随机性可以提高神经网络的鲁棒性(Liu 2017),但我们注意到,对所有层添加噪声并不是结合随机性的最佳方法。我们在贝叶斯神经网络(BNN)框架下对随机性进行建模,以可扩展的方式正式学习模型的后验分布。其次,我们在BNN中制定了mini-max问题,以学习对抗性攻击下的最佳模式分布,从而导致对抗训练的贝叶斯神经网络。实验结果表明,所提出的算法在强攻击下具有最先进的性能。在CIFAR-10 withVGG网络上,我们的模型与PGDattack下的对抗训练(Madry 2017)和随机自我组合(Liu 2017)相比,在$ 0.035 $失真的情况下,准确度提高了14%,并且在ImageNet的一个子集上差距变得更大。
translated by 谷歌翻译