在这项工作中,我们在具有稀疏相机视图的设置下,开发了一个可概括和高效的神经辐射场(nerf)管道,用于高保真自由观点人体合成。虽然现有的基于NERF的方法可以合成人体的相当逼真的细节,但是当输入具有自动闭塞时,它们往往会产生差的结果,特别是对于在稀疏视野下的看不见的人类。此外,这些方法通常需要大量的采样点进行渲染,这导致效率低,限制了其现实世界的适用性。为了解决这些挑战,我们提出了一种几何形状导向的进步nerf〜(GP-NERF)。特别地,为了更好地解决自动阻塞,我们设计了一种几何指导的多视图特征集成方法,该多视图特征集成方法在从输入视图集成不完全信息之前利用估计的几何形状,并构建目标人体的完整几何体积。同时,为了实现更高的渲染效率,我们引入了几何形状导向的渐进性渲染管线,其利用几何特征卷和预测的密度值来逐步减少采样点的数量并加快渲染过程。 ZJU-Mocap和Thuman数据集的实验表明,我们的方法在多种泛化设置上显着优于最先进的,而通过应用我们有效的渐进式渲染管道,时间成本降低> 70%。
translated by 谷歌翻译
用于深度卷积神经网络的视频插值的现有方法,因此遭受其内在限制,例如内部局限性核心权重和受限制的接收领域。为了解决这些问题,我们提出了一种基于变换器的视频插值框架,允许内容感知聚合权重,并考虑具有自我关注操作的远程依赖性。为避免全球自我关注的高计算成本,我们将当地注意的概念引入视频插值并将其扩展到空间域。此外,我们提出了一个节省时间的分离策略,以节省内存使用,这也提高了性能。此外,我们开发了一种多尺度帧合成方案,以充分实现变压器的潜力。广泛的实验证明了所提出的模型对最先进的方法来说,定量和定性地在各种基准数据集上进行定量和定性。
translated by 谷歌翻译
现实世界视频超分辨率(VSR)降解的多样性和复杂性构成了推理和培训中的非琐碎挑战。首先,虽然长期繁殖导致在轻度降解的情况下提高性能,但通过传播可以夸大严重的野外降解,损害输出质量。为了平衡细节合成和工件抑制之间的权衡,我们发现在传播之前减少噪声和伪像的图像预清洁阶段。我们的RealBasicVSR配备了精心设计的清洁模块,以质量和效率为现有的现有方法。其次,现实世界的VSR模型通常受到多样化的培训,以提高普遍性,需要增加批量尺寸以产生稳定的梯度。不可避免地,增加的计算负担导致各种问题,包括1)速度 - 性能权衡和2)批量长期权衡。为了缓解第一个权衡,我们提出了一种随机退化计划,可在不牺牲性能的情况下减少高达40%的培训时间。然后,我们分析了不同的训练环境,并建议在训练期间使用更长的序列而不是较大的批次,允许更有效的时间信息使用,导致推论期间的性能更稳定。为了便于公平的比较,我们提出了新的Videolq数据集,其中包含含有丰富纹理和模式的大量现实较低的视频序列。我们的数据集可以作为基准测试的共同点。代码,模型和数据集将公开可用。
translated by 谷歌翻译
变压器在计算机视觉中变得普遍,特别是对于高级视觉任务。然而,采用生成的对抗性网络(GaN)框架中的变压器仍然是一个开放但具有挑战性的问题。本文进行了一项全面的实证研究,探讨了高保真图像合成的GaN中变压器的性能。我们的分析亮点并重申了特征局部度在图像生成中的重要性,尽管局部性的优点在分类任务中是众所周知的。也许更有趣的是,我们发现自我关注层中的残余连接有害,以利用基于变压器的鉴别器和条件发电机。我们仔细检查了影响力,并提出了减轻负面影响的有效方法。我们的研究导致GaN中的变压器的新替代设计,卷积神经网络(CNN) - 免费发电机称为晶体 - G,这在无条件和条件图像代中实现了竞争导致。基于变压器的鉴别器,Strans-D也显着降低了其基于CNN的鉴别器的间隙。
translated by 谷歌翻译
在线广告中,自动竞标已成为广告商通过简单地表达高级活动目标和约束来优化其首选广告性能指标的重要工具。以前的作品从单个代理的视图中设计了自动竞争工具,而不会在代理之间建模相互影响。在本文中,我们从分布式多功能代理人的角度来看,请考虑这个问题,并提出一个常规$ \强调{m} $ ulti - $ \强调{a} $ gent加强学习框架,以便为$ clown {a} $ uto - $ \ Underline {b} $ IDDIND,即MAAB,了解自动竞标策略。首先,我们调查自动招标代理商之间的竞争与合作关系,并提出了一个温度定期的信用分配,以建立混合合作竞争范式。通过在代理商中仔细开展竞争和合作权衡,我们可以达到均衡状态,不仅担保个人广告商的实用程序,而且保证了系统性能(即社会福利)。其次,为避免竞争低价潜在勾结行为的合作,我们进一步提交了律师代理,为每位专家设定个性化招标酒吧,然后减轻由于合作而导致的收入退化。第三,要在大型广告系统中部署MAAB,我们提出了一种平均现场方法。通过将具有与平均自动竞标代理商相同的广告商进行分组,大规模广告商之间的互动大大简化,使得培训MAAB有效地培训。在离线工业数据集和阿里巴巴广告平台上进行了广泛的实验表明,我们的方法在社会福利和收入方面优于几种基线方法。
translated by 谷歌翻译
在本文中,提出了一种称为POP-Net的实时方法,以预测来自深度图像的多人3D。 POP-Net了解到在一次拍摄中预测自下而上的部分表示和自上而下的全球姿势。具体地,介绍了一种名为截断的零件位移场(TPDF)的新的零级表示,这使得明确的融合过程能够统一自下而上部分检测和全局姿势检测的优点。同时,引入了有效的模式选择方案以自动解决全局姿势和部分检测之间的冲突案例。最后,由于缺乏用于开发多人3D姿势估计的高质量深度数据集,我们将多人3D人类姿势数据集(MP-3DHP)引入新的基准。 MP-3DHP旨在在模型培训中实现有效的多人和背景数据增强,并在不受控制的多人场景下评估3D人类姿势估计。我们表明Pop-Net在MP-3DHP和广泛使用的ITOP数据集上实现了最先进的结果,并对多人处理的效率具有显着的优势。为了证明我们的算法管道的应用之一,我们还显示了由我们计算的3D关节位置驱动的虚拟化身的结果。 MP-3DHP数据集和评估代码已提供:https://github.com/oppo-us-research/pop-net。
translated by 谷歌翻译
错误传播是在线半监控视频对象分段中的一般但重要的问题。我们的目标是通过具有高可靠性的校正机制来抑制误差传播。关键洞察力是用可靠的线索解开传统掩模传播过程的校正。我们介绍了两个调制器,传播和校正调制器,根据本地时间相关性和可靠的引用,在目标帧嵌入中分别对目标帧嵌入进行分别执行频道 - WIES重新校准。具体地,我们用级联的传播校正方案组装调制器。这避免了通过传播调制器来覆盖可靠校正调制器的效果。尽管具有地面真理标签的参考帧提供可靠的提示,但它可能与目标帧非常不同,并引入不确定或不完全相关的相关性。我们通过向维护池补充可靠的功能补丁来增强参考线索,从而为调制器提供更全面和表现力的对象表示。此外,可靠性滤波器设计成检索可靠的贴片并将其传递在后续帧中。我们的模型在YouTube-VOS18 / 19和Davis17-Val /测试基准上实现了最先进的性能。广泛的实验表明,通过充分利用可靠的指导,校正机制提供了相当大的性能增益。代码可用:https://github.com/jerryx1110/rpcmvos。
translated by 谷歌翻译
基于学习的边缘检测有很强地监督的是用像素 - 明智的注释进行了强烈监督,这是手动获取的乏味。我们研究了自我训练边缘检测问题,利用了未开发的大型未标记图像数据集。我们设计具有多层正规化和自学的自我监督框架。特别地,我们强加了一个一致性正则化,该正则化强制执行来自多个层中的每一个的输出,以对输入图像及其扰动的对应物一致。我们采用L0平滑作为“扰动”,以鼓励在自我监督学习集群假设之后展示展示突出边界的边缘预测。同时,通过伪标签进行多层监督,网络训练,该伪标签与罐头边缘初始化,然后通过网络迭代地改进,因为培训进行了。正规化和自我教学共同实现了精确和召回的良好平衡,导致对监督方法的显着提升,在目标数据集中轻质细化。此外,我们的方法展示了强大的交叉数据集普遍性。例如,与现有的方法相比,在看不见的数据集上测试时,OCS的ODS提高了4.8%和5.8%。
translated by 谷歌翻译
Vision-Language(V + L)预先润廓模型通过了解图像和文本之间的对齐来支持多媒体应用程序取得了巨大成功。虽然现有的视觉预押模型主要专注于了解文本中的图像或实体中的对象,但它们通常会忽略事件级别的对齐及其参数结构。 %在这项工作中,我们提出了一种对比的学习框架来强制执行愿景 - 语言预押模型来理解事件和相关参数(参与者)角色。为此,我们利用文本信息提取技术来获得事件结构知识,并利用多个提示函数来通过操纵事件结构来对比难度的负面描述。我们还基于最佳传输来设计事件图对齐损耗以捕获事件参数结构。此外,我们收集了一个大型活动的数据集(106,875张图片),用于预磨平,这提供了更具挑战性的图像检索基准,以评估对复杂冗长的句子的理解。实验表明,我们的零射剪辑事件优于在多媒体事件提取中的参数提取中的最先进的监督模型,从而实现了事件提取中的5±绝对f得分增益,以及显着改进零拍摄设置下的各种下游任务。
translated by 谷歌翻译
在持续学习的SSLAD-TRACK 3B挑战中,我们提出了与变压器(COLT)继续学习的方法。与卷积神经网络相比,我们发现变压器遭受灾难性遗忘的损失。我们方法的主要原则是用旧知识蒸馏和头部扩展策略装备基于变压器的特征提取器来竞争灾难性的遗忘。在本报告中,我们首先介绍了对象检测的持续学习的整体框架。然后,我们分析了解决我们解决方案中灾难性遗址的关键要素对效果。我们的方法在SSLAD-TRACK 3B挑战测试集上实现70.78映射。
translated by 谷歌翻译