Uniapaired 3D对象完成旨在从不完整的输入预测完整的3D形状,而不知道训练期间完整和不完整的形状之间的对应关系。为了构建两个数据模式之间的对应关系,之前的方法通常会应用逆势训练以匹配编码器提取的全局形状特征。然而,这忽略了解码器的金字塔层次结构中嵌入的多级几何信息之间的对应关系,这使得先前的方法难以产生高质量的完整形状。为了解决这个问题,我们提出了一种新颖的未配对形状完成网络,命名为MFM-Net,使用多级特征匹配,将几何对应的学习分解成在点云解码器中的分层生成过程中的多级。具体地,MFM-Net采用双路径架构,以在解码器的不同层中建立多个特征匹配信道,然后与对手学习组合以合并来自完整和不完整的模式的特征的分布。此外,还应用了一种改进来增强细节。结果,MFM-Net利用更全面的理解来在本地到全局角度下建立完整和不完整的形状之间的几何对应,这使得能够更详细的几何推断来产生高质量的完整形状。我们对多个数据集进行全面实验,结果表明,我们的方法优于以前的未配对点云完成方法,具有大的余量。
translated by 谷歌翻译
生成的对抗网络(GANS)已被证明在图像生成任务中非常成功,但GaN培训具有不稳定问题。许多作品通过手动修改GaN架构提高了GaN训练的稳定性,这需要人类专业知识和广泛的试验和错误。因此,目的是自动化模型设计的神经结构搜索(NAS)已经应用于在无条件图像生成的任务上搜索GAN。早期的NAS-GaN仅用于搜索生成器来减少困难。最近的一些作品试图搜索发电机(G)和鉴别器(D)来提高GaN性能,但它们仍然遭受搜索过程中GaN培训的不稳定性。为了缓解不稳定问题,我们提出了一种高效的两阶段进化算法(EA)基于NAS框架来发现GANS,Dubbed \ TextBF {eagan}。具体而言,我们将G和D的搜索分成两个阶段,提出了重量重置策略以提高GaN训练的稳定性。此外,我们执行进展操作以基于多个目标生成帕累托 - 前部架构,导致G和D的优越组合。通过利用重量分享策略和低保真评估,EAGAN可以显着缩短搜索时间。 EAGAN在CIFAR-10上实现了高竞争力的结果(= 8.81 $ \ PM $ 0.10,FID = 9.91),并超越了STL-10数据集上的先前NAS搜索的GAN(= 10.44 $ \ PM $ 0.087,FID = 22.18)。
translated by 谷歌翻译
域概括(DG)最近引起了人的重新识别(REID)的巨大关注。它旨在使在多个源域上培训的模型概括到未经看不见的目标域。虽然实现了有前进的进步,但现有方法通常需要要标记的源域,这可能是实际REID任务的重大负担。在本文中,我们通过假设任何源域都有任何标签可以调查Reid的无监督域泛化。为了解决这个具有挑战性的设置,我们提出了一种简单高效的域特定的自适应框架,并通过设计在批处理和实例归一化技术上的自适应归一化模块实现。在此过程中,我们成功地产生了可靠的伪标签来实现培训,并根据需要增强模型的域泛化能力。此外,我们表明,我们的框架甚至可以应用于在监督域泛化和无监督域适应的环境下改进人员Reid,展示了关于相关方法的竞争性能。对基准数据集进行了广泛的实验研究以验证所提出的框架。我们的工作的重要性在于它表明了对人Reid的无监督域概括的潜力,并为这一主题进一步研究了一个强大的基线。
translated by 谷歌翻译
我们介绍了文本到图像生成的矢量量化扩散(VQ-扩散)模型。该方法基于矢量量化变分性AutoEncoder(VQ-VAE),其潜像通过最近开发的去噪扩散概率(DDPM)的条件变体为基础。我们发现这种潜在空间方法非常适合于图像到图像生成任务,因为它不仅消除了具有现有方法的单向偏差,还允许我们结合掩模和更换的扩散策略,以避免积累错误,这是现有方法的严重问题。我们的实验表明,与具有类似数量的参数数量的传统自回归(AR)模型相比,VQ扩散产生明显更好的文本到图像生成结果。与以前的基于GAN的文本到图像方法相比,我们的VQ扩散可以通过大边缘处理更复杂的场景并提高合成的图像质量。最后,我们表明我们的方法中的图像生成计算可以通过Reparameter化进行高效。利用传统的AR方法,文本到图像生成时间随输出图像分辨率线性增加,因此即使对于正常尺寸图像也是相当耗时的。 VQ-扩散使我们能够在质量和速度之间实现更好的权衡。我们的实验表明,具有Reparameterization的VQ扩散模型比传统的AR方法快15倍,同时实现更好的图像质量。
translated by 谷歌翻译
我们呈现高动态范围神经辐射字段(HDR-NERF),以从一组低动态范围(LDR)视图的HDR辐射率字段与不同的曝光。使用HDR-NERF,我们能够在不同的曝光下生成新的HDR视图和新型LDR视图。我们方法的关键是模拟物理成像过程,该过程决定了场景点的辐射与具有两个隐式功能的LDR图像中的像素值转换为:RADIACE字段和音调映射器。辐射场对场景辐射(值在0到+末端之间的值变化),其通过提供相应的射线源和光线方向来输出光线的密度和辐射。 TONE MAPPER模拟映射过程,即在相机传感器上击中的光线变为像素值。通过将辐射和相应的曝光时间送入音调映射器来预测光线的颜色。我们使用经典的卷渲染技术将输出辐射,颜色和密度投影为HDR和LDR图像,同时只使用输入的LDR图像作为监控。我们收集了一个新的前瞻性的HDR数据集,以评估所提出的方法。综合性和现实世界场景的实验结果验证了我们的方法不仅可以准确控制合成视图的曝光,还可以用高动态范围呈现视图。
translated by 谷歌翻译
作为一个有前途的分布式机器学习范式,联合学习(FL)在不影响用户隐私的情况下培训具有分散数据的中央模型,这使得其被人工智能互联网(AIT)应用程序广泛使用。然而,传统的流体遭受了模型不准确,因为它会使用数据硬标签培训本地模型,并忽略与小概率不正确的预测的有用信息。虽然各种解决方案尽量解决传统流域的瓶颈,但大多数人都引入了显着的通信和记忆开销,使大规模的AIOT设备部署成为一个巨大的挑战。为了解决上述问题,本文提出了一种基于蒸馏的新型联合学习(DFL)架构,可实现AIT应用的高效准确。灵感来自知识蒸馏(KD),可以提高模型准确性,我们的方法将KD使用的软目标添加到FL模型培训,占用可忽略不计的网络资源。在每轮本地训练之后,通过每种充气设备的局部样品预测生成软目标,并用于下一轮模型训练。在DFL的本地培训期间,软目标和硬质标签都被用作模型预测的近似目标,以通过补充软目标的知识来提高模型准确性。为了进一步提高DFL模型的性能,我们设计了一种动态调整策略,用于调整KD中使用的两个损耗功能的比率,这可以最大限度地利用软目标和硬质标签。众所周知的基准测试的全面实验结果表明,我们的方法可以显着提高独立和相同分布(IID)和非IID数据的FL的模型精度。
translated by 谷歌翻译
在深海勘探领域,声纳目前是唯一有效的长距离传感装置。复杂的水下环境,如噪声干扰,低目标强度或背景动态,对声纳成像带来了许多负面影响。其中,非线性强度的问题非常普遍。它也被称为声学传感器成像的各向异性,即当自主水下车辆(AUV)携带声纳从不同角度检测到相同的目标时,图像对之间的强度变化有时非常大,这使得传统匹配算法成为了传统的匹配算法几乎无效。但是,图像匹配是诸如导航,定位和映射等综合任务的基础。因此,获得稳健和准确的匹配结果是非常有价值的。本文提出了一种基于相位信息和深卷积特征的组合匹配方法。它具有两个出色的优势:一个是深度卷积特征可用于衡量声纳图像的本地和全球位置的相似性;另一种是可以在声纳图像的关键目标位置执行本地特征匹配。该方法不需要复杂的手动设计,并以关闭端到端的方式完成非线性强度声纳图像的匹配任务。特征匹配实验在AUV捕获的深海声纳图像上进行,结果表明我们的提议具有卓越的匹配精度和鲁棒性。
translated by 谷歌翻译
媒体中的人员搜索已经看到互联网应用程序的潜力,例如视频剪辑和字符集。这项任务很常见,但忽略了以前的人员搜索工作,专注于监视场景。媒体情景从监视场景中有一些不同的挑战。例如,一个人可能经常改变衣服。为了减轻这个问题,本文提出了一个统一的探测器和图形网络(UDGNET),用于媒体中的人员搜索。 UDGNET是第一个检测和重新识别人体和头部的第一个人搜索框架。具体地,它首先基于统一网络构建两个分支以检测人体和头部,然后检测到的主体和头部用于重新识别。这种双重任务方法可以显着增强歧视性学习。为了解决布料不断变化的问题,UDGNET构建了两个图形,以探索布换器样本中的可靠链接,并利用图形网络来学习更好的嵌入。这种设计有效地增强了人们搜索的鲁棒性,以改变布什挑战。此外,我们证明了UDGNET可以通过基于锚和无锚的人搜索框架来实现,并进一步实现性能改进。本文还为媒体(PSM)中的人员搜索提供了大规模数据集,其提供身体和头部注释。它是迄今为止媒体搜索的最大数据集。实验表明,UDGNET在MAP中通过12.1%提高了Anipor的模型。同时,它在监控和长期情景中显示出良好的概括。数据集和代码将可用:https://github.com/shuxjweb/psm.git。
translated by 谷歌翻译
文档布局分析(DLA)在信息提取和文档理解中起重要作用。目前,文件布局分析已达到里程碑成果,但是非曼哈顿的文件布局分析仍然是一项挑战。在本文中,我们提出了一种图像层建模方法来解决这一挑战。为了测量所提出的图像层建模方法,我们提出了一个名为FPD的手动标记的非曼哈顿布局细粒细分分段数据集。据我们所知,FPD是第一个手动标记的非曼哈顿布局细粒细分分段数据集。为了有效提取文档的细粒度特征,我们提出了一个名为L-E ^ 3Net的边缘嵌入网络。实验结果证明,我们提出的图像层建模方法可以更好地处理非曼哈顿布局的细粒度分段文件。
translated by 谷歌翻译
深度学习中的混乱是一般不利的,在他们渗透特征陈述的普遍之规方面都有害。因此,学习没有干扰混淆的因果特征很重要。基于最先前的因果学习方法采用后门标准来减轻某些特定混淆的不利影响,这需要明确的混淆识别。然而,在真实的情景中,混乱通常是多种多样的,并且难以被识别。在本文中,我们提出了一种新的混淆器识别因果视觉特征学习(CICF)方法,这避免了识别混淆的需求。 CICF基于前门标准模拟不同样本中的干预,然后从优化的角度近似于对实例级干预的全局范围中间效应。通过这种方式,我们的目标是找到可靠的优化方向,避免了混淆的介入效果,以学习因果特征。此外,我们发现CICF与流行的元学习策略MAML之间的关系,并提供了MAML首次从因果学习的理论视角来解释为什么MAML工作。由于有效地学习了因果特征,我们的CICF使模型能够具有卓越的泛化能力。域泛化基准数据集的广泛实验证明了我们的CICF的有效性,从而实现了最先进的性能。
translated by 谷歌翻译