近年来,对无监督域适应(UDA)的兴趣飙升,导致血腥的新算法。但是,正如快速移动字段中的常见情况一样,基线算法未在它们应该的范围内进行测试。此外,已经注意到验证方法,即估计靶域标签的模型准确性的方法。尽管验证方法是任何UDA火车/ VAL管道的重要组成部分。在本文中,我们通过大规模实验显示1)在Oracle设置中,UDA算法之间的准确性差异小于先前认为,2)最先进的验证方法与准确性没有完全相关3)UDA算法之间的差异被验证方法引起的准确性下降。
translated by 谷歌翻译
360 {\ DEG}相机可以在单次拍摄中捕获完整的环境,这使得在许多计算机视觉任务中制作360 {\ DEG}图像诱人。然而,单眼深度估计仍然是360 {\ DEG}数据的挑战,特别是对于2K(2048 $ \倍1024美元)的高分辨率,这对于新颖的综合和虚拟现实应用很重要。基于CNN的基于CNN的方法不支持由于GPU存储器有限而导致的这种高分辨率。在这项工作中,我们提出了一种灵活的框架,用于使用切线图像的高分辨率360 {\ DEG}图像的单眼深度估计框架。我们将360 {\ DEG}输入图像投影到一组切线,产生透视图,这适用于最新,最准确的最先进的透视单眼深度估计器。我们使用可变形的多尺度对准再次重新组合各个深度估计,然后通过梯度域混合来提高视差估计的一致性。结果是具有高细节水平的密集,高分辨率360 {\ DEG}深度图,也适用于现有方法不支持的户外场景。
translated by 谷歌翻译
基于自我关注机制的顶部,视觉变压器最近在各种视觉任务上表现出显着的性能。虽然实现出色的性能,但它们仍然需要相对密集的计算成本,随着斑块的数量,自我关注头和变压器块增加而剧烈缩放。在本文中,我们争辩说,由于图像的变化大,因此它们对贴片之间的长距离依赖性建模的需要不同。为此,我们介绍了一个Adavit,一个自适应计算框架,学习在每次输入的基础上派生在整个骨干内的修补程序,自我注意力头和变压器块的使用策略,旨在提高视觉变压器的推理效率图像识别的最小精度降低。以端到端的方式与变压器骨架一起优化,轻量级决策网络连接到骨架上,以便在飞行中产生决定。关于ImageNet的广泛实验表明,与最先进的视觉变压器相比,我们的方法对效率的提高超过了2倍的效率,只有0.8%的准确性,实现了在不同的计算预算上的良好效率/准确性权衡权衡。我们进一步对学习使用政策进行了定量和定性分析,并对视觉变压器的冗余提供了更多的见解。
translated by 谷歌翻译
虽然最先进的视觉变压器模型实现了图像分类的有希望的结果,但它们是非常昂贵的并且需要许多GFLOPS。尽管可以通过减少网络中的令牌数量来降低视觉变压器的GFLOPS,但是没有对所有输入图像的最佳设置。因此,在这项工作中,我们引入了可分辨率的无参数自适应令牌采样(ATS)模块,可以插入任何现有的视觉变压器架构。通过评分和自适应采样重要令牌,在视觉变压器上实现视觉变压器。结果,令牌的数量不再静态,但是每个输入图像都变化。通过将ATS集成为当前变压器块内的附加层,我们可以将它们转换为具有自适应令牌的更高效的视觉变压器。由于ATS是一种无参数模块,因此它可以作为即插即用模块添加到从货架上的预制视觉变压器中,从而在没有任何额外训练的情况下减少他们的GFLOP。但是,由于其可分辨动的设计,人们还可以培训配有ATS的视觉变压器。通过将其添加到多个最先进的视觉变压器,我们在想象成数据集上进行评估。我们的评估表明,通过将计算成本(GFLOPS)降低37%,在保留准确性时,该模块通过降低了37%,提高了最先进的模块。
translated by 谷歌翻译
真实图像进入样式中的潜在空间是一个研究的问题。然而,由于重建和可编辑性之间的固有权衡,将现有的现实情景方法应用于现实世界的情况仍然是一个开放的挑战:可以准确代表真实图像的潜在空间区域通常遭受降级的语义控制。最近的工作提出通过微调发电机将目标图像添加到潜在空间的良好编辑区域来减轻此权衡。在有希望的同时,这种微调方案对于普遍使用而言是不切实际的,因为它需要每个新图像需要冗长的训练阶段。在这项工作中,我们将这种方法介绍到基于编码器的反演的领域。我们提出了一个HyperSTYLE,一个高度作品,用于学习调制Stylegan权重,以忠实地在潜在空间的可编辑区域中表达给定的图像。一个天真的调制方法需要培训超过30亿参数的高度工作。通过仔细的网络设计,我们将其降低到与现有的编码器一致。 Hyperstyle产生与具有编码器的近实时推理能力的优化技术相当的重建。最后,我们展示了超出了超出了反转任务的若干应用的效力,包括编辑域名域名的域外图像。
translated by 谷歌翻译
了解文档图像(例如,发票)是一个重要的研究主题,并在文档处理自动化中具有许多应用。通过基于深度学习的光学字符识别(OCR)的最新进展,目前的视觉文档了解(VDU)系统已经基于OCR设计。虽然这种基于OCR的方法承诺合理的性能,但它们遭受了由OCR引起的关键问题,例如(1)(1)昂贵的计算成本和(2)由于OCR误差传播而导致的性能下降。在本文中,我们提出了一种新颖的VDU模型,即结束可训练而不支撑OCR框架。为此,我们提出了一个新的任务和合成文档图像生成器,以预先列车,以减轻大规模实体文档图像上的依赖关系。我们的方法在公共基准数据集和私营工业服务数据集中了解各种文档的最先进的性能。通过广泛的实验和分析,我们展示了拟议模型的有效性,特别是考虑到真实世界的应用。
translated by 谷歌翻译
3D对象检测网络往往偏向于培训的数据。在不同位置,条件或传感器中捕获的数据集的评估比训练(源)数据的数据集导致模型性能下降,由于测试(或目标)数据分布的间隙。目前用于域适配的方法可以在训练期间采用访问源数据,这可能由于隐私或内存问题而无法使用,或者需要将一系列激光乐框架作为输入。我们提出了一种单一帧方法,用于提供的基于LIDAR的3D对象探测器的无源无监督域,它使用类原型来减轻逻辑标签噪声的效果。解决在存在嘈杂标签中的传统特征聚合方法对原型计算的限制,我们利用变压器模块识别对应于不正确,过于自信的注释的异常值ROI,并计算分级类原型。在迭代培训策略下,与嘈杂的伪标签相关的损失是下降的,因此在自我培训过程中精制。为了验证我们提出的方法的有效性,我们研究了与大型标签的数据集(例如Waymo Open DataSet和Nuscenes)培训的网络相关联的域移位,并在更小的标签差的数据集(如KITTI)上进行评估反之亦然。我们在最近的两个对象探测器上展示了我们的方法,实现了Out-执行其他域适应工作的结果。
translated by 谷歌翻译
结邦化是一种非扰动过程,无法从第一原理推导出理论描述。建模强子地层,需要几种假设和各种现象学方法。利用最先进的计算机视觉和深度学习算法,最终可以训练神经网络以学习物理过程的非线性和非扰动特征。在本研究中,通过调查全局和运动量,确实喷射和事件形状变量来呈现两个Reset网络的结果。广泛使用的焊串碎片模型应用于$ \ sqrt {s} = 7 $ tev proton-proton碰撞中的基线,以预测进一步的LHC能量的最相关的可观察者。
translated by 谷歌翻译
最近,已经开发了方法以准确地预测其在特定任务上的深神经网络(DNN)的测试性能,给定其底层拓扑结构的统计数据。然而,进一步利用这一新发现的实际应用的洞察力由于时间和记忆的高计算成本,因此是棘手的。在这项工作中,我们定义了一类新的拓扑功能,可以准确地表征学习的进度,同时在运行时迅速计算。此外,我们所提出的拓扑功能易于配备反向化,这意味着它们可以在最终训练中纳入其中。我们的新开发的DNN实际拓扑表征允许额外的应用程序。我们首先显示我们可以预测没有测试集的DNN的性能,而无需高性能计算。我们还证明了我们对DNN的拓扑表征在估计任务相似性方面是有效的。最后,我们表明我们可以通过主动限制DNN的拓扑结构来诱导DNN中的学习。这使得在元学框架中收缩了DNN的基础结构来开辟了新的途径。
translated by 谷歌翻译
深度神经网络拥有的一个重要股权是在以前看不见的数据上对分发检测(OOD)进行强大的能力。在为现实世界应用程序部署模型时,此属性对于安全目的至关重要。最近的研究表明,概率的生成模型可以在这项任务上表现不佳,这令他们寻求估计培训数据的可能性。为了减轻这个问题,我们提出了对变分性自动化器(VAE)的指数倾斜的高斯先前分配。通过此之前,我们能够使用VAE自然分配的负面日志可能性来实现最先进的结果,同时比某些竞争方法快的数量级。我们还表明,我们的模型生产高质量的图像样本,这些样本比标准高斯VAE更清晰。新的先前分配具有非常简单的实现,它使用kullback leibler发散,该kullback leibler发散,该横向leibler发散,该分解比较潜伏向量的长度与球体的半径之间的差异。
translated by 谷歌翻译