在各种基于学习的图像恢复任务(例如图像降解和图像超分辨率)中,降解表示形式被广泛用于建模降解过程并处理复杂的降解模式。但是,在基于学习的图像deblurring中,它们的探索程度较低,因为在现实世界中挑战性的情况下,模糊内核估计不能很好地表现。我们认为,对于图像降低的降解表示形式是特别必要的,因为模糊模式通常显示出比噪声模式或高频纹理更大的变化。在本文中,我们提出了一个框架来学习模糊图像的空间自适应降解表示。提出了一种新颖的联合图像re毁和脱蓝色的学习过程,以提高降解表示的表现力。为了使学习的降解表示有效地启动和降解,我们提出了一个多尺度退化注入网络(MSDI-NET),以将它们集成到神经网络中。通过集成,MSDI-NET可以适应各种复杂的模糊模式。 GoPro和Realblur数据集上的实验表明,我们提出的具有学识渊博的退化表示形式的Deblurring框架优于最先进的方法,具有吸引人的改进。该代码在https://github.com/dasongli1/learning_degradation上发布。
translated by 谷歌翻译
视频识别是由端到端学习范式主导的 - 首先初始化具有预审预周化图像模型的视频识别模型,然后对视频进行端到端培训。这使视频网络能够受益于验证的图像模型。但是,这需要大量的计算和内存资源,以便在视频上进行填充以及直接使用预审计的图像功能的替代方案,而无需填充图像骨架会导致结果不足。幸运的是,在对比视力语言预训练(剪辑)方面的最新进展为视觉识别任务的新途径铺平了道路。这些模型在大型开放式图像文本对数据上进行了预测,以丰富的语义学习强大的视觉表示。在本文中,我们介绍了有效的视频学习(EVL) - 一种有效的框架,用于直接训练具有冷冻剪辑功能的高质量视频识别模型。具体来说,我们采用轻型变压器解码器并学习查询令牌,从剪辑图像编码器中动态收集帧级空间特征。此外,我们在每个解码器层中采用局部时间模块,以发现相邻帧及其注意力图的时间线索。我们表明,尽管有效地使用冷冻的骨干训练,但我们的模型在各种视频识别数据集上学习了高质量的视频表示。代码可在https://github.com/opengvlab/feld-video-rencognition上找到。
translated by 谷歌翻译
在本文中,我们通过整合具有离散的傅立叶变换(DFT)的复杂值和实值卷积神经网络(CNN)来提出一个新的EEG信号分类框架。所提出的神经网络架构由一个复杂值的卷积层,两个实值卷积层和三个完全连接的层组成。我们的方法可以有效利用DFT中包含的相信息。我们使用两个模拟的EEG信号和一个基准数据集验证我们的方法,并将其与两个广泛使用的框架进行比较。与对基准数据集进行分类的现有方法相比,我们的方法大大减少了所使用的参数的数量并提高了准确性,并显着提高了对模拟的EEG信号进行分类的性能。
translated by 谷歌翻译
2D姿势估计的现有作品主要集中在某个类别上,例如人,动物和车辆。但是,有许多应用程序方案需要检测看不见的对象类的姿势/关键点。在本文中,我们介绍了类别不稳定姿势估计(CAPE)的任务,该任务旨在创建一个姿势估计模型,能够检测仅给出一些具有关键点定义的样本的任何类别对象的姿势。为了实现这一目标,我们将姿势估计问题作为关键点匹配问题制定,并设计一个新颖的Cape框架,称为姿势匹配网络(POMNET)。提出了基于变压器的关键点交互模块(KIM),以捕获不同关键点之间的交互以及支持图像和查询图像之间的关系。我们还介绍了多类姿势(MP-100)数据集,该数据集是包含20K实例的100个对象类别的2D姿势数据集,并且经过精心设计用于开发CAPE算法。实验表明,我们的方法的表现优于其他基线方法。代码和数据可在https://github.com/luminxu/pose-for-venthing上找到。
translated by 谷歌翻译
本文解决了对预先训练的深神经网络进行排名并筛选最下游任务的重要问题。这是具有挑战性的,因为每个任务的基本模型排名只能通过微调目标数据集中的预训练模型来生成,该模型是蛮力且计算昂贵的。最近的高级方法提出了几个轻巧的可转移性指标来预测微调结果。但是,这些方法仅捕获静态表示,但忽略了微调动态。为此,本文提出了一个新的可传递性度量,称为\ textbf {s} elf-challenging \ textbf {f} isher \ textbf {d} is Criminant \ textbf {a} nalisy(\ textbf {\ textbf {sfda})现有作品没有的有吸引力的好处。首先,SFDA可以将静态特征嵌入渔民空间中,并完善它们,以在类之间更好地分离性。其次,SFDA使用一种自我挑战的机制来鼓励不同的预训练模型来区分硬性示例。第三,SFDA可以轻松地为模型集合选择多个预训练的模型。 $ 33 $预培训的$ 11 $下游任务的$ 33 $预培训模型的广泛实验表明,在测量预训练模型的可传递性时,SFDA具有高效,有效和健壮。例如,与最先进的方法NLEEP相比,SFDA平均显示了59.1美元的增益,同时带来了$ 22.5 $ x的墙壁速度速度。该代码将在\ url {https://github.com/tencentarc/sfda}上提供。
translated by 谷歌翻译
尽管最近的方法带来了质量的提高,但视频超分辨率(SR)仍然非常具有挑战性,尤其是对于低光和嘈杂的视频而言。当前的最佳解决方案是随后采用最佳的视频SR模型,Denoising和Illumination Enerancions,但由于模型之间的不一致,因此通常会降低图像质量。本文提出了一种称为“深参数3D过滤器”(DP3DF)的新参数表示,该代表包含局部时空信息,以在单个编码器和编码器网络中有效地启用同时denosing,Inlumination Enlumination Enlumination Enlumination和SR。此外,通过共享主链共同学习了一个动态残留框架,以进一步提高SR质量。我们进行了广泛的实验,包括大规模的用户研究,以表明我们的方法的有效性。我们的方法一致地超过了所有具有顶级PSNR和用户评分的挑战性的真实数据集上最好的最新方法,但运行时间很快。
translated by 谷歌翻译
多尺度特征的学习和聚集对于授权神经网络以捕获点云上采样任务中的细颗粒几何细节至关重要。大多数现有方法从固定分辨率的点云中提取多尺度功能,因此仅获得有限的细节。尽管现有的方法汇总了一系列Upplampling子网络的不同分辨率的特征层次结构,但培训既复杂又具有昂贵的计算。为了解决这些问题,我们构建了一个名为BIMS-PU的新点云上采样管道,该管道将特征金字塔体系结构与双向上下采样路径集成在一起。具体而言,我们通过将目标采样因子分解为较小的因素,将上/下采样过程分解为几个上/下采​​样子步骤。多尺度特征是自然而然地以平行方式生产的,并使用快速特征融合方法进行聚合。监督信号同时应用于不同尺度的所有上采样点云。此外,我们制定一个残留块,以减轻模型的训练。不同数据集上的广泛定量和定性实验表明,我们的方法取得了优于最先进方法的结果。最后但并非最不重要的一点是,我们证明了点云上采样可以通过改善3D数据质量来改善机器人感知。
translated by 谷歌翻译
旨在恢复降级视频清晰框架的视频修复一直在吸引越来越多的关注。需要进行视频修复来建立来自多个未对准帧的时间对应关系。为了实现这一目标,现有的深层方法通常采用复杂的网络体系结构,例如集成光流,可变形卷积,跨框或跨像素自我发项层,从而导致昂贵的计算成本。我们认为,通过适当的设计,视频修复中的时间信息利用可能会更加有效。在这项研究中,我们提出了一个简单,快速但有效的视频修复框架。我们框架的关键是分组的时空转移,它简单且轻巧,但可以隐式建立框架间的对应关系并实现多框架聚合。加上用于框架编码和解码的基本2D U-NET,这种有效的时空移位模块可以有效地应对视频修复中的挑战。广泛的实验表明,我们的框架超过了先前的最先进方法,其计算成本的43%在视频DeBlurring和Video Denoisising上。
translated by 谷歌翻译
近年来,自主驾驶一直在受到越来越多的关注,因为它的潜力减轻了驾驶员的负担并提高驾驶的安全性。在现代的自动驾驶管道中,感知系统是必不可少的组件,旨在准确估计周围环境的状态,并为预测和计划提供可靠的观察。 3D对象检测可以智能预测自动驾驶汽车附近关键3D对象的位置,大小和类别,是感知系统的重要组成部分。本文回顾了自动驾驶的3D对象检测的进展。首先,我们介绍3D对象检测的背景,并讨论此任务中的挑战。其次,我们从模型和感觉输入的各个方面(包括基于激光雷达,基于摄像头和多模式检测方法)对3D对象检测的进度进行了全面调查。我们还对每类方法中的潜力和挑战提供了深入的分析。此外,我们系统地研究了3D对象检测在驾驶系统中的应用。最后,我们对3D对象检测方法进行了性能分析,并进一步总结了多年来的研究趋势,并向前景提供了该领域的未来方向。
translated by 谷歌翻译
为了构建人工神经网络,例如生物智能系统,最近的作品将许多任务统一为通才模型,该模型可以使用共享参数处理各种任务,并且没有任何特定于任务的模块。尽管通才模型在各种基准上取得了令人鼓舞的结果,但与任务特殊模型相比,它们在某些任务上具有绩效降解。在这项工作中,我们发现不同任务和方式之间的干扰是这种现象的主要因素。为了减轻这种干扰,我们将条件混合物(条件MOE)引入通才模型。建议在不同级别的条件下采用路由策略来考虑培训/推理成本和概括能力。通过合并提出的条件MOE,最近提出的通才模型Uni-Pectiver可以有效地减轻任务和方式的干扰,并通过迅速调整1%的下游数据,从而在一系列下游任务上实现最新的结果。 。此外,有条件的MOE的引入仍然具有通才模型对新任务(例如视频文本检索和视频标题)进行零摄像推断的概括能力。应发布代码和预培训的通才模型。
translated by 谷歌翻译