卷积神经网络(CNN)通过深度体系结构获得了出色的性能。但是,这些CNN在复杂的场景下通常对图像超分辨率(SR)实现较差的鲁棒性。在本文中,我们通过利用不同类型的结构信息来获得高质量图像,提出了异质组SR CNN(HGSRCNN)。具体而言,HGSRCNN的每个异质组块(HGB)都采用含有对称组卷积块和互补的卷积块的异质体系结构,并以平行方式增强不同渠道的内部和外部关系,以促进富裕类型的较富裕类型的信息, 。为了防止出现获得的冗余功能,以串行方式具有信号增强功能的完善块旨在过滤无用的信息。为了防止原始信息的丢失,多级增强机制指导CNN获得对称架构,以促进HGSRCNN的表达能力。此外,开发了一种平行的向上采样机制来训练盲目的SR模型。广泛的实验表明,在定量和定性分析方面,提出的HGSRCNN获得了出色的SR性能。可以在https://github.com/hellloxiaotian/hgsrcnn上访问代码。
translated by 谷歌翻译
本文回顾了AIM 2022上压缩图像和视频超级分辨率的挑战。这项挑战包括两条曲目。轨道1的目标是压缩图像的超分辨率,轨迹〜2靶向压缩视频的超分辨率。在轨道1中,我们使用流行的数据集DIV2K作为培训,验证和测试集。在轨道2中,我们提出了LDV 3.0数据集,其中包含365个视频,包括LDV 2.0数据集(335个视频)和30个其他视频。在这一挑战中,有12支球队和2支球队分别提交了赛道1和赛道2的最终结果。所提出的方法和解决方案衡量了压缩图像和视频上超分辨率的最先进。提出的LDV 3.0数据集可在https://github.com/renyang-home/ldv_dataset上找到。此挑战的首页是在https://github.com/renyang-home/aim22_compresssr。
translated by 谷歌翻译
低光视频增强(LLVE)是许多应用程序,例如拍摄和自动驾驶,是一项重要但艰巨的任务。与单图像低光增强不同,大多数LLVE方法都利用相邻帧的时间信息来恢复颜色并删除目标框架的噪声。但是,这些算法基于多帧对齐和增强的框架,在遇到极端低光或快速运动时可能会产生多帧融合工件。在本文中,受到低潜伏期和高动态事件范围的启发,我们使用来自多个帧的合成事件来指导低光视频的增强和恢复。我们的方法包含三个阶段:1)事件合成和增强,2)事件和图像融合,以及3)低光增强。在此框架中,我们分别为第二阶段和第三阶段设计了两个新型模块(事件图像融合变换和事件引导的双分支)。广泛的实验表明,我们的方法在合成数据集和真实LLVE数据集上都优于现有的低光视频或单个图像增强方法。
translated by 谷歌翻译
人工智能的最新进展在很大程度上受益于更好的神经网络体系结构。这些体系结构是昂贵的反复试验过程的产物。为了简化此过程,我们开发了Archexplorer,这是一种视觉分析方法,用于了解神经体系结构空间并汇总设计原理。我们方法背后的关键思想是通过利用体系结构之间的结构距离来解释建筑空间。我们将成对距离的计算提出解决,以解决全对最短路径问题。为了提高效率,我们将此问题分解为一组最短的路径问题。时间复杂性从O(KN^2n)降低到O(KNN)。根据它们之间的距离,构造在层次上聚集。已经开发了基于圆圈的架构可视化,以传达群集和每个集群中架构的本地社区之间的全球关系。提出了两项​​案例研究和一项分析后,以证明Argsplorer在总结设计原理和选择表现更好的架构方面的有效性。
translated by 谷歌翻译
为了使婴儿脑瘫(CP)的早期医疗干预,早期诊断出脑损伤至关重要。尽管一般运动评估(GMA)在早期CP检测中显示出令人鼓舞的结果,但它很费力。大多数现有作品都以视频为输入,以对GMA自动化进行烦躁的动作(FMS)分类。这些方法需要对视频进行完整的观察,并且无法本地化包含正常FMS的视频帧。因此,我们提出了一种名为WO-GMA的新颖方法,以在弱监督的在线环境中执行FMS本地化。首先将婴儿体重点作为WO-GMA的输入提取。然后,WO-GMA执行本地时空提取,然后进行两个网络分支,以生成伪夹标签和模型在线操作。凭借剪辑级伪标签,动作建模分支学会以在线方式检测FMS。具有757个不同婴儿视频的数据集上的实验结果表明,WO-GMA可以获得最新的视频级别分类和Cliplevel检测结果。此外,仅需要前20%的视频持续时间才能获得与完全观察到的分类结果,这意味着FMS诊断时间大大缩短了。代码可在以下网址获得:https://github.com/scofiedluo/wo-gma。
translated by 谷歌翻译
尽管完全监督的人类骨架序列建模成功,但使用自我监督的预训练进行骨架序列表示学习一直是一个活跃的领域,因为很难在大规模上获取特定于任务的骨骼注释。最近的研究重点是使用对比学习学习视频级别的时间和歧视性信息,但忽略了人类骨骼的层次空间时间。与视频级别的这种表面监督不同,我们提出了一种自我监督的分层预训练方案,该方案纳入了基于层次变压器的骨骼骨骼序列编码器(HI-TRS),以明确捕获空间,短期和长期和长期框架,剪辑和视频级别的时间依赖性分别。为了通过HI-TR评估提出的自我监督预训练方案,我们进行了广泛的实验,涵盖了三个基于骨架的下游任务,包括动作识别,动作检测和运动预测。根据监督和半监督评估协议,我们的方法实现了最新的性能。此外,我们证明了我们的模型在训练阶段中学到的先验知识具有强大的下游任务的转移能力。
translated by 谷歌翻译
基于信息瓶颈(IB)的多视图学习提供了一种信息理论原则,用于寻找异质数据描述中包含的共享信息。但是,它的巨大成功通常归因于估计网络变得复杂时棘手的多元互助信息。此外,表示折衷的表示,{\ it},预测压缩和足够的一致性权衡,使IB难以同时满足这两个要求。在本文中,我们设计了几种变分信息瓶颈,以利用两个关键特征({\ it,即},充分性和一致性)用于多视图表示学习。具体而言,我们提出了一种多视图变量蒸馏(MV $^2 $ d)策略,以通过给出观点的任意输入,但没有明确估算它,从而为拟合MI提供了可扩展,灵活和分析的解决方案。在严格的理论保证下,我们的方法使IB能够掌握观测和语义标签之间的内在相关性,从而自然产生预测性和紧凑的表示。同样,我们的信息理论约束可以通过消除任务 - 求核和特定信息的信息来有效地中和对异质数据的敏感性,从而阻止在多种视图情况下两种权衡。为了验证理论上的策略,我们将方法应用于三种不同应用下的各种基准。广泛的定量和定性实验证明了我们对最新方法的方法的有效性。
translated by 谷歌翻译
基于模型的离线优化通过动态感知政策为策略学习和分布外概括提供了新的观点,在该策略中,学会的政策可以适应培训阶段列举的不同动态。但是,由于离线设置下的限制,学到的模型无法很好地模仿真实的动态,以支持可靠的分发勘探,这仍然阻碍了政策以良好的概括。为了缩小差距,先前的作品大致集成了随机初始化的模型,以更好地近似实际动力学。但是,这种做法是昂贵且效率低下的,并且无法保证学识渊博的模型可以近似真正的动态,我们在本文中命名了覆盖性。我们通过生成具有可证明的能力以有效且可控制的方式覆盖真实动态的模型来积极解决这个问题。为此,我们根据动力学下的策略占用,为动态模型设计一个距离度量,并提出了一种算法来生成模型,以优化其对真实动力学的覆盖范围。我们对模型生成过程进行了理论分析,并证明我们的算法可以提供增强的覆盖性。作为一项下游任务,我们以较小或没有保守的惩罚训练动态感知政策,实验表明我们的算法在现有的离线RL基准测试中优于先前的离线方法。我们还发现,通过我们的方法学到的政策具有更好的零转移性能,这意味着它们的概括更好。
translated by 谷歌翻译
具有强大学习能力的CNN被广泛选择以解决超分辨率问题。但是,CNN依靠更深的网络体系结构来提高图像超分辨率的性能,这可能会增加计算成本。在本文中,我们提出了一个增强的超分辨率组CNN(ESRGCNN),具有浅层架构,通过完全融合了深层和宽的通道特征,以在单图超级分辨率中的不同通道的相关性提取更准确的低频信息( SISR)。同样,ESRGCNN中的信号增强操作对于继承更长途上下文信息以解决长期依赖性也很有用。将自适应上采样操作收集到CNN中,以获得具有不同大小的低分辨率图像的图像超分辨率模型。广泛的实验报告说,我们的ESRGCNN在SISR中的SISR性能,复杂性,执行速度,图像质量评估和SISR的视觉效果方面超过了最先进的实验。代码可在https://github.com/hellloxiaotian/esrgcnn上找到。
translated by 谷歌翻译
学习自然图像恢复的一般性先验是一项重要但具有挑战性的任务。早期方法主要涉及手工制作的先验,包括归一化稀疏性,L_0梯度,暗通道先验等。最近,深层神经网络已用于学习各种图像先验,但不能保证概括。在本文中,我们提出了一种新颖的方法,该方法将任务敏捷的先验嵌入到变压器中。我们的方法称为任务不合时宜的先验嵌入(磁带),由两个阶段组成,即,任务不合时宜的预训练和特定于任务的微调,第一阶段将有关自然图像的先验知识嵌入到变压器中,第二阶段嵌入了第二阶段。阶段提取知识以帮助下游图像恢复。对各种降解的实验验证了胶带的有效性。根据PSNR的图像恢复性能提高了多达1.45dB,甚至超过了特定于任务的算法。更重要的是,磁带显示了从退化的图像中解开广义图像先验的能力,这些图像具有良好的转移能力,可以转移到未知的下游任务。
translated by 谷歌翻译