最近的变形金刚和多层Perceptron(MLP)模型的进展为计算机视觉任务提供了新的网络架构设计。虽然这些模型在许多愿景任务中被证明是有效的,但在图像识别之类的愿景中,仍然存在挑战,使他们适应低级视觉。支持高分辨率图像和本地注意力的局限性的不灵活性可能是使用变压器和MLP在图像恢复中的主要瓶颈。在这项工作中,我们介绍了一个多轴MLP基于MARIC的架构,称为Maxim,可用作用于图像处理任务的高效和灵活的通用视觉骨干。 Maxim使用UNET形的分层结构,并支持由空间门控MLP启用的远程交互。具体而言,Maxim包含两个基于MLP的构建块:多轴门控MLP,允许局部和全球视觉线索的高效和可扩展的空间混合,以及交叉栅栏,替代跨关注的替代方案 - 细分互补。这两个模块都仅基于MLP,而且还受益于全局和“全卷积”,两个属性对于图像处理是可取的。我们广泛的实验结果表明,所提出的Maxim模型在一系列图像处理任务中实现了十多个基准的最先进的性能,包括去噪,失败,派热,脱落和增强,同时需要更少或相当的数量参数和拖鞋而不是竞争模型。
translated by 谷歌翻译
视频质量评估(VQA)仍然是一个重要而挑战性的问题,影响了最广泛的尺度的许多应用程序。移动设备和云计算技术的最新进展使得可以捕获,处理和共度高分辨率,高分辨率(HFR)视频几乎瞬间。能够监控和控制这些流式视频的质量可以使得能够提供更令人愉快的内容和感知的优化速率控制。因此,需要一种强迫需要开发可以在巨大尺度部署的VQA模型。虽然最近的一些效果已应用于可变帧速率和HFR视频质量的全参考(FR)分析,但是没有研究帧速率变化的无引用(NR)VQA算法的开发。在这里,我们提出了一种用于评估HFR视频的一级盲VQA模型,我们将其配给了帧群感知视频评估程序W / O参考(Faver)。 Faver使用扩展模型的空间自然场景统计数据,即包括节省空间小波分解的视频信号,进行有效的帧速率敏感质量预测。我们对几个HFR视频质量数据集的广泛实验表明,PEVER以合理的计算成本优于其他盲VQA算法。为了便于可重复的研究和公共评估,在线可以在线进行狂热的实施:\ url {https://github.com/uniqzheng/hfr-bvqa}。
translated by 谷歌翻译
用户生成的内容(UGC)的盲或禁区视频质量评估已成为趋势,具有挑战性,迄今未解决的问题。因此,适用于该内容的准确和高效的视频质量预测因素都需要实现更智能的分析和处理UGC视频的需求。以前的研究表明,自然场景统计和深度学习特征既足以捕获空​​间扭曲,这有助于UGC视频质量问题的重要方面。然而,这些模型无法对实际应用中预测复杂和不同的UGC视频的质量无能为力或效率低。在这里,我们为UGC含量介绍了一种有效且高效的视频质量模型,我们将我们展示快速准确的视频质量评估员(Rapique),我们展示了与最先进的(SOTA)模型相对表现,而是具有订单-magnitude更快的运行时。 Rapique结合并利用了质量意识的现场统计特征和语义知识的深度卷积功能的优势,使我们能够设计用于视频质量建模的第一通用和有效的空间和时间(时空)带通统计模型。我们对最近的大型UGC视频质量数据库的实验结果表明,Rapique以相当更低的计算费用提供所有数据集的顶级表现。我们希望这项工作促进并激发进一步努力实现潜在的实时和低延迟应用程序的视频质量问题的实际建模。为促进公共用途,在线进行了求助的实施:\ url {https://github.com/vztu/rapique}。
translated by 谷歌翻译
我们呈现了对比邻域对准(CNA),一种歧管学习方法来维持学习特征的拓扑,由此映射到源(教师)模型的附近表示的数据点也被目标(学生)模型映射到邻居。目标模型旨在模拟使用对比损耗来模拟源代表空间的局部结构。CNA是一种无人监督的学习算法,不需要对各个样本的地面真理标签。CNA在三种情况下示出:歧管学习,其中模型在尺寸减小空间中保持原始数据的本地拓扑;模型蒸馏,其中小学生模型培训以模仿更大的老师;和遗留模型更新,其中旧模型被更强大的更强大的型号。实验表明,CNA能够在高维空间中捕获歧管,并与其域中的竞争方法相比提高性能。
translated by 谷歌翻译
双链DNA断裂(DSB)是一种DNA损伤的形式,可导致异常染色体重排。基于高吞吐量实验的最近技术具有明显的高成本和技术挑战。因此,我们设计了一种基于图形的神经网络的方法来预测DSB(GraphDSB),使用DNA序列特征和染色体结构信息。为了提高模型的表达能力,我们引入跳跃知识架构和几种有效的结构编码方法。结构信息对DSB预测的贡献是通过来自正常人体表皮角蛋白细胞(NHEK)和慢性髓性白血病细胞系(K562)的数据集的实验验证,并且消融研究进一步证明了所提出的设计部件的有效性GraphDSB框架。最后,我们使用GNNExplainer分析节点特征和拓扑到DSB预测的贡献,并证明了5-MER DNA序列特征和两种染色质相互作用模式的高贡献。
translated by 谷歌翻译
在过去十年中,深度神经网络在各种任务中取得了令人印象深刻的性能,例如自主驾驶,人脸识别和医学诊断。然而,事先作证表明,深度神经网络通过后门攻击将恶意小隐藏触发器注入模型培训,提高严重的安全威胁。要确定触发的神经元并防止反卧系攻击,我们利用福利价值并开发一种名为福利修剪(Shappruning)的新方法,该方法成功地从数据不足的情况下从模型中攻击(每级甚至没有数据) 。考虑到神经元之间的相互作用,Shappruning鉴定了少数感染的神经元(在所有神经元的1%以下),并在修剪诸如许多感染神经元后保护模型的结构和准确性。为了加速Shappruning,我们进一步提出了丢弃的阈值和$ \ epsilon $ -greedy策略以加速福利估计,使得只有几分钟的时间就可以修复中毒模型。实验证明了与现有方法相比,我们对各种攻击和任务的方法的有效性和鲁棒性。
translated by 谷歌翻译
深图形聚类,旨在揭示底层的图形结构并将节点划分为不同的群体,近年来引起了密集的关注。然而,我们观察到,在节点编码的过程中,现有方法遭受表示崩溃,这倾向于将所有数据映射到相同的表示中。因此,节点表示的鉴别能力是有限的,导致不满足的聚类性能。为了解决这个问题,我们提出了一种新颖的自我监督的深图聚类方法,通过以双向还原信息相关性来称呼双重关联减少网络(DCRN)。具体而言,在我们的方法中,我们首先将暹罗网络设计为编码样本。然后通过强制跨视图样本相关矩阵和跨视图特征相关矩阵分别近似两个标识矩阵,我们减少了双级的信息相关性,从而提高了所得特征的判别能力。此外,为了减轻通过在GCN中过度平滑引起的表示崩溃,我们引入了传播正规化术语,使网络能够利用浅网络结构获得远程信息。六个基准数据集的广泛实验结果证明了提出的DCRN对现有最先进方法的有效性。
translated by 谷歌翻译
半监督学习是一个具有挑战性的问题,旨在通过从有限标记的例子学习来构建模型。此任务的许多方法侧重于利用单独的未标记实例的预测,以单独进行正规化网络。然而,分别处理标记和未标记的数据通常导致从标记的例子中学习的质量事先知识的丢弃。 %,并且未能在标记和未标记的图像对之间的特征交互。在本文中,我们提出了一种新的半监督语义细分方法,名为Guidedmix-Net,通过利用标签信息来指导未标记的实例的学习。具体而言,Guidedmix-Net采用三种操作:1)类似标记的未标记图像对的插值; 2)转让互动信息; 3)伪面具的概括。它使分段模型可以通过将知识从标记的样本转移到未标记的数据来学习未标记数据的更高质量的伪掩模。除了用于标记数据的监督学习之外,使用来自混合数据的生成的伪掩模共同学习未标记数据的预测。对Pascal VOC的大量实验2012年,城市景观展示了我们的Guidedmix-Net的有效性,这实现了竞争性的细分准确性,并与以前的方法相比,通过+7美元\%$大大改善Miou。
translated by 谷歌翻译
精确和实时轨道车辆本地化以及铁路环境监测对于铁路安全至关重要。在这封信中,我们提出了一种基于多激光器的同时定位和映射(SLAM)系统,用于铁路应用。我们的方法从测量开始预处理,以便去噪并同步多个LIDAR输入。根据LIDAR放置使用不同的帧到框架注册方法。此外,我们利用来自提取的轨道轨道的平面约束来提高系统精度。本地地图进一步与利用绝对位置测量的全局地图对齐。考虑到不可避免的金属磨损和螺杆松动,在手术期间唤醒了在线外在细化。在收集3000公里的数据集上广泛验证了所提出的方法。结果表明,所提出的系统与大规模环境的有效映射一起实现了精确且稳健的本地化。我们的系统已应用于运费交通铁路以监控任务。
translated by 谷歌翻译
本文通过模仿人脑的学习和思维过程来提出基于语义聚类的扣除学习。人类可以根据经验和认知做出判决,结果,没有人会识别一个未知的动物作为汽车。灵感来自这种观察,我们建议使用之前的聚类培训深度学习模型,可以指导模型来学习语义的能力,从分类属性中宣传和总结,例如属于动物的猫而与车辆有关的汽车。特别是,如果图像被标记为猫,则培训模型以了解“此图像完全不是动物的异常值”。所提出的方法实现了语义空间中的高级聚类,使模型能够在学习过程中推断各种类之间的关系。此外,本文介绍了一种基于语义的基于语义的随机搜索,对相反的标签,以确保聚类的平滑分布和分类器的鲁棒性。理论上和经验通过广泛的实验支持拟议的方法。我们将跨新型分类器的性能进行比较,在流行的基准上,通过向数据集添加噪声标记来验证泛化能力。实验结果表明了所提出的方法的优越性。
translated by 谷歌翻译