在这项工作中,我们介绍了梯度暹罗网络(GSN)进行图像质量评估。所提出的方法熟练地捕获了全参考图像质量评估(IQA)任务中扭曲的图像和参考图像之间的梯度特征。我们利用中央微分卷积获得图像对中隐藏的语义特征和细节差异。此外,空间注意力指导网络专注于与图像细节相关的区域。对于网络提取的低级,中级和高级功能,我们创新设计了一种多级融合方法,以提高功能利用率的效率。除了常见的均方根错误监督外,我们还进一步考虑了批处理样本之间的相对距离,并成功地将KL差异丢失应用于图像质量评估任务。我们在几个公开可用的数据集上试验了提出的算法GSN,并证明了其出色的性能。我们的网络赢得了NTIRE 2022感知图像质量评估挑战赛1的第二名。
translated by 谷歌翻译
具有高分辨率的视网膜光学相干断层扫描术(八八)对于视网膜脉管系统的定量和分析很重要。然而,八颗图像的分辨率与相同采样频率的视野成反比,这不利于临床医生分析较大的血管区域。在本文中,我们提出了一个新型的基于稀疏的域适应超分辨率网络(SASR),以重建现实的6x6 mm2/低分辨率/低分辨率(LR)八八粒图像,以重建高分辨率(HR)表示。更具体地说,我们首先对3x3 mm2/高分辨率(HR)图像进行简单降解,以获得合成的LR图像。然后,采用一种有效的注册方法在6x6 mm2图像中以其相应的3x3 mm2图像区域注册合成LR,以获得裁切的逼真的LR图像。然后,我们提出了一个多级超分辨率模型,用于对合成数据进行全面监督的重建,从而通过生成的对流策略指导现实的LR图像重建现实的LR图像,该策略允许合成和现实的LR图像可以在特征中统一。领域。最后,新型的稀疏边缘感知损失旨在动态优化容器边缘结构。在两个八八集中进行的广泛实验表明,我们的方法的性能优于最先进的超分辨率重建方法。此外,我们还研究了重建结果对视网膜结构分割的性能,这进一步验证了我们方法的有效性。
translated by 谷歌翻译
使用机器学习来求解组合优化(CO)问题是具有挑战性的,尤其是当数据未标记时。这项工作为CO问题提供了无监督的学习框架。我们的框架遵循标准的放松加能方法,并采用神经网络来参数放松的解决方案,以便简单的后传播可以端到端训练模型。我们的关键贡献是,观察到,如果放松的目标满足入门凹度,那么低优化损失就可以保证最终积分解决方案的质量。该观察结果显着扩大了受ERDOS概率方法启发的先前框架的适用性。特别是,该观察结果可以指导目标模型的设计,在这些应用程序中未明确给出目标,同时需要在先验中进行建模。我们通过解决合成图优化问题以及两个现实世界应用程序来评估我们的框架,包括电路设计中的资源分配和近似计算。我们的框架在很大程度上优于基于Na \“ {i}的放松,增强学习和Gumbel-Softmax技巧的基线。
translated by 谷歌翻译
深神经网络(DNNS)在各种机器学习(ML)应用程序中取得了巨大成功,在计算机视觉,自然语言处理和虚拟现实等中提供了高质量的推理解决方案。但是,基于DNN的ML应用程序也带来计算和存储要求的增加了很多,对于具有有限的计算/存储资源,紧张的功率预算和较小形式的嵌入式系统而言,这尤其具有挑战性。挑战还来自各种特定应用的要求,包括实时响应,高通量性能和可靠的推理准确性。为了应对这些挑战,我们介绍了一系列有效的设计方法,包括有效的ML模型设计,定制的硬件加速器设计以及硬件/软件共同设计策略,以启用嵌入式系统上有效的ML应用程序。
translated by 谷歌翻译
基于模型的强化学习方法在许多任务中实现了显着的样本效率,但它们的性能通常受模型错误的存在限制。为减少模型错误,以前的作品使用单一设计的网络来符合整个环境动态,将环境动态视为黑匣子。然而,这些方法缺乏考虑动态可能包含多个子动态的环境分解性,这可以单独建模,允许我们更准确地构建世界模型。在本文中,我们提出了环境动态分解(ED2),这是一种以分解方式模拟环境的新型世界模型施工框架。 ED2包含两个关键组件:子动力学发现(SD2)和动态分解预测(D2P)。 SD2发现环境中的子动力学,然后D2P构建子动力学后的分解世界模型。 ED2可以容易地与现有的MBRL算法和经验结果表明,ED2显着降低了模型误差,并提高了各种任务上最先进的MBRL算法的性能。
translated by 谷歌翻译
大多数现有的神经结构搜索(NAS)算法专用于下游任务,例如计算机视觉中的图像分类。然而,广泛的实验表明,突出的神经架构,例如计算机视觉和自然语言处理中的LSTM中的reset,通常擅长从输入数据中提取模式并在不同的下游任务上执行良好。在本文中,我们试图回答与NAS相关的两个基本问题。 (1)是否有必要使用特定的下游任务的性能来评估和搜索良好的神经架构? (2)我们可以有效且有效地执行NAS,同时对下游任务无关吗?要回答这些问题,我们提出了一种新颖和通用NAS框架,称为通用NAS(Genna)。 Genna不使用特定于特定的标签,而是通过对架构评估的一组手动设计的合成信号基础采用回归。这种自我监督的回归任务可以有效地评估架构的内在力量以捕获和转换输入信号模式,并允许更多地使用训练样本。在13个CNN搜索空间和一个NLP空间中的大量实验和一个NLP空间在评估神经架构(通过近似性能与下游任务性能之间的排名相关Spearman的RON)和收敛速度之间的rho(通过排名相关Spearman的Rho量化)来证明GennaS的显着效率培训(几秒钟内)。
translated by 谷歌翻译
由于现实世界图形/网络数据中的广泛标签稀缺问题,因此,自我监督的图形神经网络(GNN)非常需要。曲线图对比度学习(GCL),通过训练GNN以其不同的增强形式最大化相同图表之间的表示之间的对应关系,即使在不使用标签的情况下也可以产生稳健和可转移的GNN。然而,GNN由传统的GCL培训经常冒险捕获冗余图形特征,因此可能是脆弱的,并在下游任务中提供子对比。在这里,我们提出了一种新的原理,称为普通的普通GCL(AD-GCL),其使GNN能够通过优化GCL中使用的对抗性图形增强策略来避免在训练期间捕获冗余信息。我们将AD-GCL与理论解释和设计基于可训练的边缘滴加图的实际实例化。我们通过与最先进的GCL方法进行了实验验证了AD-GCL,并在无监督,6 \%$ 14 \%$ 6 \%$ 14 \%$ 6 \%$ 6 \%$ 3 \%$ 3 \%$达到半监督总体学习设置,具有18个不同的基准数据集,用于分子属性回归和分类和社交网络分类。
translated by 谷歌翻译
尽管高级合成(HLS)工具取得了巨大成功,但我们遵守几个未解决的挑战:1)HLS中编程风格的高级抽象有时会隐藏优化机会; 2)现有的HLS工具在不同的目标和限制之间不提供灵活的权衡(Pareto)解决方案; 3)由此产生的RTL设计的实际质量难以预测。为了解决这些挑战,我们提出了一个最终框架Namelyironman。主要目标是启用灵活和自动化的设计空间探索(DSE),以提供用户指定的约束,或不同目标之间的各种权衡(例如不同类型的资源,区域和延迟)提供最佳解决方案。这种DSE要么需要繁琐的手动努力,或者无法通过现有的HLS工具实现这些目标。 Ironman中有三个组成部分:1)GPP,一种高度准确的图形 - 神经网络的性能和资源预测因子; 2)RLMD,一种基于加强学习的多目标DSE引擎,探讨了最佳资源分配策略,以提供不同目标之间的帕累托解决方案; 3)CT,代码变换器来帮助RLMD和GPP,从原始HLS C / C ++中提取数据流图,并自动使用HLS指令生成可合成的代码。实验结果表明:1)GPP实现了高预测精度,降低了10.9倍的资源利用率和5.7倍的HLS工具的预测误差; 2)RLMD获得优于遗传算法的最佳或帕累托溶液,分别以12.7%和12.9%模拟退火。 3)Ironman能够找到优化的解决方案,完美匹配各种DSP约束,DSP较少,延迟高达6倍,而不是HLS工具,同时比启发式算法和HLS工具快400倍。
translated by 谷歌翻译
As one of the most important psychic stress reactions, micro-expressions (MEs), are spontaneous and transient facial expressions that can reveal the genuine emotions of human beings. Thus, recognizing MEs (MER) automatically is becoming increasingly crucial in the field of affective computing, and provides essential technical support in lie detection, psychological analysis and other areas. However, the lack of abundant ME data seriously restricts the development of cutting-edge data-driven MER models. Despite the recent efforts of several spontaneous ME datasets to alleviate this problem, it is still a tiny amount of work. To solve the problem of ME data hunger, we construct a dynamic spontaneous ME dataset with the largest current ME data scale, called DFME (Dynamic Facial Micro-expressions), which includes 7,526 well-labeled ME videos induced by 671 participants and annotated by more than 20 annotators throughout three years. Afterwards, we adopt four classical spatiotemporal feature learning models on DFME to perform MER experiments to objectively verify the validity of DFME dataset. In addition, we explore different solutions to the class imbalance and key-frame sequence sampling problems in dynamic MER respectively on DFME, so as to provide a valuable reference for future research. The comprehensive experimental results show that our DFME dataset can facilitate the research of automatic MER, and provide a new benchmark for MER. DFME will be published via https://mea-lab-421.github.io.
translated by 谷歌翻译
Face Anti-spoofing (FAS) is essential to secure face recognition systems from various physical attacks. However, recent research generally focuses on short-distance applications (i.e., phone unlocking) while lacking consideration of long-distance scenes (i.e., surveillance security checks). In order to promote relevant research and fill this gap in the community, we collect a large-scale Surveillance High-Fidelity Mask (SuHiFiMask) dataset captured under 40 surveillance scenes, which has 101 subjects from different age groups with 232 3D attacks (high-fidelity masks), 200 2D attacks (posters, portraits, and screens), and 2 adversarial attacks. In this scene, low image resolution and noise interference are new challenges faced in surveillance FAS. Together with the SuHiFiMask dataset, we propose a Contrastive Quality-Invariance Learning (CQIL) network to alleviate the performance degradation caused by image quality from three aspects: (1) An Image Quality Variable module (IQV) is introduced to recover image information associated with discrimination by combining the super-resolution network. (2) Using generated sample pairs to simulate quality variance distributions to help contrastive learning strategies obtain robust feature representation under quality variation. (3) A Separate Quality Network (SQN) is designed to learn discriminative features independent of image quality. Finally, a large number of experiments verify the quality of the SuHiFiMask dataset and the superiority of the proposed CQIL.
translated by 谷歌翻译