在图像美学质量评估的任务中,由于美学数据集的正常分布,难以达到高分区域和低得分面积。为了减少标签中的错误并解决正常数据分布的问题,我们提出了一个具有名为AMD-CR的分类和回归的新的美学混合数据集,我们培训了元重传网络以重新重量培训数据的损失不同。此外,我们还提供了一种基于二进制分类任务的伪标签的不同阶段的培训策略,然后我们将其用于审美培训,该课程涉及分类和回归任务的不同阶段。在网络结构的构造中,我们构建一种可以适应输入图像的任何大小的美学自适应块(AAB)结构。此外,我们还使用高效的通道注意力(ECA)来加强每个任务的特征提取能力。实验结果表明,与SROCC中的常规方法相比,我们的方法改善了0.1112。该方法还可以帮助找到无人驾驶飞行器(UAV)和车辆的最佳审美路径规划。
translated by 谷歌翻译
随着社交软件和多媒体技术的持续发展,图像已成为传播信息和社交的重要载体。如何全面评估图像已成为最近研究的重点。传统的图像美学评估方法通常采用单个数值总体评估评分,该评估具有一定的主观性,无法再满足更高的美学要求。在本文中,我们构建了一个称为Aesthetic混合数据集的新图像属性数据集,该数据集具有属性(AMD-A)和设计融合的外部属性功能。此外,我们还提出了一种有效的方法,用于在混合多属性数据集上进行图像美学属性评估,并通过使用ExtisticNet-B0作为骨干网络来构建多任务网络体系结构。我们的模型可以实现美学分类,整体评分和属性评分。在每个子网络中,我们通过ECA通道注意模块改进特征提取。至于最终的整体评分,我们采用了教师学习网络的想法,并使用分类子网络来指导美学的整体细粒回归。实验结果,使用思维螺旋式的结果表明,我们提出的方法可以有效地改善美学整体和属性评估的性能。
translated by 谷歌翻译
图像的美学质量被定义为图像美的度量或欣赏。美学本质上是一个主观性的财产,但是存在一些影响它的因素,例如图像的语义含量,描述艺术方面的属性,用于射击的摄影设置等。在本文中,我们提出了一种方法基于语义含量分析,艺术风格和图像的组成的图像自动预测图像的美学。所提出的网络包括:用于语义特征的预先训练的网络,提取(骨干网);依赖于骨干功能的多层的Perceptron(MLP)网络,用于预测图像属性(attributeNet);一种自适应的HyperNetwork,可利用以前编码到attributeNet生成的嵌入的属性以预测专用于美学估计的目标网络的参数(AestheticNet)。鉴于图像,所提出的多网络能够预测:风格和组成属性,以及美学分数分布。结果三个基准数据集展示了所提出的方法的有效性,而消融研究则更好地了解所提出的网络。
translated by 谷歌翻译
手卫生是世界卫生组织(WHO)提出的标准六步洗手行动。但是,没有很好的方法来监督医务人员进行手卫生,这带来了疾病传播的潜在风险。在这项工作中,我们提出了一项新的计算机视觉任务,称为手动卫生评估,以为医务人员提供手动卫生的明智监督。现有的行动评估工作通常在整个视频上做出总体质量预测。但是,手动卫生作用的内部结构在手工卫生评估中很重要。因此,我们提出了一个新颖的细粒学习框架,以联合方式进行步骤分割和关键动作得分手,以进行准确的手部卫生评估。现有的时间分割方法通常采用多阶段卷积网络来改善分割的鲁棒性,但由于缺乏远距离依赖性,因此很容易导致过度分割。为了解决此问题,我们设计了一个多阶段卷积转换器网络,以进行步骤细分。基于这样的观察,每个手洗步骤都涉及确定手洗质量的几个关键动作,我们设计了一组关键的动作得分手,以评估每个步骤中关键动作的质量。此外,在手工卫生评估中缺乏统一的数据集。因此,在医务人员的监督下,我们贡献了一个视频数据集,其中包含300个带有细粒注释的视频序列。数据集上的广泛实验表明,我们的方法很好地评估了手动卫生视频并取得了出色的性能。
translated by 谷歌翻译
完全监督的显着对象检测(SOD)方法取得了长足的进步,但是这种方法通常依赖大量的像素级注释,这些注释耗时且耗时。在本文中,我们专注于混合标签下的新的弱监督SOD任务,其中监督标签包括传统无监督方法生成的大量粗标签和少量的真实标签。为了解决此任务中标签噪声和数量不平衡问题的问题,我们设计了一个新的管道框架,采用三种复杂的培训策略。在模型框架方面,我们将任务分解为标签细化子任务和显着对象检测子任务,它们相互合作并交替训练。具体而言,R-NET设计为配备有指导和聚合机制的搅拌机的两流编码器模型(BGA),旨在纠正更可靠的伪标签的粗标签,而S-NET是可更换的。由当前R-NET生成的伪标签监督的SOD网络。请注意,我们只需要使用训练有素的S-NET进行测试。此外,为了确保网络培训的有效性和效率,我们设计了三种培训策略,包括替代迭代机制,小组智慧的增量机制和信誉验证机制。五个草皮基准的实验表明,我们的方法在定性和定量上都针对弱监督/无监督/无监督的方法实现了竞争性能。
translated by 谷歌翻译
图像美学质量评估在过去十年中很受欢迎。除数值评估外,还提出了自然语言评估(美学字幕)来描述图像的一般美学印象。在本文中,我们提出了美学属性评估,即审美属性字幕,即评估诸如组成,照明使用和颜色布置之类的美学属性。标记美学属性的注释是一项非平凡的任务,该评论限制了相应数据集的规模。我们以半自动方式构建了一个名为DPC-CAPTIONSV2的新型数据集。知识从带有完整注释的小型数据集转移到摄影网站的大规模专业评论。 DPC-CAPTIONSV2的图像包含最多4个美学属性的注释:组成,照明,颜色和主题。然后,我们根据BUTD模型和VLPSA模型提出了一种新版本的美学多属性网络(AMANV2)。 AMANV2融合了带有完整注释的小规模PCCD数据集和带有完整注释的大规模DPCCAPTIONSV2数据集的混合物的功能。 DPCCAPTIONSV2的实验结果表明,我们的方法可以预测对4种美学属性的评论,这些评论比上一个Aman模型所产生的方法更接近美学主题。通过图像字幕的评估标准,专门设计的AMANV2模型对CNN-LSTM模型和AMAN模型更好。
translated by 谷歌翻译
Recent years witnessed the breakthrough of face recognition with deep convolutional neural networks. Dozens of papers in the field of FR are published every year. Some of them were applied in the industrial community and played an important role in human life such as device unlock, mobile payment, and so on. This paper provides an introduction to face recognition, including its history, pipeline, algorithms based on conventional manually designed features or deep learning, mainstream training, evaluation datasets, and related applications. We have analyzed and compared state-of-the-art works as many as possible, and also carefully designed a set of experiments to find the effect of backbone size and data distribution. This survey is a material of the tutorial named The Practical Face Recognition Technology in the Industrial World in the FG2023.
translated by 谷歌翻译
With the wide applications of colored point cloud in many fields, point cloud perceptual quality assessment plays a vital role in the visual communication systems owing to the existence of quality degradations introduced in various stages. However, the existing point cloud quality assessments ignore the mechanism of human visual system (HVS) which has an important impact on the accuracy of the perceptual quality assessment. In this paper, a progressive knowledge transfer based on human visual perception mechanism for perceptual quality assessment of point clouds (PKT-PCQA) is proposed. The PKT-PCQA merges local features from neighboring regions and global features extracted from graph spectrum. Taking into account the HVS properties, the spatial and channel attention mechanism is also considered in PKT-PCQA. Besides, inspired by the hierarchical perception system of human brains, PKT-PCQA adopts a progressive knowledge transfer to convert the coarse-grained quality classification knowledge to the fine-grained quality prediction task. Experiments on three large and independent point cloud assessment datasets show that the proposed no reference PKT-PCQA network achieves better of equivalent performance comparing with the state-of-the-art full reference quality assessment methods, outperforming the existed no reference quality assessment network.
translated by 谷歌翻译
很少有视觉识别是指从一些标记实例中识别新颖的视觉概念。通过将查询表示形式与类表征进行比较以预测查询实例的类别,许多少数射击的视觉识别方法采用了基于公制的元学习范式。但是,当前基于度量的方法通常平等地对待所有实例,因此通常会获得有偏见的类表示,考虑到并非所有实例在总结了类级表示的实例级表示时都同样重要。例如,某些实例可能包含无代表性的信息,例如过多的背景和无关概念的信息,这使结果偏差。为了解决上述问题,我们提出了一个新型的基于公制的元学习框架,称为实例自适应类别表示网络(ICRL-net),以进行几次视觉识别。具体而言,我们开发了一个自适应实例重新平衡网络,具有在生成班级表示,通过学习和分配自适应权重的不同实例中的自适应权重时,根据其在相应类的支持集中的相对意义来解决偏见的表示问题。此外,我们设计了改进的双线性实例表示,并结合了两个新型的结构损失,即,阶层内实例聚类损失和阶层间表示区分损失,以进一步调节实例重估过程并完善类表示。我们对四个通常采用的几个基准测试:Miniimagenet,Tieredimagenet,Cifar-FS和FC100数据集进行了广泛的实验。与最先进的方法相比,实验结果证明了我们的ICRL-NET的优势。
translated by 谷歌翻译
深度学习已成为火星探索的强大工具。火星地形细分是一项重要的火星愿景任务,它是漫游者自动计划和安全驾驶的基础。但是,现有的基于深度学习的地形细分方法遇到了两个问题:一个是缺乏足够的详细和高信心注释,另一个是模型过度依赖于注释的培训数据。在本文中,我们从联合数据和方法设计的角度解决了这两个问题。我们首先提出了一个新的火星地形细分数据集,该数据集包含6K高分辨率图像,并根据置信度稀疏注释,以确保标签的高质量。然后从这些稀疏的数据中学习,我们为火星地形细分的基于表示的学习框架,包括一个自我监督的学习阶段(用于预训练)和半监督的学习阶段(用于微调)。具体而言,对于自我监督的学习,我们设计了一个基于掩盖图像建模(MIM)概念的多任务机制,以强调图像的纹理信息。对于半监督的学习,由于我们的数据集很少注释,因此我们鼓励该模型通过在线生成和利用伪标签来挖掘每个图像中未标记的区域的信息。我们将数据集和方法命名为MARS(S $^{5} $ MARS)的自我监督和半监督分割。实验结果表明,我们的方法可以超越最先进的方法,并通过很大的边距提高地形分割性能。
translated by 谷歌翻译
指导可学习的参数优化的一种吸引人的方法,例如特征图,是全球关注,它以成本的一小部分启发了网络智能。但是,它的损失计算过程仍然很短:1)我们只能产生一维的“伪标签”,因为该过程中涉及的人工阈值不健壮; 2)等待损失计算的注意力必然是高维的,而通过卷积减少它将不可避免地引入其他可学习的参数,从而使损失的来源混淆。为此,我们设计了一个基于软磁性注意的简单但有效的间接注意力优化(IIAO)模块,该模块将高维注意图转换为数学意义上的一维功能图,以通过网络中途进行损失计算,同时自动提供自适应多尺度融合以配备金字塔模块。特殊转化产生相对粗糙的特征,最初,区域的预测性谬误性随着人群的密度分布而变化,因此我们定制区域相关损失(RCLOSS)以检索连续错误的错误区域和平滑的空间信息。广泛的实验证明,我们的方法在许多基准数据集中超过了先前的SOTA方法。
translated by 谷歌翻译
利用深度学习的水提取需要精确的像素级标签。然而,在像素级别标记高分辨率遥感图像非常困难。因此,我们研究如何利用点标签来提取水体并提出一种名为邻居特征聚合网络(NFANET)的新方法。与PixelLevel标签相比,Point标签更容易获得,但它们会失去许多信息。在本文中,我们利用了局部水体的相邻像素之间的相似性,并提出了邻居采样器来重塑遥感图像。然后,将采样的图像发送到网络以进行特征聚合。此外,我们使用改进的递归训练算法进一步提高提取精度,使水边界更加自然。此外,我们的方法利用相邻特征而不是全局或本地特征来学习更多代表性。实验结果表明,所提出的NFANET方法不仅优于其他研究的弱监管方法,而且还获得与最先进的结果相似。
translated by 谷歌翻译
过去,图像检索是用于跨视图地理位置和无人机视觉本地化任务的主流解决方案。简而言之,图像检索的方式是通过过渡角度获得最终所需的信息,例如GPS。但是,图像检索的方式并非完全端到端。并且有一些多余的操作,例如需要提前准备功能库以及画廊构造的抽样间隔问题,这使得很难实施大规模应用程序。在本文中,我们提出了一个端到端定位方案,使用图像(FPI)查找点,该方案旨在通过源A的图像(无人机 - - 看法)。为了验证我们的框架的可行性,我们构建了一个新的数据集(UL14),该数据集旨在解决无人机视觉自我定位任务。同时,我们还建立了一个基于变压器的基线以实现端到端培训。另外,先前的评估方法不再适用于FPI框架。因此,提出了米级准确性(MA)和相对距离评分(RDS)来评估无人机定位的准确性。同时,我们初步比较了FPI和图像检索方法,而FPI的结构在速度和效率方面都可以提高性能。特别是,由于不同观点与剧烈的空间量表转换之间的巨大差异,FPI的任务仍然是巨大的挑战。
translated by 谷歌翻译
Crowd counting plays an important role in risk perception and early warning, traffic control and scene statistical analysis. The challenges of crowd counting in highly dense and complex scenes lie in the mutual occlusion of the human body parts, the large variation of the body scales and the complexity of imaging conditions. Deep learning based head detection is a promising method for crowd counting. However the highly concerned object detection networks cannot be well applied to this field for two main reasons. First, most of the existing head detection datasets are only annotated with the center points instead of bounding boxes which is mandatory for the canonical detectors. Second, the sample imbalance has not been overcome yet in highly dense and complex scenes because the existing loss functions calculate the positive loss at a single key point or in the entire target area with the same weight. To address these problems, We propose a novel loss function, called Mask Focal Loss, to unify the loss functions based on heatmap ground truth (GT) and binary feature map GT. Mask Focal Loss redefines the weight of the loss contributions according to the situ value of the heatmap with a Gaussian kernel. For better evaluation and comparison, a new synthetic dataset GTA\_Head is made public, including 35 sequences, 5096 images and 1732043 head labels with bounding boxes. Experimental results show the overwhelming performance and demonstrate that our proposed Mask Focal Loss is applicable to all of the canonical detectors and to various datasets with different GT. This provides a strong basis for surpassing the crowd counting methods based on density estimation.
translated by 谷歌翻译
Deep learning-based physical-layer secret key generation (PKG) has been used to overcome the imperfect uplink/downlink channel reciprocity in frequency division duplexing (FDD) orthogonal frequency division multiplexing (OFDM) systems. However, existing efforts have focused on key generation for users in a specific environment where the training samples and test samples obey the same distribution, which is unrealistic for real world applications. This paper formulates the PKG problem in multiple environments as a learning-based problem by learning the knowledge such as data and models from known environments to generate keys quickly and efficiently in multiple new environments. Specifically, we propose deep transfer learning (DTL) and meta-learning-based channel feature mapping algorithms for key generation. The two algorithms use different training methods to pre-train the model in the known environments, and then quickly adapt and deploy the model to new environments. Simulation results show that compared with the methods without adaptation, the DTL and meta-learning algorithms both can improve the performance of generated keys. In addition, the complexity analysis shows that the meta-learning algorithm can achieve better performance than the DTL algorithm with less time, lower CPU and GPU resources.
translated by 谷歌翻译
在过去的几十年中,盲目的图像质量评估(BIQA)旨在准确地预测图像质量而无需任何原始参考信息,但一直在广泛关注。特别是,在深层神经网络的帮助下,取得了巨大进展。但是,对于夜间图像(NTI)的BIQA的研究仍然较少,通常患有复杂的真实扭曲,例如可见性降低,低对比度,添加噪声和颜色失真。这些多样化的真实降解特别挑战了有效的深神网络的设计,用于盲目NTI质量评估(NTIQE)。在本文中,我们提出了一个新颖的深层分解和双线性池网络(DDB-NET),以更好地解决此问题。 DDB-NET包含三个模块,即图像分解模块,一个特征编码模块和双线性池模块。图像分解模块的灵感来自Itinex理论,并涉及将输入NTI解耦到负责照明信息的照明层组件和负责内容信息的反射层组件。然后,编码模块的功能涉及分别植根于两个解耦组件的降解的特征表示。最后,通过将照明相关和与内容相关的降解作为两因素变化进行建模,将两个特征集组合在一起,将双线汇总在一起以形成统一的表示,以进行质量预测。在几个基准数据集上进行了广泛的实验,已对所提出的DDB-NET的优势得到了很好的验证。源代码将很快提供。
translated by 谷歌翻译
深度学习已被广​​泛用于医学图像分割,并且录制了录制了该领域深度学习的成功的大量论文。在本文中,我们使用深层学习技术对医学图像分割的全面主题调查。本文进行了两个原创贡献。首先,与传统调查相比,直接将深度学习的文献分成医学图像分割的文学,并为每组详细介绍了文献,我们根据从粗略到精细的多级结构分类目前流行的文献。其次,本文侧重于监督和弱监督的学习方法,而不包括无监督的方法,因为它们在许多旧调查中引入而且他们目前不受欢迎。对于监督学习方法,我们分析了三个方面的文献:骨干网络的选择,网络块的设计,以及损耗功能的改进。对于虚弱的学习方法,我们根据数据增强,转移学习和交互式分割进行调查文献。与现有调查相比,本调查将文献分类为比例不同,更方便读者了解相关理由,并将引导他们基于深度学习方法思考医学图像分割的适当改进。
translated by 谷歌翻译
基于无人机(UAV)基于无人机的视觉对象跟踪已实现了广泛的应用,并且由于其多功能性和有效性而引起了智能运输系统领域的越来越多的关注。作为深度学习革命性趋势的新兴力量,暹罗网络在基于无人机的对象跟踪中闪耀,其准确性,稳健性和速度有希望的平衡。由于开发了嵌入式处理器和深度神经网络的逐步优化,暹罗跟踪器获得了广泛的研究并实现了与无人机的初步组合。但是,由于无人机在板载计算资源和复杂的现实情况下,暹罗网络的空中跟踪仍然在许多方面都面临严重的障碍。为了进一步探索基于无人机的跟踪中暹罗网络的部署,这项工作对前沿暹罗跟踪器进行了全面的审查,以及使用典型的无人机板载处理器进行评估的详尽无人用分析。然后,进行板载测试以验证代表性暹罗跟踪器在现实世界无人机部署中的可行性和功效。此外,为了更好地促进跟踪社区的发展,这项工作分析了现有的暹罗跟踪器的局限性,并进行了以低弹片评估表示的其他实验。最后,深入讨论了基于无人机的智能运输系统的暹罗跟踪的前景。领先的暹罗跟踪器的统一框架,即代码库及其实验评估的结果,请访问https://github.com/vision4robotics/siamesetracking4uav。
translated by 谷歌翻译
在实际的工业生产中,评估钢板焊接效果是一项重要任务,焊接部分的分割是评估的基础。本文提出了一个工业焊接分割网络,基于与热图详细信息指导和图像垫子融合的深度学习语义分割算法,以解决焊接区域的自动分割问题。在现有的语义分割网络中,可以通过融合高级和低级层的特征来保留边界信息。但是,此方法可能导致低级层中空间信息的表达不足,从而导致分割边界定位不准确。我们提出了一个基于热图的详细指导模块,以完全表达低级网络中的分段区域边界信息以解决此问题。具体而言,可以通过添加详细的分支来预测分段边界,然后将其与蒙版标签生成的边界热图匹配以计算均方误差损失,从而增强边界信息的表达。此外,尽管深度学习在语义分割领域取得了巨大的成功,但由于在编码和解码过程中,由于经典分割网络引起的详细信息丢失,分割边界区域的精度并不高。本文介绍了一种矩阵算法,以校准语义分割网络的分割区域的边界以解决此问题。通过许多关于工业焊接数据集的实验,我们证明了我们方法的有效性,MIOU达到97.93%。值得注意的是,这种性能与人的手动细分相当(MIOU 97.96%)。
translated by 谷歌翻译
实例对象检测在智能监视,视觉导航,人机交互,智能服务和其他字段中扮演重要作用。灵感来自深度卷积神经网络(DCNN)的巨大成功,基于DCNN的实例对象检测已成为一个有前途的研究主题。为了解决DCNN始终需要大规模注释数据集来监督其培训的问题,而手动注释是耗尽和耗时的,我们提出了一种基于共同训练的新框架,称为克自我标记和检测(Gram-SLD) 。建议的克拉姆-SLD可以自动注释大量数据,具有非常有限的手动标记的关键数据并实现竞争性能。在我们的框架中,克朗损失被定义并用于构造两个完全冗余和独立的视图和一个关键的样本选择策略以及自动注释策略,可以全面考虑精度并回忆,以产生高质量的伪标签。 Public Gmu厨房数据集的实验,活动视觉数据集和自制的Bhid-Item DataSetDemonstrite,只有5%的标记训练数据,我们的克斯LLD比较了对象检测中的竞争性能(少于2%的地图丢失)通过完全监督的方法。在具有复杂和变化环境的实际应用中,所提出的方法可以满足实例对象检测的实时和准确性要求。
translated by 谷歌翻译