本文介绍了一种新的框架,以预测全向图像的视觉注意。我们的体系结构的关键设置是同时预测给定刺激的显着图和相应的扫描路径。该框架实现了一个完全编码器 - 解码器卷积神经网络,由注意模块增强以生成代表性显着图。另外,采用辅助网络通过SoftArgMax函数来生成可能的视口中心固定点。后者允许从特征映射派生固定点。为了利用扫描路径预测,然后应用自适应联合概率分布模型来通过利用基于编码器解码器的显着性图和基于扫描路径的显着热图来构建最终的不偏不倚的显着性图。在显着性和扫描路径预测方面评估所提出的框架,并将结果与​​Salient360上的最先进方法进行比较!数据集。结果表明,我们的框架和这种架构的益处的相关性,用于进一步全向视觉注意预测任务。
translated by 谷歌翻译
文化遗产的理解和保存对于社会来说是一个重要的问题,因为它代表了其身份的基本方面。绘画代表了文化遗产的重要组成部分,并且是不断研究的主题。但是,观众认为绘画与所谓的HVS(人类视觉系统)行为严格相关。本文重点介绍了一定数量绘画的视觉体验期间观众的眼动分析。在进一步的详细信息中,我们引入了一种新的方法来预测人类的视觉关注,这影响了人类的几种认知功能,包括对场景的基本理解,然后将其扩展到绘画图像。拟议的新建筑摄入图像并返回扫描路径,这是一系列积分,具有引起观众注意力的很有可能性。我们使用FCNN(完全卷积的神经网络),其中利用了可区分的渠道选择和软弧度模块。我们还将可学习的高斯分布纳入网络瓶颈上,以模拟自然场景图像中的视觉注意力过程偏见。此外,为了减少不同域之间的变化影响(即自然图像,绘画),我们敦促模型使用梯度反转分类器从其他域中学习无监督的一般特征。在准确性和效率方面,我们的模型获得的结果优于现有的最先进的结果。
translated by 谷歌翻译
Visual ScanPath是人类凝视在观察图像时行进的固定点序列,其预测有助于建模图像的视觉注意。为此,使用复杂的深度学习架构和框架在文献中提出了多种模型。在这里,我们以简单的完全卷积回归方式探讨使用共同的深度学习架构的效率。我们尝试这些模型可以在2个数据集上预测扫描路径的程度。我们与使用不同指标的其他模型进行比较,并显示有时超越以前复杂的架构的竞争结果。我们还根据实验的表演比较不同的杠杆骨干架构,推断哪些是最适合任务的。
translated by 谷歌翻译
使用变压器 - 卷积神经网络(CNN)的视觉显着性预测具有显着的高级计算模型,以实现显着性预测。但是,准确模拟人类皮层中视觉注意的机制仍然是一个学术挑战。将人类视力的属性集成到CNN体系结构的设计中,这是至关重要的,从而导致感知上更相关的显着性预测。由于CNN体系结构的固有归纳偏见,因此缺乏足够的长距离上下文编码能力。这阻碍了基于CNN的显着性模型,无法捕获模仿人类观看行为的属性。通过利用自我发项机制来编码远程信息,变形金刚在编码远程信息方面表现出了巨大潜力。在本文中,我们提出了一个新颖的显着性模型,该模型将变压器组件集成到CNNs以捕获远程上下文视觉信息。实验结果表明,变压器为显着性预测提供了附加的价值,从而增强了其在性能中的感知相关性。我们提出的使用变压器的显着性模型在公共基准和显着性预测模型的竞争上取得了卓越的成果。我们提出的显着模型TransAlnet的源代码可在以下网址获得:https://github.com/ljovo/transalnet
translated by 谷歌翻译
随着多媒体技术的快速发展,增强现实(AR)已成为一个有希望的下一代移动平台。 AR的基本理论是人类的视觉混乱,它使用户可以通过将它们叠加在一起,同时感知现实世界的场景和增强内容(虚拟世界场景)。为了获得优质的经验(QOE),重要的是要了解两种情况之间的相互作用并和谐地显示AR内容。但是,关于这种叠加将如何影响人类视觉关注的研究。因此,在本文中,我们主要分析背景(BG)场景和AR内容之间的相互作用效果,并研究AR中的显着性预测问题。具体而言,我们首先在AR数据集(SARD)中构建显着性,其中包含450 bg图像,450次AR图像以及由叠加BG和AR图像产生的1350个叠加图像,并配对三个混合级别。在60个受试者中进行了大规模的眼睛跟踪实验,以收集眼动数据。为了更好地预测AR的显着性,我们提出了一种量化显着性预测方法,并将其推广为AR显着性预测。为了进行比较,提出并评估了三种基准方法,并与我们在沙德上提出的方法一起进行了评估。实验结果证明了我们提出的方法在常见的显着性预测问题和AR显着性预测问题上的优越性比基准方法的优势。我们的数据集和代码可在以下网址获得:https://github.com/duanhuiyu/arsality。
translated by 谷歌翻译
我们提出了一种用于图像显着性预测的新方法,群集显着性预测。该方法根据其个人特征和已知的显着图将个体分为群集,并为每个群集生成单独的图像显着模型。我们在个性化显着图的公共数据集上测试了我们的方法,对个人特征因素的重要性各不相同,并观察了对集群的影响。对于每个群集,我们使用图像到图像翻译方法(主要是Pix2Pix模型)将通用显着性图转换为该群集的显着性图。我们尝试了三种最先进的普遍显着性预测方法,即Deepgaze II,ML-Net和Salgan,并看到它们对结果的影响。我们表明,我们的群集显着性预测技术优于最先进的普遍显着性预测模型。我们还通过使用通过受试者相似性聚类算法和两种基线方法比较聚类显着性预测的结果来证明聚类方法的有效性。我们提出了一种方法,将新朋友分配给最合适的集群,基于他们的个人功能和任何已知的显着图。在我们的实验中,我们看到这种将新人分配给群集的方法平均选择了具有更高显着性得分的群集。
translated by 谷歌翻译
Existing state-of-the-art salient object detection networks rely on aggregating multi-level features of pretrained convolutional neural networks (CNNs). Compared to high-level features, low-level features contribute less to performance but cost more computations because of their larger spatial resolutions. In this paper, we propose a novel Cascaded Partial Decoder (CPD) framework for fast and accurate salient object detection. On the one hand, the framework constructs partial decoder which discards larger resolution features of shallower layers for acceleration. On the other hand, we observe that integrating features of deeper layers obtain relatively precise saliency map. Therefore we directly utilize generated saliency map to refine the features of backbone network. This strategy efficiently suppresses distractors in the features and significantly improves their representation ability. Experiments conducted on five benchmark datasets exhibit that the proposed model not only achieves state-of-the-art performance but also runs much faster than existing models. Besides, the proposed framework is further applied to improve existing multi-level feature aggregation models and significantly improve their efficiency and accuracy.
translated by 谷歌翻译
尽管有重要的表示能力,但馈通仅卷积神经网络(CNNS)可以忽略视觉任务中反馈连接的内在关系和潜在好处。在这项工作中,我们提出了一个反馈递归卷积框架(SALFBNET),可加于显着性检测。所提出的反馈模型可以通过从更高级别的特征块到低级层来缩小递归通路来学习丰富的上下文表示。此外,我们创建了一个大规模的伪显着数据集来缓解显着性检测的数据缺陷问题。我们首先使用所提出的反馈模型来从伪地面真理中学习显着分布。之后,我们微调现有眼固定数据集的反馈模型。此外,我们提出了一种新颖的选择性固定和非固定误差(SFNE)丢失,以使提出的反馈模型更好地学习可区分的基于眼固定的特征。广泛的实验结果表明,我们的SALFBNET具有较少参数的竞争结果对公共显着性检测基准进行了竞争力,这证明了提出的反馈模型和伪显着数据的有效性。源代码和伪显着数据集可以在https://github.com/gqding/salfbnet找到
translated by 谷歌翻译
360 {\ deg}图像是有益的 - 它包含相机周围的全向视觉信息。但是,覆盖360 {\ deg}图像的区域比人类的视野大得多,因此在不同视图方向上的重要信息很容易被忽略。为了解决此问题,我们提出了一种使用视觉显着性作为线索来预测单个360 {\ deg}图像中最佳区域(ROI)集合的方法。为了处理现有的单个360 {\ deg}图像显着性预测数据集的稀缺,有偏见的训练数据,我们还提出了基于球形随机数据旋转的数据增强方法。从预测的显着图和冗余候选区域,我们获得了最佳的ROI集合,考虑到区域内的显着性和区域之间的相互作用(IOU)。我们进行主观评估,以表明所提出的方法可以选择正确汇总输入360 {\ deg}图像的区域。
translated by 谷歌翻译
由于规模和形状的极端复杂性以及预测位置的不确定性,光学遥感图像(RSI-SOD)中的显着对象检测是一项非常困难的任务。现有的SOD方法可以满足自然场景图像的检测性能,但是由于遥感图像中上述图像特性,它们不能很好地适应RSI-SOD。在本文中,我们为光学RSIS中的SOD提出了一个新颖的注意力指导网络(AGNET),包括位置增强阶段和细节细节阶段。具体而言,位置增强阶段由语义注意模块和上下文注意模块组成,以准确描述显着对象的大致位置。细节完善阶段使用提出的自我注册模块在注意力的指导下逐步完善预测结果并逆转注意力。此外,混合损失用于监督网络的培训,这可以从像素,区域和统计数据的三个角度来改善模型的性能。在两个流行的基准上进行的广泛实验表明,与其他最先进的方法相比,AGNET可以达到竞争性能。该代码将在https://github.com/nuaayh/agnet上找到。
translated by 谷歌翻译
视觉关注估计是不同学科的十字路口的一个积极的研究领域:计算机视觉,人工智能和医学。估计表示关注的显着图的最常见方法之一是基于观察到的图像。在本文中,我们表明可以从EEG采集中检索视觉注意力。结果与观察到的图像的传统预测相当,这具有很大的兴趣。为此目的,已经记录了一组信号,并且已经开发出不同的模型来研究视觉关注与大脑活动之间的关系。结果令人鼓舞,与其他方式的其他方法令人鼓舞,与其他方式相比。本文考虑的代码和数据集已在\ URL {https://figshare.com/s/3e353bd1c621962888AD}中提供,以促进该领域的研究。
translated by 谷歌翻译
在本文中,我们提出了一个新颖的端到端集团协作学习网络,称为GCONET+,该网络可以有效,有效地(250 fps)识别自然场景中的共呈含量对象。提出的GCONET+基于以下两个基本标准,通过采矿共识表示,实现了共同降低对象检测(COSOD)的新最新性能:1)组内紧凑型,以更好地提高共同空位之间的一致性通过使用我们的新颖组亲和力模块(GAM)捕获其固有共享属性的对象; 2)组间可分离性通过引入我们的新组协作模块(GCM)条件对不一致的共识进行调理,从而有效抑制嘈杂对象对输出的影响。为了进一步提高准确性,我们设计了一系列简单但有效的组件,如下所示:i)在语义级别促进模型学习的经常性辅助分类模块(RACM); ii)一个置信度增强模块(CEM)帮助模型提高最终预测的质量; iii)基于小组的对称三重态(GST)损失指导模型以学习更多的判别特征。对三个具有挑战性的基准测试(即可口可乐,COSOD3K和COSAL2015)进行了广泛的实验,这表明我们的GCONET+优于现有的12个尖端模型。代码已在https://github.com/zhengpeng7/gconet_plus上发布。
translated by 谷歌翻译
RGB-thermal显着对象检测(RGB-T SOD)旨在定位对齐可见的和热红外图像对的共同突出对象,并准确地分割所有属于这些对象的像素。由于对热图像的照明条件不敏感,它在诸如夜间和复杂背景之类的具有挑战性的场景中很有希望。因此,RGB-T SOD的关键问题是使两种方式的功能相互补充并互相调整,因为不可避免的是,由于极端光条件和诸如极端光条件和诸如极端光明条件和热跨界。在本文中,我们提出了一个针对RGB-T SOD的新型镜子互补变压器网络(MCNET)。具体而言,我们将基于变压器的特征提取模块引入RGB和热图像的有效提取分层特征。然后,通过基于注意力的特征相互作用和基于串行的多尺度扩张卷积(SDC)特征融合模块,提出的模型实现了低级特征的互补相互作用以及深度特征的语义融合。最后,基于镜子互补结构,即使是一种模态也可以准确地提取两种方式的显着区域也是无效的。为了证明在现实世界中具有挑战性的场景下提出的模型的鲁棒性,我们基于自动驾驶域中使用的大型公共语义分段RGB-T数据集建立了一种新颖的RGB-T SOD数据集VT723。基准和VT723数据集上的昂贵实验表明,所提出的方法优于最先进的方法,包括基于CNN的方法和基于变压器的方法。该代码和数据集将在稍后在https://github.com/jxr326/swinmcnet上发布。
translated by 谷歌翻译
显着对象检测是预测给定场景中人类参加区域的任务。融合深度信息已被证明在此任务中有效。该问题的主要挑战是如何从RGB模式和深度模式中汇总互补信息。但是,传统的深层模型在很大程度上依赖CNN特征提取器,并且通常会忽略远距离的依赖性。在这项工作中,我们提出了基于双Swin-Transformer的相互交互式网络。我们采用Swin-Transformer作为RGB和深度模态的特征提取器,以模拟视觉输入中的远程依赖性。在将两个特征分支融合到一个分支之前,将应用基于注意力的模块来增强每​​种模式的特征。我们设计了一个基于自我注意力的跨模式交互模块和一个封闭式的模态注意模块,以利用两种方式之间的互补信息。对于显着解码,我们创建了通过密集的连接增强的不同阶段,并保持解码的内存,而多级编码功能则被同时考虑。考虑到不准确的深度图问题,我们将早期阶段的RGB特征收集到跳过卷积模块中,以提供从RGB模式到最终显着性预测的更多指导。此外,我们添加了边缘监督以使功能学习过程正常。对四个评估指标的五个标准RGB-D SOD基准数据集进行了全面的实验,证明了所提出的DTMINET方法的优势。
translated by 谷歌翻译
We solve the problem of salient object detection by investigating how to expand the role of pooling in convolutional neural networks. Based on the U-shape architecture, we first build a global guidance module (GGM) upon the bottom-up pathway, aiming at providing layers at different feature levels the location information of potential salient objects. We further design a feature aggregation module (FAM) to make the coarse-level semantic information well fused with the fine-level features from the top-down pathway. By adding FAMs after the fusion operations in the topdown pathway, coarse-level features from the GGM can be seamlessly merged with features at various scales. These two pooling-based modules allow the high-level semantic features to be progressively refined, yielding detail enriched saliency maps. Experiment results show that our proposed approach can more accurately locate the salient objects with sharpened details and hence substantially improve the performance compared to the previous state-of-the-arts. Our approach is fast as well and can run at a speed of more than 30 FPS when processing a 300 × 400 image. Code can be found at http://mmcheng.net/poolnet/.
translated by 谷歌翻译
Preys in the wild evolve to be camouflaged to avoid being recognized by predators. In this way, camouflage acts as a key defence mechanism across species that is critical to survival. To detect and segment the whole scope of a camouflaged object, camouflaged object detection (COD) is introduced as a binary segmentation task, with the binary ground truth camouflage map indicating the exact regions of the camouflaged objects. In this paper, we revisit this task and argue that the binary segmentation setting fails to fully understand the concept of camouflage. We find that explicitly modeling the conspicuousness of camouflaged objects against their particular backgrounds can not only lead to a better understanding about camouflage, but also provide guidance to designing more sophisticated camouflage techniques. Furthermore, we observe that it is some specific parts of camouflaged objects that make them detectable by predators. With the above understanding about camouflaged objects, we present the first triple-task learning framework to simultaneously localize, segment, and rank camouflaged objects, indicating the conspicuousness level of camouflage. As no corresponding datasets exist for either the localization model or the ranking model, we generate localization maps with an eye tracker, which are then processed according to the instance level labels to generate our ranking-based training and testing dataset. We also contribute the largest COD testing set to comprehensively analyse performance of the COD models. Experimental results show that our triple-task learning framework achieves new state-of-the-art, leading to a more explainable COD network. Our code, data, and results are available at: \url{https://github.com/JingZhang617/COD-Rank-Localize-and-Segment}.
translated by 谷歌翻译
Salient object detection (SOD) aims to determine the most visually attractive objects in an image. With the development of virtual reality technology, 360{\deg} omnidirectional image has been widely used, but the SOD task in 360{\deg} omnidirectional image is seldom studied due to its severe distortions and complex scenes. In this paper, we propose a Multi-Projection Fusion and Refinement Network (MPFR-Net) to detect the salient objects in 360{\deg} omnidirectional image. Different from the existing methods, the equirectangular projection image and four corresponding cube-unfolding images are embedded into the network simultaneously as inputs, where the cube-unfolding images not only provide supplementary information for equirectangular projection image, but also ensure the object integrity of the cube-map projection. In order to make full use of these two projection modes, a Dynamic Weighting Fusion (DWF) module is designed to adaptively integrate the features of different projections in a complementary and dynamic manner from the perspective of inter and intra features. Furthermore, in order to fully explore the way of interaction between encoder and decoder features, a Filtration and Refinement (FR) module is designed to suppress the redundant information between the feature itself and the feature. Experimental results on two omnidirectional datasets demonstrate that the proposed approach outperforms the state-of-the-art methods both qualitatively and quantitatively.
translated by 谷歌翻译
Deep Convolutional Neural Networks have been adopted for salient object detection and achieved the state-of-the-art performance. Most of the previous works however focus on region accuracy but not on the boundary quality. In this paper, we propose a predict-refine architecture, BASNet, and a new hybrid loss for Boundary-Aware Salient object detection. Specifically, the architecture is composed of a densely supervised Encoder-Decoder network and a residual refinement module, which are respectively in charge of saliency prediction and saliency map refinement. The hybrid loss guides the network to learn the transformation between the input image and the ground truth in a three-level hierarchy -pixel-, patch-and map-level -by fusing Binary Cross Entropy (BCE), Structural SIMilarity (SSIM) and Intersectionover-Union (IoU) losses. Equipped with the hybrid loss, the proposed predict-refine architecture is able to effectively segment the salient object regions and accurately predict the fine structures with clear boundaries. Experimental results on six public datasets show that our method outperforms the state-of-the-art methods both in terms of regional and boundary evaluation measures. Our method runs at over 25 fps on a single GPU. The code is available at: https://github.com/NathanUA/BASNet.
translated by 谷歌翻译
360 {\ deg}场景中基于图像的显着对象检测(ISOD)对于理解和应用全景信息非常重要。但是,由于缺乏大型,复杂,高分辨率且标记良好的数据集,对360 {\ deg} ISOD的研究尚未被广泛探索。为此,我们构建了一个大型360 {\ deg} ISOD数据集,具有对象级像素的依次投影(ERP),其中包含不少于2K分辨率的丰富全景场景,并且是360 {最大的数据集,是最大的数据集{ \ deg} ISOD据我们所知。通过观察数据,我们发现当前的方法在全景方案中面临三个重大挑战:不同的失真度,不连续的边缘效应和可变的对象量表。受到人类观察过程的启发,我们提出了一种基于样本自适应视图变压器(SAVT)模块的视图显着对象检测方法,并带有两个子模块,以减轻这些问题。具体而言,子模块视图变压器(VT)基于不同种类的变换,在不同视图下学习各种特征,并增强模型的变形,边缘效果和对象量表的特征耐受性。此外,亚模块样品自适应融合(SAF)是根据各种样品特征调整不同变换分支的权重,并使转换的增强功能更适当地融合。 20种最先进的ISOD方法的基准结果表明,构造的数据集非常具有挑战性。此外,详尽的实验验证了所提出的方法是实际的,并且表现优于最先进的方法。
translated by 谷歌翻译
虚拟现实(VR)视频(通常以360美元$^\ Circ $视频形式)由于VR技术的快速开发以及消费级360 $^\ Circ $摄像机和显示器的显着普及而引起了人们的关注。因此,了解人们如何看待用户生成的VR视频,这些视频可能会受到混乱的真实扭曲,通常是在时空和时间上局部的。在本文中,我们建立了最大的360美元$^\ Circ $视频数据库之一,其中包含502个用户生成的视频,内容丰富和失真多样性。我们捕获了139位用户的观看行为(即扫描路径),并在四个不同的观看条件下(两个起点$ \ times $ $ $ $ $两个探索时间)收集了他们的意见分数。我们对记录的数据提供了详尽的统计分析,从而产生了一些有趣的观察结果,例如观看条件对观看行为和感知质量的重大影响。此外,我们还探讨了我们的数据和分析的其他用法,包括评估360 $^\ CIRC $视频的质量评估和显着性检测的计算模型。我们已经在https://github.com/yao-yiru/vr-video-database上提供了数据集和代码。
translated by 谷歌翻译