A visual attention system, inspired by the behavior and the neuronal architecture of the early primate visual system, is presented. Multiscale image features are combined into a single topographical saliency map. A dynamical neural network then selects attended locations in order of decreasing saliency. The system breaks down the complex problem of scene understanding by rapidly selecting, in a computationally efficient manner, conspicuous locations to be analyzed in detail.
translated by 谷歌翻译
人类轻松地检测突出物体是几个领域的研究的主题,包括计算机愿景,因为它具有许多应用。然而,突出物体检测对于处理颜色和纹理图像的许多计算机模型仍然是一个挑战。这里,我们通过简单的模型提出了一种新颖和有效的策略,几乎没有内部参数,它为自然图像产生了强大的显着性图。该策略包括将颜色信息集成到局部纹理图案中,以表征颜色微纹理。使用颜色和纹理功能的文献中的大多数模型分别对待它们。在我们的情况下,它是一个简单而强大的LTP(本地三元模式)纹理描述符,应用于允许我们实现这一结束的彩色空间的相对颜色对。每种颜色微纹理由载体表示,载体由Slico(简单的线性迭代聚类与零参数)算法所获得的超像素,这是简单,快速的,表现出最先进的边界依从性。每对颜色微观纹理之间的异常程度是通过FastMAP方法计算的,该方法的快速版本(多维缩放),其在保持其距离时考虑颜色微纹理非线性。这些不同程度的不相似性为每个RGB,HSL,LUV和CMY颜色空间提供了中间显着图。最终的显着图是它们的组合,以利用它们中的每一个的强度。 MAE(平均绝对误差)和F $ _ {\ beta} $衡量我们的显着性图,在复杂的ECSSD数据集上显示,我们的模型既简单又高效,表现出几种最先进的模型。
translated by 谷歌翻译
视觉搜索是一项普遍存在的,通常挑战日常任务,是通过寻找家中的汽车钥匙或在人群中的朋友。一些经典搜索任务的有趣性属性是一种不对称性,使得在分散的人B中找到目标A可以比找到A中的B.为了阐明对视觉搜索中的不对称负责的机制,我们提出了一种占据目标的计算模型和将搜索图像作为输入,并在找到目标之前产生一系列眼睛移动。该模型将偏心依赖性视觉识别与目标相关的自上而下的提示集成在一起。我们将六种范式搜索任务中的人类行为与人类显示不对称的案式进行比较。如果没有先前接触刺激或任务特定的培训,则该模型提供了搜索不对称的合理机制。我们假设搜索不对称的极性来自自然环境的经验。我们通过培训模型在想象中的增强版本的模型进行测试,其中自然图像的偏差被移除或逆转。根据训练协议,搜索不对称的极性消失或被改变。本研究强调了神经网络模型可以出现古典感知特性如何,而无需特定于任务培训,而是由于馈送到模型的发育饮食的统计特性。所有源代码和数据都在https://github.com/kreimanlab/visualsearchaseSearmmetry上公开使用。
translated by 谷歌翻译
Saliency detection is one of the most challenging problems in image analysis and computer vision. Many approaches propose different architectures based on the psychological and biological properties of the human visual attention system. However, there is still no abstract framework that summarizes the existing methods. In this paper, we offered a general framework for saliency models, which consists of five main steps: pre-processing, feature extraction, saliency map generation, saliency map combination, and post-processing. Also, we study different saliency models containing each level and compare their performance. This framework helps researchers to have a comprehensive view of studying new methods.
translated by 谷歌翻译
We describe a model of visual processing in which feedback connections from a higher-to a lowerorder visual cortical area carry predictions of lower-level neural activities, whereas the feedforward connections carry the residual errors between the predictions and the actual lower-level activities. When exposed to natural images, a hierarchical network of model neurons implementing such a model developed simple-cell-like receptive fields. A subset of neurons responsible for carrying the residual errors showed endstopping and other extra-classical receptive-field effects. These results suggest that rather than being exclusively feedforward phenomena, nonclassical surround effects in the visual cortex may also result from cortico-cortical feedback as a consequence of the visual system using an efficient hierarchical strategy for encoding natural images.
translated by 谷歌翻译
The term ``neuromorphic'' refers to systems that are closely resembling the architecture and/or the dynamics of biological neural networks. Typical examples are novel computer chips designed to mimic the architecture of a biological brain, or sensors that get inspiration from, e.g., the visual or olfactory systems in insects and mammals to acquire information about the environment. This approach is not without ambition as it promises to enable engineered devices able to reproduce the level of performance observed in biological organisms -- the main immediate advantage being the efficient use of scarce resources, which translates into low power requirements. The emphasis on low power and energy efficiency of neuromorphic devices is a perfect match for space applications. Spacecraft -- especially miniaturized ones -- have strict energy constraints as they need to operate in an environment which is scarce with resources and extremely hostile. In this work we present an overview of early attempts made to study a neuromorphic approach in a space context at the European Space Agency's (ESA) Advanced Concepts Team (ACT).
translated by 谷歌翻译
Reliable estimation of visual saliency allows appropriate processing of images without prior knowledge of their contents, and thus remains an important step in many computer vision tasks including image segmentation, object recognition, and adaptive compression. We propose a regional contrast based saliency extraction algorithm, which simultaneously evaluates global contrast differences and spatial coherence. The proposed algorithm is simple, efficient, and yields full resolution saliency maps. Our algorithm consistently outperformed existing saliency detection methods, yielding higher precision and better recall rates, when evaluated using one of the largest publicly available data sets. We also demonstrate how the extracted saliency map can be used to create high quality segmentation masks for subsequent image processing.
translated by 谷歌翻译
可解释的人工智能(XAI)的新兴领域旨在为当今强大但不透明的深度学习模型带来透明度。尽管本地XAI方法以归因图的形式解释了个体预测,从而确定了重要特征的发生位置(但没有提供有关其代表的信息),但全局解释技术可视化模型通常学会的编码的概念。因此,两种方法仅提供部分见解,并留下将模型推理解释的负担。只有少数当代技术旨在将本地和全球XAI背后的原则结合起来,以获取更多信息的解释。但是,这些方法通常仅限于特定的模型体系结构,或对培训制度或数据和标签可用性施加其他要求,这实际上使事后应用程序成为任意预训练的模型。在这项工作中,我们介绍了概念相关性传播方法(CRP)方法,该方法结合了XAI的本地和全球观点,因此允许回答“何处”和“ where”和“什么”问题,而没有其他约束。我们进一步介绍了相关性最大化的原则,以根据模型对模型的有用性找到代表性的示例。因此,我们提高了对激活最大化及其局限性的共同实践的依赖。我们证明了我们方法在各种环境中的能力,展示了概念相关性传播和相关性最大化导致了更加可解释的解释,并通过概念图表,概念组成分析和概念集合和概念子区和概念子区和概念子集和定量研究对模型的表示和推理提供了深刻的见解。它们在细粒度决策中的作用。
translated by 谷歌翻译
在感知变化下的自然对象的不变性在突触连接图中的对称性可能在大脑中编码。该图可以通过在不同感知方式的生物学上卓越的过程中通过无监督学习建立。该假设编码方案由自然主义音频和图像数据的相关结构支持,并且它预测了神经连接架构,这与关于主要感觉皮质的许多经验观察一致。
translated by 谷歌翻译
图像区域的人类优先级可以以显着图或依次使用扫描模型进行时间不变的方式建模。但是,尽管两种类型的模型在几个基准和数据集上都稳步改善,但预测人类凝视仍然存在很大的差距。在这里,我们利用最近的两个发展来减少这一差距:理论分析建立一个原则性的框架,以预测下一个凝视目标和对凝视切换的人为成本的经验测量,而与图像内容无关。我们在顺序决策的框架中介绍了一种算法,该算法将任何静态显着性映射转换为一系列动态历史依赖的值映射序列,在每个注视转移之后都会重新计算。这些地图基于1)任意显着性模型提供的显着性图,2)最近测量的人类成本函数量化了眼动的大小和方向的偏好,以及3)连续探索奖金,随后的每次凝视随着每个探索而变化。该探索奖金的空间范围和时间衰减的参数是从人类凝视数据中估计的。这三个组件的相对贡献在MIT1003数据集上优化了NSS得分,并且足以显着超过NSS上的下一个注视目标的预测,并且在三个图像数据集中,对于五个最神经的显着性模型,对NSS的下一个凝视目标和AUC分数进行了预测。因此,我们提供了人类凝视偏好的实施,可用于改善任意显着性模型的“对人类对人类的预测”的下一个凝视目标。
translated by 谷歌翻译
在过去的几年中,计算机视觉的显着进步总的来说是归因于深度学习,这是由于大量标记数据的可用性所推动的,并与GPU范式的爆炸性增长配对。在订阅这一观点的同时,本书批评了该领域中所谓的科学进步,并在基于信息的自然法则的框架内提出了对愿景的调查。具体而言,目前的作品提出了有关视觉的基本问题,这些问题尚未被理解,引导读者走上了一个由新颖挑战引起的与机器学习基础共鸣的旅程。中心论点是,要深入了解视觉计算过程,有必要超越通用机器学习算法的应用,而要专注于考虑到视觉信号的时空性质的适当学习理论。
translated by 谷歌翻译
复杂的自然环境中的小目标运动检测是自主机器人的一个极具挑战性的任务。令人惊讶的是,昆虫的视觉系统已经进化为在检测配合和跟踪猎物中的高效,即使目标占据到几个视野的少数程度上,也是如此。对小目标运动的良好敏感性依赖于一类称为小目标运动检测器(STMDS)的专用神经元。然而,现有的基于STMD的模型严重依赖于视觉对比度,并且在复杂的自然环境中表现不良,其中小目标通常呈现极低对比的邻近背景。在本文中,我们开发了一个关注和预测的导向系统,以克服这种限制。开发的视觉系统包括三个主要子系统,即注意模块,基于STMD的神经网络和预测模块。注意模块在输入图像的预测区域中搜索潜在的小目标,并增强它们对复杂背景的对比度。基于STMD的神经网络接收到对比度增强的图像,并从背景误报上区分小型移动目标。预测模块预测检测到的目标的未来位置,并为注意模块生成预测映射。三个子系统以经常性架构连接,允许顺序处理信息以激活特定区域以进行小目标检测。关于合成和现实世界数据集的广泛实验证明了所提出的视觉系统的有效性和优越性,用于检测用于复杂的自然环境的小型低对比度移动目标。
translated by 谷歌翻译
与人类的视野相比,基于卷积神经网络(CNN)的计算机视觉更容易受到对抗性的噪音。这种差异可能归因于眼睛如何样本视觉输入以及大脑如何通过其背侧和腹侧视觉途径处理视网膜样品,这些途径尚未探索计算机视觉。受到大脑的启发,我们设计了复发性神经网络,包括模拟人类视网膜的输入采样器,它是一个指导下一步位置的背面网络,以及代表视网膜样品的腹网络。组合这些模块,这些模型学会了多一眼图像,每一眼就注意一个明显的部分,并随着时间的推移积累表示形式以识别图像。我们测试了此类模型的稳健性,并在不同水平的对抗噪声上测试,特别关注不同输入采样策略的效果。我们的发现表明,视网膜凹和采样使模型更加可靠,并且在给予更长的时间以更多地看一眼图像时,该模型可能会从攻击中纠正自身。总之,强大的视觉识别可以从三种受脑启发的机制的综合使用中受益:视网膜转化,注意力引导的眼动运动和经常性处理,而不是仅喂食的CNN。
translated by 谷歌翻译
在高风险领域中采用卷积神经网络(CNN)模型受到了他们无法满足社会对决策透明度的需求的阻碍。到目前为止,已经出现了越来越多的方法来开发可通过设计解释的CNN模型。但是,这样的模型无法根据人类的看法提供解释,同时保持有能力的绩效。在本文中,我们通过实例化固有可解释的CNN模型的新颖的一般框架来应对这些挑战,该模型名为E pluribus unum unum Change Chandn(EPU-CNN)。 EPU-CNN模型由CNN子网络组成,每个工程都会收到表达感知特征的输入图像的不同表示,例如颜色或纹理。 EPU-CNN模型的输出由分类预测及其解释组成,其基于输入图像不同区域的感知特征的相对贡献。 EPU-CNN模型已在各种可公开可用的数据集以及贡献的基准数据集上进行了广泛的评估。医学数据集用于证明EPU-CNN在医学中对风险敏感的决策的适用性。实验结果表明,与其他CNN体系结构相比,EPU-CNN模型可以实现可比或更好的分类性能,同时提供人类可感知的解释。
translated by 谷歌翻译
深度神经网络在计算机视觉中的许多任务中设定了最先进的,但它们的概括对象扭曲的能力令人惊讶地是脆弱的。相比之下,哺乳动物视觉系统对广泛的扰动是强大的。最近的工作表明,这种泛化能力可以通过在整个视觉皮层中的视觉刺激的表示中编码的有用的电感偏差来解释。在这里,我们成功利用了多任务学习方法的这些归纳偏差:我们共同训练了深度网络以进行图像分类并预测猕猴初级视觉皮层(V1)中的神经活动。我们通过测试其对图像扭曲的鲁棒性来衡量我们网络的分发广泛性能力。我们发现,尽管在训练期间没有这些扭曲,但猴子V1数据的共同训练导致鲁棒性增加。此外,我们表明,我们的网络的鲁棒性非常接近Oracle网络的稳定性,其中架构的部分在嘈杂的图像上直接培训。我们的结果还表明,随着鲁布利的改善,网络的表示变得更加大脑。使用新颖的约束重建分析,我们调查了我们的大脑正规网络更加强大的原因。与我们仅对图像分类接受培训的基线网络相比,我们的共同训练网络对内容比噪声更敏感。使用深度预测的显着性图,用于想象成像图像,我们发现我们的猴子共同训练的网络对场景中的突出区域倾向更敏感,让人想起V1在对象边界的检测中的作用和自下而上的角色显着性。总体而言,我们的工作扩大了从大脑转移归纳偏见的有前途的研究途径,并为我们转移的影响提供了新的分析。
translated by 谷歌翻译
尽管当前的显着对象检测(SOD)作品已经取得了重大进展,但在预测的显着区域的完整性方面,它们受到限制。我们在微观和宏观水平上定义了完整性的概念。具体而言,在微观层面上,该模型应突出显示属于某个显着对象的所有部分。同时,在宏观层面上,模型需要在给定图像中发现所有显着对象。为了促进SOD的完整性学习,我们设计了一个新颖的完整性认知网络(ICON),该网络探讨了学习强大完整性特征的三个重要组成部分。 1)与现有模型不同,该模型更多地集中在功能可区分性上,我们引入了各种功能集合(DFA)组件,以汇总具有各种接受场(即内核形状和背景)的特征,并增加了功能多样性。这种多样性是挖掘积分显着物体的基础。 2)基于DFA功能,我们引入了一个完整性通道增强(ICE)组件,其目标是增强功能通道,以突出积分显着对象,同时抑制其他分心的对象。 3)提取增强功能后,采用零件整体验证(PWV)方法来确定零件和整个对象特征是否具有很强的一致性。这样的部分协议可以进一步改善每个显着对象的微观完整性。为了证明我们图标的有效性,对七个具有挑战性的基准进行了全面的实验。我们的图标在广泛的指标方面优于基线方法。值得注意的是,我们的图标在六个数据集上的平均假阴影(FNR)(FNR)方面,相对于以前的最佳模型的相对改善约为10%。代码和结果可在以下网址获得:https://github.com/mczhuge/icon。
translated by 谷歌翻译
稀疏编码已在视觉皮层的模型中纳入其计算优势和与生物学的连接。但是,稀疏程度如何在视觉任务上有助于表现,并不充分了解。在这项工作中,稀疏的编码已集成到现有的分层V2型号(Hosoya和Hyv \“Arinen,2015),但更换其独立的分量分析(ICA),具有明确的稀疏编码,其中可以控制稀疏程度。在训练之后,稀疏编码基础函数具有更高程度的稀疏性类似于定性不同的结构,例如曲线和角落。使用图像分类任务进行评估模型的贡献,特别是与中级视觉相关的任务,包括图 - 地面分类,纹理分类和两条线刺激之间的角度预测。此外,与v2(Freman等,2013)中报道的纹理敏感度量相比,评估模型(Freeman等,2013)和删除区域推理任务。该实验结果表明,同时在分类图像中比ICA差的稀疏编码差,只能稀疏编码能够更好地匹配纹理森通过提高稀疏编码的稀疏度,v2和推断删除图像区域的定位等级。在较大删除的图像区域上允许推断推断出更高程度的稀疏性。这里描述允许在稀疏编码中进行这种推理能力的机制。
translated by 谷歌翻译
注意力是一种令人震惊的状态,能够通过在一条信息上选择性地关注一个信息,同时忽略其他可察觉的信息,能够在人类中处理有限的处理瓶颈。几十年来,在哲学,心理学,神经科学和计算中研究了注意的概念和函数。目前,这家酒店已广泛探索深神经网络。现在可以使用许多不同的神经关注模型,并且在过去六年中是一个非常活跃的研究区域。从关注的理论观点来看,该调查对主要神经关注模型进行了批判性分析。在这里,我们提出了一种与预测深度学习的理论方面的分类学。我们的分类系统提供了一个组织结构,提出了新问题和结构对现有的注意机制的理解。特别地,17种来自心理学和神经科学的标准和神经科学经典研究的标准用于分析一组超过650篇论文的51个主要模型的定性比较和批判性分析。此外,我们突出了尚未探索的几个理论问题,包括讨论生物合理性,突出目前的研究趋势,并为未来提供见解。
translated by 谷歌翻译
文化遗产的理解和保存对于社会来说是一个重要的问题,因为它代表了其身份的基本方面。绘画代表了文化遗产的重要组成部分,并且是不断研究的主题。但是,观众认为绘画与所谓的HVS(人类视觉系统)行为严格相关。本文重点介绍了一定数量绘画的视觉体验期间观众的眼动分析。在进一步的详细信息中,我们引入了一种新的方法来预测人类的视觉关注,这影响了人类的几种认知功能,包括对场景的基本理解,然后将其扩展到绘画图像。拟议的新建筑摄入图像并返回扫描路径,这是一系列积分,具有引起观众注意力的很有可能性。我们使用FCNN(完全卷积的神经网络),其中利用了可区分的渠道选择和软弧度模块。我们还将可学习的高斯分布纳入网络瓶颈上,以模拟自然场景图像中的视觉注意力过程偏见。此外,为了减少不同域之间的变化影响(即自然图像,绘画),我们敦促模型使用梯度反转分类器从其他域中学习无监督的一般特征。在准确性和效率方面,我们的模型获得的结果优于现有的最先进的结果。
translated by 谷歌翻译
预测性编码提供了对皮质功能的潜在统一说明 - 假设大脑的核心功能是最小化有关世界生成模型的预测错误。该理论与贝叶斯大脑框架密切相关,在过去的二十年中,在理论和认知神经科学领域都产生了重大影响。基于经验测试的预测编码的改进和扩展的理论和数学模型,以及评估其在大脑中实施的潜在生物学合理性以及该理论所做的具体神经生理学和心理学预测。尽管存在这种持久的知名度,但仍未对预测编码理论,尤其是该领域的最新发展进行全面回顾。在这里,我们提供了核心数学结构和预测编码的逻辑的全面综述,从而补充了文献中最新的教程。我们还回顾了该框架中的各种经典和最新工作,从可以实施预测性编码的神经生物学现实的微电路到预测性编码和广泛使用的错误算法的重新传播之间的紧密关系,以及对近距离的调查。预测性编码和现代机器学习技术之间的关系。
translated by 谷歌翻译