智能论文笔记

Towards robust vision by multi-task learning on monkey visual cortex

Shahd Safarani , Arne Nix , Konstantin Willeke , Santiago A. Cadena , Kelli Restivo , George Denfield , Andreas S. Tolias , Fabian H. Sinz

分类：计算机视觉 | 人工智能 | 机器学习

2021-07-29

深度神经网络在计算机视觉中的许多任务中设定了最先进的，但它们的概括对象扭曲的能力令人惊讶地是脆弱的。相比之下，哺乳动物视觉系统对广泛的扰动是强大的。最近的工作表明，这种泛化能力可以通过在整个视觉皮层中的视觉刺激的表示中编码的有用的电感偏差来解释。在这里，我们成功利用了多任务学习方法的这些归纳偏差：我们共同训练了深度网络以进行图像分类并预测猕猴初级视觉皮层（V1）中的神经活动。我们通过测试其对图像扭曲的鲁棒性来衡量我们网络的分发广泛性能力。我们发现，尽管在训练期间没有这些扭曲，但猴子V1数据的共同训练导致鲁棒性增加。此外，我们表明，我们的网络的鲁棒性非常接近Oracle网络的稳定性，其中架构的部分在嘈杂的图像上直接培训。我们的结果还表明，随着鲁布利的改善，网络的表示变得更加大脑。使用新颖的约束重建分析，我们调查了我们的大脑正规网络更加强大的原因。与我们仅对图像分类接受培训的基线网络相比，我们的共同训练网络对内容比噪声更敏感。使用深度预测的显着性图，用于想象成像图像，我们发现我们的猴子共同训练的网络对场景中的突出区域倾向更敏感，让人想起V1在对象边界的检测中的作用和自下而上的角色显着性。总体而言，我们的工作扩大了从大脑转移归纳偏见的有前途的研究途径，并为我们转移的影响提供了新的分析。

translated by 谷歌翻译

Improving the Accuracy and Robustness of CNNs Using a Deep CCA Neural Data Regularizer

Cassidy Pirlot , Richard C. Gerum , Cory Efird , Joel Zylberberg , Alona Fyshe

分类：计算机视觉 | 机器学习 | 神经与进化计算

2022-09-06

随着卷积神经网络（CNN）在物体识别方面变得更加准确，它们的表示与灵长类动物的视觉系统越来越相似。这一发现激发了我们和其他研究人员询问该含义是否也以另一种方式运行：如果CNN表示更像大脑，网络会变得更加准确吗？以前解决这个问题的尝试显示出非常适中的准确性，部分原因是正则化方法的局限性。为了克服这些局限性，我们开发了一种新的CNN神经数据正常化程序，该数据正常化程序使用深层规范相关分析（DCCA）来优化CNN图像表示与猴子视觉皮层的相似之处。使用这种新的神经数据正常化程序，与先前的最新神经数据正则化器相比，我们看到分类准确性和少级精度的性能提高得多。这些网络对对抗性攻击也比未注册的攻击更强大。这些结果共同证实，神经数据正则化可以提高CNN的性能，并引入了一种获得更大性能提升的新方法。

translated by 谷歌翻译

The Sensorium competition on predicting large-scale mouse primary visual cortex activity

Konstantin F. Willeke , Paul G. Fahey , Mohammad Bashiri , Laura Pede , Max F. Burg , Christoph Blessing , Santiago A. Cadena , Zhiwei Ding , Konstantin-Klemens Lurz , Kayla Ponder

分类：人工智能 | 机器学习

2022-06-17

生物视觉系统的神经基础在实验上研究很具有挑战性，特别是因为相对于视觉输入，神经元活性变得越来越非线性。人工神经网络（ANN）可以为改善我们对这一复杂系统的理解提供各种目标，不仅充当硅中新假设产生的感觉皮层的预测数字双胞胎，而且还融合了生物启发的建筑主题，以逐步桥接桥梁生物和机器视觉之间的差距。该鼠标最近已成为研究视觉信息处理的流行模型系统，但是尚未确定识别鼠标视觉系统最新模型的标准化大规模基准。为了填补这一空白，我们提出了感官基准竞赛。我们从小鼠初级视觉皮层中收集了一个大规模数据集，其中包含七个小鼠的28,000多个神经元的反应，并通过数千个自然图像刺激，以及同时的行为测量，包括跑步速度，瞳孔扩张和眼动。基准挑战将基于固定测试集中神经元响应的预测性能对模型进行对模型，其中包括两个模型输入的轨道，仅限于刺激（感觉到）或刺激加行为（感觉符号+）。我们提供一个起始套件，以降低进入障碍的障碍，包括教程，预训练的基线模型以及带有一条线命令以进行数据加载和提交的API。我们希望将其视为定期挑战和数据发布的起点，也是衡量鼠标视觉系统及其他大规模神经系统识别模型中进度的标准工具。

translated by 谷歌翻译

Predify: Augmenting deep neural networks with brain-inspired predictive coding dynamics

Bhavin Choksi , Milad Mozafari , Callum Biggs O'May , Benjamin Ador , Andrea Alamia , Rufin VanRullen

分类：计算机视觉

2021-06-04

深度神经网络在图像分类中Excel Excel，但它们对输入扰动的性能比人类感知更强。在这项工作中，我们可以通过在深卷积网络中纳入脑激发的经常性动态来探讨此缺点是否可以部分地解决。我们从神经科学的一个受欢迎的框架中获取灵感：“预测编码”。在分层模型的每层，生成反馈'预测'（即，重建）前一层中的活动模式。重建错误用于迭代地更新时间间隔内的网络的表示，并通过自然图像数据集来优化网络的反馈权重 - 一种无监督的培训形式。我们展示将此策略实施到两个流行的网络中，VGG16和高效网络，从而提高了对各种损坏和对抗的攻击的鲁棒性。我们假设其他前馈网络可以类似地受益于所提出的框架。为了在这种方向上促进研究，我们提供称为PRIGEIFY的基于开放的Pytorch的包，其可用于实施和研究预测编码动态在任何卷积神经网络中的影响。

translated by 谷歌翻译

Adversarially trained neural representations may already be as robust as corresponding biological neural representations

Chong Guo , Michael J. Lee , Guillaume Leclerc , Joel Dapello , Yug Rao , Aleksander Madry , James J. DiCarlo

分类：机器学习

2022-06-19

灵长类动物的视觉系统是强大感知的黄金标准。因此，人们普遍认为，模仿这些系统基础的神经表现形式将产生具有对手稳健的人工视觉系统。在这项工作中，我们开发了一种直接对灵长类动物大脑活动进行对抗性视觉攻击的方法。然后，我们利用这种方法来证明上述信念可能不是很好的基础。具体而言，我们报告说，组成灵长类动物视觉系统的生物神经元表现出对对抗性扰动的敏感性，这些扰动与现有（训练有素的）人工神经网络相当。

translated by 谷歌翻译

Adversarial images for the primate brain

Li Yuan , Will Xiao , Gabriel Kreiman , Francis E. H. Tay , Jiashi Feng , Margaret S. Livingstone

分类：计算机视觉 | 神经与进化计算

2020-11-11

卷积神经网络（CNNS）容易受到对抗的攻击，将微型噪声添加到图像中的现象可以欺骗CNNS被错误分类。因为这种噪声对人类观察者几乎是不可察觉的，所以假设生物视觉对抗对抗性攻击是鲁棒性的。尽管具有这种明显的鲁棒性差异，但CNN是目前是生物视觉的最佳模型，揭示了脑部响应对抗性图像的响应方式的差距。实际上，对正常情况下的生物视觉尚未测量对逆势攻击的敏感性，也没有专门用于影响生物视觉的攻击方法。我们研究了对抗性攻击对灵长类动物视力的影响，测量猴神经元反应和人类行为。通过从一个类别（例如人面）来修改图像来创建对抗性图像，看起来像目标类别（例如猴子面），同时限制像素值改变。我们通过几种攻击方法测试了三次攻击方向，包括使用CNN对抗性图像并使用基于CNN的预测模型来指导猴子视觉神经元反应。我们认为广泛的图像变化大幅度，涉及攻击成功率高达> 90％。我们发现为CNN设计的对抗性图像在攻击灵长类动物视觉时无效。即使在考虑最佳的攻击方法时，灵长类动物的视觉也比CNN的集合攻击更强大，而不是CNN的集合，需要超过100倍的图像改变以成功攻击。单个攻击方法和图像的成功与猴子神经元和人类行为之间相关，但在分类和CNN分类之间不太相关。始终如一地，当在自然图像培训时，基于CNN的神经元模型并未概括地解释对对抗性图像的神经元反应。

translated by 谷歌翻译

Neural Population Geometry Reveals the Role of Stochasticity in Robust Perception

Joel Dapello , Jenelle Feather , Hang Le , Tiago Marques , David D. Cox , Josh H. McDermott , James J. DiCarlo , SueYeon Chung

分类：机器学习 | 神经与进化计算

2021-11-12

神经科学家和机器学习研究人员通常引用对抗的例子，作为计算模型如何从生物感官系统发散的示例。最近的工作已经提出将生物启发组件添加到视觉神经网络中，作为提高其对抗性鲁棒性的一种方式。一种令人惊讶的有效组分，用于减少对抗性脆弱性是响应随机性，例如由生物神经元呈现的响应性随机性。在这里，使用最近开发的从计算神经科学的几何技术，我们研究了对抗性扰动如何影响标准，前列培训和生物学启发的随机网络的内部表示。我们为每种类型的网络找到了不同的几何签名，揭示了实现稳健表示的不同机制。接下来，我们将这些结果概括为听觉域，表明神经插值性也使听觉模型对对抗对抗扰动更鲁棒。随机网络的几何分析揭示了清洁和离前动脉扰动刺激的表示之间的重叠，并且定量表现出随机性的竞争几何效果在对抗和清洁性能之间调解权衡。我们的结果阐明了通过对外内培训和随机网络利用的强大感知的策略，并帮助解释了随机性如何有利于机器和生物计算。

translated by 谷歌翻译

Visual Search Asymmetry: Deep Nets and Humans Share Similar Inherent Biases

Shashi Kant Gupta , Mengmi Zhang , Chia-Chien Wu , Jeremy M. Wolfe , Gabriel Kreiman

分类：计算机视觉

2021-06-05

视觉搜索是一项普遍存在的，通常挑战日常任务，是通过寻找家中的汽车钥匙或在人群中的朋友。一些经典搜索任务的有趣性属性是一种不对称性，使得在分散的人B中找到目标A可以比找到A中的B.为了阐明对视觉搜索中的不对称负责的机制，我们提出了一种占据目标的计算模型和将搜索图像作为输入，并在找到目标之前产生一系列眼睛移动。该模型将偏心依赖性视觉识别与目标相关的自上而下的提示集成在一起。我们将六种范式搜索任务中的人类行为与人类显示不对称的案式进行比较。如果没有先前接触刺激或任务特定的培训，则该模型提供了搜索不对称的合理机制。我们假设搜索不对称的极性来自自然环境的经验。我们通过培训模型在想象中的增强版本的模型进行测试，其中自然图像的偏差被移除或逆转。根据训练协议，搜索不对称的极性消失或被改变。本研究强调了神经网络模型可以出现古典感知特性如何，而无需特定于任务培训，而是由于馈送到模型的发育饮食的统计特性。所有源代码和数据都在https://github.com/kreimanlab/visualsearchaseSearmmetry上公开使用。

translated by 谷歌翻译

Unmasking Clever Hans Predictors and Assessing What Machines Really Learn

Sebastian Lapuschkin , Stephan Wäldchen , Alexander Binder , Grégoire Montavon , Wojciech Samek , Klaus-Robert Müller

分类：

2019-02-26

Current learning machines have successfully solved hard application problems, reaching high accuracy and displaying seemingly "intelligent" behavior. Here we apply recent techniques for explaining decisions of state-of-the-art learning machines and analyze various tasks from computer vision and arcade games. This showcases a spectrum of problem-solving behaviors ranging from naive and short-sighted, to wellinformed and strategic. We observe that standard performance evaluation metrics can be oblivious to distinguishing these diverse problem solving behaviors. Furthermore, we propose our semi-automated Spectral Relevance Analysis that provides a practically effective way of characterizing and validating the behavior of nonlinear learning machines. This helps to assess whether a learned model indeed delivers reliably for the problem that it was conceived for. Furthermore, our work intends to add a voice of caution to the ongoing excitement about machine intelligence and pledges to evaluate and judge some of these recent successes in a more nuanced manner.

translated by 谷歌翻译

Inference via Sparse Coding in a Hierarchical Vision Model

Joshua Bowren , Luis Sanchez-Giraldo , Odelia Schwartz

分类：计算机视觉 | 机器学习

2021-08-03

稀疏编码已在视觉皮层的模型中纳入其计算优势和与生物学的连接。但是，稀疏程度如何在视觉任务上有助于表现，并不充分了解。在这项工作中，稀疏的编码已集成到现有的分层V2型号（Hosoya和Hyv \“Arinen，2015），但更换其独立的分量分析（ICA），具有明确的稀疏编码，其中可以控制稀疏程度。在训练之后，稀疏编码基础函数具有更高程度的稀疏性类似于定性不同的结构，例如曲线和角落。使用图像分类任务进行评估模型的贡献，特别是与中级视觉相关的任务，包括图 - 地面分类，纹理分类和两条线刺激之间的角度预测。此外，与v2（Freman等，2013）中报道的纹理敏感度量相比，评估模型（Freeman等，2013）和删除区域推理任务。该实验结果表明，同时在分类图像中比ICA差的稀疏编码差，只能稀疏编码能够更好地匹配纹理森通过提高稀疏编码的稀疏度，v2和推断删除图像区域的定位等级。在较大删除的图像区域上允许推断推断出更高程度的稀疏性。这里描述允许在稀疏编码中进行这种推理能力的机制。

translated by 谷歌翻译

Combining Different V1 Brain Model Variants to Improve Robustness to Image Corruptions in CNNs

Avinash Baidya , Joel Dapello , James J. DiCarlo , Tiago Marques

分类：计算机视觉

2021-10-20

虽然一些卷积神经网络（CNNS）在对象分类中超过了人类的视觉能力，但它们通常努力识别以不同类型的常见噪声模式损坏的图像中的对象，突出了这一系列模型的主要限制。最近，已经表明，在CNNS前面模拟主视觉皮质（V1）导致对这些图像扰动的鲁棒性的小改进。在本研究中，我们从观察到v1模型的不同变体显示特定腐败类型的增益。然后，我们使用合奏技术构建一个新模型，该技术将多个单独模型与不同的V1前端变体组合。该模型集合利用每个腐败类别的鲁棒性的显着改善，平均优于38％的基础模型。最后，我们表明使用蒸馏，可以将集合模型中的知识部分压缩成具有V1前端的单个模型。虽然这里使用的合并和蒸馏技术几乎没有生物学，但是这里呈现的结果表明，通过组合V1中不同神经元电路的特定强度，可以改善CNN的鲁棒性，用于广泛的扰动。

translated by 谷歌翻译

From "Where" to "What": Towards Human-Understandable Explanations through Concept Relevance Propagation

Reduan Achtibat , Maximilian Dreyer , Ilona Eisenbraun , Sebastian Bosse , Thomas Wiegand , Wojciech Samek , Sebastian Lapuschkin

分类：机器学习 | 人工智能

2022-06-07

可解释的人工智能（XAI）的新兴领域旨在为当今强大但不透明的深度学习模型带来透明度。尽管本地XAI方法以归因图的形式解释了个体预测，从而确定了重要特征的发生位置（但没有提供有关其代表的信息），但全局解释技术可视化模型通常学会的编码的概念。因此，两种方法仅提供部分见解，并留下将模型推理解释的负担。只有少数当代技术旨在将本地和全球XAI背后的原则结合起来，以获取更多信息的解释。但是，这些方法通常仅限于特定的模型体系结构，或对培训制度或数据和标签可用性施加其他要求，这实际上使事后应用程序成为任意预训练的模型。在这项工作中，我们介绍了概念相关性传播方法（CRP）方法，该方法结合了XAI的本地和全球观点，因此允许回答“何处”和“ where”和“什么”问题，而没有其他约束。我们进一步介绍了相关性最大化的原则，以根据模型对模型的有用性找到代表性的示例。因此，我们提高了对激活最大化及其局限性的共同实践的依赖。我们证明了我们方法在各种环境中的能力，展示了概念相关性传播和相关性最大化导致了更加可解释的解释，并通过概念图表，概念组成分析和概念集合和概念子区和概念子区和概念子集和定量研究对模型的表示和推理提供了深刻的见解。它们在细粒度决策中的作用。

translated by 谷歌翻译

Robustness in Deep Learning for Computer Vision: Mind the gap?

Nathan Drenkow , Numair Sani , Ilya Shpitser , Mathias Unberath

分类：计算机视觉 | 人工智能 | 机器学习

2021-12-01

用于计算机视觉任务的深度神经网络在越来越安全 - 严重和社会影响的应用中部署，激励需要在各种，天然存在的成像条件下关闭模型性能的差距。在包括对抗机器学习的多种上下文中尤为色难地使用的鲁棒性，然后指在自然诱导的图像损坏或改变下保持模型性能。我们进行系统审查，以识别，分析和总结当前定义以及对计算机愿景深度学习中的非对抗鲁棒性的进展。我们发现，该研究领域已经收到了相对于对抗机器学习的不成比例地注意力，但存在显着的稳健性差距，这些差距通常表现在性能下降中与对抗条件相似。为了在上下文中提供更透明的稳健性定义，我们引入了数据生成过程的结构因果模型，并将非对抗性鲁棒性解释为模型在损坏的图像上的行为，其对应于来自未纳入数据分布的低概率样本。然后，我们确定提高神经网络鲁棒性的关键架构，数据增强和优化策略。这种稳健性的这种因果观察表明，目前文献中的常见做法，关于鲁棒性策略和评估，对应于因果概念，例如软干预导致成像条件的决定性分布。通过我们的调查结果和分析，我们提供了对未来研究如何可能介意这种明显和显着的非对抗的鲁棒性差距的观点。

translated by 谷歌翻译

Neural Latents Benchmark '21: Evaluating latent variable models of neural population activity

Felix Pei , Joel Ye , David Zoltowski , Anqi Wu , Raeed H. Chowdhury , Hansem Sohn , Joseph E. O'Doherty , Krishna V. Shenoy , Matthew T. Kaufman , Mark Churchland

分类：机器学习

2021-09-09

神经记录的进展现在在前所未有的细节中研究神经活动的机会。潜在的变量模型（LVMS）是用于分析各种神经系统和行为的丰富活动的有希望的工具，因为LVM不依赖于活动与外部实验变量之间的已知关系。然而，目前缺乏标准化目前阻碍了对神经元群体活性的LVM进行的进展，导致采用临时方式进行和比较方法。为协调这些建模工作，我们为神经人群活动的潜在变量建模介绍了基准套件。我们从认知，感官和机动领域策划了四种神经尖峰活动的数据集，以促进适用于这些地区各地的各种活动的模型。我们将无监督的评估视为用于评估数据集的模型的共同框架，并应用几个显示基准多样性的基线。我们通过评估释放此基准。 http://neurallatents.github.io.

translated by 谷歌翻译

Abutting Grating Illusion: Cognitive Challenge to Neural Network Models

Jinyu Fan , Yi Zeng

分类：计算机视觉 | 人工智能

2022-08-08

与人类相比，即使是最先进的深度学习模型也缺乏基本能力。已经提出了多重比较范例来探索人类与深度学习之间的区别。尽管大多数比较都取决于受数学转变启发的腐败，但很少有人在人类认知现象上具有基础。在这项研究中，我们提出了一种基于毗邻的光栅幻觉的新型腐败方法，这是在人类和广泛的动物物种中广泛发现的视觉现象。腐败方法破坏了梯度定义的边界，并使用彼此毗邻的线光栅产生了虚幻轮廓的感知。我们应用了MNIST，高分辨率MNIST和Silhouette对象图像的方法。对腐败的各种深度学习模型进行了测试，包括从头开始训练的模型和通过ImageNet或各种数据增强技术预测的109个模型。我们的结果表明，即使对于最先进的深度学习模型，将光栅腐败毗邻也是挑战性的，因为大多数模型都是随机猜测的。我们还发现，深度指示技术可以极大地改善固定光栅幻觉的鲁棒性。早期层的可视化表明，更好的性能模型表现出更强的终端特性，这与神经科学发现一致。为了验证腐败方法，涉及24名人类受试者以对损坏数据集进行分类。

translated by 谷歌翻译

SATBench: Benchmarking the speed-accuracy tradeoff in object recognition by humans and dynamic neural networks

Ajay Subramanian , Sara Price , Omkar Kumbhar , Elena Sizikova , Najib J. Majaj , Denis G. Pelli

分类：计算机视觉 | 机器学习

2022-06-16

阅读和驾驶等日常任务的核心是主动对象识别。目前无法合并时间来阻碍建模此类任务的尝试。人们在速度和准确性之间表现出灵活的权衡，而这种权衡是至关重要的人类技能。深层神经网络已成为预测人类对象识别峰值和神经活动的有前途的候选人。但是，建模时间维度，即速度准确性权衡（SAT），对于它们作为人类如何识别对象的有用计算模型至关重要。为此，我们在这里介绍了第一个大规模（148个观察者，4个神经网络，8个任务）数据集，该数据集是识别Imagenet图像时速度准确性折衷（SAT）。在每个人类试验中，哔哔声表示所需的反应时间，在显示图像后以固定的延迟发出声音，并且观察者的响应仅在哔哔声附近发生时才计算。在一系列块中，我们测试了许多蜂鸣延迟，即反应时间。我们观察到人类的准确性随反应时间的增加而增加，并继续将其特征与能够推理时间自适应计算的几个动态神经网络的行为进行比较。我们将FLOPS作为反应时间的模拟，我们将网络与人类在曲线拟合误差，类别相关性和曲线陡度中进行比较，并得出结论，级联的动态神经网络是对象识别任务中人类反应时间的有希望的模型。

translated by 谷歌翻译

Natural Image Reconstruction from fMRI using Deep Learning: A Survey

Zarina Rakhimberdina , Quentin Jodelet , Xin Liu , Tsuyoshi Murata

分类：计算机视觉 | (统计)机器学习

2021-10-18

随着脑成像技术和机器学习工具的出现，很多努力都致力于构建计算模型来捕获人脑中的视觉信息的编码。最具挑战性的大脑解码任务之一是通过功能磁共振成像（FMRI）测量的脑活动的感知自然图像的精确重建。在这项工作中，我们调查了来自FMRI的自然图像重建的最新学习方法。我们在架构设计，基准数据集和评估指标方面检查这些方法，并在标准化评估指标上呈现公平的性能评估。最后，我们讨论了现有研究的优势和局限，并提出了潜在的未来方向。

translated by 谷歌翻译

Models Out of Line: A Fourier Lens on Distribution Shift Robustness

Sara Fridovich-Keil , Brian R. Bartoldson , James Diffenderfer , Bhavya Kailkhura , Peer-Timo Bremer

分类：机器学习

2022-07-08

提高深神经网络（DNN）对分布（OOD）数据的准确性对于在现实世界应用中接受深度学习（DL）至关重要。已经观察到，分布（ID）与OOD数据的准确性遵循线性趋势和模型表现优于该基线非常罕见（并被称为“有效鲁棒”）。最近，已经开发出一些有前途的方法来提高OOD的鲁棒性：模型修剪，数据增强和结合或零射门评估大型预审预周化模型。但是，仍然对观察有效鲁棒性所需的OOD数据和模型属性的条件尚无清晰的了解。我们通过对多种方法进行全面的经验研究来解决这个问题，这些方法已知会影响OOD鲁棒性，对CIFAR-10和Imagenet的广泛自然和合成分布转移。特别是，我们通过傅立叶镜头观察“有效的鲁棒性难题”，并询问模型和OOD数据的光谱特性如何影响相应的有效鲁棒性。我们发现这个傅立叶镜头提供了一些深入的了解，为什么某些强大的模型，尤其是夹家族的模型，可以实现稳健性。但是，我们的分析还清楚地表明，没有已知的指标始终是对OOD鲁棒性的最佳解释（甚至是强烈的解释）。因此，为了帮助未来对OOD难题的研究，我们通过引入一组预处理的模型（固定的模型），以有效的稳健性（可公开可鲁棒）解决了差距，这些模型（固有的模型）以及不同级别的OOD稳健性。

translated by 谷歌翻译

ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness

Robert Geirhos , Patricia Rubisch , Claudio Michaelis , Matthias Bethge , Felix A. Wichmann , Wieland Brendel

分类：

2018-11-29

Convolutional Neural Networks (CNNs) are commonly thought to recognise objects by learning increasingly complex representations of object shapes. Some recent studies suggest a more important role of image textures. We here put these conflicting hypotheses to a quantitative test by evaluating CNNs and human observers on images with a texture-shape cue conflict. We show that ImageNettrained CNNs are strongly biased towards recognising textures rather than shapes, which is in stark contrast to human behavioural evidence and reveals fundamentally different classification strategies. We then demonstrate that the same standard architecture (ResNet-50) that learns a texture-based representation on ImageNet is able to learn a shape-based representation instead when trained on 'Stylized-ImageNet', a stylized version of ImageNet. This provides a much better fit for human behavioural performance in our well-controlled psychophysical lab setting (nine experiments totalling 48,560 psychophysical trials across 97 observers) and comes with a number of unexpected emergent benefits such as improved object detection performance and previously unseen robustness towards a wide range of image distortions, highlighting advantages of a shape-based representation.

translated by 谷歌翻译

Robust deep learning-based semantic organ segmentation in hyperspectral images

Silvia Seidlitz , Jan Sellner , Jan Odenthal , Berkin Özdemir , Alexander Studier-Fischer , Samuel Knödler , Leonardo Ayala , Tim Adler , Hannes G. Kenngott , Minu Tizabi

分类：计算机视觉 | 机器学习

2021-11-09

语义图像分割是手术中的背景知识和自治机器人的重要前提。本领域的状态专注于在微创手术期间获得的传统RGB视频数据，但基于光谱成像数据的全景语义分割并在开放手术期间获得几乎没有注意到日期。为了解决文献中的这种差距，我们正在研究基于在开放手术环境中获得的猪的高光谱成像（HSI）数据的以下研究问题：（1）基于神经网络的HSI数据的充分表示是完全自动化的器官分割，尤其是关于数据的空间粒度（像素与Superpixels与Patches与完整图像）的空间粒度？（2）在执行语义器官分割时，是否有利用HSI数据使用HSI数据，即RGB数据和处理的HSI数据（例如氧合等组织参数）？根据基于20猪的506个HSI图像的全面验证研究，共注释了19个类，基于深度的学习的分割性能 - 贯穿模态 - 与输入数据的空间上下文一致。未处理的HSI数据提供优于RGB数据或来自摄像机提供商的处理数据，其中优势随着输入到神经网络的输入的尺寸而增加。最大性能（应用于整个图像的HSI）产生了0.89（标准偏差（SD）0.04）的平均骰子相似度系数（DSC），其在帧间间变异性（DSC为0.89（SD 0.07）的范围内。我们得出结论，HSI可以成为全自动手术场景理解的强大的图像模型，其具有传统成像的许多优点，包括恢复额外功能组织信息的能力。

translated by 谷歌翻译