我们解决了从单个RGB图像自动重建场景的完整3D模型的问题。这项具有挑战性的任务需要推断出可见和遮挡表面的形状。我们的方法利用以观察者为中心的多层表示场景几何图形,从最近的方法改编为单个对象形状完成。为了提高复杂场景的以视图为中心的表示的准确性,我们引入了一种新颖的“极线特征变换器”,它将卷积网络特征从输入视图传输到其他虚拟摄像机视点,从而更好地覆盖3D场景几何。与首先在3D中检测和定位对象,然后使用类别特定模型推断对象形状的现有方法不同,我们的方法是完全卷积的,端到端可微分的,并且避免了体素表示的分辨率和存储器限制。我们展示了多层深度表示和极势变换器在重建大型室内数据库中的优势。
translated by 谷歌翻译
高光谱图像(HSI)分类广泛用于分析遥感图像。高光谱图像包括不同的图像带。卷积神经网络(CNN)是最常用的基于深度学习的视觉数据处理方法之一。在最近的工作中也可以看到CNN用于HSI分类。这些方法主要基于2D CNN。然而,HSI分类性能高度依赖于空间和光谱信息。由于计算复杂性增加,很少有方法利用3D CNN。该信提出了用于HSI分类的混合光谱卷积神经网络(HybridSN)。基本上,HybridSN是频谱空间3D-CNN,其后是空间2D-CNN。 3D-CNN促进来自一叠光谱带的联合空间光谱特征表示。 3D-CNN顶部的2D-CNN进一步学习更抽象的空间表示。此外,与单独的3D-CNN相比,使用混合CNN降低了模型的复杂性。通过这种混合方法的表现,在Indian Pines,Pavia University和Salinas Sceneremote传感数据集上进行了非常严格的HSI分类实验。将结果与最先进的手工制作以及端到端深度学习方法进行比较。使用所提出的用于HSI分类的HybridSN获得了令人满意的性能。源代码可以在\ url {https://github.com/gokriznastic/HybridSN}找到。
translated by 谷歌翻译
据我们所知,我们报告了生成对抗网络(GAN)的第一次端到端应用,用于合成视网膜的光学相干断层扫描(OCT)图像。在给定数据类型的采样时,生成模型已经获得了他们可以合成的越来越逼真的图像的最近的注意力。在本文中,我们将GAN应用于视网膜OCT的采样分布。我们观察到现实OCT图像的合成,描绘了可识别的病理学,例如黄斑裂孔,脉络膜血管膜,近视变性,黄斑囊样水肿和中心性视网膜病变等。这是其第一次这样的报道。这项新技术的潜在应用包括手术模拟,治疗计划,疾病预测,以及加速开发新药和治疗视网膜疾病的外科手术。
translated by 谷歌翻译
预测自然图像中的显着区域需要检测场景中存在的对象。为了为这项具有挑战性的任务开发强大的表示,必须通过上下文信息提取和扩充多个空间尺度的高级视觉特征。然而,旨在解释人类固定图的现有模型并未明确地包含这样的机制。在这里,我们提出了一种基于在大规模图像分类任务上预训练的卷积神经网络的方法。该体系结构形成编码器 - 解码器结构,并包括具有不同扩张率的多个卷积层的模块,以并行捕获多尺度特征。此外,我们将得到的表示与全局场景信息相结合,以准确地预测视觉显着性。我们的模型在两个公共显着性基准上获得了竞争性结果,并且我们证明了所选方法的建议方法的有效性。该网络基于轻量级图像分类主干,因此为具有有限计算资源的应用程序提供了合适的选择,以便在复杂的自然场景中估计人类注视。
translated by 谷歌翻译
在本文中,我们研究了在线识别平台,Amazon Rekognition和Microsoft Azure在背景,采集设备和面向对象方面的变化的可靠性。我们专注于公众常用的平台,以更好地了解他们的真实世界的表现。为了评估识别性能的变化,我们通过一次改变一个采集条件来执行控制实验。我们使用三个智能手机,一个数码单反相机和一个网络摄像头来捕捉客厅,办公室和摄影棚设置中的对象的侧视图和头顶视图。此外,我们引入了一个框架来估计与背景和方向相关的识别性能。在此框架中,我们利用基于颜色,纹理和形状特征的两种手工制作的特征以及从深度神经网络获得的数据驱动特征。实验结果表明,在多种采集条件下,基于深度学习的图像表示可以估计出Spearman的秩序相关性为0.94的认知性能变化。
translated by 谷歌翻译
数据驱动的抓取方法最近取得了显着进展。但这些方法通常需要很多训练数据。为了提高掌握数据采集的效率,本文提出了一种新的把握训练系统,包括从数据采集到模型推理的整个管道。该系统可以通过对映抓取规则辅助​​的纠正策略收集有效的抓取样本,并设计了一个可供性解释器网络,预测像素化抓取可供性图。我们将可读性,不可用性和背景定义为掌握可供性。我们系统的关键优势在于,在对映规则下仅用少量抓取样本训练的像素级示能解释器网络可以在完全看不见的物体和背景上实现显着的性能。仅在模拟中收集训练样本。广泛的定性和定量实验证明了我们提出的方法的准确性和稳健性。在现实世界的实验中,我们在一组家庭用品上获得了93%的成功率,在一组对抗项目上获得了91%的成功率,仅有约6,300个模拟样本。我们在杂乱场景中也达到了87%的准确率。尽管该模型仅使用RGB图像进行训练,但在更改背景纹理时,它也可以执行并且可以在对抗物体组上实现甚至94%的准确度,其优于当前最先进的方法。
translated by 谷歌翻译
深度神经网络最近通过安装在道路段上的传感器获得的时间序列数据证明了交通预测能力。然而,捕获交通数据的时空特征通常需要大量的参数来训练,增加了计算负担。在这项工作中,我们证明嵌入道路网络的拓扑信息改善了学习交通特征的过程。我们使用具有递归神经网络(RNN)的车辆道路网络的agraph来推断相邻路段之间的相互作用以及时间动力学。道路网络的拓扑结构被转换为时空图形,以形成结构RNN(SRNN)。提出的方法是验证来自西班牙桑坦德市道路网的超速数据。实验表明,基于图形的方法优于基于时空图像的最先进的方法,需要更少的参数。
translated by 谷歌翻译
在这项工作中,我们解释了如何使用计算拓扑来检测形成上皮组织的细胞的几何分布差异。特别地,我们使用持久的同源性从图像中提取拓扑信息,并用一个称为持久熵的数字进行总结。该方法是尺度不变的,对噪声具有鲁棒性并且对组织的全局拓扑特征敏感。我们发现在幼虫和前期阶段的果蝇翼盘上的鸡神经上皮和上皮之间存在显着差异。
translated by 谷歌翻译
基于通道的修剪在加速深度卷积神经网络方面取得了重大成功,深度卷积神经网络的管道是迭代的三步法:排序,修剪和微调。然而,这种迭代过程在计算上是昂贵的。在这项研究中,我们提出了一种基于粗略排序的新型计算有效的信道修剪方法,该方法利用微调期间的中间结果来对过滤器的重要性进行排序,建立在最先进的工作和数据驱动的排序标准之上。这项工作的目标不是提出一种基于特定通道修剪方法的单一改进方法,而是引入一种新的通用框架,该框架适用于一系列通道修剪方法。使用各种基准图像数据集(CIFAR-10,ImageNet,Birds-200和Flowers-102)和网络架构(AlexNet和VGG-16)来评估用于对象分类目的的所提出的方法。实验结果表明,所提出的方法可以与相应的艺术品(基线)达到几乎相同的性能,而我们的排名时间可以忽略不计。具体而言,通过所提出的方法,对于整个修剪过程的总计算时间的75%和54%可以分别针对CIFAR-10上的AlexNet和针对VGG-16 onImageNet而减少。我们的方法将极大地促进修剪实践,特别是在资源有限的平台上。
translated by 谷歌翻译
尽管在眼周识别方面取得了进步,但野外的数据和眼周识别仍然是一个挑战。在本文中,我们通过一对共享参数(双流)卷积神经网络提出了一种多层融合方法,其中每个网络接受RGB数据和一种新颖的基于颜色的纹理描述符,即OrthogonalCombination-Local Binary Coded Pattern(OC-LBCP) )用于野外的眼周识别。具体地,在双流网络中引入两个不同的后期融合层以聚合RGB数据和OC-LBCP。因此,网络有利于后期融合层的这一新特征,以获得准确性。我们还介绍并共享一个新的野外眼周数据集,即用于基准测试的Ethnic-ocular数据集。建议的网络也在两个公开可用的数据集上进行了评估,即CASIA-irisdistance和UBIPr。建议的网络优于这些数据集上的几个竞争方法。
translated by 谷歌翻译