Deep learning, especially convolutional neural networks, has triggered accelerated advancements in computer vision, bringing changes into our daily practice. Furthermore, the standardized deep learning modules (also known as backbone networks), i.e., ResNet and EfficientNet, have enabled efficient and rapid development of new computer vision solutions. Yet, deep learning methods still suffer from several drawbacks. One of the most concerning problems is the high memory and computational cost, such that dedicated computing units, typically GPUs, have to be used for training and development. Therefore, in this paper, we propose a quantifiable evaluation method, the convolutional kernel redundancy measure, which is based on perceived image differences, for guiding the network structure simplification. When applying our method to the chest X-ray image classification problem with ResNet, our method can maintain the performance of the network and reduce the number of parameters from over $23$ million to approximately $128$ thousand (reducing $99.46\%$ of the parameters).
translated by 谷歌翻译
近年来,深度学习显示了广泛区域的潜力和效率,包括计算机视觉,图像和信号处理。然而,由于缺乏算法决策和结果的解释性,用户应用程序仍然存在转化挑战。这个黑匣子问题对于高风险应用程序(例如与医疗相关的决策制定)尤其有问题。当前的研究目标是设计一个可解释的深度学习系统,用于对脑电图的时间序列分类(EEG)进行睡眠阶段评分,以此作为设计透明系统的一步。我们已经开发了一个可解释的深神经网络,该网络包括基于内核的层,该层是基于人类专家在视觉分析记录的视觉分析中用于睡眠评分的一组原理。将基于内核的卷积层定义并用作系统的第一层,并可用于用户解释。训练有素的系统及其结果从脑电图信号的微观结构(例如训练的内核)以及每个内核对检测到的阶段的效果,宏观结构(例如阶段之间的过渡)中解释了四个级别。拟议的系统表现出比先前的研究更大的性能,而解释的结果表明,该系统学习了与专家知识一致的信息。
translated by 谷歌翻译
由于存储器和计算资源有限,部署在移动设备上的卷积神经网络(CNNS)是困难的。我们的目标是通过利用特征图中的冗余来设计包括CPU和GPU的异构设备的高效神经网络,这很少在神经结构设计中进行了研究。对于类似CPU的设备,我们提出了一种新颖的CPU高效的Ghost(C-Ghost)模块,以生成从廉价操作的更多特征映射。基于一组内在的特征映射,我们使用廉价的成本应用一系列线性变换,以生成许多幽灵特征图,可以完全揭示内在特征的信息。所提出的C-Ghost模块可以作为即插即用组件,以升级现有的卷积神经网络。 C-Ghost瓶颈旨在堆叠C-Ghost模块,然后可以轻松建立轻量级的C-Ghostnet。我们进一步考虑GPU设备的有效网络。在建筑阶段的情况下,不涉及太多的GPU效率(例如,深度明智的卷积),我们建议利用阶段明智的特征冗余来制定GPU高效的幽灵(G-GHOST)阶段结构。舞台中的特征被分成两个部分,其中使用具有较少输出通道的原始块处理第一部分,用于生成内在特征,另一个通过利用阶段明智的冗余来生成廉价的操作。在基准测试上进行的实验证明了所提出的C-Ghost模块和G-Ghost阶段的有效性。 C-Ghostnet和G-Ghostnet分别可以分别实现CPU和GPU的准确性和延迟的最佳权衡。代码可在https://github.com/huawei-noah/cv-backbones获得。
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
在许多计算机视觉子域中,图像降级仍然是一个具有挑战性的问题。最近的研究表明,在有监督的环境中取得了重大改进。但是,很少有挑战(例如空间忠诚度和类似卡通的平滑度)仍未解决或果断地忽略。我们的研究提出了一个简单而有效的架构,用于解决上述问题的降级问题。所提出的体系结构重新审视了模块化串联的概念,而不是长时间和更深的级联连接,以恢复给定图像的更清洁近似。我们发现不同的模块可以捕获多功能表示形式,而串联表示为低级图像恢复创造了更丰富的子空间。所提出的架构的参数数量仍然小于以前的大多数网络的数量,并且仍然对当前最新网络进行了重大改进。
translated by 谷歌翻译
随着深度学习(DL)的出现,超分辨率(SR)也已成为一个蓬勃发展的研究领域。然而,尽管结果有希望,但该领域仍然面临需要进一步研究的挑战,例如,允许灵活地采样,更有效的损失功能和更好的评估指标。我们根据最近的进步来回顾SR的域,并检查最新模型,例如扩散(DDPM)和基于变压器的SR模型。我们对SR中使用的当代策略进行了批判性讨论,并确定了有前途但未开发的研究方向。我们通过纳入该领域的最新发展,例如不确定性驱动的损失,小波网络,神经体系结构搜索,新颖的归一化方法和最新评估技术来补充先前的调查。我们还为整章中的模型和方法提供了几种可视化,以促进对该领域趋势的全球理解。最终,这篇综述旨在帮助研究人员推动DL应用于SR的界限。
translated by 谷歌翻译
深度卷积神经网络(DCNN)辅助高动态范围(HDR)成像最近接受了很多关注。 DCNN生成的HDR图像的质量过于传统的对应物。然而,DCNN容易被计算密集和富力耗电。为了解决挑战,我们提出了用于极端双曝光图像融合的轻质CNN的基于轻型CNN的算法,这可以在具有有限的电力和硬件资源的各种嵌入式计算平台上实现。使用两个子网络:GlobalNet(g)和detailnet(d)。 G的目标是学习关于空间维度的全局信息,而D旨在增强通道维度的本地细节。 G和D都仅基于深度卷积(D CONC)和何时卷积(P CONV),以减少所需的参数和计算。实验结果显示所提出的技术可以在极其暴露的区域中产生具有合理细节的HDR图像。我们的模型超过了其他最先进的方法0.7至8.5,至于PSNR得分,并与其他方式达到7,675至463,385参数减少
translated by 谷歌翻译
手写数字识别(HDR)是光学特征识别(OCR)领域中最具挑战性的任务之一。不管语言如何,HDR都存在一些固有的挑战,这主要是由于个人跨个人的写作风格的变化,编写媒介和环境的变化,无法在反复编写任何数字等时保持相同的笔触。除此之外,特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来,研究人员开发了许多离线和在线HDR管道,其中不同的图像处理技术与传统的机器学习(ML)基于基于的和/或基于深度学习(DL)的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据,例如:英语,阿拉伯语,印度,法尔西,中文等,但几乎没有对孟加拉人HDR(BHDR)的调查,这缺乏对孟加拉语HDR(BHDR)的研究,而这些调查缺乏对孟加拉语HDR(BHDR)的研究。挑战,基础识别过程以及可能的未来方向。在本文中,已经分析了孟加拉语手写数字的特征和固有的歧义,以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外,还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编,煽动了对相关研究的新途径的探索,这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。
translated by 谷歌翻译
使用深度学习模型从组织学数据中诊断癌症提出了一些挑战。这些图像中关注区域(ROI)的癌症分级和定位通常依赖于图像和像素级标签,后者需要昂贵的注释过程。深度弱监督的对象定位(WSOL)方法为深度学习模型的低成本培训提供了不同的策略。仅使用图像级注释,可以训练这些方法以对图像进行分类,并为ROI定位进行分类类激活图(CAM)。本文综述了WSOL的​​最先进的DL方法。我们提出了一种分类法,根据模型中的信息流,将这些方法分为自下而上和自上而下的方法。尽管后者的进展有限,但最近的自下而上方法目前通过深层WSOL方法推动了很多进展。早期作品的重点是设计不同的空间合并功能。但是,这些方法达到了有限的定位准确性,并揭示了一个主要限制 - 凸轮的不足激活导致了高假阴性定位。随后的工作旨在减轻此问题并恢复完整的对象。评估和比较了两个具有挑战性的组织学数据集的分类和本地化准确性,对我们的分类学方法进行了评估和比较。总体而言,结果表明定位性能差,特别是对于最初设计用于处理自然图像的通用方法。旨在解决组织学数据挑战的方法产生了良好的结果。但是,所有方法都遭受高假阳性/阴性定位的影响。在组织学中应用深WSOL方法的应用是四个关键的挑战 - 凸轮的激活下/过度激活,对阈值的敏感性和模型选择。
translated by 谷歌翻译
通过卫星摄像机获取关于地球表面的大面积的信息使我们能够看到远远超过我们在地面上看到的更多。这有助于我们在检测和监测土地使用模式,大气条件,森林覆盖和许多非上市方面的地区的物理特征。所获得的图像不仅跟踪连续的自然现象,而且对解决严重森林砍伐的全球挑战也至关重要。其中亚马逊盆地每年占最大份额。适当的数据分析将有助于利用可持续健康的氛围来限制对生态系统和生物多样性的不利影响。本报告旨在通过不同的机器学习和优越的深度学习模型用大气和各种陆地覆盖或土地使用亚马逊雨林的卫星图像芯片。评估是基于F2度量完成的,而用于损耗函数,我们都有S形跨熵以及Softmax交叉熵。在使用预先训练的ImageNet架构中仅提取功能之后,图像被间接馈送到机器学习分类器。鉴于深度学习模型,通过传输学习使用微调Imagenet预训练模型的集合。到目前为止,我们的最佳分数与F2度量为0.927。
translated by 谷歌翻译
人类生理学中的各种结构遵循特异性形态,通常在非常细的尺度上表达复杂性。这种结构的例子是胸前气道,视网膜血管和肝血管。可以观察到可以观察到可以观察到可以观察到可以观察到空间排列的磁共振成像(MRI),计算机断层扫描(CT),光学相干断层扫描(OCT)等医学成像模式(MRI),计算机断层扫描(CT),可以观察到空间排列的大量2D和3D图像的集合。这些结构在医学成像中的分割非常重要,因为对结构的分析提供了对疾病诊断,治疗计划和预后的见解。放射科医生手动标记广泛的数据通常是耗时且容易出错的。结果,在过去的二十年中,自动化或半自动化的计算模型已成为医学成像的流行研究领域,迄今为止,许多计算模型已经开发出来。在这项调查中,我们旨在对当前公开可用的数据集,细分算法和评估指标进行全面审查。此外,讨论了当前的挑战和未来的研究方向。
translated by 谷歌翻译
需要连续监测足部溃疡愈合,以确保给定治疗的功效并避免任何恶化。脚下溃疡分割是伤口诊断的重要步骤。我们开发了一种模型,其精神与良好的编码器编码器和残留卷积神经网络相似。我们的模型包括剩余的连接以及在每个卷积块中集成的通道和空间注意力。一种基于贴剂训练,测试时间增加以及对获得预测的多数投票的简单方法,导致了卓越的性能。我们的模型没有利用任何容易获得的骨干架构,在类似的外部数据集或任何转移学习技术上进行预训练。与用于足球溃疡细分任务的可用最新模型相比,网络参数的总数约为500万,这使其成为一个显着的轻巧模型。我们的实验在斑块级和图像级别上呈现了结果。我们的模型应用于Miccai 2021的公开脚步溃疡细分(Fuseg)挑战数据集,就骰子相似性得分而言,最先进的图像级绩效为88.22%,在官方挑战排行榜中排名第二。我们还展示了一个非常简单的解决方案,可以将其与更高级的体系结构进行比较。
translated by 谷歌翻译
Pansharpening是指具有高空间分辨率的全色图像的融合和具有低空间分辨率的多光谱图像,旨在获得高空间分辨率多光谱图像。在本文中,我们提出了一种新的深度神经网络架构,通过考虑以下双型结构,\ emph {ie,double级,双分支和双向,称为三双网络(TDNet)。通过使用TDNet的结构,可以充分利用平面图像的空间细节,并利用逐步注入低空间分辨率多光谱图像,从而产生高空间分辨率输出。特定的网络设计是由传统多分辨率分析(MRA)方法的物理公式的动机。因此,有效的MRA融合模块也集成到TDNet中。此外,我们采用了一些Reset块和一些多尺度卷积内核来加深和扩大网络,以有效增强所提出的TDNet的特征提取和鲁棒性。关于WorldView-3,Quickbird和GaoFen-2传感器获得的减少和全分辨率数据集的广泛实验表明了与最近最近的最先进的泛红花彭化方法相比,所提出的TDNet的优越性。一个消融的研究也证实了所提出的方法的有效性。
translated by 谷歌翻译
在本文中,提出了一种新型的数据驱动方法,称为“增强图像缺陷”,用于飞机空气数据传感器(AD)的故障检测(FD)。典范飞机空气数据传感器的FD问题,开发了基于深神经网络(DNN)的边缘设备上的在线FD方案。首先,将飞机惯性参考单元测量作为等效输入,可扩展到不同的飞机/飞行案件。收集了与6种不同的飞机/飞行条件相关的数据,以在培训/测试数据库中提供多样性(可伸缩性)。然后提出了基于DNN的飞行条件预测的增强图像缺乏。原始数据被重塑为用于卷积操作的灰度图像,并分析并指出了增强的必要性。讨论了不同种类的增强方法,即翻转,重复,瓷砖及其组合,结果表明,在图像矩阵的两个轴上的所有重复操作都会导致DNN的最佳性能。基于GRAD-CAM研究了DNN的可解释性,这提供了更好的理解并进一步巩固DNN的鲁棒性。接下来,DNN型号,具有增强图像缺陷数据的VGG-16将针对移动硬件部署进行了优化。修剪DNN后,具有高精度(略微上升0.27%)的轻质模型(比原始VGG-16小98.79%),并获得了快速速度(时间延迟减少87.54%)。并实施了基于TPE的DNN的超参数优化,并确定了超参数的最佳组合(学习速率0.001,迭代时期600和批次尺寸100的最高精度为0.987)。最后,开发了基于Edge设备Jetson Nano的在线FD部署,并实现了飞机的实时监控。我们认为,这种方法是针对解决其他类似领域的FD问题的启发性。
translated by 谷歌翻译
在该研究中,提出了一种具有贝叶斯优化(ADSNN-BO)的关注深度可分离的神经网络,以检测和分类稻米图像的水稻疾病。水稻疾病经常导致20至40%的公司生产损失的产量,与全球经济有关。快速疾病鉴定对于计划及时计划治疗并减​​少CORP损失至关重要。水稻疾病诊断仍然主要是手动进行的。为实现AI辅助快速准确的疾病检测,我们提出了基于MobileNet结构的Adsnn-Bo模型和增强注意机制。此外,贝叶斯优化方法应用于调整模型的超级参数。交叉验证的分类实验是基于公共米病数据集进行的,总共有四个类别。实验结果表明,我们的移动兼容ADSNN-BO模型实现了94.65 \%的测试精度,这占据了所有最先进的模型。为了检查我们所提出的模型的可解释性,还进行了包括激活图和过滤器可视化方法的特征分析。结果表明,我们提出的基于关注机制可以更有效地引导Adsnn-Bo模型学习信息性功能。本研究的结果将促进农业领域快速植物疾病诊断和控制的人工智能。
translated by 谷歌翻译
在每个卷积层中学习一个静态卷积内核是现代卷积神经网络(CNN)的常见训练范式。取而代之的是,动态卷积的最新研究表明,学习$ n $卷积核与输入依赖性注意的线性组合可以显着提高轻重量CNN的准确性,同时保持有效的推断。但是,我们观察到现有的作品endow卷积内核具有通过一个维度(关于卷积内核编号)的动态属性(关于内核空间的卷积内核编号),但其他三个维度(关于空间大小,输入通道号和输出通道编号和输出通道号,每个卷积内核)被忽略。受到这一点的启发,我们提出了Omni维动态卷积(ODCONV),这是一种更普遍而优雅的动态卷积设计,以推进这一研究。 ODCONV利用了一种新型的多维注意机制,采用平行策略来学习沿着任何卷积层的内核空间的所有四个维度学习卷积内核的互补关注。作为定期卷积的倒数替换,可以将ODCONV插入许多CNN架构中。 ImageNet和MS-Coco数据集的广泛实验表明,ODCONV为包括轻量重量和大型的各种盛行的CNN主链带来了可靠的准确性提升,例如3.77%〜5.71%| 1.86%〜3.72%〜3.72%的绝对1个绝对1改进至ImabivLenetV2 | ImageNet数据集上的重新连接家族。有趣的是,由于其功能学习能力的提高,即使具有一个单个内核的ODCONV也可以与具有多个内核的现有动态卷积对应物竞争或超越现有的动态卷积对应物,从而大大降低了额外的参数。此外,ODCONV也优于其他注意模块,用于调节输出特征或卷积重量。
translated by 谷歌翻译
Time Series Classification (TSC) is an important and challenging problem in data mining. With the increase of time series data availability, hundreds of TSC algorithms have been proposed. Among these methods, only a few have considered Deep Neural Networks (DNNs) to perform this task. This is surprising as deep learning has seen very successful applications in the last years. DNNs have indeed revolutionized the field of computer vision especially with the advent of novel deeper architectures such as Residual and Convolutional Neural Networks. Apart from images, sequential data such as text and audio can also be processed with DNNs to reach state-of-the-art performance for document classification and speech recognition. In this article, we study the current state-ofthe-art performance of deep learning algorithms for TSC by presenting an empirical study of the most recent DNN architectures for TSC. We give an overview of the most successful deep learning applications in various time series domains under a unified taxonomy of DNNs for TSC. We also provide an open source deep learning framework to the TSC community where we implemented each of the compared approaches and evaluated them on a univariate TSC benchmark (the UCR/UEA archive) and 12 multivariate time series datasets. By training 8,730 deep learning models on 97 time series datasets, we propose the most exhaustive study of DNNs for TSC to date.
translated by 谷歌翻译
In single image deblurring, the "coarse-to-fine" scheme, i.e. gradually restoring the sharp image on different resolutions in a pyramid, is very successful in both traditional optimization-based methods and recent neural-networkbased approaches. In this paper, we investigate this strategy and propose a Scale-recurrent Network (SRN-DeblurNet) for this deblurring task. Compared with the many recent learning-based approaches in [25], it has a simpler network structure, a smaller number of parameters and is easier to train. We evaluate our method on large-scale deblurring datasets with complex motion. Results show that our method can produce better quality results than state-of-thearts, both quantitatively and qualitatively.
translated by 谷歌翻译
与传统CS方法相比,基于深度学习(DL)的压缩传感(CS)已被应用于图像重建的更好性能。但是,大多数现有的DL方法都利用逐个块测量,每个测量块分别恢复,这引入了重建的有害阻塞效应。此外,这些方法的神经元接受场被设计为每一层的大小相同,这只能收集单尺度的空间信息,并对重建过程产生负面影响。本文提出了一个新的框架,称为CS测量和重建的多尺度扩张卷积神经网络(MSDCNN)。在测量期间,我们直接从训练有素的测量网络中获得所有测量,该测量网络采用了完全卷积结构,并通过输入图像与重建网络共同训练。它不必将其切成块,从而有效地避免了块效应。在重建期间,我们提出了多尺度特征提取(MFE)体系结构,以模仿人类视觉系统以捕获同一功能映射的多尺度特征,从而增强了框架的图像特征提取能力并提高了框架的性能并提高了框架的性能。影像重建。在MFE中,有多个并行卷积通道以获取多尺度特征信息。然后,将多尺度功能信息融合在一起,并以高质量重建原始图像。我们的实验结果表明,根据PSNR和SSIM,该提出的方法对最新方法的性能有利。
translated by 谷歌翻译
哥内克人Sentinel Imagery的纯粹卷的可用性为使用深度学习的大尺度创造了新的土地利用陆地覆盖(Lulc)映射的机会。虽然在这种大型数据集上培训是一个非琐碎的任务。在这项工作中,我们试验Lulc Image分类和基准不同最先进模型的Bigearthnet数据集,包括卷积神经网络,多层感知,视觉变压器,高效导通和宽残余网络(WRN)架构。我们的目标是利用分类准确性,培训时间和推理率。我们提出了一种基于用于网络深度,宽度和输入数据分辨率的WRNS复合缩放的高效导通的框架,以有效地训练和测试不同的模型设置。我们设计一种新颖的缩放WRN架构,增强了有效的通道注意力机制。我们提出的轻量级模型具有较小的培训参数,实现所有19个LULC类的平均F分类准确度达到4.5%,并且验证了我们使用的resnet50最先进的模型速度快两倍作为基线。我们提供超过50种培训的型号,以及我们在多个GPU节点上分布式培训的代码。
translated by 谷歌翻译