视网膜性状或表型,总结了单个数字的视网膜图像的特定方面。然后可以将其用于进一步的分析,例如使用统计方法。但是,将复杂图像的一个方面减少到一个有意义的数字是具有挑战性的。因此,计算视网膜性状的方法往往是复杂的多步管道,只能应用于高质量的图像。这意味着研究人员通常必须丢弃大量可用数据。我们假设可以通过一个更简单的步骤来近似此类管道,这可以使常见的质量问题变得强大。我们提出了视网膜特征(DART)的深近似,其中使用深神经网络预测了这些图像的合成降解版本的高质量图像的现有管道的输出。我们使用来自英国生物库的视网膜图像计算出的视网膜分形尺寸(FD)的飞镖,这些图像先前的工作被确定为高质量。我们的方法在看不见的测试图像上显示与FD吸血鬼非常一致(Pearson r = 0.9572)。即使这些图像严重退化,DART仍然可以恢复FD估计值,该估计值与从原始图像获得的FD吸血鬼表示良好(Pearson r = 0.8817)。这表明我们的方法可以使研究人员将来丢弃更少的图像。我们的方法可以使用单个GPU计算超过1,000IMG/s的FD。我们认为这些是非常令人鼓舞的初步结果,并希望将这种方法发展为视网膜分析的有用工具。
translated by 谷歌翻译
To date, the best-performing blind super-resolution (SR) techniques follow one of two paradigms: A) generate and train a standard SR network on synthetic low-resolution - high-resolution (LR - HR) pairs or B) attempt to predict the degradations an LR image has suffered and use these to inform a customised SR network. Despite significant progress, subscribers to the former miss out on useful degradation information that could be used to improve the SR process. On the other hand, followers of the latter rely on weaker SR networks, which are significantly outperformed by the latest architectural advancements. In this work, we present a framework for combining any blind SR prediction mechanism with any deep SR network, using a metadata insertion block to insert prediction vectors into SR network feature maps. Through comprehensive testing, we prove that state-of-the-art contrastive and iterative prediction schemes can be successfully combined with high-performance SR networks such as RCAN and HAN within our framework. We show that our hybrid models consistently achieve stronger SR performance than both their non-blind and blind counterparts. Furthermore, we demonstrate our framework's robustness by predicting degradations and super-resolving images from a complex pipeline of blurring, noise and compression.
translated by 谷歌翻译
最近,Deep Models已经建立了SOTA性能,用于低分辨率图像介绍,但它们缺乏与现代相机(如4K或更多相关的现代相机)以及大孔相关的分辨率的保真度。我们为4K及以上代表现代传感器的照片贡献了一个介绍的基准数据集。我们展示了一个新颖的框架,结合了深度学习和传统方法。我们使用现有的深入介质模型喇嘛合理地填充孔,建立三个由结构,分割,深度组成的指南图像,并应用多个引导的贴片amatch,以产生八个候选候选图像。接下来,我们通过一个新型的策划模块来喂食所有候选构图,该模块选择了8x8反对称成对偏好矩阵的列求和良好的介绍。我们框架的结果受到了8个强大基线的用户的压倒性优先,其定量指标的改进高达7.4,而不是最好的基线喇嘛,而我们的技术与4种不同的SOTA配对时,我们的技术都会改善每个座椅,以使我们的每个人都非常偏爱用户,而不是用户偏爱用户。强大的超级分子基线。
translated by 谷歌翻译
现代光学卫星传感器使高分辨率立体声重建。但是在观察地球从空间推动立体声匹配时挑战成像条件。在实践中,由此产生的数字表面模型(DSM)相当嘈杂,并且通常不会达到3D城市建模等高分辨率应用所需的准确性。可以说,基于低电平图像相似性的立体声对应不足,并且应该互补关于超出基本局部平滑度的预期表面几何的先验知识。为此,我们介绍了Resptepth,这是一个卷积神经网络,其在示例数据之前学习如此表达几何。 Restepth在调节图像上的细化时改进初始原始的立体声DSM。即,它充当了一个智能,学习的后处理过滤器,可以无缝地补充任何立体声匹配管道。在一系列实验中,我们发现所提出的方法始终如一地改善了定量和定性的立体声DSM。我们表明,网络权重中的先前编码捕获了城市设计的有意义的几何特征,这也概括了不同地区,甚至从一个城市到另一个城市。此外,我们证明,通过对各种立体对的训练,RESPTH可以在成像条件和采集几何体中获得足够的不变性。
translated by 谷歌翻译
手写数字识别(HDR)是光学特征识别(OCR)领域中最具挑战性的任务之一。不管语言如何,HDR都存在一些固有的挑战,这主要是由于个人跨个人的写作风格的变化,编写媒介和环境的变化,无法在反复编写任何数字等时保持相同的笔触。除此之外,特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来,研究人员开发了许多离线和在线HDR管道,其中不同的图像处理技术与传统的机器学习(ML)基于基于的和/或基于深度学习(DL)的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据,例如:英语,阿拉伯语,印度,法尔西,中文等,但几乎没有对孟加拉人HDR(BHDR)的调查,这缺乏对孟加拉语HDR(BHDR)的研究,而这些调查缺乏对孟加拉语HDR(BHDR)的研究。挑战,基础识别过程以及可能的未来方向。在本文中,已经分析了孟加拉语手写数字的特征和固有的歧义,以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外,还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编,煽动了对相关研究的新途径的探索,这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。
translated by 谷歌翻译
高动态范围(HDR)成像是一种允许广泛的动态曝光范围的技术,这在图像处理,计算机图形和计算机视觉中很重要。近年来,使用深度学习(DL),HDR成像有重大进展。本研究对深层HDR成像方法的最新发展进行了综合和富有洞察力的调查和分析。在分层和结构上,将现有的深层HDR成像方法基于(1)输入曝光的数量/域,(2)学习任务数,(3)新传感器数据,(4)新的学习策略,(5)应用程序。重要的是,我们对关于其潜在和挑战的每个类别提供建设性的讨论。此外,我们审查了深度HDR成像的一些关键方面,例如数据集和评估指标。最后,我们突出了一些打开的问题,并指出了未来的研究方向。
translated by 谷歌翻译
早期发现视网膜疾病是预防患者部分或永久失明的最重要手段之一。在这项研究中,提出了一种新型的多标签分类系统,用于使用从各种来源收集的眼底图像来检测多种视网膜疾病。首先,使用许多公开可用的数据集来构建一个新的多标签视网膜疾病数据集,即梅里德数据集。接下来,应用了一系列后处理步骤,以确保图像数据的质量和数据集中存在的疾病范围。在眼底多标签疾病分类中,首次通过大量实验优化的基于变压器的模型用于图像分析和决策。进行了许多实验以优化所提出的系统的配置。结果表明,在疾病检测和疾病分类方面,该方法的性能比在同一任务上的最先进作品要好7.9%和8.1%。获得的结果进一步支持了基于变压器的架构在医学成像领域的潜在应用。
translated by 谷歌翻译
任何相机的光学元件都会降低照片的清晰度,这是关键的视觉质量标准。该降解的特征是点传播函数(PSF),该函数取决于光的波长,并且在整个成像场中都是可变的。在本文中,我们提出了一个两步方案,以纠正单个RAW或JPEG图像中的光学畸变,即没有相机或镜头上任何事先信息。首先,我们估计当地的高斯模糊内核,以重叠斑块,并通过非盲脱毛技术锐化它们。基于数十个透镜的PSF的测量值,这些模糊内核被建模为由七个参数定义的RGB高斯人。其次,我们使用卷积神经网络去除其余的侧向色差(第一步中未考虑),该网络被训练,可将红色/绿色和蓝色/绿色残留图像最小化。关于合成图像和真实图像的实验表明,这两个阶段的组合产生了一种快速的最新盲目畸变补偿技术,该技术与商业非盲算法竞争。
translated by 谷歌翻译
神经辐射字段(NERF)是一种用于高质量新颖观看综合的技术从一系列姿势输入图像。与大多数视图合成方法一样,NERF使用TONEMAPPED的低动态范围(LDR)作为输入;这些图像已经通过流畅的相机管道处理,平滑细节,剪辑突出显示,并扭曲了原始传感器数据的简单噪声分布。我们修改NERF以直接在线性原始图像直接培训,保持场景的完整动态范围。通过从生成的NERF渲染原始输出图像,我们可以执行新颖的高动态范围(HDR)视图综合任务。除了改变相机的观点外,我们还可以在事实之后操纵焦点,曝光和调度率。虽然单个原始图像显然比后处理的原始图像显着更大,但我们表明NERF对原始噪声的零平均分布非常强大。当优化许多嘈杂的原始输入(25-200)时,NERF会产生一个场景表示,如此准确的,即其呈现的新颖视图优于在同一宽基线输入图像上运行的专用单个和多像深生物丹机。因此,我们调用Rawnerf的方法可以从近黑暗中捕获的极其嘈杂的图像中重建场景。
translated by 谷歌翻译
语义图像分割是手术中的背景知识和自治机器人的重要前提。本领域的状态专注于在微创手术期间获得的传统RGB视频数据,但基于光谱成像数据的全景语义分割并在开放手术期间获得几乎没有注意到日期。为了解决文献中的这种差距,我们正在研究基于在开放手术环境中获得的猪的高光谱成像(HSI)数据的以下研究问题:(1)基于神经网络的HSI数据的充分表示是完全自动化的器官分割,尤其是关于数据的空间粒度(像素与Superpixels与Patches与完整图像)的空间粒度? (2)在执行语义器官分割时,是否有利用HSI数据使用HSI数据,即RGB数据和处理的HSI数据(例如氧合等组织参数)?根据基于20猪的506个HSI图像的全面验证研究,共注释了19个类,基于深度的学习的分割性能 - 贯穿模态 - 与输入数据的空间上下文一致。未处理的HSI数据提供优于RGB数据或来自摄像机提供商的处理数据,其中优势随着输入到神经网络的输入的尺寸而增加。最大性能(应用于整个图像的HSI)产生了0.89(标准偏差(SD)0.04)的平均骰子相似度系数(DSC),其在帧间间变异性(DSC为0.89(SD 0.07)的范围内。我们得出结论,HSI可以成为全自动手术场景理解的强大的图像模型,其具有传统成像的许多优点,包括恢复额外功能组织信息的能力。
translated by 谷歌翻译
由于大气湍流的扭曲而恢复图像是一个长期存在的问题,这是由于变形的空间变化,图像形成过程的非线性以及训练和测试数据的稀缺性。现有方法通常在失真模型上具有强大的统计假设,在许多情况下,由于没有概括,因此在现实世界中的性能有限。为了克服挑战,本文提出了一种端到端物理驱动的方法,该方法有效,可以推广到现实世界的湍流。在数据合成方面,我们通过通过宽sense式的平稳性近似随机场来显着增加SOTA湍流模拟器可以处理的图像分辨率。新的数据合成过程使大规模的多级湍流和训练的地面真相对产生。在网络设计方面,我们提出了湍流缓解变压器(TMT),这是一个两级U-NET形状的多帧恢复网络,该网络具有Noval有效的自发机制,称为暂时通道关节关注(TCJA)。我们还引入了一种新的培训方案,该方案由新的模拟器启用,并设计新的变压器单元以减少内存消耗。在静态场景和动态场景上的实验结果是有希望的,包括各种真实的湍流场景。
translated by 谷歌翻译
在2015年和2019年之间,地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”,研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用,并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人,仍然在测试阶段,承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中,在研究和开发的那些中,最相关的新工具以及对其性能的评估。
translated by 谷歌翻译
在许多重要的科学和工程应用中发现了卷数据。渲染此数据以高质量和交互速率为苛刻的应用程序(例如虚拟现实)的可视化化,即使使用专业级硬件也无法实现。我们介绍了Fovolnet - 一种可显着提高数量数据可视化的性能的方法。我们开发了一种具有成本效益的渲染管道,该管道稀疏地对焦点进行了量度,并使用深层神经网络重建了全帧。 FOVEATED渲染是一种优先考虑用户焦点渲染计算的技术。这种方法利用人类视觉系统的属性,从而在用户视野的外围呈现数据时节省了计算资源。我们的重建网络结合了直接和内核预测方法,以产生快速,稳定和感知令人信服的输出。凭借纤细的设计和量化的使用,我们的方法在端到端框架时间和视觉质量中都优于最先进的神经重建技术。我们对系统的渲染性能,推理速度和感知属性进行了广泛的评估,并提供了与竞争神经图像重建技术的比较。我们的测试结果表明,Fovolnet始终在保持感知质量的同时,在传统渲染上节省了大量时间。
translated by 谷歌翻译
许多历史人民曾经被旧的,褪色,黑白照片捕获,这是由于早期摄像机的局限性和时间的流逝而被扭曲。本文模拟了与现代相机回到的时间,以重新摄像机。与使用独立操作的传统图像恢复过滤器不同,如去噪,着色和超级度量,我们利用Stylegan2框架将旧照片投影到现代高分辨率照片的空间中,在统一的框架中实现所有这些效果。这种方法的独特挑战是在原始照片中保留了主题的身份和姿势,同时丢弃了在低质量古董照片中经常看到的许多伪影。我们对目前最先进的恢复过滤器的比较显示出各种重要历史人民的重大改进和引人注目的结果。
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
可驱动区域的实时分割在完成汽车的自主感知中起着至关重要的作用。最近,使用深度学习的图像分割模型开发了一些快速的进步。但是,大多数进步都是在模型架构设计中取得的。在解决与细分有关的任何有监督的深度学习问题时,一个人构建的模型的成功取决于我们用于该模型的输入培训数据的数量和质量。该数据应包含良好的各种图像,以更好地工作分割模型。与数据集中的注释有关的问题可能会导致该模型在测试和验证中的压倒性I型和II型错误中得出结论,在试图解决现实世界问题时造成恶意问题。为了解决这个问题并使我们的模型更加准确,动态和健壮,数据增强涉及使用,因为它有助于扩展我们的样本培训数据并使其更好,整体上更加多样化。因此,在我们的研究中,我们专注于通过分析预先存在的图像数据集并相应地进行增强来研究数据增强的好处。我们的结果表明,现有最新模型(或SOTA)模型的性能和鲁棒性可以大大增加,而不会增加模型复杂性或推理时间。仅在对当今广泛使用中的其他几种增强方法和策略进行彻底研究及其相应的效果之后,仅在本文中决定并使用的增强作用。我们所有的结果都在广泛使用的CityScapes数据集上报告。
translated by 谷歌翻译
太阳能动力学天文台(SDO)是NASA多光谱十年的长达任务,每天都在日常产生来自Sun的观测数据的trabytes,以证明机器学习方法的潜力并铺路未来深空任务计划的方式。特别是,在最近的几项研究中提出了使用图像到图像翻译实际上产生极端超紫罗兰通道的想法,这是一种增强任务较少通道的提高任务的方法,并且由于低下链接而减轻了挑战。深空的速率。本文通过关注四个通道和基于编码器的建筑的排列来研究这种深度学习方法的潜力和局限性,并特别注意太阳表面的形态特征和亮度如何影响神经网络预测。在这项工作中,我们想回答以下问题:可以将通过图像到图像翻译产生的太阳电晕的合成图像用于太阳的科学研究吗?分析强调,神经网络在计数率(像素强度)上产生高质量的图像,通常可以在1%误差范围内跨通道跨通道重现协方差。但是,模型性能在极高的能量事件(如耀斑)的对应关系中大大减少,我们认为原因与此类事件的稀有性有关,这对模型训练构成了挑战。
translated by 谷歌翻译
我们分享了我们最近的发现,以试图培训通用分割网络的各种细胞类型和成像方式。我们的方法建立在广义的U-NET体系结构上,该体系结构允许单独评估每个组件。我们修改了传统的二进制培训目标,以包括三个类以进行直接实例细分。进行了有关培训方案,培训设置,网络骨架和各个模块的详细实验。我们提出的培训方案依次从每个数据集中吸取小匹配,并且在优化步骤之前积累了梯度。我们发现,培训通用网络的关键是所有数据集上的历史监督,并且有必要以公正的方式对每个数据集进行采样。我们的实验还表明,可能存在共同的特征来定义细胞类型和成像方式的细胞边界,这可以允许应用训练有素的模型完全看不见的数据集。一些培训技巧可以进一步提高细分性能,包括交叉渗透损失功能中的班级权重,精心设计的学习率调度程序,较大的图像作物以进行上下文信息以及不平衡类别的其他损失条款。我们还发现,由于它们更可靠的统计估计和更高的语义理解,分割性能可以受益于组规范化层和缺陷的空间金字塔池模块。我们参与了在IEEE国际生物医学成像研讨会(ISBI)2021举行的第六个细胞跟踪挑战(CTC)。我们的方法被评估为在主要曲目的初始提交期间,作为最佳亚军,并在额外的竞争中获得了第三名,以准备摘要出版物。
translated by 谷歌翻译
深度学习对组织病理学整体幻灯片图像(WSIS)的应用持有提高诊断效率和再现性,但主要取决于写入计算机代码或购买商业解决方案的能力。我们介绍了一种使用自由使用,开源软件(Qupath,DeepMib和Spenthology)的无代码管道,用于创建和部署基于深度学习的分段模型,以进行计算病理学。我们展示了从结肠粘膜中分离上皮的用例的管道。通过使用管道的主动学习开发,包括140苏木蛋白 - 曙红(HE) - 染色的WSI(HE)-SIN(HE)-SIOS和111个CD3免疫染色体活检WSIS的数据集。在36人的持有试验组上,21个CD3染色的WSIS在上皮细分上实现了96.6%的平均交叉口96.6%和95.3%。我们展示了病理学家级分割准确性和临床可接受的运行时间绩效,并显示了没有编程经验的病理学家可以仅使用自由使用软件为组织病理WSIS创建近最先进的分段解决方案。该研究进一步展示了开源解决方案的强度在其创建普遍的开放管道的能力中,其中培训的模型和预测可以无缝地以开放格式导出,从而在外部解决方案中使用。所有脚本,培训的型号,视频教程和251个WSI的完整数据集在https://github.com/andreped/nocodeSeg中公开可用,以加速在该领域的研究。
translated by 谷歌翻译