智能论文笔记

A Deep Neural Network for Multiclass Bridge Element Parsing in Inspection Image Analysis

Chenyu Zhang , Muhammad Monjurul Karim , Zhaozheng Yin , Ruwen Qin

分类：计算机视觉

2022-09-05

空中机器人（例如无人机）已被利用进行桥梁检查。可以通过板载摄像机收集具有可识别的结构元素和明显表面缺陷的检查图像，以提供有价值的信息以进行条件评估。本文旨在确定用于在检查图像中解析多类桥梁元素的合适的深神经网络（DNN）。一组广泛的定量评估以及定性示例表明，高分辨率净（HRNET）具有所需的能力。通过数据增强和130张图像的训练样本，预先训练的HRNET有效地转移到结构元件解析的任务中，并达到了92.67％的平均F1得分和86.33％的平均值。

translated by 谷歌翻译

A Multitask Deep Learning Model for Parsing Bridge Elements and Segmenting Defect in Bridge Inspection Images

Chenyu Zhang , Muhammad Monjurul Karim , Ruwen Qin

分类：计算机视觉

2022-09-06

美国庞大的桥梁网络对其维护和康复提出了很高的要求。手动视觉检查的大量费用在某种程度上是一定程度的负担。高级机器人已被利用以自动化检查数据收集。在大量检查图像数据中，自动化多类元素的分割以及元素的表面缺陷将有助于对桥梁条件进行有效评估。培训单独的单任务网络，用于元素解析（即多类元素的语义分割）和缺陷分段无法在检查图像中合并这两个任务之间的密切连接，其中存在可识别的结构元素和明显的表面缺陷。本文的动机是开发多任务深神经网络，该网络完全利用桥梁元素和缺陷之间的这种相互依赖性来提高模型的性能和概括。此外，研究了提议的网络设计改善任务性能的有效性，包括特征分解，串扰共享和多目标损耗函数。开发了带有桥梁元件和腐蚀的像素级标签的数据集，用于培训和评估模型。评估开发的多任务深神经网络的定量和定性结果表明，推荐的网络不仅超过了独立的单任务网络（在桥梁解析上高2.59％，在腐蚀细分方面高2.59％），而且在计算时间和实施中也是如此能力。

translated by 谷歌翻译

Automated Detection of Label Errors in Semantic Segmentation Datasets via Deep Learning and Uncertainty Quantification

Matthias Rottmann , Marco Reese

分类：计算机视觉 | 机器学习

2022-07-13

在这项工作中，我们首次提出了一种用于检测具有语义分割图像数据集中标签错误的方法，即Pixel-Wise类标签。语义细分数据集的注释获取是耗时的，需要大量的人工劳动。特别是，审查过程是耗时的，人类很容易忽略标签错误。后果是有偏见的基准，在极端情况下，也是在此类数据集上训练的深神经网络（DNNS）的性能降解。语义分割的DNN会产生像素的预测，这使得通过不确定性量化来检测标签错误是一个复杂的任务。在预测的连接组件之间的过渡中，不确定性特别明显。通过将不确定性考虑到预测组件的水平，我们可以使用DNN以及组件级的不确定性定量来检测标签误差。我们提出了一种原则性的方法，可以通过从Carla驾驶模拟器中提取的数据集中从CityScapes数据集中删除标签，以基准标记错误检测的任务，在后一种情况下，我们可以控制标签。我们的实验表明，我们的方法能够在控制错误标签误差检测的数量时检测到绝大多数标签错误。此外，我们将方法应用于计算机视觉社区经常使用的语义分割数据集，并提出标签错误的集合以及示例统计信息。

translated by 谷歌翻译

Distribution-aware Margin Calibration for Semantic Segmentation in Images

Litao Yu , Zhibin Li , Min Xu , Yongsheng Gao , Jiebo Luo , Jian Zhang

分类：计算机视觉

2021-12-21

Jaccard索引，也称为交叉联盟（iou），是图像语义分段中最关键的评估度量之一。然而，由于学习目的既不可分解也不是可分解的，则iou得分的直接优化是非常困难的。虽然已经提出了一些算法来优化其代理，但没有提供泛化能力的保证。在本文中，我们提出了一种边缘校准方法，可以直接用作学习目标，在数据分布上改善IOO的推广，通过刚性下限为基础。本方案理论上，根据IOU分数来确保更好的分割性能。我们评估了在七个图像数据集中所提出的边缘校准方法的有效性，显示使用深度分割模型的其他学习目标的IOU分数大量改进。

translated by 谷歌翻译

Computer Vision on X-ray Data in Industrial Production and Security Applications: A survey

Mehdi Rafiei , Jenni Raitoharju , Alexandros Iosifidis

分类：计算机视觉

2022-11-10

X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.

translated by 谷歌翻译

A hierarchical semantic segmentation framework for computer vision-based bridge damage detection

Jingxiao Liu , Yujie Wei , Bingqing Chen

分类：计算机视觉

2022-07-18

使用远程摄像机和无人机（UAVS）基于计算机视觉的损害检测可实现高效且低成本的桥梁健康监控，从而降低了人工成本以及传感器安装和维护的需求。通过利用最近的语义图像分割方法，我们能够找到关键结构组件的区域，并使用图像作为唯一的输入来识别像素级别的损坏。但是，当发现少量损坏（例如裂缝和裸露的钢筋）和具有有限图像样本的薄物体时，现有方法的性能很差，尤其是当感兴趣的组件高度不平衡时。为此，本文介绍了一个语义分割框架，该框架强加了组件类别和损害类型之间的层次语义关系。例如，仅在桥柱上存在的某些混凝土裂纹，因此在检测到此类损害时，非列区域将被掩盖。通过这种方式，损坏检测模型只能集中在可能受损区域的学习特征上，并避免其他无关区域的影响。我们还利用多尺度的扩展，可提供不同尺度的视图，可保留每个图像的上下文信息，而不会失去处理小对象的能力。此外，提出的框架采用了重要的样本，该样本反复样本包含稀有组件（例如铁路卧铺和裸露的钢筋）的图像提供了更多的数据样本，从而解决了数据不平衡的数据挑战。

translated by 谷歌翻译

SHREC 2022: pothole and crack detection in the road pavement using images and RGB-D data

Elia Moscoso Thompson , Andrea Ranieri , Silvia Biasotti , Miguel Chicchon , Ivan Sipiran , Minh-Khoi Pham , Thang-Long Nguyen-Ho , Hai-Dang Nguyen , Minh-Triet Tran

分类：计算机视觉

2022-05-26

本文介绍了提交给SHREC 2022坑道轨道和路面裂纹检测的方法。总共比较了道路表面的语义分割的7种不同的运行，参与者和基线方法的6个。所有方法都利用深度学习技术及其性能使用相同的环境（即：单个Jupyter笔记本）进行测试。由3836个语义细分图像/蒙版对组成的培训集和797个带有最新深度摄像机的RGB-D视频片段组成。然后，在验证集中的496个图像/掩码对上，测试集中的504对，最后在8个视频剪辑上评估该方法。结果的分析基于用于图像分割和视频剪辑定性分析的定量指标。参与和结果表明，该方案引起了人们的极大兴趣，在这种情况下，使用RGB-D数据仍然具有挑战性。

translated by 谷歌翻译

Automated Damage Inspection of Power Transmission Towers from UAV Images

Aleixo Cambeiro Barreiro , Clemens Seibold , Anna Hilsmann , Peter Eisert

分类：计算机视觉

2021-11-30

基础设施检查是一个非常昂贵的任务，需要技术人员访问远程或难以到达的地方。这是电力传动塔的情况，这些塔稀疏地定位，需要培训的工人爬上它们以寻找损坏。最近，在行业中使用无人机或直升机进行遥控录音，使技术人员进行这种危险的任务。然而，这留下了分析大量图像的问题，这具有很大的自动化潜力。由于几个原因，这是一个具有挑战性的任务。首先，缺乏可自由的培训数据和难以收集它的问题。另外，构成损坏的界限是模糊的，在数据标记中引入了一定程度的主观性。图像中的不平衡类分布也在增加任务的难度方面发挥作用。本文解决了传输塔中结构损伤检测的问题，解决了这些问题。我们的主要贡献是在远程获取的无人机图像上开发损坏检测，应用技术来克服数据稀缺和歧义的问题，以及评估这种方法解决这个特殊问题的方法的可行性。

translated by 谷歌翻译

Dam reservoir extraction from remote sensing imagery using tailored metric learning strategies

Arnout van Soesbergen , Zedong Chu , Miaojing Shi , Mark Mulligan

分类：计算机视觉

2022-07-12

大坝水库在实现可持续发展目标和全球气候目标方面发挥着重要作用。但是，特别是对于小型水坝水库，其地理位置缺乏一致的数据。为了解决此数据差距，一种有前途的方法是根据全球可用的遥感图像进行自动水坝水库提取。它可以被认为是水体提取的精细颗粒任务，涉及在图像中提取水区，然后将水坝储层与天然水体分开。我们提出了一种基于新型的深神经网络（DNN）管道，该管道将大坝水库提取到水体分割和大坝储层识别中。首先将水体与分割模型中的背景土地分开，然后将每个水体预测为大坝储层或分类模型中的天然水体。对于以前的一步，将跨图像的点级度量学习注入分段模型，以解决水域和土地区域之间的轮廓模棱两可。对于后一个步骤，将带有簇的三重态的先前引导的度量学习注入到分类模型中，以根据储层簇在细粒度中优化图像嵌入空间。为了促进未来的研究，我们建立了一个带有地球图像数据的基准数据集，并从西非和印度的河流盆地标记为人类标记的水库。在水体分割任务，水坝水库识别任务和关节坝储层提取任务中，对这个基准进行了广泛的实验。将我们的方法与艺术方法的方法进行比较时，已经在各自的任务中观察到了卓越的性能。

translated by 谷歌翻译

Road Rutting Detection using Deep Learning on Images

Poonam Kumari Saha , Deeksha Arya , Ashutosh Kumar , Hiroya Maeda , Yoshihide Sekimoto

分类：计算机视觉

2022-09-28

道路车辙是严重的道路障碍，可能导致早期和昂贵的维护成本的道路过早失败。在过去的几年中，正在积极进行使用图像处理技术和深度学习的道路损害检测研究。但是，这些研究主要集中在检测裂缝，坑洼及其变体上。很少有关于探测道路的研究。本文提出了一个新颖的道路车辙数据集，其中包括949张图像，并提供对象级别和像素级注释。部署了对象检测模型和语义分割模型，以检测所提出的数据集上的道路插道，并对模型预测进行了定量和定性分析，以评估模型性能并确定使用拟议方法检测道路插道时面临的挑战。对象检测模型Yolox-S实现了61.6％的Map@iou = 0.5，语义分割模型PSPNET（RESNET-50）达到54.69，精度为72.67，从而为将来的类似工作提供了基准的准确性。拟议的道路车辙数据集和我们的研究结果将有助于加速使用深度学习发现道路车辙的研究。

translated by 谷歌翻译

HyperionSolarNet: Solar Panel Detection from Aerial Images

Poonam Parhar , Ryan Sawasaki , Alberto Todeschini , Colorado Reed , Hossein Vahabi , Nathan Nusaputra , Felipe Vergara

分类：计算机视觉

2022-01-06

随着全球气候变化影响影响世界的影响，需要集体努力来减少温室气体排放。能源部门是气候变化的最大贡献者，许多努力集中在减少对碳源发电厂的依赖，并转向可再生能源，如太阳能。太阳能电池板位置的全面数据库对于协助分析师和政策制定者来说，在定义太阳能的进一步扩展方面的策略方面很重要。在本文中，我们专注于创建太阳能电池板的世界地图。我们识别给定地理区域内的太阳能电池板的位置和总表面积。我们使用深度学习方法来使用空中图像自动检测太阳能电池板位置及其表面积。该框架由使用具有语义分割模型的串联串联使用图像分类器的双分支模型组成的框架在我们创建的卫星图像的日数据集上培训。我们的作品提供了一种用于检测太阳能电池板的高效和可扩展的方法，实现分类的精度为0.96，并且对于分割性能，IOU分数为0.82。

translated by 谷歌翻译

Mixed-domain Training Improves Multi-Mission Terrain Segmentation

Grace Vincent , Alice Yepremyan , Jingdao Chen , Edwin Goh

分类：计算机视觉

2022-09-27

行星漫游者任务必须利用基于机器学习的感知来继续发生地球外探索，几乎没有人类的存在。火星地形细分对于漫游车导航和避免危害至关重要，以执行进一步的探索性任务，例如土壤样品收集和寻找有机化合物。当前的火星地形细分模型需要大量标记的数据才能实现可接受的性能，还需要重新培训以在不同域中的部署，即不同的漫游者任务或不同的任务，即地质识别和导航。这项研究提出了一种半监督的学习方法，该方法利用了骨干的无监督对比度预处理，用于对火星表面的多效率语义分割。该模型将通过使用混合域训练套件来确保具有多样性的混合域训练套件，从而扩展到当前的火星分割能力，以便在不同的火星漫游者任务中部署以进行地形导航。使用平均像素精度的评估结果表明，与单个领域训练和监督培训相比，半监督的混合域方法通过达到火星科学实验室的好奇心漫游者的精度为97％，MARS 2020 Perseverance Perseverance Rover提高了精度。。此外，使用召回度量与标准的跨透镜损失相比，使用召回度量的损失功能提供不同的权重方法将对少数族裔或稀有类别的模型提高了30％以上。这些结果可以以数据效率的方式为Rover任务提供未来的多任务和多任务语义细分。

translated by 谷歌翻译

Panoptic Segmentation: A Review

Omar Elharrouss , Somaya Al-Maadeed , Nandhini Subramanian , Najmath Ottakath , Noor Almaadeed , Yassine Himeur

分类：计算机视觉

2021-11-19

视频分析的图像分割在不同的研究领域起着重要作用，例如智能城市，医疗保健，计算机视觉和地球科学以及遥感应用。在这方面，最近致力于发展新的细分策略;最新的杰出成就之一是Panoptic细分。后者是由语义和实例分割的融合引起的。明确地，目前正在研究Panoptic细分，以帮助获得更多对视频监控，人群计数，自主驾驶，医学图像分析的图像场景的更细致的知识，以及一般对场景更深入的了解。为此，我们介绍了本文的首次全面审查现有的Panoptic分段方法，以获得作者的知识。因此，基于所采用的算法，应用场景和主要目标的性质，执行现有的Panoptic技术的明确定义分类。此外，讨论了使用伪标签注释新数据集的Panoptic分割。继续前进，进行消融研究，以了解不同观点的Panoptic方法。此外，讨论了适合于Panoptic分割的评估度量，并提供了现有解决方案性能的比较，以告知最先进的并识别其局限性和优势。最后，目前对主题技术面临的挑战和吸引不久的将来吸引相当兴趣的未来趋势，可以成为即将到来的研究研究的起点。提供代码的文件可用于：https：//github.com/elharroussomar/awesome-panoptic-egation

translated by 谷歌翻译

The lovász-softmax loss: A tractable surrogate for the optimization of the intersection-over-union measure in neural networks

分类：

The Jaccard index, also referred to as the intersectionover-union score, is commonly employed in the evaluation of image segmentation results given its perceptual qualities, scale invariance -which lends appropriate relevance to small objects, and appropriate counting of false negatives, in comparison to per-pixel losses. We present a method for direct optimization of the mean intersection-over-union loss in neural networks, in the context of semantic image segmentation, based on the convex Lovász extension of submodular losses. The loss is shown to perform better with respect to the Jaccard index measure than the traditionally used cross-entropy loss. We show quantitative and qualitative differences between optimizing the Jaccard index per image versus optimizing the Jaccard index taken over an entire dataset. We evaluate the impact of our method in a semantic segmentation pipeline and show substantially improved intersection-over-union segmentation scores on the Pascal VOC and Cityscapes datasets using state-of-the-art deep learning segmentation architectures.

translated by 谷歌翻译

What you get is not always what you see: pitfalls in solar array assessment using overhead imagery

Wei Hu , Kyle Bradbury , Jordan M. Malof , Boning Li , Bohao Huang , Artem Streltsov , K. Sydny Fujita , Ben Hoen

分类：计算机视觉

2019-02-28

小型太阳能光伏（PV）阵列中电网的有效集成计划需要访问高质量的数据：单个太阳能PV阵列的位置和功率容量。不幸的是，不存在小型太阳能光伏的国家数据库。那些确实有限的空间分辨率，通常汇总到州或国家一级。尽管已经发布了几种有希望的太阳能光伏检测方法，但根据研究，研究这些模型的性能通常是高度异质的。这些方法对能源评估的实际应用的比较变得具有挑战性，可能意味着报告的绩效评估过于乐观。异质性有多种形式，我们在这项工作中探讨了每种形式：空间聚集的水平，地面真理的验证，培训和验证数据集的不一致以及培训的位置和传感器的多样性程度和验证数据始发。对于每个人，我们都会讨论文献中的新兴实践，以解决它们或暗示未来研究的方向。作为调查的一部分，我们评估了两个大区域的太阳PV识别性能。我们的发现表明，由于验证过程中的共同局限性，从卫星图像对太阳PV自动识别的传统绩效评估可能是乐观的。这项工作的收获旨在为能源研究人员和专业人员提供自动太阳能光伏评估技术的大规模实用应用。

translated by 谷歌翻译

Exploration of Convolutional Neural Network Architectures for Large Region Map Automation

R. M. Tsenov , C. J. Henry , J. L. Storie , C. D. Storie , B. Murray , M. Sokolov

分类：计算机视觉 | 机器学习

2022-11-07

Deep learning semantic segmentation algorithms have provided improved frameworks for the automated production of Land-Use and Land-Cover (LULC) maps, which significantly increases the frequency of map generation as well as consistency of production quality. In this research, a total of 28 different model variations were examined to improve the accuracy of LULC maps. The experiments were carried out using Landsat 5/7 or Landsat 8 satellite images with the North American Land Change Monitoring System labels. The performance of various CNNs and extension combinations were assessed, where VGGNet with an output stride of 4, and modified U-Net architecture provided the best results. Additional expanded analysis of the generated LULC maps was also provided. Using a deep neural network, this work achieved 92.4% accuracy for 13 LULC classes within southern Manitoba representing a 15.8% improvement over published results for the NALCMS. Based on the large regions of interest, higher radiometric resolution of Landsat 8 data resulted in better overall accuracies (88.04%) compare to Landsat 5/7 (80.66%) for 16 LULC classes. This represents an 11.44% and 4.06% increase in overall accuracy compared to previously published NALCMS results, including larger land area and higher number of LULC classes incorporated into the models compared to other published LULC map automation methods.

translated by 谷歌翻译

Semantic Understanding of Scenes through the ADE20K Dataset

Bolei Zhou , Hang Zhao , Xavier Puig , Tete Xiao , Sanja Fidler , Adela Barriuso , Antonio Torralba

分类：

2016-08-18

Semantic understanding of visual scenes is one of the holy grails of computer vision. Despite efforts of the community in data collection, there are still few image datasets covering a wide range of scenes and object categories with pixel-wise annotations for scene understanding. In this work, we present a densely annotated dataset ADE20K, which spans diverse annotations of scenes, objects, parts of objects, and in some cases even parts of parts. Totally there are 25k images of the complex everyday scenes containing a variety of objects in their natural spatial context. On average there are 19.5 instances and 10.5 object classes per image. Based on ADE20K, we construct benchmarks for scene parsing and instance segmentation. We provide baseline performances on both of the benchmarks and re-implement the state-ofthe-art models for open source. We further evaluate the effect of synchronized batch normalization and find that a reasonably large batch size is crucial for the semantic segmentation performance. We show that the networks trained on ADE20K are able to segment a wide variety of scenes and objects 1 .

translated by 谷歌翻译

ICIP 2022 Challenge on Parasitic Egg Detection and Classification in Microscopic Images: Dataset, Methods and Results

Nantheera Anantrasirichai , Thanarat H. Chalidabhongse , Duangdao Palasuwan , Korranat Naruenatthanaset , Thananop Kobchaisawat , Nuntiporn Nunthanasup , Kanyarat Boonpeng , Xudong Ma , Alin Achim

分类：计算机视觉

2022-08-11

手动检查粪便涂片样品以鉴定寄生卵的存在非常耗时，只能由专家进行。因此，需要自动化系统来解决此问题，因为它可以与严重的肠道寄生虫感染有关。本文回顾了微观图像中关于寄生卵检测和分类的ICIP 2022挑战。我们描述了此应用程序的新数据集，该数据集是同类数据集的最大数据集。参与者在挑战中使用的方法及其结果及其结果进行了汇总和讨论。

translated by 谷歌翻译

AIParsing: Anchor-free Instance-level Human Parsing

Sanyi Zhang , Xiaochun Cao , Guo-Jun Qi , Zhanjie Song , Jie Zhou

分类：计算机视觉

2022-07-14

大多数最先进的实例级人类解析模型都采用了两阶段的基于锚的探测器，因此无法避免启发式锚盒设计和像素级别缺乏分析。为了解决这两个问题，我们设计了一个实例级人类解析网络，该网络在像素级别上无锚固且可解决。它由两个简单的子网络组成：一个用于边界框预测的无锚检测头和一个用于人体分割的边缘引导解析头。无锚探测器的头继承了像素样的优点，并有效地避免了对象检测应用中证明的超参数的敏感性。通过引入部分感知的边界线索，边缘引导的解析头能够将相邻的人类部分与彼此区分开，最多可在一个人类实例中，甚至重叠的实例。同时，利用了精炼的头部整合盒子级别的分数和部分分析质量，以提高解析结果的质量。在两个多个人类解析数据集（即CIHP和LV-MHP-V2.0）和一个视频实例级人类解析数据集（即VIP）上进行实验，表明我们的方法实现了超过全球级别和实例级别的性能最新的一阶段自上而下的替代方案。

translated by 谷歌翻译

Industrial Scene Change Detection using Deep Convolutional Neural Networks

Ali Atghaei , Ehsan Rahnama , Kiavash Azimi , Hassan Shahbazi

分类：计算机视觉 | 人工智能 | 机器学习

2022-12-29

Finding and localizing the conceptual changes in two scenes in terms of the presence or removal of objects in two images belonging to the same scene at different times in special care applications is of great significance. This is mainly due to the fact that addition or removal of important objects for some environments can be harmful. As a result, there is a need to design a program that locates these differences using machine vision. The most important challenge of this problem is the change in lighting conditions and the presence of shadows in the scene. Therefore, the proposed methods must be resistant to these challenges. In this article, a method based on deep convolutional neural networks using transfer learning is introduced, which is trained with an intelligent data synthesis process. The results of this method are tested and presented on the dataset provided for this purpose. It is shown that the presented method is more efficient than other methods and can be used in a variety of real industrial environments.

translated by 谷歌翻译