智能论文笔记

Audiogram Digitization Tool for Audiological Reports

François Charih , James R. Green

分类：计算机视觉

2022-08-31

许多私人保险公司和公共保险公司对听力损失可以直接归因于工作场所中噪音过度暴露的工人进行了补偿。索赔评估过程通常是漫长的，需要从人类审判者那里进行大量努力，这些裁决者必须解释经常通过传真或等效发送的手录制的听力图。在这项工作中，我们提出了与安大略省工作场所安全保险委员会合作开发的解决方案，以简化裁决过程。特别是，我们提出了第一个能够自动从扫描或传真听力学报告中提取听力阈值的听力图数字化算法作为概念验证。该算法将大多数阈值提取到5 dB的精度之内，从而可以大大减少以半监督的方式将听力图转换为数字格式所需的时间，并且是朝着裁决过程自动化的第一步。 GITHUB（https://github.com/greencubic/audiogramDigitization）公开获得了数字化算法的源代码和我们NIHL注释门户的基于桌面的实现。

translated by 谷歌翻译

Proceedings of the 3rd International Workshop on Reading Music Systems

Jorge Calvo-Zaragoza , Alexander Pacha

分类：计算机视觉 | 机器学习

2022-12-01

The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.

translated by 谷歌翻译

Proceedings of the 2nd International Workshop on Reading Music Systems

Jorge Calvo-Zaragoza , Alexander Pacha

分类：计算机视觉 | 机器学习

2022-12-01

The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 2nd International Workshop on Reading Music Systems, held in Delft on the 2nd of November 2019.

translated by 谷歌翻译

Interpreting Audiograms with Multi-stage Neural Networks

Shufan Li , Congxi Lu , Linkai Li , Jirong Duan , Xinping Fu , Haoshuai Zhou

分类：计算机视觉

2021-12-17

AudioGrams是一种特定类型的线条图表，代表各种频率的个人听力级别。他们被视听家用于诊断听力损失，进一步选择和调整客户的适当助听器。已经有几个项目，例如AutoAudio，旨在通过机器学习加速这一过程。但所有现有的型号最适合只能检测图像中的AudioGram，并将它们分类为一般类别。它们无法通过解释标记，轴和线来提取来自检测到的听力图的听力级别信息。为了解决这个问题，我们提出了一种多级听力图解释网络（主要），直接从AudioGrams照片中读取听证级别数据。我们还建立了Open AudioAcram，一个公开图图像的开放数据集，其中有注释我们培训和评估我们所提出的模型的标记和轴。实验表明，我们的模型是可行可靠的。

translated by 谷歌翻译

Region-based Layout Analysis of Music Score Images

Francisco J. Castellanos , Carlos Garrido-Munoz , Antonio Ríos-Vila , Jorge Calvo-Zaragoza

分类：计算机视觉

2022-01-11

布局分析（LA）阶段对光学音乐识别（OMR）系统的正确性能至关重要。它标识了感兴趣的区域，例如Staves或歌词，然后必须处理，以便转录它们的内容。尽管存在基于深度学习的现代方法，但在不同模型的精度，它们对不同领域的概括或更重要的是，它们尚未开展对OMR的详尽研究，或者更重要的是，它们对后续阶段的影响管道。这项工作侧重于通过对不同神经结构，音乐文档类型和评估方案的实验研究填补文献中的这种差距。培训数据的需求也导致了一种新的半合成数据生成技术的提议，这使得LA方法在真实情况下能够有效适用性。我们的结果表明：（i）该模型的选择及其性能对于整个转录过程至关重要; （ii）（ii）常用于评估LA阶段的指标并不总是与OMR系统的最终性能相关，并且（iii）所提出的数据生成技术使最先进的结果能够以有限的限制实现标记数据集。

translated by 谷歌翻译

PanorAMS: Automatic Annotation for Detecting Objects in Urban Context

Inske Groenen , Stevan Rudinac , Marcel Worring

分类：计算机视觉

2022-08-30

全球城市可免费获得大量的地理参考全景图像，以及各种各样的城市物体上的位置和元数据的详细地图。它们提供了有关城市物体的潜在信息来源，但是对象检测的手动注释是昂贵，费力和困难的。我们可以利用这种多媒体来源自动注释街道级图像作为手动标签的廉价替代品吗？使用Panorams框架，我们引入了一种方法，以根据城市上下文信息自动生成全景图像的边界框注释。遵循这种方法，我们仅以快速自动的方式从开放数据源中获得了大规模的（尽管嘈杂，但都嘈杂，但对城市数据集进行了注释。该数据集涵盖了阿姆斯特丹市，其中包括771,299张全景图像中22个对象类别的1400万个嘈杂的边界框注释。对于许多对象，可以从地理空间元数据（例如建筑价值，功能和平均表面积）获得进一步的细粒度信息。这样的信息将很难（即使不是不可能）单独根据图像来获取。为了进行详细评估，我们引入了一个有效的众包协议，用于在全景图像中进行边界框注释，我们将其部署以获取147,075个地面真实对象注释，用于7,348张图像的子集，Panorams-clean数据集。对于我们的Panorams-Noisy数据集，我们对噪声以及不同类型的噪声如何影响图像分类和对象检测性能提供了广泛的分析。我们可以公开提供数据集，全景噪声和全景清洁，基准和工具。

translated by 谷歌翻译

VizExtract: Automatic Relation Extraction from Data Visualizations

Dale Decatur , Sanjay Krishnan

分类：计算机视觉

2021-12-07

视觉图形，例如绘图，图表和数字，广泛用于传达统计结论。直接从这种可视化提取信息是通过科学语料库，事实检查和数据提取有效搜索的关键子问题。本文介绍了自动提取与统计图表的比较变量的框架。由于图表样式，库和工具的多样性和变化，我们利用基于计算机视觉的框架来自动识别和本地化线图中的可视化面部，散点图或条形图，并且可以包括每个图的多个系列。该框架在Matplotlib图表的大型综合生成的语料库上培训，我们在其他图表数据集中评估培训的模型。在受控实验中，我们的框架能够以87.5％的准确性进行分类，图表变量与每个图形，不同颜色和实线样式的图表之间的相关性。部署在从互联网上刮掉的真实图表上，它的精度72.8％（排除“硬”图表时的准确性为72.8％）。部署在图答数据集上时，它的准确性准确度为84.7％。

translated by 谷歌翻译

The pascal visual object classes (voc) challenge

分类：

The PASCAL Visual Object Classes (VOC) challenge is a benchmark in visual object category recognition and detection, providing the vision and machine learning communities with a standard dataset of images and annotation, and standard evaluation procedures. Organised annually from 2005 to present, the challenge and its associated dataset has become accepted as the benchmark for object detection.This paper describes the dataset and evaluation procedure. We review the state-of-the-art in evaluated methods for both classification and detection, analyse whether the methods are statistically different, what they are learning from the images (e.g. the object or its context), and what the methods find easy or confuse. The paper concludes with lessons learnt in the three year history of the challenge, and proposes directions for future improvement and extension.

translated by 谷歌翻译

Detection of Furigana Text in Images

Nikolaj Kjøller Bjerregaard , Veronika Cheplygina , Stefan Heinrich

分类：计算机视觉

2022-07-08

Furigana是日语写作中使用的发音笔记。能够检测到这些可以帮助提高光学特征识别（OCR）性能，或通过正确显示Furigana来制作日本书面媒体的更准确的数字副本。该项目的重点是在日本书籍和漫画中检测Furigana。尽管已经研究了日本文本的检测，但目前尚无提议检测Furigana的方法。我们构建了一个包含日本书面媒体和Furigana注释的新数据集。我们建议对此类数据的评估度量，该度量与对象检测中使用的评估协议类似，除非它允许对象组通过一个注释标记。我们提出了一种基于数学形态和连接组件分析的Furigana检测方法。我们评估数据集的检测，并比较文本提取的不同方法。我们还分别评估了不同类型的图像，例如书籍和漫画，并讨论每种图像的挑战。所提出的方法在数据集上达到76 \％的F1得分。该方法在常规书籍上表现良好，但在漫画和不规则格式的书籍上的表现较少。最后，我们证明所提出的方法可以在漫画109数据集上提高OCR的性能5 \％。源代码可通过\ texttt {\ url {https://github.com/nikolajkb/furiganadetection}}}

translated by 谷歌翻译

Computer Vision on X-ray Data in Industrial Production and Security Applications: A survey

Mehdi Rafiei , Jenni Raitoharju , Alexandros Iosifidis

分类：计算机视觉

2022-11-10

X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.

translated by 谷歌翻译

What you get is not always what you see: pitfalls in solar array assessment using overhead imagery

Wei Hu , Kyle Bradbury , Jordan M. Malof , Boning Li , Bohao Huang , Artem Streltsov , K. Sydny Fujita , Ben Hoen

分类：计算机视觉

2019-02-28

小型太阳能光伏（PV）阵列中电网的有效集成计划需要访问高质量的数据：单个太阳能PV阵列的位置和功率容量。不幸的是，不存在小型太阳能光伏的国家数据库。那些确实有限的空间分辨率，通常汇总到州或国家一级。尽管已经发布了几种有希望的太阳能光伏检测方法，但根据研究，研究这些模型的性能通常是高度异质的。这些方法对能源评估的实际应用的比较变得具有挑战性，可能意味着报告的绩效评估过于乐观。异质性有多种形式，我们在这项工作中探讨了每种形式：空间聚集的水平，地面真理的验证，培训和验证数据集的不一致以及培训的位置和传感器的多样性程度和验证数据始发。对于每个人，我们都会讨论文献中的新兴实践，以解决它们或暗示未来研究的方向。作为调查的一部分，我们评估了两个大区域的太阳PV识别性能。我们的发现表明，由于验证过程中的共同局限性，从卫星图像对太阳PV自动识别的传统绩效评估可能是乐观的。这项工作的收获旨在为能源研究人员和专业人员提供自动太阳能光伏评估技术的大规模实用应用。

translated by 谷歌翻译

ImageNet Large Scale Visual Recognition Challenge

Olga Russakovsky , Jia Deng , Hao Su , Jonathan Krause , Sanjeev Satheesh , Sean Ma , Zhiheng Huang , Andrej Karpathy , Aditya Khosla , Michael Bernstein

分类：

2014-09-01

The ImageNet Large Scale Visual Recognition Challenge is a benchmark in object category classification and detection on hundreds of object categories and millions of images. The challenge has been run annually from 2010 to present, attracting participation from more than fifty institutions. This paper describes the creation of this benchmark dataset and the advances in object recognition that have been possible as a result. We discuss the chal-

translated by 谷歌翻译

Reliable Multi-Object Tracking in the Presence of Unreliable Detections

Travis Mandel , Mark Jimenez , Emily Risley , Taishi Nammoto , Rebekka Williams , Max Panoff , Meynard Ballesteros , Bobbie Suarez

分类：计算机视觉

2021-12-15

最近的多目标跟踪（MOT）系统利用高精度的对象探测器;然而，培训这种探测器需要大量标记的数据。虽然这种数据广泛适用于人类和车辆，但其他动物物种显着稀缺。我们目前稳健的置信跟踪（RCT），一种算法，旨在保持鲁棒性能，即使检测质量差。与丢弃检测置信信息的先前方法相比，RCT采用基本上不同的方法，依赖于精确的检测置信度值来初始化曲目，扩展轨道和滤波器轨道。特别地，RCT能够通过有效地使用低置信度检测（以及单个物体跟踪器）来最小化身份切换，以保持对象的连续轨道。为了评估在存在不可靠的检测中的跟踪器，我们提出了一个挑战的现实世界水下鱼跟踪数据集，Fishtrac。在对FISHTRAC以及UA-DETRAC数据集的评估中，我们发现RCT在提供不完美的检测时优于其他算法，包括最先进的深单和多目标跟踪器以及更经典的方法。具体而言，RCT具有跨越方法的最佳平均热量，可以成功返回所有序列的结果，并且具有比其他方法更少的身份交换机。

translated by 谷歌翻译

1st Workshop on Maritime Computer Vision (MaCVi) 2023: Challenge Results

Benjamin Kiefer , Matej Kristan , Janez Perš , Lojze Žust , Fabio Poiesi , Fabio Augusto de Alcantara Andrade , Alexandre Bernardino , Matthew Dawkins , Jenni Raitoharju , Yitong Quan

分类：计算机视觉 | 人工智能 | 机器学习 | 机器人

2022-11-24

The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.

translated by 谷歌翻译

Real-Time Oil Leakage Detection on Aftermarket Motorcycle Damping System with Convolutional Neural Networks

Federico Bianchi , Stefano Speziali , Andrea Marini , Massimiliano Proietti , Lorenzo Menculini , Alberto Garinei , Gabriele Bellani , Marcello Marconi

分类：计算机视觉

2022-08-10

在这项工作中，我们详细描述了深度学习和计算机视觉如何帮助检测AirTender系统的故障事件，AirTender系统是售后摩托车阻尼系统组件。监测飞行员运行的最有效方法之一是在其表面上寻找油污渍。从实时图像开始，首先在摩托车悬架系统中检测到Airtender，然后二进制分类器确定Airtender是否在溢出油。该检测是在YOLO5架构的帮助下进行的，而分类是在适当设计的卷积神经网络油网40的帮助下进行的。为了更清楚地检测油的泄漏，我们用荧光染料稀释了荧光染料，激发波长峰值约为390 nm。然后用合适的紫外线LED照亮飞行员。整个系统是设计低成本检测设置的尝试。船上设备（例如迷你计算机）被放置在悬架系统附近，并连接到全高清摄像头框架架上。板载设备通过我们的神经网络算法，然后能够将AirTender定位并分类为正常功能（非泄漏图像）或异常（泄漏图像）。

translated by 谷歌翻译

Digitizing Historical Balance Sheet Data: A Practitioner's Guide

Sergio Correia , Stephan Luck

分类：计算机视觉

2022-03-31

本文讨论了如何通过通过预处理和后处理方法增强光学特征识别（OCR）发动机来成功数字化大规模的历史微数据。尽管由于机器学习的改善，近年来OCR软件已大大改善，但现成的OCR应用程序仍然显示高错误率，这限制了其应用程序以准确提取结构化信息。但是，补充OCR可以大大提高其成功率，使其成为经济史学家的强大且具有成本效益的工具。本文展示了这些方法，并解释了为什么它们有用。我们将它们应用于两个大型资产负债表数据集，并引入Quipucamayoc，Quipucamayoc是一个统一框架中包含这些方法的Python软件包。

translated by 谷歌翻译

Information Extraction from Scanned Invoice Images using Text Analysis and Layout Features

Hien Thi Ha , Aleš Horák

分类：自然语言处理

2022-08-08

尽管将发票内容作为元数据存储以避免纸质文档处理可能是未来的趋势，但几乎所有每日发行的发票仍在纸上打印或以PDF等数字格式生成。在本文中，我们介绍了从扫描文档图像中提取信息的OCRMiner系统，该系统基于文本分析技术与布局功能结合使用（半）结构化文档的索引元数据。该系统旨在以人类读者使用的类似方式处理文档，即在协调决策中采用不同的布局和文本属性。该系统由一组互连模块组成，该模块以（可能是错误的）基于字符的输出从标准OCR系统开始，并允许应用不同的技术并在每个步骤中扩展提取的知识。使用开源OCR，该系统能够以90％的英语恢复发票数据，而捷克设置的发票数据为88％。

translated by 谷歌翻译

Automatic Detection of Aedes aegypti Breeding Grounds Based on Deep Networks with Spatio-Temporal Consistency

Wesley L. Passos , Gabriel M. Araujo , Amaro A. de Lima , Sergio L. Netto , Eduardo A. B. da Silva

分类：计算机视觉

2020-07-29

每年，AEDESAEGYPTI蚊子都感染了数百万人，如登录，ZIKA，Chikungunya和城市黄热病等疾病。战斗这些疾病的主要形式是通过寻找和消除潜在的蚊虫养殖场来避免蚊子繁殖。在这项工作中，我们介绍了一个全面的空中视频数据集，获得了无人驾驶飞行器，含有可能的蚊帐。使用识别所有感兴趣对象的边界框手动注释视频数据集的所有帧。该数据集被用于开发基于深度卷积网络的这些对象的自动检测系统。我们提出了通过在可以注册检测到的对象的时空检测管道的对象检测流水线中的融合来利用视频中包含的时间信息，这些时间是可以注册检测到的对象的，最大限度地减少最伪正和假阴性的出现。此外，我们通过实验表明使用视频比仅使用框架对马赛克组成马赛克更有利。使用Reset-50-FPN作为骨干，我们可以分别实现0.65和0.77的F $ _1 $ -70分别对“轮胎”和“水箱”的对象级别检测，说明了正确定位潜在蚊子的系统能力育种对象。

translated by 谷歌翻译

Road Rutting Detection using Deep Learning on Images

Poonam Kumari Saha , Deeksha Arya , Ashutosh Kumar , Hiroya Maeda , Yoshihide Sekimoto

分类：计算机视觉

2022-09-28

道路车辙是严重的道路障碍，可能导致早期和昂贵的维护成本的道路过早失败。在过去的几年中，正在积极进行使用图像处理技术和深度学习的道路损害检测研究。但是，这些研究主要集中在检测裂缝，坑洼及其变体上。很少有关于探测道路的研究。本文提出了一个新颖的道路车辙数据集，其中包括949张图像，并提供对象级别和像素级注释。部署了对象检测模型和语义分割模型，以检测所提出的数据集上的道路插道，并对模型预测进行了定量和定性分析，以评估模型性能并确定使用拟议方法检测道路插道时面临的挑战。对象检测模型Yolox-S实现了61.6％的Map@iou = 0.5，语义分割模型PSPNET（RESNET-50）达到54.69，精度为72.67，从而为将来的类似工作提供了基准的准确性。拟议的道路车辙数据集和我们的研究结果将有助于加速使用深度学习发现道路车辙的研究。

translated by 谷歌翻译

Applications of Deep Learning in Fish Habitat Monitoring: A Tutorial and Survey

Alzayat Saleh , Marcus Sheaves , Dean Jerry , Mostafa Rahimi Azghadi

分类：计算机视觉

2022-06-11

海洋生态系统及其鱼类栖息地越来越重要，因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然，因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据，这些数据无法通过当前的手动处理方法有效地分析，这些方法涉及人类观察者。 DL是一种尖端的AI技术，在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域，但仍在探索其在水下鱼类栖息地监测中的使用。在本文中，我们提供了一个涵盖DL的关键概念的教程，该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序，讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外，我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查，包括分类，计数，定位和细分。此外，我们对水下鱼类数据集进行了公开调查，并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解，通过遵循我们的分步教程而为其应用开发的海洋科学家的教程，并了解如何发展其研究，以促进他们的研究。努力。同时，它适用于希望调查基于DL的最先进方法的计算机科学家，以进行鱼类栖息地监测。

translated by 谷歌翻译