智能论文笔记

Counteracting Dark Web Text-Based CAPTCHA with Generative Adversarial Learning for Proactive Cyber Threat Intelligence

Ning Zhang , Mohammadreza Ebrahimi , Weifeng Li , Hsinchun Chen

分类：计算机视觉

2022-01-08

大规模的暗网（DW）平台的自动监测是发展主动网络威胁情报（CTI）的第一步。虽然有高效的方法用于从表面纤维网收集数据，但大规模的暗网络数据收集通常受到防爬爬措施的阻碍。特别是，基于文本的CAPTCHA是暗网中最普遍的和禁止这些措施的最普遍和禁止的类型。基于文本的CAPTCHA通过强制用户输入难以识别的字母数字字符的组合来识别和阻止自动爬虫。在暗网中，CAPTCHA图像被精心设计，具有额外的背景噪声和可变性格长度，以防止自动验证码断裂。现有的自动CAPTCHA断裂方法难以克服这些暗网挑战。因此，解决基于暗网络文本的CAPTCHA一直依赖于人类参与，这是劳动密集型且耗时的人。在这项研究中，我们提出了一种新颖的框架，用于自动破坏暗网CAPTCHA，以促进暗网络数据收集。该框架包括一种新的生成方法，可以识别基于黑色的Web文本的CAPTCHA，其中包含嘈杂的背景和可变字符长度。为了消除对人类参与的需求，所提出的框架利用生成的对抗网络（GaN）来抵消暗网背景噪声并利用增强的字符分割算法来处理具有可变字符长度的CAPTCHA图像。我们提出的框架DW-GaN在多个暗网络CAPTCHA测试台上进行了系统地评估。 DW-GaN在所有数据集中大大表现出最先进的基准方法，在仔细收集的真实世界黑色网络数据集中实现了超过94.4％的成功率......

translated by 谷歌翻译

Two Decades of Bengali Handwritten Digit Recognition: A Survey

A. B. M. Ashikur Rahman , Md. Bakhtiar Hasan , Sabbir Ahmed , Tasnim Ahmed , Md. Hamjajul Ashmafee , Mohammad Ridwan Kabir , Md. Hasanul Kabir

分类：计算机视觉

2022-06-05

手写数字识别（HDR）是光学特征识别（OCR）领域中最具挑战性的任务之一。不管语言如何，HDR都存在一些固有的挑战，这主要是由于个人跨个人的写作风格的变化，编写媒介和环境的变化，无法在反复编写任何数字等时保持相同的笔触。除此之外，特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来，研究人员开发了许多离线和在线HDR管道，其中不同的图像处理技术与传统的机器学习（ML）基于基于的和/或基于深度学习（DL）的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据，例如：英语，阿拉伯语，印度，法尔西，中文等，但几乎没有对孟加拉人HDR（BHDR）的调查，这缺乏对孟加拉语HDR（BHDR）的研究，而这些调查缺乏对孟加拉语HDR（BHDR）的研究。挑战，基础识别过程以及可能的未来方向。在本文中，已经分析了孟加拉语手写数字的特征和固有的歧义，以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外，还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编，煽动了对相关研究的新途径的探索，这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。

translated by 谷歌翻译

Proceedings of the 3rd International Workshop on Reading Music Systems

Jorge Calvo-Zaragoza , Alexander Pacha

分类：计算机视觉 | 机器学习

2022-12-01

The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.

translated by 谷歌翻译

A Survey on Deep learning based Document Image Enhancement

Zahra Anvari , Vassilis Athitsos

分类：计算机视觉 | 机器学习

2021-12-06

如今，广泛使用了数字化文件，如科学文章，税务表，发票，合同文件和历史文本。由于各种原因，这些图像可能会劣化或损坏，包括捕获图像时的差的情况，阴影，扫描它们时，噪音和模糊，老化，墨水染色，通过，水印，印模等。文档图像增强和恢复在许多自动文档分析和识别任务中发挥至关重要的作用，例如使用光学字符识别（OCR）的内容提取。随着最近深入学习的进步，提出了许多方法来提高这些文档图像的质量。在本文中，我们审查了基于深入的学习方法，数据集和指标，用于不同的文档图像增强问题。我们提供全面概述六种不同文档图像增强任务的基于深度学习的方法，包括二值化，脱落，去噪，偏差，水印去除和暗影去除。我们总结了每个任务的主要最先进的工作，并讨论其特征，挑战和局限性。我们介绍了多个文件图像增强任务，这些任务不仅仅是注意力，包括在曝光和暴露校正和漏洞中，并识别未来研究的其他一些有前途的研究方向和机会。

translated by 谷歌翻译

Proceedings of the 2nd International Workshop on Reading Music Systems

Jorge Calvo-Zaragoza , Alexander Pacha

分类：计算机视觉 | 机器学习

2022-12-01

The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 2nd International Workshop on Reading Music Systems, held in Delft on the 2nd of November 2019.

translated by 谷歌翻译

GNPassGAN: Improved Generative Adversarial Networks For Trawling Offline Password Guessing

Fangyi Yu , Miguel Vargas Martin

分类：人工智能

2022-08-14

密码的安全性取决于对攻击者使用的策略的彻底理解。不幸的是，现实世界中的对手使用务实的猜测策略，例如字典攻击，在密码安全研究中很难模拟。字典攻击必须仔细配置和修改以表示实际威胁。但是，这种方法需要难以复制的特定领域知识和专业知识。本文回顾了各种基于深度学习的密码猜测方法，这些方法不需要域知识或有关用户密码结构和组合的假设。它还引入了GNPASSGAN，这是一种基于生成对抗网络的密码猜测工具，用于拖动离线攻击。与最先进的盘子型号相比，Gnpassgan能够猜测88.03 \％的密码更多，并生成31.69 \％的重复。

translated by 谷歌翻译

RCRN: Real-world Character Image Restoration Network via Skeleton Extraction

Daqian Shi , Xiaolei Diao , Hao Tang , Xiaomin Li , Hao Xing , Hao Xu

分类：计算机视觉

2022-07-16

构建高质量的角色图像数据集很具有挑战性，因为现实世界图像通常受图像退化的影响。将当前图像恢复方法应用于此类现实世界字符图像时存在局限性，因为（i）字符图像中的噪声类别与一般图像中的噪声类别不同；（ii）现实世界字符图像通常包含更复杂的图像降解，例如不同噪声水平的混合噪声。为了解决这些问题，我们提出了一个现实世界角色恢复网络（RCRN），以有效恢复降级的角色图像，其中使用字符骨架信息和比例安装特征提取来获得更好的恢复性能。所提出的方法由骨架提取器（SENET）和角色图像修复器（CIRNET）组成。 Senet旨在保持角色的结构一致性并使复杂的噪声正常化。然后，Cirnet从降级的角色图像及其骨骼中重建了清洁图像。由于缺乏现实世界字符图像恢复的基准，我们构建了一个包含1,606个字符图像的数据集，这些图像具有现实世界中的降级，以评估所提出方法的有效性。实验结果表明，RCRN在定量和质量上优于最先进的方法。

translated by 谷歌翻译

Applications of Deep Learning in Fish Habitat Monitoring: A Tutorial and Survey

Alzayat Saleh , Marcus Sheaves , Dean Jerry , Mostafa Rahimi Azghadi

分类：计算机视觉

2022-06-11

海洋生态系统及其鱼类栖息地越来越重要，因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然，因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据，这些数据无法通过当前的手动处理方法有效地分析，这些方法涉及人类观察者。 DL是一种尖端的AI技术，在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域，但仍在探索其在水下鱼类栖息地监测中的使用。在本文中，我们提供了一个涵盖DL的关键概念的教程，该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序，讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外，我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查，包括分类，计数，定位和细分。此外，我们对水下鱼类数据集进行了公开调查，并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解，通过遵循我们的分步教程而为其应用开发的海洋科学家的教程，并了解如何发展其研究，以促进他们的研究。努力。同时，它适用于希望调查基于DL的最先进方法的计算机科学家，以进行鱼类栖息地监测。

translated by 谷歌翻译

Computer Vision on X-ray Data in Industrial Production and Security Applications: A survey

Mehdi Rafiei , Jenni Raitoharju , Alexandros Iosifidis

分类：计算机视觉

2022-11-10

X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.

translated by 谷歌翻译

FIGO: Enhanced Fingerprint Identification Approach Using GAN and One Shot Learning Techniques

Ibrahim Yilmaz

分类：计算机视觉 | 人工智能

2022-08-11

指纹证据在识别个人的刑事调查中起着重要作用。尽管已经提出了各种指纹分类和特征提取的技术，但指纹的自动指纹识别仍处于最早的阶段。传统\ textIt {自动指纹识别系统}（AFIS）的性能取决于有效的小小的点，并且仍然需要人类的专家协助在功能提取和识别阶段。基于这种动机，我们提出了一种基于生成对抗网络和一声学习技术（FIGO）的指纹识别方法。我们的解决方案包含两个组件：指纹增强层和指纹识别层。首先，我们提出了一个PIX2PIX模型，将低质量的指纹图像转换为直接在指纹增强层中的Pixel的高水平的指纹图像像素。通过提出的增强算法，指纹识别模型的性能得到了显着提高。此外，我们通过观察指纹设备的识别精度来开发基于Gabor过滤器的另一种现有解决方案，作为与建议模型进行比较的基准。实验结果表明，我们提出的PIX2PIX模型比指纹识别的基线方法具有更好的支持。其次，我们使用单次学习方法在指纹识别过程中构建一个完全自动化的指纹特征提取模型。两个具有共享权重和参数的双卷积神经网络（CNN）用于在此过程中获得特征向量。使用提出的方法，我们证明只能以高精度从一个培训样本中学习必要的信息。

translated by 谷歌翻译

A comparative study of attention mechanism and generative adversarial network in facade damage segmentation

Fangzheng Lin , Jiesheng Yang , Jiangpeng Shu , Raimar J. Scherer

分类：计算机视觉

2022-09-27

从深度学习中获得的语义分割利润，并显示了其从现场检查中处理图形数据的可能性。结果，应检测到立面图像中的视觉损害。注意机制和生成对抗网络是提高语义分割质量的最流行的两种策略。本文侧重于这两种策略，采用了代表性卷积神经网络U-NET作为主要网络，并以两步提出了比较研究。首先，通过注意机制或生成对抗网络，细胞图像分别用于确定U-NET中最有效的网络。随后，将第一个测试中的选定网络及其组合应用于立面损坏分割，以研究这些网络的性能。此外，发现并讨论了注意机制和生成对抗网络的综合效果。

translated by 谷歌翻译

Digitizing Historical Balance Sheet Data: A Practitioner's Guide

Sergio Correia , Stephan Luck

分类：计算机视觉

2022-03-31

本文讨论了如何通过通过预处理和后处理方法增强光学特征识别（OCR）发动机来成功数字化大规模的历史微数据。尽管由于机器学习的改善，近年来OCR软件已大大改善，但现成的OCR应用程序仍然显示高错误率，这限制了其应用程序以准确提取结构化信息。但是，补充OCR可以大大提高其成功率，使其成为经济史学家的强大且具有成本效益的工具。本文展示了这些方法，并解释了为什么它们有用。我们将它们应用于两个大型资产负债表数据集，并引入Quipucamayoc，Quipucamayoc是一个统一框架中包含这些方法的Python软件包。

translated by 谷歌翻译

Machine Learning Based Cyber Attacks Targeting on Controlled Information: A Survey

Yuantian Miao , Chao Chen , Lei Pan , Qing-Long Han , Jun Zhang , Yang Xiang

分类：机器学习

2021-02-16

窃取对受控信息的攻击，以及越来越多的信息泄漏事件，已成为近年来新兴网络安全威胁。由于蓬勃发展和部署先进的分析解决方案，新颖的窃取攻击利用机器学习（ML）算法来实现高成功率并导致大量损坏。检测和捍卫这种攻击是挑战性和紧迫的，因此政府，组织和个人应该非常重视基于ML的窃取攻击。本调查显示了这种新型攻击和相应对策的最新进展。以三类目标受控信息的视角审查了基于ML的窃取攻击，包括受控用户活动，受控ML模型相关信息和受控认证信息。最近的出版物总结了概括了总体攻击方法，并导出了基于ML的窃取攻击的限制和未来方向。此外，提出了从三个方面制定有效保护的对策 - 检测，破坏和隔离。

translated by 谷歌翻译

Product Re-identification System in Fully Automated Defect Detection

Chenggui Sun , Li Bin Song

分类：计算机视觉

2021-12-20

在这项工作中，我们介绍了一种方法，并提出了一种改进的神经工作，以执行产品重新识别，这是全自动产品缺陷检测系统的必要核心功能。我们的方法基于特征距离。它是特征提取神经网络的组合，如vgg16，alexnet，带图像搜索引擎 - vearch。我们用于开发产品重新识别系统的数据集是一个水瓶数据集，由400种液体瓶装组成。这是一个小型数据集，这是我们工作的最大挑战。然而，与vearch的神经网络的组合显示了解决产品重新识别问题的可能性。特别是，我们的新神经网络 - 基于AlexNet改进的神经网络的AlphaalexNet可以通过四个百分点提高生产识别准确性。这表明当可以引入和重新设计的高效特征提取方法时，可以实现理想的生产识别精度，以用于几乎相同产品的图像特征提取。为了解决由数据集的小尺寸造成的最大挑战以及识别彼此几乎没有差异的产品的困难性质。在我们未来的工作中，我们提出了一种新的路线图来解决几乎 - 相同的生产标识：介绍或开发需要很少的图像以训练自己的新算法。

translated by 谷歌翻译

A new database of Houma Alliance Book ancient handwritten characters and its baseline algorithm

Xiaoyu Yuan , Zhibo Zhang , Yabo Sun , Zekai Xue , Xiuyan Shao , Xiaohua Huang

分类：计算机视觉 | 人工智能

2022-07-13

侯马联盟书是中国山西博物馆小镇博物馆的国家宝藏之一。它在研究古老的历史方面具有重要的历史意义。迄今为止，关于霍玛联盟书籍的研究一直留在纸质文件的识别中，这是无法识别和难以显示，学习和宣传的纸质文件。因此，霍玛联盟公认的古代角色的数字化可以有效提高识别古代角色并提供更可靠的技术支持和文本数据的效率。本文提出了一个新的Houma Alliance书籍的新数据库。在数据库中，从原始书籍收藏和人类的模仿写作中收集了297个班级和3,547个Houma Alliance古代手写字符样本。此外，决策级分类器融合策略用于融合三个众所周知的深神网络体系结构，以供古代手写角色识别。实验是在我们的新数据库上执行的。实验结果首先为研究界提供了新数据库的基线结果，然后证明了我们提出的方法的效率。

translated by 谷歌翻译

Human Treelike Tubular Structure Segmentation: A Comprehensive Review and Future Perspectives

Hao Li , Zeyu Tang , Yang Nan , Guang Yang

分类：计算机视觉 | 机器学习

2022-07-12

人类生理学中的各种结构遵循特异性形态，通常在非常细的尺度上表达复杂性。这种结构的例子是胸前气道，视网膜血管和肝血管。可以观察到可以观察到可以观察到可以观察到可以观察到空间排列的磁共振成像（MRI），计算机断层扫描（CT），光学相干断层扫描（OCT）等医学成像模式（MRI），计算机断层扫描（CT），可以观察到空间排列的大量2D和3D图像的集合。这些结构在医学成像中的分割非常重要，因为对结构的分析提供了对疾病诊断，治疗计划和预后的见解。放射科医生手动标记广泛的数据通常是耗时且容易出错的。结果，在过去的二十年中，自动化或半自动化的计算模型已成为医学成像的流行研究领域，迄今为止，许多计算模型已经开发出来。在这项调查中，我们旨在对当前公开可用的数据集，细分算法和评估指标进行全面审查。此外，讨论了当前的挑战和未来的研究方向。

translated by 谷歌翻译

Deep Learning -- A first Meta-Survey of selected Reviews across Scientific Disciplines, their Commonalities, Challenges and Research Impact

Jan Egger , Antonio Pepe , Christina Gsaxner , Yuan Jin , Jianning Li , Roman Kern

分类：计算机视觉 | 机器学习 | 神经与进化计算

2020-11-16

深度学习属于人工智能领域，机器执行通常需要某种人类智能的任务。类似于大脑的基本结构，深度学习算法包括一种人工神经网络，其类似于生物脑结构。利用他们的感官模仿人类的学习过程，深入学习网络被送入（感官）数据，如文本，图像，视频或声音。这些网络在不同的任务中优于最先进的方法，因此，整个领域在过去几年中看到了指数增长。这种增长在过去几年中每年超过10,000多种出版物。例如，只有在医疗领域中的所有出版物中覆盖的搜索引擎只能在Q3 2020中覆盖所有出版物的子集，用于搜索术语“深度学习”，其中大约90％来自过去三年。因此，对深度学习领域的完全概述已经不可能在不久的将来获得，并且在不久的将来可能会难以获得难以获得子场的概要。但是，有几个关于深度学习的综述文章，这些文章专注于特定的科学领域或应用程序，例如计算机愿景的深度学习进步或在物体检测等特定任务中进行。随着这些调查作为基础，这一贡献的目的是提供对不同科学学科的深度学习的第一个高级，分类的元调查。根据底层数据来源（图像，语言，医疗，混合）选择了类别（计算机愿景，语言处理，医疗信息和其他工程）。此外，我们还审查了每个子类别的常见架构，方法，专业，利弊，评估，挑战和未来方向。

translated by 谷歌翻译

A Comprehensive Review of Visual-Textual Sentiment Analysis from Social Media Networks

Israa Khalaf Salman Al-Tameemi , Mohammad-Reza Feizi-Derakhshi , Saeed Pashazadeh , Mohammad Asadpour

分类：自然语言处理 | 人工智能

2022-07-05

社交媒体网络已成为人们生活的重要方面，它是其思想，观点和情感的平台。因此，自动化情绪分析（SA）对于以其他信息来源无法识别人们的感受至关重要。对这些感觉的分析揭示了各种应用，包括品牌评估，YouTube电影评论和医疗保健应用。随着社交媒体的不断发展，人们以不同形式发布大量信息，包括文本，照片，音频和视频。因此，传统的SA算法已变得有限，因为它们不考虑其他方式的表现力。通过包括来自各种物质来源的此类特征，这些多模式数据流提供了新的机会，以优化基于文本的SA之外的预期结果。我们的研究重点是多模式SA的最前沿领域，该领域研究了社交媒体网络上发布的视觉和文本数据。许多人更有可能利用这些信息在这些平台上表达自己。为了作为这个快速增长的领域的学者资源，我们介绍了文本和视觉SA的全面概述，包括数据预处理，功能提取技术，情感基准数据集以及适合每个字段的多重分类方法的疗效。我们还简要介绍了最常用的数据融合策略，并提供了有关Visual Textual SA的现有研究的摘要。最后，我们重点介绍了最重大的挑战，并调查了一些重要的情感应用程序。

translated by 谷歌翻译

Captcha Attack: Turning Captchas Against Humanity

Mauro Conti , Luca Pajola , Pier Paolo Tricomi

分类：计算机视觉 | 机器学习

2022-01-11

如今，人们在网上平台上生成并分享大量内容（例如，社交网络，博客）。 2021年，每分钟为119亿日常积极的Facebook用户发布了大约15万张照片。内容主持人不断监控这些在线平台，以防止扩散不适当的内容（例如，讨厌语音，裸露图像）。基于深度学习（DL）的进步，自动内容主持人（ACM）帮助人类主持人处理高数据量。尽管他们的优势，攻击者可以利用DL组件的弱点（例如，预处理，模型）来影响其性能。因此，攻击者可以利用这些技术来通过逃避ACM来扩散不适当的内容。在这项工作中，我们提出了CAPTCHA攻击（CAPA），这是一种允许用户通过逃避ACM控件来扩散不恰当的文本的对抗技术。通过生成自定义文本CAPTCHAS的CAPA，利用ACM的粗心设计实现和内部程序漏洞。我们对现实世界ACM的攻击进行了测试，结果证实了我们简单但有效攻击的凶猛，在大多数情况下达到了100％的逃避成功。与此同时，我们展示了设计CAPA缓解，在CAPTCHAS研究区开辟了新挑战的困难。

translated by 谷歌翻译

Deep learning and machine learning for Malaria detection: overview, challenges and future directions

Imen Jdey , Ghazala Hcini , Hela Ltifi

分类：机器学习 | 人工智能

2022-09-27

为了产生最大的影响，必须使用基于证据的决策制定公共卫生计划。创建机器学习算法是为了收集，存储，处理和分析数据以提供知识和指导决策。任何监视系统的关键部分是图像分析。截至最近，计算机视觉和机器学习的社区最终对此感到好奇。这项研究使用各种机器学习和图像处理方法来检测和预测疟疾疾病。在我们的研究中，我们发现了深度学习技术作为具有更广泛适用于疟疾检测的智能工具的潜力，通过协助诊断病情，可以使医生受益。我们研究了针对计算机框架和组织的深度学习的共同限制，计算需要准备数据，准备开销，实时执行和解释能力，并发现对这些限制的轴承的未来询问。

translated by 谷歌翻译