智能论文笔记

To show or not to show: Redacting sensitive text from videos of electronic displays

Abhishek Mukhopadhyay , Shubham Agarwal , Patrick Dylan Zwick , Pradipta Biswas

分类：计算机视觉 | 人工智能 | 机器学习

2022-08-19

随着视频录制的越来越多的流行率，对可以维护记录人员隐私的工具的需求日益增长。在本文中，我们定义了一种使用光学角色识别（OCR）和自然语言处理（NLP）技术的组合从视频中编辑个人身份文本的方法。当与不同的OCR模型，特别是Tesseract和Google Cloud Vision（GCV）的OCR系统时，我们检查了这种方法的相对性能。对于拟议的方法，GCV的性能以准确性和速度显着高于Tesseract。最后，我们探讨了现实世界应用中这两种模型的优势和缺点。

translated by 谷歌翻译

Information Extraction from Scanned Invoice Images using Text Analysis and Layout Features

Hien Thi Ha , Aleš Horák

分类：自然语言处理

2022-08-08

尽管将发票内容作为元数据存储以避免纸质文档处理可能是未来的趋势，但几乎所有每日发行的发票仍在纸上打印或以PDF等数字格式生成。在本文中，我们介绍了从扫描文档图像中提取信息的OCRMiner系统，该系统基于文本分析技术与布局功能结合使用（半）结构化文档的索引元数据。该系统旨在以人类读者使用的类似方式处理文档，即在协调决策中采用不同的布局和文本属性。该系统由一组互连模块组成，该模块以（可能是错误的）基于字符的输出从标准OCR系统开始，并允许应用不同的技术并在每个步骤中扩展提取的知识。使用开源OCR，该系统能够以90％的英语恢复发票数据，而捷克设置的发票数据为88％。

translated by 谷歌翻译

An Image Processing Pipeline for Camera Trap Time-Lapse Recordings

Michael L. Hilton , Mark T. Yamane , Leah M. Knezevich

分类：计算机视觉 | 机器学习

2022-06-10

描述了一种用于分析摄像机陷阱延时记录的新的开源图像处理管道。该管道包括机器学习模型，以帮助人类的视频细分和动物重新识别。我们在为期一年的项目中使用了该管道的实用性的一些绩效结果和观察结果，研究了Gopher Tortoise的空间生态和社会行为。

translated by 谷歌翻译

Image-Based Fire Detection in Industrial Environments with YOLOv4

Otto Zell , Joel Pålsson , Kevin Hernandez-Diaz , Fernando Alonso-Fernandez , Felix Nilsson

分类：计算机视觉

2022-12-09

Fires have destructive power when they break out and affect their surroundings on a devastatingly large scale. The best way to minimize their damage is to detect the fire as quickly as possible before it has a chance to grow. Accordingly, this work looks into the potential of AI to detect and recognize fires and reduce detection time using object detection on an image stream. Object detection has made giant leaps in speed and accuracy over the last six years, making real-time detection feasible. To our end, we collected and labeled appropriate data from several public sources, which have been used to train and evaluate several models based on the popular YOLOv4 object detector. Our focus, driven by a collaborating industrial partner, is to implement our system in an industrial warehouse setting, which is characterized by high ceilings. A drawback of traditional smoke detectors in this setup is that the smoke has to rise to a sufficient height. The AI models brought forward in this research managed to outperform these detectors by a significant amount of time, providing precious anticipation that could help to minimize the effects of fires further.

translated by 谷歌翻译

RealityTalk: Real-Time Speech-Driven Augmented Presentation for AR Live Storytelling

Jian Liao , Adnan Karim , Shivesh Jadon , Rubaiat Habib Kazi , Ryo Suzuki

分类：自然语言处理

2022-08-12

我们介绍RealityTalk，该系统通过语音驱动的互动虚拟元素来增强实时实时演示。增强演示文稿利用嵌入式视觉效果和动画来吸引和表现力。但是，现有的实时演示工具通常缺乏互动性和即兴创作，同时在视频编辑工具中产生这种效果需要大量的时间和专业知识。RealityTalk使用户能够通过实时语音驱动的交互创建实时增强演示文稿。用户可以通过实时语音和支持方式进行交互提示，移动和操纵图形元素。根据我们对177个现有视频编辑的增强演示文稿的分析，我们提出了一套新颖的互动技术，然后将它们纳入真人秀。我们从主持人的角度评估我们的工具，以证明系统的有效性。

translated by 谷歌翻译

A Survey of Human-in-the-loop for Machine Learning

Xingjiao Wu , Luwei Xiao , Yixuan Sun , Junhang Zhang , Tianlong Ma , Liang He

分类：机器学习

2021-08-02

通过整合人类的知识和经验，人在循环旨在以最低成本培训准确的预测模型。人类可以为机器学习应用提供培训数据，并直接完成在基于机器的方法中对管道中计算机中的难以实现的任务。在本文中，我们从数据的角度调查了人类循环的现有工作，并将它们分为三类具有渐进关系：（1）从数据处理中提高模型性能的工作，（2）通过介入模型培训提高模型性能，（3）系统的设计独立于循环的设计。使用上述分类，我们总结了该领域的主要方法;随着他们的技术优势/弱点以及自然语言处理，计算机愿景等的简单分类和讨论。此外，我们提供了一些开放的挑战和机遇。本调查打算为人类循环提供高级别的摘要，并激励有兴趣的读者，以考虑设计有效的循环解决方案的方法。

translated by 谷歌翻译

Self-Contained Entity Discovery from Captioned Videos

Melika Ayoughi , Pascal Mettes , Paul Groth

分类：计算机视觉

2022-08-13

本文在视频中介绍了视觉命名实体发现的任务，而无需特定于任务的监督或特定于任务的外部知识源。在视频帧中为实体（例如面部，场景或对象）分配特定名称是一个长期的挑战。通常，通过用实体标签手动注释面孔作为监督学习目标解决。为了绕过该设置的注释负担，几项作品通过利用外部知识来源（例如电影数据库）来研究了问题。虽然有效，但是当未提供特定于任务的知识源，只能应用于电影和电视连续剧时，此类方法无效。在这项工作中，我们将问题进一步发展，并建议在视频和相应字幕或字幕的视频中发现实体。我们介绍了一种三阶段的方法，在其中（i）从框架符号对创建二分实体图形，（ii）找到视觉实体协议，（iii）通过实体级的原型构建来完善实体分配。为了解决这个新问题，我们根据朋友和大爆炸理论电视连续剧概述了两个新的基准SC-Friends和SC-BBT。基准上的实验证明了我们的方法发现哪个命名实体属于哪个面孔或场景，其精度接近有监督的甲骨文，仅来自视频中存在的多模式信息。此外，我们的定性示例还表明，对未来工作的任何视觉实体的发现的潜在挑战。代码和数据可在GitHub上获得。

translated by 谷歌翻译

Spatial Monitoring and Insect Behavioural Analysis Using Computer Vision for Precision Pollination

Malika Nisal Ratnayake , Don Chathurika Amarathunga , Asaduz Zaman , Adrian G. Dyer , Alan Dorin

分类：计算机视觉

2022-05-10

Insects are the most important global pollinator of crops and play a key role in maintaining the sustainability of natural ecosystems. Insect pollination monitoring and management are therefore essential for improving crop production and food security. Computer vision facilitated pollinator monitoring can intensify data collection over what is feasible using manual approaches. The new data it generates may provide a detailed understanding of insect distributions and facilitate fine-grained analysis sufficient to predict their pollination efficacy and underpin precision pollination. Current computer vision facilitated insect tracking in complex outdoor environments is restricted in spatial coverage and often constrained to a single insect species. This limits its relevance to agriculture. Therefore, in this article we introduce a novel system to facilitate markerless data capture for insect counting, insect motion tracking, behaviour analysis and pollination prediction across large agricultural areas. Our system is comprised of edge computing multi-point video recording, offline automated multispecies insect counting, tracking and behavioural analysis. We implement and test our system on a commercial berry farm to demonstrate its capabilities. Our system successfully tracked four insect varieties, at nine monitoring stations within polytunnels, obtaining an F-score above 0.8 for each variety. The system enabled calculation of key metrics to assess the relative pollination impact of each insect variety. With this technological advancement, detailed, ongoing data collection for precision pollination becomes achievable. This is important to inform growers and apiarists managing crop pollination, as it allows data-driven decisions to be made to improve food production and food security.

translated by 谷歌翻译

Assessing mortality prediction through different representation models based on concepts extracted from clinical notes

Hoda Memarzadeh , Nasser Ghadiri , Maryam Lotfi Shahreza

分类：自然语言处理 | 机器学习

2022-07-22

近年来，人们对使用电子病历（EMR）进行次要目的特别感兴趣，以增强医疗保健提供的质量和安全性。 EMR倾向于包含大量有价值的临床笔记。学习嵌入是一种将笔记转换为使其可比性的格式的方法。基于变压器的表示模型最近取得了巨大的飞跃。这些模型在大型在线数据集上进行了预训练，以有效地了解自然语言文本。学习嵌入的质量受临床注释如何用作表示模型的输入的影响。临床注释有几个部分具有不同水平的信息价值。医疗保健提供者通常使用不同的表达方式来实现同一概念也很常见。现有方法直接使用临床注释或初始预处理作为表示模型的输入。但是，要学习良好的嵌入，我们确定了最重要的临床笔记部分。然后，我们将提取的概念从选定部分映射到统一医学语言系统（UMLS）中的标准名称。我们使用与唯一概念相对应的标准短语作为临床模型的输入。我们进行了实验，以测量在公共可用的医疗信息集市（MIMIC-III）数据集的子集中，在医院死亡率预测的任务中，学到的嵌入向量的实用性。根据实验，与其他输入格式相比，基于临床变压器的表示模型通过提取的独特概念的标准名称产生的输入产生了更好的结果。表现最好的模型分别是Biobert，PubMedbert和Umlsbert。

translated by 谷歌翻译

An AI-based Solution for Enhancing Delivery of Digital Learning for Future Teachers

Yong-Bin Kang , Abdur Rahim Mohammad Forkan , Prem Prakash Jayaraman , Natalie Wieland , Elizabeth Kollias , Hung Du , Steven Thomson , Yuan-Fang Li

分类：人工智能

2021-11-09

近期和快速转变为大流行迅速的数字学习，也受到数字工具和平台无处不在的可用性的影响，使数字学习更加接近。扩展数字学习和教学中最困难的部分中的一个积分和一个是能够评估学习者的知识和能力。教育者可以录制讲座或创造数字内容，可以传递到数千名学习者，但评估学习者是非常耗时的。在本文中，我们提出了基于人工智能（AI）的解决方案，即VidVersityQG，用于自动从预先记录的视频讲座产生问题。基于从视频推断的上下文和语义信息，该解决方案可以自动生成不同类型的评估问题（包括短答案，多项选择，真/假并填写空白问题）。所提出的解决方案采用以人为本的方法，其中教师提供了修改/编辑任何AI生成的问题的能力。这种方法鼓励教师参与教育的使用和实施教育。评估了基于AI的解决方案，以便通过我们的行业合作伙伴Vidversity提供给我们的多个域名的经验丰富的教学专业人员和117名教育视频的准确性。 VidVersityQG解决方案显示有希望自动从视频产生高质量问题，从而大大减少了在手动问题中为教育工作者的时间和精力。

translated by 谷歌翻译

Textwash -- automated open-source text anonymisation

Bennett Kleinberg , Toby Davies , Maximilian Mozes

分类：自然语言处理

2022-08-27

社会科学研究中文本数据的使用增加受益于易于访问的数据（例如Twitter）。这种趋势是以研究成本需要敏感但难以分享的数据的成本（例如，访谈数据，警察报告，电子健康记录）。我们使用开源文本匿名软件_textwash_介绍了该僵局的解决方案。本文使用TILD标准介绍了该工具的经验评估：技术评估（工具的准确性？），信息损失评估（匿名过程中丢失了多少信息？）和De-Nomenymisation Test（可以可以使用（可以可以可以使用）测试（可以可以使用匿名测试（可以人类从匿名文本数据中识别个人吗？）。研究结果表明，TextWash的性能类似于最新的实体识别模型，并引入了可忽略的信息损失0.84％。对于De-nonymisation测试，我们任命人类从众包人的描述数据集中对非常著名，半著名和不存在的个人的描述来识别个人。该工具的现实用例的匿名率范围为1.01-2.01％。我们在第二项研究中复制了发现，并得出结论，Textwash成功地删除了潜在的敏感信息，这些信息实际上使人描述实际上是匿名的。

translated by 谷歌翻译

HTML版本

A Survey of Task-Based Machine Learning Content Extraction Services for VIDINT

Joshua Brunk , Nathan Jermann , Ryan Sharp , Carl D. Hoover

分类：计算机视觉

2022-07-09

本文提供了当前视频内容提取工具的比较，重点是比较基于任务的机器学习服务。在过去十年中，视频智能（VIDINT）数据已成为关键情报来源。基于AI的分析和自动化工具从视频中提取和构造内容的需求已迅速成为需要大规模搜索，分析和利用视频的组织的优先事项。随着机器学习技术的快速增长，机器转录，机器翻译，主题标签和对象识别任务的成熟度以指数级的速度提高，随着新应用程序的发展，速度和准确性的性能记录破坏了。本文的每个部分审查并根据与机器学习技术从视频中提取信息相关的任务进行了比较产品，软件资源和视频分析功能。

translated by 谷歌翻译

Captcha Attack: Turning Captchas Against Humanity

Mauro Conti , Luca Pajola , Pier Paolo Tricomi

分类：计算机视觉 | 机器学习

2022-01-11

如今，人们在网上平台上生成并分享大量内容（例如，社交网络，博客）。 2021年，每分钟为119亿日常积极的Facebook用户发布了大约15万张照片。内容主持人不断监控这些在线平台，以防止扩散不适当的内容（例如，讨厌语音，裸露图像）。基于深度学习（DL）的进步，自动内容主持人（ACM）帮助人类主持人处理高数据量。尽管他们的优势，攻击者可以利用DL组件的弱点（例如，预处理，模型）来影响其性能。因此，攻击者可以利用这些技术来通过逃避ACM来扩散不适当的内容。在这项工作中，我们提出了CAPTCHA攻击（CAPA），这是一种允许用户通过逃避ACM控件来扩散不恰当的文本的对抗技术。通过生成自定义文本CAPTCHAS的CAPA，利用ACM的粗心设计实现和内部程序漏洞。我们对现实世界ACM的攻击进行了测试，结果证实了我们简单但有效攻击的凶猛，在大多数情况下达到了100％的逃避成功。与此同时，我们展示了设计CAPA缓解，在CAPTCHAS研究区开辟了新挑战的困难。

translated by 谷歌翻译

Private Eye: On the Limits of Textual Screen Peeking via Eyeglass Reflections in Video Conferencing

Yan Long , Chen Yan , Shilin Xiao , Shivan Prasad , Wenyuan Xu , Kevin Fu

分类：计算机视觉

2022-05-08

该研究使用数学建模和人类对象实验，探讨了新兴网络摄像头可能在多大程度上泄漏了可识别的文本和图形信息，从网络摄像头捕获的眼镜反射中闪闪发光。我们工作的主要目标是衡量，计算和预测随着网络摄像头技术在未来发展的可识别性因素，限制和阈值。我们的工作探索并表征了基于光学攻击的可行威胁模型，该模型使用视频帧序列上的多帧超级分辨率技术。我们在受控实验室设置中的模型和实验结果表明，可以重建和识别超过75％的屏幕文本，其高度高达10毫米，并使用720p网络摄像头进行重建和识别。我们进一步将此威胁模型应用于具有不同攻击者功能的Web文本内容，以找到可以识别文本的阈值。我们与20名参与者的用户研究表明，当今的720p网络摄像头足以让对手在大芬特网站上重建文本内容。我们的模型进一步表明，向4K摄像机的演变将使文本泄漏的阈值倾斜到流行网站上大多数标题文本的重建。除文本目标外，还针对具有720p网络摄像头的Alexa前100个网站的封闭世界数据集的案例研究显示，即使没有使用机器学习模型，也没有10个参与者的最高识别精度为94％。我们的研究提出了近期缓解，包括用户可以用来模糊视频流的眼镜区域的软件原型。对于可能的长期防御，我们主张采用个人反思测试程序来评估各种环境下的威胁，并证明遵循最少特权原则对隐私敏感的情况的重要性。

translated by 谷歌翻译

rx-anon -- A Novel Approach on the De-Identification of Heterogeneous Data based on a Modified Mondrian Algorithm

Fabian Singhofer , Aygul Garifullina , Mathias Kern , Ansgar Scherp

分类：机器学习

2021-05-18

Traditional approaches for data anonymization consider relational data and textual data independently. We propose rx-anon, an anonymization approach for heterogeneous semi-structured documents composed of relational and textual attributes. We map sensitive terms extracted from the text to the structured data. This allows us to use concepts like k-anonymity to generate a joined, privacy-preserved version of the heterogeneous data input. We introduce the concept of redundant sensitive information to consistently anonymize the heterogeneous data. To control the influence of anonymization over unstructured textual data versus structured data attributes, we introduce a modified, parameterized Mondrian algorithm. The parameter $\lambda$ allows to give different weight on the relational and textual attributes during the anonymization process. We evaluate our approach with two real-world datasets using a Normalized Certainty Penalty score, adapted to the problem of jointly anonymizing relational and textual data. The results show that our approach is capable of reducing information loss by using the tuning parameter to control the Mondrian partitioning while guaranteeing k-anonymity for relational attributes as well as for sensitive terms. As rx-anon is a framework approach, it can be reused and extended by other anonymization algorithms, privacy models, and textual similarity metrics.

translated by 谷歌翻译

De-Identification of French Unstructured Clinical Notes for Machine Learning Tasks

Yakini Tchouka , Jean-François Couchot , Maxime Coulmeau , David Laiymani , Philippe Selles , Azzedine Rahmani , Christophe Guyeux

分类：机器学习

2022-09-16

非结构化的文本数据是卫生系统的核心：医生之间的联络信，操作报告，根据ICD-10标准编码的程序等。这些文件中包含的详细信息使得更好地了解患者，更好地管理他或她，以更好地研究病理，以准确地偿还相关的医学行为\ ldots，这似乎（至少在部分）被人工智能技术触及了。但是，出于明显的隐私保护原因，这些AIS的设计师只要包含识别数据，就没有合法权利访问这些文件。取消识别这些文档，即检测和删除它们中存在的所有识别信息，是在两个互补世界之间共享此数据的法律必要步骤。在过去的十年中，已经提出了一些建议，主要是用英语来识别文件。虽然检测分数通常很高，但替代方法通常不是很健壮。在法语中，很少有基于任意检测和/或替代规则的方法。在本文中，我们提出了一种专门针对法语医学文件的新的综合识别方法。识别要素（基于深度学习）的检测方法及其替代（基于差异隐私）的方法都是基于最有效的现有方法。结果是一种方法，可以有效保护患者的隐私，这是这些医疗文件的核心。整个方法已经在法国公立医院的法语医学数据集上进行了评估，结果非常令人鼓舞。

translated by 谷歌翻译

Real-time Bangla License Plate Recognition System for Low Resource Video-based Applications

Alif Ashrafee , Akib Mohammed Khan , Mohammad Sabik Irbaz , MD Abdullah Al Nasim

分类：计算机视觉 | 人工智能

2021-08-18

自动许可板识别系统旨在提供从视频帧中出现的车辆检测，本地化和识别车牌字符的解决方案。但是，在现实世界中部署此类系统需要在低资源环境中实时性能。在我们的论文中，我们提出了一种双级检测管线与视觉API配对，提供实时推理速度以及始终如一的准确检测和识别性能。我们使用Haar-Cascade分类器作为骨干MobileNet SSDv2检测模型顶部的过滤器。这仅通过专注于高置信度检测并使用它们来识别来减少推理时间。我们还施加了一个时间帧分离策略，以区分同一夹子中的多个车辆牌照。此外，没有公开的Bangla许可证板数据集，我们创建了一个图像数据集和野外包含许可板的视频数据集。我们在图像数据集上培训了模型，并达到了86％的AP（0.5）得分，并在视频数据集上测试了我们的管道，并观察到合理的检测和识别性能（82.7％的检测率，60.8％OCR F1得分）具有真实 - 时间处理速度（每秒27.2帧）。

translated by 谷歌翻译

Recognizing and Extracting Cybersecurtity-relevant Entities from Text

Casey Hanks , Michael Maiden , Priyanka Ranade , Tim Finin , Anupam Joshi

分类：自然语言处理 | 人工智能

2022-08-02

网络威胁智能（CTI）是描述威胁媒介，漏洞和攻击的信息，通常用作基于AI的网络防御系统（例如网络安全知识图（CKG））的培训数据。非常需要开发可访问社区的数据集来培训现有的基于AI的网络安全管道，以有效，准确地从CTI中提取有意义的见解。我们已经从各种开放源中创建了一个初始的非结构化CTI语料库，我们使用SPACY框架并探索自学习方法来自动识别网络安全实体，用于训练和测试网络安全实体模型。我们还描述了应用网络安全域实体与Wikidata现有世界知识联系起来的方法。我们未来的工作将调查和测试Spacy NLP工具，并创建方法，以连续整合从文本中提取的新信息。

translated by 谷歌翻译

Understanding Ethics, Privacy, and Regulations in Smart Video Surveillance for Public Safety

Babak Rahimi Ardabili , Armin Danesh Pazho , Ghazal Alinezhad Noghre , Christopher Neff , Arun Ravindran , Hamed Tabkhi

分类：人工智能 | 计算机视觉

2022-12-25

Recently, Smart Video Surveillance (SVS) systems have been receiving more attention among scholars and developers as a substitute for the current passive surveillance systems. These systems are used to make the policing and monitoring systems more efficient and improve public safety. However, the nature of these systems in monitoring the public's daily activities brings different ethical challenges. There are different approaches for addressing privacy issues in implementing the SVS. In this paper, we are focusing on the role of design considering ethical and privacy challenges in SVS. Reviewing four policy protection regulations that generate an overview of best practices for privacy protection, we argue that ethical and privacy concerns could be addressed through four lenses: algorithm, system, model, and data. As an case study, we describe our proposed system and illustrate how our system can create a baseline for designing a privacy perseverance system to deliver safety to society. We used several Artificial Intelligence algorithms, such as object detection, single and multi camera re-identification, action recognition, and anomaly detection, to provide a basic functional system. We also use cloud-native services to implement a smartphone application in order to deliver the outputs to the end users.

translated by 谷歌翻译

Location reference recognition from texts: A survey and comparison

Xuke Hu , Zhiyong Zhou , Hao Li , Yingjie Hu , Fuqiang Gu , Jens Kersten , Hongchao Fan , Friederike Klan

分类：自然语言处理

2022-07-04

非结构化的文本中存在大量的位置信息，例如社交媒体帖子，新闻报道，科学文章，网页，旅行博客和历史档案。地理学是指识别文本中的位置参考并识别其地理空间表示的过程。虽然地理标准可以使许多领域受益，但仍缺少特定应用程序的摘要。此外，缺乏对位置参考识别方法的现有方法的全面审查和比较，这是地理验证的第一个和核心步骤。为了填补这些研究空白，这篇综述首先总结了七个典型的地理应用程序域：地理信息检索，灾难管理，疾病监视，交通管理，空间人文，旅游管理和犯罪管理。然后，我们通过将这些方法分类为四个组，以基于规则的基于规则，基于统计学学习的基于统计学学习和混合方法将这些方法分类为四个组，从而回顾了现有的方法参考识别方法。接下来，我们彻底评估了27种最广泛使用的方法的正确性和计算效率，该方法基于26个公共数据集，其中包含不同类型的文本（例如，社交媒体帖子和新闻报道），包含39,736个位置参考。这项彻底评估的结果可以帮助未来的方法论发展以获取位置参考识别，并可以根据应用需求指导选择适当方法的选择。

translated by 谷歌翻译