智能论文笔记

Using Computational Approaches in Visual Identity Design: A Visual Identity for the Design and Multimedia Courses of Faculty of Sciences and Technology of University of Coimbra

Sérgio M. Rebelo , Tiago Martins , Artur Rebelo , João Bicker , Penousal Machado

分类：计算机视觉

2022-09-07

计算方法开始用于设计数据和生成过程所推动的动态视觉身份。在这项工作中，我们探索了这些计算方法，以生成创建定制效率和图像的视觉标识。我们实现了开发的生成设计系统，该设计系统会自动组装黑白视觉模块。该系统生成设计执行两种主要方法的设计：（i）辅助生成；（ii）自动生成。辅助生成方法产生输出，其中模块的放置由以前定义的配置文件确定。另一方面，自动生成方法会产生输出，其中组装模块以描绘输入图像。该系统加快了一个视觉标识设计的设计和部署的过程，并在它们之间生成了视觉连贯性。在本文中，我们可以压制地描述该系统及其成就。

translated by 谷歌翻译

Proceedings of the 3rd International Workshop on Reading Music Systems

Jorge Calvo-Zaragoza , Alexander Pacha

分类：计算机视觉 | 机器学习

2022-12-01

The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.

translated by 谷歌翻译

Proceedings of the 2nd International Workshop on Reading Music Systems

Jorge Calvo-Zaragoza , Alexander Pacha

分类：计算机视觉 | 机器学习

2022-12-01

The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 2nd International Workshop on Reading Music Systems, held in Delft on the 2nd of November 2019.

translated by 谷歌翻译

When Creators Meet the Metaverse: A Survey on Computational Arts

Lik-Hang Lee , Zijun Lin , Rui Hu , Zhengya Gong , Abhishek Kumar , Tangyao Li , Sijia Li , Pan Hui

分类：人工智能 | 机器学习

2021-11-26

MetaVerse，巨大的虚拟物理网络空间，为艺术家带来了前所未有的机会，将我们的身体环境的每个角落与数字创造力混合。本文对计算艺术进行了全面的调查，其中七个关键主题与成权相关，描述了混合虚拟物理现实中的新颖艺术品。主题首先涵盖了MetaVerse的建筑元素，例如虚拟场景和字符，听觉，文本元素。接下来，已经反映了诸如沉浸式艺术，机器人艺术和其他用户以其他用户的方法提供了沉浸式艺术，机器人艺术和其他用户中心的若干非凡类型的新颖创作。最后，我们提出了几项研究议程：民主化的计算艺术，数字隐私和搬迁艺术家的安全性，为数字艺术品，技术挑战等等的所有权认可。该调查还担任艺术家和搬迁技术人员的介绍材料，以开始在超现实主义网络空间领域创造。

translated by 谷歌翻译

Digitizing Historical Balance Sheet Data: A Practitioner's Guide

Sergio Correia , Stephan Luck

分类：计算机视觉

2022-03-31

本文讨论了如何通过通过预处理和后处理方法增强光学特征识别（OCR）发动机来成功数字化大规模的历史微数据。尽管由于机器学习的改善，近年来OCR软件已大大改善，但现成的OCR应用程序仍然显示高错误率，这限制了其应用程序以准确提取结构化信息。但是，补充OCR可以大大提高其成功率，使其成为经济史学家的强大且具有成本效益的工具。本文展示了这些方法，并解释了为什么它们有用。我们将它们应用于两个大型资产负债表数据集，并引入Quipucamayoc，Quipucamayoc是一个统一框架中包含这些方法的Python软件包。

translated by 谷歌翻译

Digital Twinning Remote Laboratories for Online Practical Learning

Claire Palmer , Ben Roullier , Mohammed Aamir , Frank McQuade , Leonardo Stella , Ashiq Anjum

分类：人工智能

2021-12-01

Covid19 Pandemary已经证明了需要远程学习和虚拟学习应用，如虚拟现实（VR）和基于平板电脑的解决方案。开发人员创建复杂的学习情景是非常耗时的，可能需要一年多。使用系统分析师，开发人员和3D艺术家的团队也是昂贵的。有要求提供简单的方法，使讲师能够为其实验室教程创建自己的内容。已经开发了开发通用模型的研究，以便为需要与实验室资源进行实际交互的科目的半自动创建虚拟学习工具。除了用于创建数字双胞胎的系统之外，还提出了一种描述为电动实验室教程创建虚拟学习应用程序的案例研究。

translated by 谷歌翻译

Attention is All They Need: Exploring the Media Archaeology of the Computer Vision Research Paper

Samuel Goree , Gabriel Appleby , David Crandall , Norman Su

分类：计算机视觉

2022-09-22

深度学习的成功导致了包括计算机视觉在内的许多计算机科学领域的快速转变和增长。在这项工作中，我们通过从媒体考古学的角度分析研究论文中的数字和表，通过计算机视觉研究论文本身来研究这种增长的影响。我们通过对涵盖计算机视觉，图形和可视化的资深研究人员的访谈以及十年的视觉会议论文的计算分析进行了调查。我们的分析重点是在广告，衡量和传播日益商品化的“贡献”中发挥作用的要素。我们认为，这些元素中的每一个都由计算机视觉的气候塑造和塑造，最终为该商品化做出了贡献。通过这项工作，我们试图激励有关研究论文设计和更广泛的社会技术出版系统的未来讨论。

translated by 谷歌翻译

EDAssistant: Supporting Exploratory Data Analysis in Computational Notebooks with In-Situ Code Search and Recommendation

Xingjun Li , Yizhi Zhang , Justin Leung , Chengnian Sun , Jian Zhao

分类：机器学习

2021-12-15

使用计算笔记本（例如，Jupyter Notebook），数据科学家根据他们的先前经验和外部知识（如在线示例）合理化他们的探索性数据分析（EDA）。对于缺乏关于数据集或问题的具体了解的新手或数据科学家，有效地获得和理解外部信息对于执行EDA至关重要。本文介绍了eDassistant，一个jupyterlab扩展，支持EDA的原位搜索示例笔记本电脑和有用的API的推荐，由搜索结果的新颖交互式可视化供电。代码搜索和推荐是由最先进的机器学习模型启用的，培训在线收集的EDA笔记本电脑的大型语料库。进行用户学习，以调查埃迪卡斯特和数据科学家的当前实践（即，使用外部搜索引擎）。结果证明了埃迪斯坦特的有效性和有用性，与会者赞赏其对EDA的顺利和环境支持。我们还报告了有关代码推荐工具的几种设计意义。

translated by 谷歌翻译

Supporting peace negotiations in the Yemen war through machine learning

M. Arana-Catania , F. A. Van Lier , Rob Procter

分类：自然语言处理 | 机器学习

2022-07-23

当今的冲突变得越来越复杂，流畅和分散，通常涉及许多具有多重且经常发散利益的国家和国际参与者。随着调解员努力使冲突动态有理由，例如冲突政党的范围和政治立场的演变，相关与较少相关的参与者在和平建立和认同之间的区别或身份证明，这一发展构成了冲突调解的重大挑战。关键冲突问题及其相互依存。国际和平努力似乎不足以成功应对这些挑战。尽管技术已经在与冲突相关的领域进行了试验和使用，例如预测冲突或信息收集，但对技术如何促进冲突调解的关注较少。该案例研究有助于有关在冲突调解过程中使用最先进的机器学习技术和技术的新兴研究。本研究使用也门和平谈判中的对话成绩单，通过为他们提供知识管理，提取和冲突分析的工具来有效地支持中介团队。除了说明冲突调解中的机器学习工具的潜力外，本文还强调了跨学科和参与性的共同创造方法对开发上下文敏感和有针对性的工具的重要性，并确保有意义和负责任的实施。

translated by 谷歌翻译

Gradient-based learning applied to document recognition

分类：

Multilayer Neural Networks trained with the backpropagation algorithm constitute the best example of a successful Gradient-Based Learning technique. Given an appropriate network architecture, Gradient-Based Learning algorithms can be used to synthesize a complex decision surface that can classify high-dimensional patterns such as handwritten characters, with minimal preprocessing. This paper reviews various methods applied to handwritten character recognition and compares them on a standard handwritten digit recognition task. Convolutional Neural Networks, that are specifically designed to deal with the variability of 2D shapes, are shown to outperform all other techniques.Real-life document recognition systems are composed of multiple modules including eld extraction, segmentation, recognition, and language modeling. A new learning paradigm, called Graph Transformer Networks (GTN), allows such multi-module systems to be trained globally using Gradient-Based methods so as to minimize an overall performance measure.Two systems for on-line handwriting recognition are described. Experiments demonstrate the advantage of global training, and the exibility of Graph Transformer Networks.A Graph Transformer Network for reading bank check is also described. It uses Convolutional Neural Network character recognizers combined with global training techniques to provides record accuracy on business and personal checks. It is deployed commercially and reads several million checks per day.

translated by 谷歌翻译

Neural Font Rendering

Daniel Anderson , Ariel Shamir , Ohad Fried

分类：计算机视觉

2022-11-27

Recent advances in deep learning techniques and applications have revolutionized artistic creation and manipulation in many domains (text, images, music); however, fonts have not yet been integrated with deep learning architectures in a manner that supports their multi-scale nature. In this work we aim to bridge this gap, proposing a network architecture capable of rasterizing glyphs in multiple sizes, potentially paving the way for easy and accessible creation and manipulation of fonts.

translated by 谷歌翻译

Detection of Furigana Text in Images

Nikolaj Kjøller Bjerregaard , Veronika Cheplygina , Stefan Heinrich

分类：计算机视觉

2022-07-08

Furigana是日语写作中使用的发音笔记。能够检测到这些可以帮助提高光学特征识别（OCR）性能，或通过正确显示Furigana来制作日本书面媒体的更准确的数字副本。该项目的重点是在日本书籍和漫画中检测Furigana。尽管已经研究了日本文本的检测，但目前尚无提议检测Furigana的方法。我们构建了一个包含日本书面媒体和Furigana注释的新数据集。我们建议对此类数据的评估度量，该度量与对象检测中使用的评估协议类似，除非它允许对象组通过一个注释标记。我们提出了一种基于数学形态和连接组件分析的Furigana检测方法。我们评估数据集的检测，并比较文本提取的不同方法。我们还分别评估了不同类型的图像，例如书籍和漫画，并讨论每种图像的挑战。所提出的方法在数据集上达到76 \％的F1得分。该方法在常规书籍上表现良好，但在漫画和不规则格式的书籍上的表现较少。最后，我们证明所提出的方法可以在漫画109数据集上提高OCR的性能5 \％。源代码可通过\ texttt {\ url {https://github.com/nikolajkb/furiganadetection}}}

translated by 谷歌翻译

Guided interactive image segmentation using machine learning and color based data set clustering

Adrian Friebel , Tim Johann , Dirk Drasdo , Stefan Hoehme

分类：计算机视觉

2020-05-15

我们提出了一种新颖的方法，该方法将基于机器学习的交互式图像分割结合在一起，使用Supersoxels与聚类方法结合了用于自动识别大型数据集中类似颜色的图像的聚类方法，从而使分类器的指导重复使用。我们的方法解决了普遍的颜色可变性的问题，并且在生物学和医学图像中通常不可避免，这通常会导致分割恶化和量化精度，从而大大降低了必要的训练工作。效率的这种提高促进了大量图像的量化，从而为高通量成像中的最新技术进步提供了交互式图像分析。所呈现的方法几乎适用于任何图像类型，并代表通常用于图像分析任务的有用工具。

translated by 谷歌翻译

iExam: A Novel Online Exam Monitoring and Analysis System Based on Face Detection and Recognition

Xu Yang , Daoyuan Wu , Xiao Yi , Jimmy H. M. Lee , Tan Lee

分类：计算机视觉

2022-06-27

由于COVID-19，许多学校通过视频会议软件在线考试已经采用了许多学校。虽然方便，但教师要同时显示的学生变焦窗口监督在线考试是具有挑战性的。在本文中，我们提出了IEXAM，这是一种智能的在线考试监测和分析系统，不仅可以使用面部检测来帮助监护人实时学生识别，而且还可以检测到常见的异常行为（包括面部消失，旋转的面部，旋转的面部，旋转，，旋转，并在考试期间用另一个人替换）通过基于面部识别后的外观后视频分析。为了建立这样的新型系统，我们克服了三个挑战。首先，我们发现了一种轻巧的方法来捕获考试视频流并实时分析它们。其次，我们利用每个学生的变焦窗口上显示的左角名称，并提出了改进的OCR（光学角色识别）技术来自动收集具有动态位置的学生面孔的地面真相。第三，我们进行了几次实验比较和优化，以有效缩短教师PC所需的训练时间和测试时间。我们的评估表明，IEXAM可以实现高精度，实时面部检测为90.4％，后验后面部识别率为98.4％，同时保持可接受的运行时性能。我们已经在https://github.com/vprlab/iexam上提供了IEXAM的源代码。

translated by 谷歌翻译

Cine-AI: Generating Video Game Cutscenes in the Style of Human Directors

Inan Evin , Perttu Hämäläinen , Christian Guckelsberger

分类：人工智能

2022-08-11

过场动物是许多视频游戏不可或缺的一部分，但是它们的创作既昂贵又耗时，并且需要许多游戏开发人员缺乏的技能。尽管AI已被利用为半自动过场动画的生产，但结果通常缺乏专业人类董事特征的样式的内部一致性和统一性。我们用Cine-AI克服了这一缺点，Cine-AI是一种开源程序性摄影工具集，能够以杰出的人类导演的风格生成游戏中过场动画。 Cine-AI在流行的游戏引擎团结中实现，具有新颖的时间轴和情节板界面，用于设计时间操纵，并结合运行时摄影自动化。通过两项使用定量和定性措施的用户研究，我们证明了Cine-AI产生过过过场动物，这些过场动物与目标主管正确关联，同时提供高于平均水平的可用性。我们的导演模仿数据集可公开使用，可以由用户和电影爱好者扩展。

translated by 谷歌翻译

3D Labeling Tool

John Rachwan , Charbel Zalaket

分类：计算机视觉 | 人工智能

2022-07-23

培训和测试监督对象检测模型需要大量带有地面真相标签的图像。标签定义图像中的对象类及其位置，形状以及可能的其他信息，例如姿势。即使存在人力，标签过程也非常耗时。我们引入了一个新的标签工具，用于2D图像以及3D三角网格：3D标记工具（3DLT）。这是一个独立的，功能丰富和跨平台软件，不需要安装，并且可以在Windows，MacOS和基于Linux的发行版上运行。我们不再像当前工具那样在每个图像上分别标记相同的对象，而是使用深度信息从上述图像重建三角形网格，并仅在上述网格上标记一次对象。我们使用注册来简化3D标记，离群值检测来改进2D边界框的计算和表面重建，以将标记可能性扩展到大点云。我们的工具经过最先进的方法测试，并且在保持准确性和易用性的同时，它极大地超过了它们。

translated by 谷歌翻译

Computer Vision Based Parking Optimization System

Siddharth Chandrasekaran , Jeffrey Matthew Reginald , Wei Wang , Ting Zhu

分类：计算机视觉 | 人工智能

2022-01-01

技术的改进与时间和时间相关的问题线性相关。已经看到，随着时间的推移，人类面临的问题数量也会增加。然而，解决这些问题的技术也往往会改善。最早的现有问题之一开始于车辆的发明内容是停车位。多年来，使用技术的易于解决这个问题已经发展，但停车问题仍然仍未解决。这背后的主要原因是停车不仅涉及一个问题，而且它包括一系列问题。其中一个问题是分布式停车生态系统中停车槽的占用检测。在分布式系统中，用户将找到优选的停车位，而不是随机停车位。在本文中，我们将基于Web的应用提出了一种用于在不同停车位停车空间检测的解决方案。该解决方案基于计算机视觉（CV），并使用Python 3.0中编写的Django框架构建。解决方案用于解决占用检测问题以及提供用户基于可用性和偏好确定块的选项。我们提出的系统的评估结果是有前途和有效的。所提出的系统也可以与不同的系统集成，并用于解决其他相关停车问题。

translated by 谷歌翻译

Analyzing social media with crowdsourcing in Crowd4SDG

Carlo Bono , Mehmet Oğuz Mülâyim , Cinzia Cappiello , Mark Carman , Jesus Cerquides , Jose Luis Fernandez-Marquez , Rosy Mondardini , Edoardo Ramalli , Barbara Pernici

分类：人工智能

2022-08-04

社交媒体有可能提供有关紧急情况和突然事件的及时信息。但是，在每天发布的数百万帖子中找到相关信息可能很困难，并且开发数据分析项目通常需要时间和技术技能。这项研究提出了一种为分析社交媒体的灵活支持的方法，尤其是在紧急情况下。引入了可以采用社交媒体分析的不同用例，并讨论了从大量帖子中检索信息的挑战。重点是分析社交媒体帖子中包含的图像和文本，以及一组自动数据处理工具，用于过滤，分类和使用人类的方法来支持数据分析师的内容。这种支持包括配置自动化工具的反馈和建议，以及众包收集公民的投入。通过讨论Crowd4SDG H2020欧洲项目中开发的三个案例研究来验证结果。

translated by 谷歌翻译

Human-level concept learning through probabilistic program induction

分类：

People learning new concepts can often generalize successfully from just a single example, yet machine learning algorithms typically require tens or hundreds of examples to perform with similar accuracy. People can also use learned concepts in richer ways than conventional algorithms-for action, imagination, and explanation. We present a computational model that captures these human learning abilities for a large class of simple visual concepts: handwritten characters from the world's alphabets. The model represents concepts as simple programs that best explain observed examples under a Bayesian criterion. On a challenging one-shot classification task, the model achieves human-level performance while outperforming recent deep learning approaches. We also present several "visual Turing tests" probing the model's creative generalization abilities, which in many cases are indistinguishable from human behavior.

translated by 谷歌翻译

Challenges of sampling and how phylogenetic comparative methods help: With a case study of the Pama-Nyungan laminal contrast

Jayden L. Macklin-Cordes , Erich R. Round

分类：自然语言处理

2022-01-01

系统发育比较方法在我们的领域是新的，并且对于大多数语言学家来说，至少有一点谜团。然而，导致他们在比较生物学中发现的道路与平衡抽样的方法论历史如此类似，这只是一个历史的事故，即他们没有被典型的专家发现。在这里，我们澄清了系统发育比较方法背后的基本逻辑及其对重点采样的深刻智力传统的基本相关性。然后我们介绍将在日常类型的研究中使用类型的概念，方法和工具，使类型学家能够在日常类型的研究中使用这些方法。系统发育比较方法和平衡采样的关键共性是他们试图因系谱而应对统计非独立性。虽然采样永远不会实现独立性，但需要大多数比较数据被丢弃，系统发育比较方法在保留和使用所有数据的同时实现独立性。我们讨论了系统发育信号的基本概念;关于树木的不确定性;典型的类型学平均值和比例对族谱敏感;跨语言家庭的比较;和体现的影响。广泛的补充材料说明了实际分析的计算工具，我们说明了与帕马尼云根腭膜对比的类型学案例研究讨论的方法。

translated by 谷歌翻译