智能论文笔记

Hex2vec -- Context-Aware Embedding H3 Hexagons with OpenStreetMap Tags

Szymon Woźniak , Piotr Szymański

分类：机器学习 | 人工智能

2021-11-01

空间和地理数据的表示学习是一种快速开发的领域，其允许使用深神经网络的区域和高质量推断之间的相似性检测。然而，过去的方法集中在嵌入光栅图像（地图，街道或卫星照片），移动数据或道路网络上。在本文中，我们提出了第一种关于在微区网格中的城市功能和土地利用的开放式车间地区的传染媒介表示的第一种方法。我们确定与土地使用，建筑和城市地区功能，水，绿色或其他自然区域的主要特征相关的OSM标签的子集。通过手动验证标记质量，我们选择了36个城市用于培训区域的陈述。优步的H3索引用于将城市划分为六边形，而OSM标签为每个六角形汇总。我们提出了基于负采样的跳过克模型的Hex2VEC方法。由此产生的矢量表示展示了地图特征的语义结构，类似于基于向量的语言模型中的存在。我们还在六个波兰城市中从区域相似性检测的见解，并提出了通过附聚类获得的区域类型。

translated by 谷歌翻译

Predicting the Location of Bicycle-sharing Stations using OpenStreetMap Data

Kamil Raczycki

分类：机器学习 | 人工智能

2021-11-02

规划自行车共享站的布局是一个复杂的过程，特别是在刚刚实施自行车共享系统的城市。城市规划者通常必须根据公开可用的数据并私下提供来自管理的数据，然后使用现场流行的位置分配模型。较小城市的许多城市可能难以招聘专家进行此类规划。本文提出了一种新的解决方案来简化和促进通过使用空间嵌入方法来实现这种规划的过程。仅基于来自OpenStreetMap的公开数据，以及来自欧洲34个城市的站布局，已经开发了一种使用优步H3离散全球电网系统将城市分成微区域的方法，并指示其值得放置站的区域在不同城市使用转移学习的现有系统。工作的结果是在规划驻地布局的决策中支持规划者的机制，以选择参考城市。

translated by 谷歌翻译

Unsupervised embedding and similarity detection of microregions using public transport schedules

Piotr Gramacki

分类：机器学习

2021-11-03

空间数据在应对与城市相关的任务中的作用近年来一直在增长。要在机器学习模型中使用它们，通常需要将它们转换为向量表示，这导致了空间数据表示学习领域的开发。还有一种越来越多的各种空间数据类型，提出了一种表示学习方法。迄今为止，公共交通时间表迄今未被用于一个城市地区的学习陈述的任务。在这项工作中，开发了一种方法来将公共交通可用性信息嵌入到矢量空间中。要对其申请进行实验，从48个城市收集公共交通时间表。使用H3空间索引方法，它们被分成微区域。还提出了一种方法来识别具有类似公共交通报价特征的地区。在其基础上，定义了该地区的公共交通报价的多层次类型。本文表明，所提出的表示方法可以识别城市之间具有相似公共交通特性的微区域，并且可用于评估城市中可用的公共交通的质量。

translated by 谷歌翻译

gtfs2vec -- Learning GTFS Embeddings for comparing Public Transport Offer in Microregions

Piotr Gramacki , Szymon Woźniak , Piotr Szymański

分类：机器学习 | 人工智能

2021-11-01

我们选择了48个欧洲城市，并以GTFS格式聚集了公共交通时间表。我们利用优步的H3空间指数将每个城市划分为六角形微区域。基于时间表数据，我们创建了某些功能，描述了每个区域中的公共交通可用性的数量和各种功能。接下来，我们培训了一个自动关联的深神经网络来嵌入每个区域。具有这样的准备的表示，我们使用分层聚类方法来识别类似地区。为此，我们利用了一个附着的聚类算法，在地区和病房的方法之间具有欧几里德距离，以最小化簇内方差。最后，我们在不同级别分析了所获得的集群，以确定定性描述公共交通可用性的一些群集。我们认为，我们的类型与分析的城市的特征匹配，并允许成功寻找具有相似公共交通计划特征的地区。

translated by 谷歌翻译

Transfer Learning Approach to Bicycle-sharing Systems' Station Location Planning using OpenStreetMap Data

Kamil Raczycki , Piotr Szymański

分类：机器学习 | 人工智能

2021-11-01

自行车共享系统（BSS）已成为发达地区大众较大城市的许多公民的日常现实。然而，规划自行车共享站的布局通常需要昂贵的数据收集，测量旅行行为和跳闸建模，然后是站布局优化。许多小城镇，特别是在发展中地区，可能难以融资此类项目。规划BSS也需要相当多的时间。然而，随着大流行表明我们，市政当局将面临迅速适应流动性转变的必要性，包括留有自行车公共交通工具的公民。在解决自行车需求的增加方面，快速铺设自行车共享系统将变得至关重要。本文解决了BSS布局设计中的成本和时间问题，并提出了一种新的解决方案来简化和促进使用空间嵌入方法的这种规划的过程。仅基于来自OpenStreetMap的公开数据，以及来自欧洲34个城市的站布局，已经开发了一种使用优步H3离散全球电网系统将城市分成微区域的方法，并指示其值得放置站的区域在不同城市使用转移学习的现有系统。工作的结果是在规划驻地布局的决策中支持规划者的机制，以选择参考城市。

translated by 谷歌翻译

Visual and Object Geo-localization: A Comprehensive Survey

Daniel Wilson , Xiaohan Zhang , Waqas Sultani , Safwan Wshah

分类：计算机视觉

2021-12-30

地理定位的概念是指确定地球上的某些“实体”的位置的过程，通常使用全球定位系统（GPS）坐标。感兴趣的实体可以是图像，图像序列，视频，卫星图像，甚至图像中可见的物体。由于GPS标记媒体的大规模数据集由于智能手机和互联网而迅速变得可用，而深入学习已经上升以提高机器学习模型的性能能力，因此由于其显着影响而出现了视觉和对象地理定位的领域广泛的应用，如增强现实，机器人，自驾驶车辆，道路维护和3D重建。本文提供了对涉及图像的地理定位的全面调查，其涉及从捕获图像（图像地理定位）或图像内的地理定位对象（对象地理定位）的地理定位的综合调查。我们将提供深入的研究，包括流行算法的摘要，对所提出的数据集的描述以及性能结果的分析来说明每个字段的当前状态。

translated by 谷歌翻译

Mapping the Internet: Modelling Entity Interactions in Complex Heterogeneous Networks

Simon Mandlik , Tomas Pevny

分类：机器学习

2021-04-19

即使机器学习算法已经在数据科学中发挥了重要作用，但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式，或数据集中的异质，分层或完全缺少的数据片段，因此很难应用此类方法。作为解决方案，我们提出了一个用于样本表示，模型定义和培训的多功能，统一的框架，称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲，为HMILL的关键组件的设计合理，我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论，该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性，它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外，我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张，我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中，我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中，基于建议的框架的解决方案可实现与专业方法相当的性能。

translated by 谷歌翻译

Semantic Clustering of a Sequence of Satellite Images

Carlos Echegoyen , Aritz Pérez , Guzmán Santafé , Unai Pérez-Goya , María Dolores Ugarte

分类：计算机视觉 | 机器学习

2022-08-29

卫星图像构成了许多现实世界应用的高价和丰富的资源。但是，训练大多数机器学习模型所需的标签数据稀缺且难以获得。在这种情况下，当前的工作研究了一种完全无监督的方法，鉴于卫星图像的时间顺序，根据其语义属性及其随着时间的推移的进化而形成了地面的分区。图像序列被翻译成嵌入式瓷砖的多元时间序列的网格。这些瓷砖序列的嵌入和分区聚类以两个迭代步骤构造：在第一步中，嵌入能够根据地理位置邻域提取瓷砖序列的信息，将瓷砖分组为群集。在第二步中，通过使用簇定义的邻域来完善嵌入，并获得了瓷砖序列的最终聚类。我们通过进行纳瓦拉（Navarra）区域的20个卫星图像的序列（西班牙）的序列进行语义聚类来说明方法。结果表明，多元时间序列的聚类非常健壮，并且包含有关研究区域的信任时空语义信息。我们揭示了地理和嵌入式空间之间存在的紧密连接，并发现归因于这些类型的嵌入的语义属性被完全利用，甚至通过提议的时间序列的聚类来增强。

translated by 谷歌翻译

HTML版本

Survey of Generative Methods for Social Media Analysis

Stan Matwin , Aristides Milios , Paweł Prałat , Amilcar Soares , François Théberge

分类：机器学习

2021-12-13

本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片（Sota）。它填补了空白，因为现有的调查文章在其范围内或被约会。我们包括两个重要方面，目前正在挖掘和建模社交媒体的重要性：动态和网络。社会动态对于了解影响影响或疾病的传播，友谊的形成，友谊的形成等，另一方面，可以捕获各种复杂关系，提供额外的洞察力和识别否则将不会被注意的重要模式。

translated by 谷歌翻译

Clustering -- Basic concepts and methods

Jan-Oliver Felix Kapp-Joswig , Bettina G. Keller

分类：机器学习

2022-12-01

We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.

translated by 谷歌翻译

Statistical embedding: Beyond principal components

Dag Tjøstheim , Martin Jullum , Anders Løland

分类： (统计)机器学习 | 机器学习

2021-06-03

最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中，其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中，我们涵盖了非线性方法，例如主曲线，多维缩放，局部线性方法，ISOMAP，基于图形的方法和扩散映射，基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关，特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中，以使数据适合传统技术，例如群集和分类技术。可以说，这是算法机器学习方法与统计建模（所谓的随机块建模）之间的对比度。在论文中，我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $，即可视化中。提出了三种方法：基于第一部分，第二和第三部分中的方法，$ t $ -sne，UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎，另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。

translated by 谷歌翻译

No Pattern, No Recognition: a Survey about Reproducibility and Distortion Issues of Text Clustering and Topic Modeling

Marília Costa Rosendo Silva , Felipe Alves Siqueira , João Pedro Mantovani Tarrega , João Vitor Pataca Beinotti , Augusto Sousa Nunes , Miguel de Mattos Gardini , Vinícius Adolfo Pereira da Silva , Nádia Félix Felipe da Silva , André Carlos Ponce de Leon Ferreira de Carvalho

分类：机器学习 | 自然语言处理 | (统计)机器学习

2022-08-02

使用机器学习算法从未标记的文本中提取知识可能很复杂。文档分类和信息检索是两个应用程序，可以从无监督的学习（例如文本聚类和主题建模）中受益，包括探索性数据分析。但是，无监督的学习范式提出了可重复性问题。初始化可能会导致可变性，具体取决于机器学习算法。此外，关于群集几何形状，扭曲可能会产生误导。在原因中，异常值和异常的存在可能是决定因素。尽管初始化和异常问题与文本群集和主题建模相关，但作者并未找到对它们的深入分析。这项调查提供了这些亚地区的系统文献综述（2011-2022），并提出了共同的术语，因为类似的程序具有不同的术语。作者描述了研究机会，趋势和开放问题。附录总结了与审查的作品直接或间接相关的文本矢量化，分解和聚类算法的理论背景。

translated by 谷歌翻译

Deep residential representations: Using unsupervised learning to unlock elevation data for geo-demographic prediction

Matthew Stevenson , Christophe Mues , Cristián Bravo

分类：机器学习 | 计算机视觉

2021-12-02

LIDAR（“光检测和测距”或“激光成像，检测和测距”）技术可用于提供城市和农村景观的详细三维高度地图。迄今为止，空气传播的激光雷达成像主要被限制在环境和考古域中。然而，该数据的地理上粒度和开放源特性也为使用了地理人口类型数据的社会，组织和业务应用程序。具体地，处理该多维数据的复杂性迄今为止涉及其更广泛的采用。在本文中，我们提出了一系列方便的任务无关瓷砖高程嵌入来解决这一挑战，利用无监督深度学习的最新进展。通过预测大伦敦地区的小型地区，通过预测七个剥夺指数（2019年）来测试我们嵌入的潜力。这些索引涵盖了一系列社会经济结果，并作为可以应用嵌入的各种下游任务的代理。我们考虑不仅仅是独立于自己的数据的适用性，而且与人口统计特征结合使用，也可以作为辅助数据源，从而为嵌入品提供了一个现实用例。在尝试各种模型/嵌入配置中，我们发现我们最好的表现嵌入式导致单独使用标准人口统计特征的根本平衡（RMSE）改进高达21％。我们还展示了使用深度学习与K-Means集群相结合的嵌入管道的嵌入管道，产生相干瓷砖段，允许解释潜在的嵌入功能。

translated by 谷歌翻译

Proceedings of the 3rd International Workshop on Reading Music Systems

Jorge Calvo-Zaragoza , Alexander Pacha

分类：计算机视觉 | 机器学习

2022-12-01

The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.

translated by 谷歌翻译

Deep Learning based Urban Vehicle Trajectory Analytics

Seongjin Choi

分类：机器学习

2021-11-15

“轨迹”是指由地理空间中的移动物体产生的迹线，通常由一系列按时间顺序排列的点表示，其中每个点由地理空间坐标集和时间戳组成。位置感应和无线通信技术的快速进步使我们能够收集和存储大量的轨迹数据。因此，许多研究人员使用轨迹数据来分析各种移动物体的移动性。在本文中，我们专注于“城市车辆轨迹”，这是指城市交通网络中车辆的轨迹，我们专注于“城市车辆轨迹分析”。城市车辆轨迹分析提供了前所未有的机会，可以了解城市交通网络中的车辆运动模式，包括以用户为中心的旅行经验和系统范围的时空模式。城市车辆轨迹数据的时空特征在结构上相互关联，因此，许多先前的研究人员使用了各种方法来理解这种结构。特别是，由于其强大的函数近似和特征表示能力，深度学习模型是由于许多研究人员的注意。因此，本文的目的是开发基于深度学习的城市车辆轨迹分析模型，以更好地了解城市交通网络的移动模式。特别是，本文重点介绍了两项研究主题，具有很高的必要性，重要性和适用性：下一个位置预测，以及合成轨迹生成。在这项研究中，我们向城市车辆轨迹分析提供了各种新型模型，使用深度学习。

translated by 谷歌翻译

Natural Language Processing (almost) from Scratch

Ronan Collobert , Jason Weston , Leon Bottou , Michael Karlen , Koray Kavukcuoglu , Pavel Kuksa

分类：

2011-03-02

We propose a unified neural network architecture and learning algorithm that can be applied to various natural language processing tasks including: part-of-speech tagging, chunking, named entity recognition, and semantic role labeling. This versatility is achieved by trying to avoid task-specific engineering and therefore disregarding a lot of prior knowledge. Instead of exploiting man-made input features carefully optimized for each task, our system learns internal representations on the basis of vast amounts of mostly unlabeled training data. This work is then used as a basis for building a freely available tagging system with good performance and minimal computational requirements.

translated by 谷歌翻译

Semantic Segmentation of Vegetation in Remote Sensing Imagery Using Deep Learning

Alexandru Munteanu , Marian Neagul

分类：计算机视觉 | 人工智能

2022-09-28

近年来，地理空间行业一直在稳定发展。这种增长意味着增加卫星星座，每天都会产生大量的卫星图像和其他遥感数据。有时，这些信息，即使在某些情况下我们指的是公开可用的数据，由于它的大小，它也无法占据。从时间和其他资源的角度来看，借助人工或使用传统的自动化方法来处理如此大量的数据并不总是可行的解决方案。在目前的工作中，我们提出了一种方法，用于创建一个由公开可用的遥感数据组成的多模式和时空数据集，并使用ART机器学习（ML）技术进行可行性进行测试。确切地说，卷积神经网络（CNN）模型的用法能够分离拟议数据集中存在的不同类别的植被。在地理信息系统（GIS）和计算机视觉（CV）的背景下，类似方法的受欢迎程度和成功更普遍地表明，应考虑并进一步分析和开发方法。

translated by 谷歌翻译

On the Design of Graph Embeddings for the Sensorless Estimation of Road Traffic Profiles

Eric L. Manibardo , Ibai Laña , Esther Villar , Javier Del Ser

分类：机器学习 | 人工智能

2022-01-11

交通预测模型依赖需要感测，处理和存储的数据。这需要部署和维护交通传感基础设施，往往导致不适合的货币成本。缺乏感测的位置可以与合成数据模拟相辅相成，进一步降低交通监测所需的经济投资。根据类似道路的数据分布，其中最常见的数据生成方法之一包括产生实际的流量模式。检测具有相似流量的道路的过程是这些系统的关键点。但是，在不收集目标位置收集数据，没有用于该相似性的搜索可以使用流量度量。我们提出了一种通过检查道路段的拓扑特征来发现具有可用流量数据的方法的方法。相关的拓扑功能被提取为数值表示（嵌入式）以比较不同的位置，并最终根据其嵌入之间的相似性找到最相似的道路。检查该新颖选择系统的性能，并与更简单的流量估计方法进行比较。找到类似的数据源后，使用生成方法来合成流量配置文件。根据感知道路的交通行为的相似性，可以使用一条路的数据来馈送生成方法。在合成样品的精度方面分析了几种代理方法。最重要的是，这项工作打算促进进一步的研究努力提高综合交通样本的质量，从而降低对传感基础设施的需求。

translated by 谷歌翻译

Multi-sense embeddings through a word sense disambiguation process

Terry Ruas , William Grosky , Akiko Aizawa

分类：自然语言处理

2021-01-21

Natural Language Understanding has seen an increasing number of publications in the last few years, especially after robust word embeddings models became prominent, when they proved themselves able to capture and represent semantic relationships from massive amounts of data. Nevertheless, traditional models often fall short in intrinsic issues of linguistics, such as polysemy and homonymy. Any expert system that makes use of natural language in its core, can be affected by a weak semantic representation of text, resulting in inaccurate outcomes based on poor decisions. To mitigate such issues, we propose a novel approach called Most Suitable Sense Annotation (MSSA), that disambiguates and annotates each word by its specific sense, considering the semantic effects of its context. Our approach brings three main contributions to the semantic representation scenario: (i) an unsupervised technique that disambiguates and annotates words by their senses, (ii) a multi-sense embeddings model that can be extended to any traditional word embeddings algorithm, and (iii) a recurrent methodology that allows our models to be re-used and their representations refined. We test our approach on six different benchmarks for the word similarity task, showing that our approach can produce state-of-the-art results and outperforms several more complex state-of-the-art systems.

translated by 谷歌翻译

Computer vision-based analysis of buildings and built environments: A systematic review of current approaches

Małgorzata B. Starzyńska , Robin Roussel , Sam Jacoby , Ali Asadipour

分类：计算机视觉

2022-08-01

分析了2011年至2021年发表的88个来源，本文对基于计算机的建筑物和建筑环境进行了首次系统评价，以评估其对建筑和城市设计研究的价值。遵循多阶段的选择过程，讨论了有关建筑应用，例如建筑物分类，详细分类，定性环境分析，建筑条件调查和建筑价值估算等建筑应用程序的类型。这揭示了当前的研究差距和趋势，并突出了研究目标的两个主要类别。首先，要使用或优化计算机视觉方法进行体系结构图像数据，然后可以帮助自动化耗时，劳动密集型或复杂的视觉分析任务。其次，通过查找视觉，统计和定性数据之间的模式和关系来探索机器学习方法的方法论上的好处，以研究有关建筑环境的新问题，这可以克服传统手动分析的局限性。不断增长的研究为建筑和设计研究提供了新的方法，论文确定了未来的研究挑战和方向。

translated by 谷歌翻译