The essential task of urban planning is to generate the optimal land-use configuration of a target area. However, traditional urban planning is time-consuming and labor-intensive. Deep generative learning gives us hope that we can automate this planning process and come up with the ideal urban plans. While remarkable achievements have been obtained, they have exhibited limitations in lacking awareness of: 1) the hierarchical dependencies between functional zones and spatial grids; 2) the peer dependencies among functional zones; and 3) human regulations to ensure the usability of generated configurations. To address these limitations, we develop a novel human-instructed deep hierarchical generative model. We rethink the urban planning generative task from a unique functionality perspective, where we summarize planning requirements into different functionality projections for better urban plan generation. To this end, we develop a three-stage generation process from a target area to zones to grids. The first stage is to label the grids of a target area with latent functionalities to discover functional zones. The second stage is to perceive the planning requirements to form urban functionality projections. We propose a novel module: functionalizer to project the embedding of human instructions and geospatial contexts to the zone-level plan to obtain such projections. Each projection includes the information of land-use portfolios and the structural dependencies across spatial grids in terms of a specific urban function. The third stage is to leverage multi-attentions to model the zone-zone peer dependencies of the functionality projections to generate grid-level land-use configurations. Finally, we present extensive experiments to demonstrate the effectiveness of our framework.
translated by 谷歌翻译
传统的城市规划要求城市专家在许多建筑限制下花费大量时间和精力制定最佳的城市计划。深层生成学习的非凡富有想象力为翻新城市规划提供了希望。尽管已经检查了自动化的城市规划师,但由于以下情况,它们受到限制:1)忽略人类在城市规划中的要求; 2)省略城市规划中的空间层次结构,以及3)缺乏许多城市计划数据样本。为了克服这些局限性,我们提出了一个新颖的,深厚的人类建筑的城市规划师。在初步工作中,我们将其提出为编码器范式。编码器是学习周围环境,人类指示和土地使用配置的信息分布。解码器是重建土地使用配置和相关的城市功能区域。重建过程将捕获功能区和空间网格之间的空间层次结构。同时,我们引入了一种变异的高斯机制来减轻数据稀疏问题。即使早期的工作导致了良好的结果,但生成的性能仍然不稳定,因为捕获空间层次结构的方式可能会导致不清楚的优化方向。在此期刊版本中,我们提出了一个基于生成的对抗网络(GAN)的层叠的深层生成框架,以解决此问题,灵感来自城市专家的工作流程。特别是,第一个gan的目的是根据人类指示和周围环境的信息来建立城市功能区域。第二个GAN将基于已构造的功能区域产生土地使用构型。此外,我们为增强数据样本提供了调节增强模块。最后,我们进行了广泛的实验以验证工作的功效。
translated by 谷歌翻译
城市规划指的是指定为一个地区设计土地使用配置的努力。然而,为了获得有效的城市计划,城市专家必须花费很多时间和精力,以根据领域知识和个人经验分析复杂的规划限制。为了减轻他们的沉重负担并产生一致的城市计划,我们想问一下AI可以加快城市规划过程,让人类规划者只调整所生成的特定需求的配置吗?最近的深度生成模型的进步提供了一个可能的答案,激励我们从对抗对抗的学习角度自动化城市规划。但是,出现了三个主要挑战:1)如何定量定量土地使用配置? 2)如何自动化配置规划? 3)如何评估生成配置的质量?在本文中,我们系统地解决了三个挑战。具体而言,1)我们将土地使用配置定义为经度纬度通道张量。 2)我们将自动化城市规划问题制定为深度生成学习的任务。目的是给定针对目标区域的周围上下文产生配置张量。 3)我们提供量化评估指标,并进行广泛的实验,以证明我们框架的有效性。
translated by 谷歌翻译
在本文中,我们重点介绍了在流中为在线POI推荐的动态地球人类相互作用建模的问题。具体而言,我们将式的地球人类相互作用建模问题提出到一个新颖的深层交互式增强学习框架中,在该框架中,代理是推荐的,而动作是下一个要访问的POI。我们将强化学习环境独特地建模为用户和地理空间环境(POI,POI类别,功能区)的联合组成和连接的组成。用户在流中访问POI的事件更新了用户和地理空间环境的状态;代理商认为更新的环境状态可以提出在线建议。具体而言,我们通过将所有用户,访问和地理空间上下文统一为动态知识图流来对混合用户事件流进行建模,以模拟人类,地理 - 人类,地理geo互动的建模。我们设计了一种解决过期信息挑战的退出机制,设计了一种元路径方法来应对推荐候选人的生成挑战,并开发了一种新的深层政策网络结构来应对不同的行动空间挑战,最后提出有效的对抗性优化的培训方法。最后,我们提出了广泛的实验,以证明方法的增强性能。
translated by 谷歌翻译
布局规划在建筑和城市设计领域非常重要。在携带城市功能的各种基本单元中,住宅社区对支持人类生活起着至关重要的作用。因此,自深度学习的出现以来,居住社区的布局规划一直引起人们的关注,并引起了人们的特别关注,从而促进了自动化的布局产生和空间模式识别。但是,研究圈通常会遭受住宅社区布局基准或高质量数据集的不足,这阻碍了对住宅社区布局计划的数据驱动方法的未来探索。数据集的缺乏很大程度上是由于大规模现实世界中的住宅数据获取和长期专家筛查的困难。为了解决这些问题并推进基准数据集,用于智能城市开发中各种智能的空间设计和分析应用迄今为止,现实世界中的社区。 RECO数据集以多种数据格式呈现,其中包含37,646个住宅社区布局计划,涵盖了598,728个带有高度信息的住宅建筑。可以方便地适应与住宅社区布局相关的城市设计任务,例如生成布局设计,形态模式识别和空间评估。为了验证自动化住宅社区布局计划中RECO的实用性,基于生成的对抗网络(GAN)的生成模型进一步应用于数据集。我们希望Reco数据集能够激发智能设计及其他方面的更具创造力和实用性的工作。 RECO数据集发表在以下网址:https://www.kaggle.com/fdudsde/reco-dataset。
translated by 谷歌翻译
“轨迹”是指由地理空间中的移动物体产生的迹线,通常由一系列按时间顺序排列的点表示,其中每个点由地理空间坐标集和时间戳组成。位置感应和无线通信技术的快速进步使我们能够收集和存储大量的轨迹数据。因此,许多研究人员使用轨迹数据来分析各种移动物体的移动性。在本文中,我们专注于“城市车辆轨迹”,这是指城市交通网络中车辆的轨迹,我们专注于“城市车辆轨迹分析”。城市车辆轨迹分析提供了前所未有的机会,可以了解城市交通网络中的车辆运动模式,包括以用户为中心的旅行经验和系统范围的时空模式。城市车辆轨迹数据的时空特征在结构上相互关联,因此,许多先前的研究人员使用了各种方法来理解这种结构。特别是,由于其强大的函数近似和特征表示能力,深度学习模型是由于许多研究人员的注意。因此,本文的目的是开发基于深度学习的城市车辆轨迹分析模型,以更好地了解城市交通网络的移动模式。特别是,本文重点介绍了两项研究主题,具有很高的必要性,重要性和适用性:下一个位置预测,以及合成轨迹生成。在这项研究中,我们向城市车辆轨迹分析提供了各种新型模型,使用深度学习。
translated by 谷歌翻译
人口级社会事件,如民事骚乱和犯罪,往往对我们的日常生活产生重大影响。预测此类事件对于决策和资源分配非常重要。由于缺乏关于事件发生的真实原因和潜在机制的知识,事件预测传统上具有挑战性。近年来,由于两个主要原因,研究事件预测研究取得了重大进展:(1)机器学习和深度学习算法的开发和(2)社交媒体,新闻来源,博客,经济等公共数据的可访问性指标和其他元数据源。软件/硬件技术中的数据的爆炸性增长导致了社会事件研究中的深度学习技巧的应用。本文致力于提供社会事件预测的深层学习技术的系统和全面概述。我们专注于两个社会事件的域名:\ Texit {Civil unrest}和\ texit {犯罪}。我们首先介绍事件预测问题如何作为机器学习预测任务制定。然后,我们总结了这些问题的数据资源,传统方法和最近的深度学习模型的发展。最后,我们讨论了社会事件预测中的挑战,并提出了一些有希望的未来研究方向。
translated by 谷歌翻译
站点选择确定新商店的最佳位置,这对商业成功至关重要。特别是,具有多源城市数据的人工智能广泛应用使智能网站选择有前途。然而,现有的数据驱动方法严重依赖于特征工程,面临业务泛化问题和复杂的关系建模。为了摆脱困境,在这项工作中,我们从知识图(kg)借阅思想,并提出了一个知识驱动的网站选择模型,简称知识。具体而言,通过蒸馏的知识和富裕的语义在千克,我们首先用城市的关键要素和捕获的语义关系构建城市千克(Urbankg)。基于URBANKG,我们采用了用于语义表示的预训练技术,该技巧被馈送到站点决策的编码器 - 解码器结构中。通过多关键消息传递和基于关系的基于路径的关注机制,知识成功地揭示了各种业务和站点选择标准之间的关系。两个数据集的广泛实验表明,知识概率表现出具有效率和解释性的代表性基准。
translated by 谷歌翻译
Point cloud completion is a generation and estimation issue derived from the partial point clouds, which plays a vital role in the applications in 3D computer vision. The progress of deep learning (DL) has impressively improved the capability and robustness of point cloud completion. However, the quality of completed point clouds is still needed to be further enhanced to meet the practical utilization. Therefore, this work aims to conduct a comprehensive survey on various methods, including point-based, convolution-based, graph-based, and generative model-based approaches, etc. And this survey summarizes the comparisons among these methods to provoke further research insights. Besides, this review sums up the commonly used datasets and illustrates the applications of point cloud completion. Eventually, we also discussed possible research trends in this promptly expanding field.
translated by 谷歌翻译
Accurate activity location prediction is a crucial component of many mobility applications and is particularly required to develop personalized, sustainable transportation systems. Despite the widespread adoption of deep learning models, next location prediction models lack a comprehensive discussion and integration of mobility-related spatio-temporal contexts. Here, we utilize a multi-head self-attentional (MHSA) neural network that learns location transition patterns from historical location visits, their visit time and activity duration, as well as their surrounding land use functions, to infer an individual's next location. Specifically, we adopt point-of-interest data and latent Dirichlet allocation for representing locations' land use contexts at multiple spatial scales, generate embedding vectors of the spatio-temporal features, and learn to predict the next location with an MHSA network. Through experiments on two large-scale GNSS tracking datasets, we demonstrate that the proposed model outperforms other state-of-the-art prediction models, and reveal the contribution of various spatio-temporal contexts to the model's performance. Moreover, we find that the model trained on population data achieves higher prediction performance with fewer parameters than individual-level models due to learning from collective movement patterns. We also reveal mobility conducted in the recent past and one week before has the largest influence on the current prediction, showing that learning from a subset of the historical mobility is sufficient to obtain an accurate location prediction result. We believe that the proposed model is vital for context-aware mobility prediction. The gained insights will help to understand location prediction models and promote their implementation for mobility applications.
translated by 谷歌翻译
布局设计在许多应用中无处不在,例如建筑/城市规划等,涉及漫长的迭代设计过程。最近,深度学习已被利用以通过图像生成自动生成布局,从而表明了使设计师摆脱艰辛的常规的巨大潜力。尽管自动生成可以极大地提高生产率,但设计师的投入无疑至关重要。理想的AI辅助设计工具应自动化重复的例程,同时接受人类的指导并提供智能/主动的建议。但是,在主要是端到端方法的现有方法中,将使人类参与循环的能力在很大程度上被忽略了。为此,我们提出了一种新的人类生成模型Iplan,它能够自动生成布局,但在整个过程中也与设计师进行交互,使人类和AI能够逐渐协调一个粗略的想法进入最终设计。在不同的数据集上对IPLAN进行了评估,并将其与现有方法进行了比较。结果表明,IPLAN在制作与人类设计师的相似布局方面具有高忠诚,在接受设计师的投入和相应地提供设计建议方面具有极大的灵活性,并且在面对看不见的设计任务和有限的培训数据时,具有强大的概括性。
translated by 谷歌翻译
Sociability is essential for modern robots to increase their acceptability in human environments. Traditional techniques use manually engineered utility functions inspired by observing pedestrian behaviors to achieve social navigation. However, social aspects of navigation are diverse, changing across different types of environments, societies, and population densities, making it unrealistic to use hand-crafted techniques in each domain. This paper presents a data-driven navigation architecture that uses state-of-the-art neural architectures, namely Conditional Neural Processes, to learn global and local controllers of the mobile robot from observations. Additionally, we leverage a state-of-the-art, deep prediction mechanism to detect situations not similar to the trained ones, where reactive controllers step in to ensure safe navigation. Our results demonstrate that the proposed framework can successfully carry out navigation tasks regarding social norms in the data. Further, we showed that our system produces fewer personal-zone violations, causing less discomfort.
translated by 谷歌翻译
The visual dimension of cities has been a fundamental subject in urban studies, since the pioneering work of scholars such as Sitte, Lynch, Arnheim, and Jacobs. Several decades later, big data and artificial intelligence (AI) are revolutionizing how people move, sense, and interact with cities. This paper reviews the literature on the appearance and function of cities to illustrate how visual information has been used to understand them. A conceptual framework, Urban Visual Intelligence, is introduced to systematically elaborate on how new image data sources and AI techniques are reshaping the way researchers perceive and measure cities, enabling the study of the physical environment and its interactions with socioeconomic environments at various scales. The paper argues that these new approaches enable researchers to revisit the classic urban theories and themes, and potentially help cities create environments that are more in line with human behaviors and aspirations in the digital age.
translated by 谷歌翻译
文本引导的图像操纵任务最近在视觉和语言社区中获得了关注。虽然大多数事先研究专注于单拐操纵,但我们本文的目标是解决更具挑战性的多转映像操纵(MTIM)任务。考虑到一系列指令和先前生成的图像,此任务的先前模型成功生成了图像。然而,这种方法遭受了发布的遭受,并且缺乏指令中描述的物体的产生质量,从而降低了整体性能。为了克服这些问题,我们提出了一种称为视觉引导语言的新建筑,GaN(Lattegan)。在这里,我们通过引入视觉引导的语言注意(拿铁)模块来解决先前方法的局限性,该语言模块提取生成器的细粒度文本表示,以及识别全局和全局的文本条件的U-Net鉴别器架构。假冒或真实图像的本地代表。在两个不同的MTIM数据集,CodraW和I-CLEVR上进行广泛的实验,证明了所提出的模型的最先进的性能。
translated by 谷歌翻译
人类运动建模对于许多现代图形应用非常重要,这些应用通常需要专业技能。为了消除外行的技能障碍,最近的运动生成方法可以直接产生以自然语言为条件的人类动作。但是,通过各种文本输入,实现多样化和细粒度的运动产生,仍然具有挑战性。为了解决这个问题,我们提出了MotionDiffuse,这是第一个基于基于文本模型的基于文本驱动的运动生成框架,该框架证明了现有方法的几种期望属性。 1)概率映射。 MotionDiffuse不是确定性的语言映射,而是通过一系列注入变化的步骤生成动作。 2)现实的综合。 MotionDiffuse在建模复杂的数据分布和生成生动的运动序列方面表现出色。 3)多级操作。 Motion-Diffuse响应有关身体部位的细粒度指示,以及随时间变化的文本提示,任意长度运动合成。我们的实验表明,Motion-Diffuse通过说服文本驱动运动产生和动作条件运动的运动来优于现有的SOTA方法。定性分析进一步证明了MotionDiffuse对全面运动产生的可控性。主页:https://mingyuan-zhang.github.io/projects/motiondiffuse.html
translated by 谷歌翻译
准确性和可解释性是犯罪预测模型的两个基本属性。由于犯罪可能对人类生命,经济和安全的不利影响,我们需要一个可以尽可能准确地预测未来犯罪的模型,以便可以采取早期步骤来避免犯罪。另一方面,可解释的模型揭示了模型预测背后的原因,确保其透明度并允许我们相应地规划预防犯罪步骤。开发模型的关键挑战是捕获特定犯罪类别的非线性空间依赖和时间模式,同时保持模型的底层结构可解释。在本文中,我们开发AIST,一种用于犯罪预测的注意力的可解释的时空时间网络。基于过去的犯罪发生,外部特征(例如,流量流量和兴趣点(POI)信息)和犯罪趋势,AICT模拟了犯罪类别的动态时空相关性。广泛的实验在使用真实数据集的准确性和解释性方面表现出我们模型的优越性。
translated by 谷歌翻译
Time series anomaly detection has applications in a wide range of research fields and applications, including manufacturing and healthcare. The presence of anomalies can indicate novel or unexpected events, such as production faults, system defects, or heart fluttering, and is therefore of particular interest. The large size and complex patterns of time series have led researchers to develop specialised deep learning models for detecting anomalous patterns. This survey focuses on providing structured and comprehensive state-of-the-art time series anomaly detection models through the use of deep learning. It providing a taxonomy based on the factors that divide anomaly detection models into different categories. Aside from describing the basic anomaly detection technique for each category, the advantages and limitations are also discussed. Furthermore, this study includes examples of deep anomaly detection in time series across various application domains in recent years. It finally summarises open issues in research and challenges faced while adopting deep anomaly detection models.
translated by 谷歌翻译
在本文中,我们提出了一种有效且有效的单级框架(Divergan),根据自然语言描述产生多样化,可粘性和语义一致的图像。 Divergan采用两种新颖的单词级注意模块,即通道关注模块(CAM)和像素 - 注意模块(PAM),这在允许网络允许将较大的权重分配给定句子中的每个单词的重要性与突出字,语义对齐的重要通道和像素。之后,引入了条件自适应实例层归一化(CADailn)以使语言提示嵌入的句子中的语言线索灵活地操纵形状和纹理的变化量,进一步改善视觉语义表示和帮助稳定训练。此外,开发了双剩余结构以保持更多原始的视觉功能,同时允许更深的网络,从而产生更快的收敛速度和更生动的细节。此外,我们建议将完全连接的层插入管道以解决缺乏多样性问题,因为我们观察到致密层会显着提高网络的生成能力,平衡低于之间的权衡尺寸随机潜代码有助于使用高维和文本上下文来强度特征映射的变体和调制模块。在第二个残差块之后插入线性层,实现最佳品种和质量。基准数据集的定性和定量结果都展示了我们的潜水员实现多样性的优越性,而不会损害质量和语义一致性。
translated by 谷歌翻译
Generative models, as an important family of statistical modeling, target learning the observed data distribution via generating new instances. Along with the rise of neural networks, deep generative models, such as variational autoencoders (VAEs) and generative adversarial network (GANs), have made tremendous progress in 2D image synthesis. Recently, researchers switch their attentions from the 2D space to the 3D space considering that 3D data better aligns with our physical world and hence enjoys great potential in practice. However, unlike a 2D image, which owns an efficient representation (i.e., pixel grid) by nature, representing 3D data could face far more challenges. Concretely, we would expect an ideal 3D representation to be capable enough to model shapes and appearances in details, and to be highly efficient so as to model high-resolution data with fast speed and low memory cost. However, existing 3D representations, such as point clouds, meshes, and recent neural fields, usually fail to meet the above requirements simultaneously. In this survey, we make a thorough review of the development of 3D generation, including 3D shape generation and 3D-aware image synthesis, from the perspectives of both algorithms and more importantly representations. We hope that our discussion could help the community track the evolution of this field and further spark some innovative ideas to advance this challenging task.
translated by 谷歌翻译
使用计算流体动力学(CFD)方法近似风流可能是耗时的。创建用于在观察风流量变化的同时以交互式设计原型的工具需要更简单的模型来模拟更快。代替运行数值近似导致的详细计算,深度学习中的数据驱动方法可能能够在一小部分中提供类似的结果。这项工作将使用CFD计算到计算3D流场的问题,以在建筑占地面积上使用CFD到基于2D图像到图像转换的问题,以预测行人高度水平的流场。我们调查使用生成的对冲网络(GAN),例如PIX2PIX [1]和CYCREGAN [2]代表各种域中的图像到图像转换任务以及U-Net AutoEncoder [ 3]。模型可以以数据驱动的方式学习数据集的基础分布,我们认为可以帮助模型从CFD中了解底层雷诺平均的Navier-Stokes(RANS)方程。我们在具有且没有高度信息的各种三维诈唬型建筑物上进行新型模拟数据集。此外,我们为生成的图像提供了广泛的定性和定量评估,以选择模型,并将其性能与CFD传递的模拟进行比较。然后,我们通过提出用于在不同架构上注入这种信息的一般框架,将位置数据添加到输入可以产生更准确的结果。此外,我们表明模型通过应用注意机制和光谱归一化来改善,以便于稳定训练。
translated by 谷歌翻译