城市化及其问题需要对城市动态,尤其是现代城市复杂而多样化的生活方式的深入和全面的了解。数字化的数据可以准确捕获复杂的人类活动,但缺乏人口统计数据的解释性。在本文中,我们研究了美国11个都会区的120万人到110万个地方的出行探访模式的隐私增强数据集,以检测美国最大的美国城市中的潜在行动行为和生活方式。尽管出行访问的复杂性很大,但我们发现生活方式可以自动分解为12种潜在的可解释的活动行为,人们如何将购物,饮食,工作或利用空闲时间结合起来。我们没有描述具有单一生活方式的人,而是发现城市居民的行为是这些行为的混合。那些被检测到的潜在活动行为同样存在于城市之间,无法通过主要人口特征来完全解释。最后,我们发现这些潜在行为与在控制人口特征之后,即使在控制人口特征之后,这些潜在行为也与经验丰富的收入隔离,运输或健康行为有关。我们的结果表明,与活动行为相辅相成,以了解城市动态的重要性。
translated by 谷歌翻译
The node-place model has been widely used to classify and evaluate transit stations, which sheds light on individual travel behaviors and supports urban planning through effectively integrating land use and transportation development. This article adapts this model to investigate whether and how node, place, and mobility would be associated with the transmission risks and presences of the local COVID-19 cases in a city. Similar studies on the model and its relevance to COVID-19, according to our knowledge, have not been undertaken before. Moreover, the unique metric drawn from detailed visit history of the infected, i.e., the COVID-19 footprints, is proposed and exploited. This study then empirically uses the adapted model to examine the station-level factors affecting the local COVID-19 footprints. The model accounts for traditional measures of the node and place as well as actual human mobility patterns associated with the node and place. It finds that stations with high node, place, and human mobility indices normally have more COVID-19 footprints in proximity. A multivariate regression is fitted to see whether and to what degree different indices and indicators can predict the COVID-19 footprints. The results indicate that many of the place, node, and human mobility indicators significantly impact the concentration of COVID-19 footprints. These are useful for policy-makers to predict and monitor hotspots for COVID-19 and other pandemics transmission.
translated by 谷歌翻译
The proliferation of smartphones has accelerated mobility studies by largely increasing the type and volume of mobility data available. One such source of mobility data is from GPS technology, which is becoming increasingly common and helps the research community understand mobility patterns of people. However, there lacks a standardized framework for studying the different mobility patterns created by the non-Work, non-Home locations of Working and Nonworking users on Workdays and Offdays using machine learning methods. We propose a new mobility metric, Daily Characteristic Distance, and use it to generate features for each user together with Origin-Destination matrix features. We then use those features with an unsupervised machine learning method, $k$-means clustering, and obtain three clusters of users for each type of day (Workday and Offday). Finally, we propose two new metrics for the analysis of the clustering results, namely User Commonality and Average Frequency. By using the proposed metrics, interesting user behaviors can be discerned and it helps us to better understand the mobility patterns of the users.
translated by 谷歌翻译
The visual dimension of cities has been a fundamental subject in urban studies, since the pioneering work of scholars such as Sitte, Lynch, Arnheim, and Jacobs. Several decades later, big data and artificial intelligence (AI) are revolutionizing how people move, sense, and interact with cities. This paper reviews the literature on the appearance and function of cities to illustrate how visual information has been used to understand them. A conceptual framework, Urban Visual Intelligence, is introduced to systematically elaborate on how new image data sources and AI techniques are reshaping the way researchers perceive and measure cities, enabling the study of the physical environment and its interactions with socioeconomic environments at various scales. The paper argues that these new approaches enable researchers to revisit the classic urban theories and themes, and potentially help cities create environments that are more in line with human behaviors and aspirations in the digital age.
translated by 谷歌翻译
肥胖是一种全球流行病,每年至少有280万人死亡。这种复杂的疾病与重大的社会经济负担有关,工作生产率降低,失业和其他健康差异(SDOH)差异有关。目的:这项研究的目的是使用地理空间机器学习方法研究SDOH对美国谢尔比县成年人肥胖症患病率的影响。肥胖症患病率是从公共可用的CDC 500城市数据库中获得的,而SDOH指标是从美国人口普查和USDA提取的。我们使用Getis-ord Gi*统计数据和校准多个模型研究了肥胖症患病率模式的地理分布,以研究SDOH与成人肥胖之间的关联。此外,使用无监督的机器学习来进行分组分析,以研究肥胖症患病率和相关SDOH指标的分布。结果表明,在谢尔比县内经历了成年肥胖症高的社区中,很高的社区。在人口普查区中,家庭收入中位数以及黑人,房屋租房者的百分比,居住在贫困水平以下的人,五十五岁或以上,未婚和未投保的人与成人肥胖症患病率有显着关联。分组分析表明,处境不利的社区之间的肥胖症患病率差异。需要更多的研究来检查地理位置,SDOH和慢性疾病之间的联系。这些发现描述了处于不利地位的社区内肥胖症的患病率明显更高,并且可以利用其他地理空间信息,以提供有价值的见解,以告知健康决策和干预措施,从而减轻肥胖症患病率的危险因素。
translated by 谷歌翻译
Efficient energy consumption is crucial for achieving sustainable energy goals in the era of climate change and grid modernization. Thus, it is vital to understand how energy is consumed at finer resolutions such as household in order to plan demand-response events or analyze the impacts of weather, electricity prices, electric vehicles, solar, and occupancy schedules on energy consumption. However, availability and access to detailed energy-use data, which would enable detailed studies, has been rare. In this paper, we release a unique, large-scale, synthetic, residential energy-use dataset for the residential sector across the contiguous United States covering millions of households. The data comprise of hourly energy use profiles for synthetic households, disaggregated into Thermostatically Controlled Loads (TCL) and appliance use. The underlying framework is constructed using a bottom-up approach. Diverse open-source surveys and first principles models are used for end-use modeling. Extensive validation of the synthetic dataset has been conducted through comparisons with reported energy-use data. We present a detailed, open, high-resolution, residential energy-use dataset for the United States.
translated by 谷歌翻译
在本文中,我们使用机器学习,概率和基于重力的方法的组合来提出一种用于为更大的墨尔本地区创建合成群体的算法。我们将这些技术与三个主要创新的混合模型相结合:1。分配活动模式时,我们为每个代理商生成各个活动链,对其队列量身定制; 2.选择目的地时,我们的目标是在旅行长度和目的地的基于活动的景点之间取得平衡; 3.我们考虑到代理人剩余的旅行数量,以确保他们不选择不合理的目的地以退回家庭。我们的方法是完全打开和可复制的,只需要公开的数据来生成与常用代理的建模软件兼容的合成代理商,例如Matsim。在各种人口尺寸的距离分布,模式选择和目的地选择方面,发现合成群是准确的。
translated by 谷歌翻译
非负矩阵分解(NMF)是一种有价值的矩阵分解技术,其产生了数据集的“基于部分”分解。Wi-Fi用户数是智能和连接城市环境中的群体运动的隐私保留指标。在本文中,我们将NMF应用于博尔德校区从科罗拉多大学嵌入到Wi-Fi用户数数据的新矩阵,以便自动识别智能和连接的基础设施环境中的人类运动模式。
translated by 谷歌翻译
我们在数字世界中采取的每一步都会落后于我们行为的记录;数字足迹。研究表明,算法可以将这些数字足迹转化为精确的心理特征估计,包括人格特质,心理健康或情报。然而,AI产生这些见解的机制通常保持不透明。在本文中,我们展示了如何解释AI(XAI)可以帮助域专家和数据主体验证,问题和改进分类数字足迹的心理特征的模型。我们在来自金融交易数据的大五个人格预测(特征和方面)的范围内,详细说明了两个流行的XAI方法(规则提取和反事实解释)(n = 6,408)。首先,我们展示了全球规则提取在模型中标识的消费模式中如何阐明了最重要的人格,并讨论这些规则如何用于解释,验证和改进模型。其次,我们实施当地规则提取,以表明,由于其独特的财务行为,个人分配给个性课程,并且模型的预测信心与促进预测的特征数量之间存在积极的联系。我们的实验突出了全球和本地XAI方法的重要性。通过更好地了解预测模型如何工作,以及他们如何获得特定人的结果,Xai促进了一个世界的问责制,其中AI影响了世界各地数十亿人的生命。
translated by 谷歌翻译
COVID-19的大流行提出了对多个领域决策者的流行预测的重要性,从公共卫生到整个经济。虽然预测流行进展经常被概念化为类似于天气预测,但是它具有一些关键的差异,并且仍然是一项非平凡的任务。疾病的传播受到人类行为,病原体动态,天气和环境条件的多种混杂因素的影响。由于政府公共卫生和资助机构的倡议,捕获以前无法观察到的方面的丰富数据来源的可用性增加了研究的兴趣。这尤其是在“以数据为中心”的解决方案上进行的一系列工作,这些解决方案通过利用非传统数据源以及AI和机器学习的最新创新来增强我们的预测能力的潜力。这项调查研究了各种数据驱动的方法论和实践进步,并介绍了一个概念框架来导航它们。首先,我们列举了与流行病预测相关的大量流行病学数据集和新的数据流,捕获了各种因素,例如有症状的在线调查,零售和商业,流动性,基因组学数据等。接下来,我们将讨论关注最近基于数据驱动的统计和深度学习方法的方法和建模范式,以及将机械模型知识域知识与统计方法的有效性和灵活性相结合的新型混合模型类别。我们还讨论了这些预测系统的现实部署中出现的经验和挑战,包括预测信息。最后,我们重点介绍了整个预测管道中发现的一些挑战和开放问题。
translated by 谷歌翻译
Recent research has demonstrated the capability of behavior signals captured by smartphones and wearables for longitudinal behavior modeling. However, there is a lack of a comprehensive public dataset that serves as an open testbed for fair comparison among algorithms. Moreover, prior studies mainly evaluate algorithms using data from a single population within a short period, without measuring the cross-dataset generalizability of these algorithms. We present the first multi-year passive sensing datasets, containing over 700 user-years and 497 unique users' data collected from mobile and wearable sensors, together with a wide range of well-being metrics. Our datasets can support multiple cross-dataset evaluations of behavior modeling algorithms' generalizability across different users and years. As a starting point, we provide the benchmark results of 18 algorithms on the task of depression detection. Our results indicate that both prior depression detection algorithms and domain generalization techniques show potential but need further research to achieve adequate cross-dataset generalizability. We envision our multi-year datasets can support the ML community in developing generalizable longitudinal behavior modeling algorithms.
translated by 谷歌翻译
在清晨预测交通动态时,传统交通预测方法的有效性通常非常有限。原因是在清晨通勤期间交通可能会彻底分解,这个分解的时间和持续时间大幅度从日常生活中变化。清晨的交通预测是通知午餐的交通管理至关重要,但他们通常会提前预测,特别是在午夜预测。在本文中,我们建议将Twitter消息作为探测方法,了解在前一天晚上/午夜的人们工作和休息模式的影响到下一天的早晨交通。该模型在匹兹堡的高速公路网络上进行了测试,作为实验。由此产生的关系令人惊讶地简单且强大。我们发现,一般来说,早些时候的人休息如推文所示,即第二天早上就越拥挤的道路就越多。之前的大事发生了大事,由更高或更低的Tweet情绪表示,比正常,通常意味着在第二天早上的旅行需求较低。此外,人们在前一天晚上和清晨的鸣叫活动与早晨高峰时段的拥堵有统计学相关。我们利用这种关系来构建一个预测框架,预测早晨的通勤充血使用5时或早晨午夜提取的人的推特型材。匹兹堡研究支持我们的框架可以精确预测早晨拥塞,特别是对于具有大型日常充血变异的道路瓶颈上游的一些道路段。我们的方法在没有Twitter消息功能的情况下大大差异,可以从提供管理洞察力的推文配置文件中学习有意义的需求表示。
translated by 谷歌翻译
文化领域代表了一个有用的概念,该概念在社会科学领域进行了交叉侵占。了解人类如何在社会中组织和联系他们的思想和行为有助于了解他们对不同问题的行为和态度。但是,塑造文化领域的共同特征的选择是任意的。所需的方法是一种可以利用大量在线数据(尤其是通过社交媒体)来识别没有临时假设,偏见或偏见的文化区域的方法。在这项工作中,我们通过引入一种基于微博帖子对大型数据集的自动分析来推断文化区域的方法来朝着这个方向迈出关键一步。我们的方法是基于以下原则:从人们之间讨论的主题可以推断出文化隶属关系。具体来说,我们衡量了美国社交媒体产生的书面话语中的区域差异。从地理标记的推文中内容词的频率分布,我们找到了“用法”区域热点,从那里我们得出了区域变化的主要成分。通过在这个较低维空间中数据的层次聚类,我们的方法得出了清晰的文化领域和定义它们的讨论主题。我们获得了一个明显的南北分离,主要受非裔美国人文化的影响,并进一步连续(东西方)和不连续的(城市农村)分裂,这些师为当今美国的文化领域提供了全面的了解。
translated by 谷歌翻译
社交媒体越来越多地用于大规模的人口预测,例如估计社区健康统计数据。但是,社交媒体用户通常不是预期人群的代表性样本 - “选择偏见”。在社会科学中,这种偏见通常是通过约束技术解决的,在这种偏见的情况下,根据其社会人口统计学群体的不足或过度采样,将观察结果重新恢复。然而,很少评估约束性以改善预测。在这项两部分的研究中,我们首先评估了标准“现成”的限制技术,发现它们在四个从Twitter中介绍美国县人口健康统计数据的四个任务中没有提供任何改进,甚至通常会退化预测准确性。降级表现的核心原因似乎与他们对每个人群社会人口统计学的稀疏或缩减估计的依赖有关。在研究的第二部分中,我们开发和评估了强大的阶段化后,该方法包括解决这些问题的三种方法:(1)估算器重新分布以说明缩小的缩小,以及(2)自适应式嵌套和(3)告知平滑为处理稀疏的社会人口统计学估计。我们表明,这些方法中的每一种都会导致预测准确性比标准限制方法显着改善。综上所述,强大的后阶段能够实现最先进的预测准确性,在调查的生活满意度的情况下,解释的方差(R^2)增加了53.0%,所有任务的平均平均值增加了17.8%。
translated by 谷歌翻译
近年来,骑车服务的越来越重要表明,有必要研究骑车需求的关键决定因素。然而,关于骑乘需求决定因素的非线性效应和空间异质性,知之甚少。这项研究采用了可解释的基于基础学习的分析框架,以确定塑造骑车需求并在各种空间环境(机场,市区和社区)探索其非线性关联的关键因素。我们在芝加哥使用骑车旅行数据进行实证分析。结果表明,建筑环境的重要性在空间环境中各不相同,并且在预测对机场旅行的乘车需求方面共同贡献了最大的重要性。此外,建筑环境对骑车需求的非线性影响显示出强烈的空间变化。骑车需求通常对市区旅行的建筑环境变化最有反应,然后进行邻里旅行和机场旅行。这些发现提供了运输专业人员的细微见解,以管理骑车服务。
translated by 谷歌翻译
实质性奖学金估计了工作对自动化的敏感性,但是很少有人研究了作为新技术代替任务,转移所需技能而不是消除整个工作的新技术,就业年龄中的工作内容如何发展。在这里,我们探讨了职业技能内容变化的模式和后果,并表征职业和工人受到最大的重新技能压力。最近的研究表明,高技能的STEM和技术密集型职业经历了技能内容的最高变化率。在2010年至2018年之间,分析了涵盖美国在线劳动力市场近乎宇宙的1.67亿个职业职位的727个职业,我们发现,对于低技能的职业来说,重新技能距离的压力要高得多,无论如何``低技能''是按技能,薪酬水平或教育学位定义的。我们研究了不平衡的职业技能对工人的含义,发现来自大型劳动力市场和大型雇主的人的变化较小,而低技能工作的非白人男性在人口统计学上是最脆弱的。我们通过讨论我们的技能嵌入模型的广泛潜力来结束,该模型从工作职位跨职位的技能共同占领中学习了技能接近,并将其表示为复杂人力资本的高维空间中的距离,这与工人的技能成本相对应。该模型提供了对工作发展的程度的精细度量,并指示工作在哪个方向发展,如人类界面技能的需求下降所示,以及机器接口处的人的上升。
translated by 谷歌翻译
19009年的大流行破坏了世界上每个人的生活。在这项工作中,我们表征了在疫苗可用性之前,在大流行期间,美国112个城市的主观福祉模式,如与城市相对应的亚列表所示。我们使用积极和负面影响量化主观健康。然后,我们通过将社区观察到的健康与预期的健康进行比较,衡量大流行的影响,如大流行前的时间序列模型所预测的那样。我们表明,语言反映的一般社区特征可以预测社区的能力。我们预测大流行将如何基于正常时间\ textit {之前的语言和互动特征{}大流行的语言和互动特征影响每个社区的福祉。我们发现,具有与更紧密联系的用户相对应的互动特征的社区,并且更高的参与度受到显着影响。值得注意的是,我们发现更多谈论通常经验丰富的社会关系的社区,例如朋友,家人和隶属关系,实际上更有可能受到影响。此外,我们还使用相同的功能来预测大流行初次发作后每个社区将恢复的速度。我们同样发现,更多地谈论家庭,隶属关系和确定为团体一部分的社区的康复较慢。
translated by 谷歌翻译
Building an accurate model of travel behaviour based on individuals' characteristics and built environment attributes is of importance for policy-making and transportation planning. Recent experiments with big data and Machine Learning (ML) algorithms toward a better travel behaviour analysis have mainly overlooked socially disadvantaged groups. Accordingly, in this study, we explore the travel behaviour responses of low-income individuals to transit investments in the Greater Toronto and Hamilton Area, Canada, using statistical and ML models. We first investigate how the model choice affects the prediction of transit use by the low-income group. This step includes comparing the predictive performance of traditional and ML algorithms and then evaluating a transit investment policy by contrasting the predicted activities and the spatial distribution of transit trips generated by vulnerable households after improving accessibility. We also empirically investigate the proposed transit investment by each algorithm and compare it with the city of Brampton's future transportation plan. While, unsurprisingly, the ML algorithms outperform classical models, there are still doubts about using them due to interpretability concerns. Hence, we adopt recent local and global model-agnostic interpretation tools to interpret how the model arrives at its predictions. Our findings reveal the great potential of ML algorithms for enhanced travel behaviour predictions for low-income strata without considerably sacrificing interpretability.
translated by 谷歌翻译
规划自行车共享站的布局是一个复杂的过程,特别是在刚刚实施自行车共享系统的城市。城市规划者通常必须根据公开可用的数据并私下提供来自管理的数据,然后使用现场流行的位置分配模型。较小城市的许多城市可能难以招聘专家进行此类规划。本文提出了一种新的解决方案来简化和促进通过使用空间嵌入方法来实现这种规划的过程。仅基于来自OpenStreetMap的公开数据,以及来自欧洲34个城市的站布局,已经开发了一种使用优步H3离散全球电网系统将城市分成微区域的方法,并指示其值得放置站的区域在不同城市使用转移学习的现有系统。工作的结果是在规划驻地布局的决策中支持规划者的机制,以选择参考城市。
translated by 谷歌翻译
COVID-19的传播表明,在不同的城市和社区之间,传播风险模式不是同质的,各种异质特征会影响传播轨迹。因此,对于预测性大流行监测,至关重要的是,在城市和社区中探索潜在的异质特征,以区分其特定的大流行扩散轨迹。为此,这项研究创建了一个网络嵌入模型,捕获跨县的访问网络以及异质特征,以根据其大流行传播轨迹来发现美国县的集群。我们从3月3日至2020年6月29日(初始波浪)收集了2,787个县的位置智能特征。其次,我们构建了一个人类访问网络,该网络将县特征作为节点属性和县之间的访问作为网络边缘。我们的归因网络嵌入方法整合了跨县访问网络的类型学特征以及异质性特征。我们对属性网络嵌入进行了聚类分析,以揭示与四个县群相对应的差异风险轨迹的四种原型。随后,我们确定了四个功能是原型之间独特的传输风险模式的重要特征。归因的网络嵌入方法和发现识别并解释了整个县的非殖民性大流行风险轨迹进行预测性大流行监测。这项研究还为大流行分析的基于数据驱动和深度学习的方法有助于补充大流行病政策分析的标准流行病学模型。
translated by 谷歌翻译