自从20020年9月在世界上越来越多的Covid-19,截至世界上的确认病例和死亡人数最多,该国大多数国家都强制了行动限制,导致流动性急剧减少。然而,这场危机的整体影响和长期影响旅行和流动仍然不确定。为此,本研究开发了一个分析框架,决定和分析了影响人类流动性和在美国的最主要的因素。特别是,该研究使用GRANGER因果关系来确定影响日常车辆数英里的重要预测因子,并利用包括脊和套索技术的线性正则化算法,以模拟和预测移动性。状态级时间序列数据是从从3月1日开始的各种开放式访问来源获得,从3月1日至6月13日,2020年6月13日,整个数据集被分成两部分以进行训练和测试。 Granger因果关系选择的变量用于通过普通的最小二乘回归,脊回归和套索回归算法培训三种不同的减少订单模型。最后,在测试数据上检查了开发模型的预测准确性。结果表明,包括新的Covid案件,社会疏散指数,人口的人口,居住在家里的人口,占外的百分比,不同的目的地,社会经济地位,在家中工作的人的百分比,以及州所有人关闭其他人是影响每日VMT的最重要因素。此外,在所有建模技术中,RIDGE回归提供了最常见错误的最优越的性能,而套索回归也比普通最小二乘模型更好。
translated by 谷歌翻译
随着Covid-19影响每个国家的全球和改变日常生活,预测疾病的传播的能力比任何先前的流行病更重要。常规的疾病 - 展开建模方法,隔间模型,基于对病毒的扩散的时空均匀性的假设,这可能导致预测到欠低,特别是在高空间分辨率下。本文采用替代技术 - 时空机器学习方法。我们提出了Covid-LSTM,一种基于长期短期内存深度学习架构的数据驱动模型,用于预测Covid-19在美国县级的发病率。我们使用每周数量的新阳性案例作为时间输入,以及来自Facebook运动和连通数据集的手工工程空间特征,以捕捉时间和空间的疾病的传播。 Covid-LSTM在我们的17周的评估期间优于Covid-19预测集线器集合模型(CovidHub-Ensemble),使其首先比一个或多个预测期更准确的模型。在4周的预测地平线上,我们的型号平均每县平均50例比CovidHub-Ensemble更准确。我们强调,在Covid-19之前,在Covid-19之前的数据驱动预测的未充分利用疾病传播的预测可能是由于以前疾病缺乏足够的数据,除了最近的时尚预测方法的机器学习方法的进步。我们讨论了更广泛的数据驱动预测的障碍,以及将来将使用更多的基于学习的模型。
translated by 谷歌翻译
As ride-hailing services become increasingly popular, being able to accurately predict demand for such services can help operators efficiently allocate drivers to customers, and reduce idle time, improve congestion, and enhance the passenger experience. This paper proposes UberNet, a deep learning Convolutional Neural Network for short-term prediction of demand for ride-hailing services. UberNet empploys a multivariate framework that utilises a number of temporal and spatial features that have been found in the literature to explain demand for ride-hailing services. The proposed model includes two sub-networks that aim to encode the source series of various features and decode the predicting series, respectively. To assess the performance and effectiveness of UberNet, we use 9 months of Uber pickup data in 2014 and 28 spatial and temporal features from New York City. By comparing the performance of UberNet with several other approaches, we show that the prediction quality of the model is highly competitive. Further, Ubernet's prediction performance is better when using economic, social and built environment features. This suggests that Ubernet is more naturally suited to including complex motivators in making real-time passenger demand predictions for ride-hailing services.
translated by 谷歌翻译
在清晨预测交通动态时,传统交通预测方法的有效性通常非常有限。原因是在清晨通勤期间交通可能会彻底分解,这个分解的时间和持续时间大幅度从日常生活中变化。清晨的交通预测是通知午餐的交通管理至关重要,但他们通常会提前预测,特别是在午夜预测。在本文中,我们建议将Twitter消息作为探测方法,了解在前一天晚上/午夜的人们工作和休息模式的影响到下一天的早晨交通。该模型在匹兹堡的高速公路网络上进行了测试,作为实验。由此产生的关系令人惊讶地简单且强大。我们发现,一般来说,早些时候的人休息如推文所示,即第二天早上就越拥挤的道路就越多。之前的大事发生了大事,由更高或更低的Tweet情绪表示,比正常,通常意味着在第二天早上的旅行需求较低。此外,人们在前一天晚上和清晨的鸣叫活动与早晨高峰时段的拥堵有统计学相关。我们利用这种关系来构建一个预测框架,预测早晨的通勤充血使用5时或早晨午夜提取的人的推特型材。匹兹堡研究支持我们的框架可以精确预测早晨拥塞,特别是对于具有大型日常充血变异的道路瓶颈上游的一些道路段。我们的方法在没有Twitter消息功能的情况下大大差异,可以从提供管理洞察力的推文配置文件中学习有意义的需求表示。
translated by 谷歌翻译
Platelet products are both expensive and have very short shelf lives. As usage rates for platelets are highly variable, the effective management of platelet demand and supply is very important yet challenging. The primary goal of this paper is to present an efficient forecasting model for platelet demand at Canadian Blood Services (CBS). To accomplish this goal, four different demand forecasting methods, ARIMA (Auto Regressive Moving Average), Prophet, lasso regression (least absolute shrinkage and selection operator) and LSTM (Long Short-Term Memory) networks are utilized and evaluated. We use a large clinical dataset for a centralized blood distribution centre for four hospitals in Hamilton, Ontario, spanning from 2010 to 2018 and consisting of daily platelet transfusions along with information such as the product specifications, the recipients' characteristics, and the recipients' laboratory test results. This study is the first to utilize different methods from statistical time series models to data-driven regression and a machine learning technique for platelet transfusion using clinical predictors and with different amounts of data. We find that the multivariate approaches have the highest accuracy in general, however, if sufficient data are available, a simpler time series approach such as ARIMA appears to be sufficient. We also comment on the approach to choose clinical indicators (inputs) for the multivariate models.
translated by 谷歌翻译
COVID-19的大流行提出了对多个领域决策者的流行预测的重要性,从公共卫生到整个经济。虽然预测流行进展经常被概念化为类似于天气预测,但是它具有一些关键的差异,并且仍然是一项非平凡的任务。疾病的传播受到人类行为,病原体动态,天气和环境条件的多种混杂因素的影响。由于政府公共卫生和资助机构的倡议,捕获以前无法观察到的方面的丰富数据来源的可用性增加了研究的兴趣。这尤其是在“以数据为中心”的解决方案上进行的一系列工作,这些解决方案通过利用非传统数据源以及AI和机器学习的最新创新来增强我们的预测能力的潜力。这项调查研究了各种数据驱动的方法论和实践进步,并介绍了一个概念框架来导航它们。首先,我们列举了与流行病预测相关的大量流行病学数据集和新的数据流,捕获了各种因素,例如有症状的在线调查,零售和商业,流动性,基因组学数据等。接下来,我们将讨论关注最近基于数据驱动的统计和深度学习方法的方法和建模范式,以及将机械模型知识域知识与统计方法的有效性和灵活性相结合的新型混合模型类别。我们还讨论了这些预测系统的现实部署中出现的经验和挑战,包括预测信息。最后,我们重点介绍了整个预测管道中发现的一些挑战和开放问题。
translated by 谷歌翻译
在撰写本文时,Covid-19(2019年冠状病毒病)已扩散到220多个国家和地区。爆发后,大流行的严肃性使人们在社交媒体上更加活跃,尤其是在Twitter和Weibo等微博平台上。现在,大流行特定的话语一直在这些平台上持续数月。先前的研究证实了这种社会产生的对话对危机事件的情境意识的贡献。案件的早期预测对于当局估算应对病毒的生长所需的资源要求至关重要。因此,这项研究试图将公共话语纳入预测模型的设计中,特别针对正在进行的波浪的陡峭山路区域。我们提出了一种基于情感的主题方法,用于设计与公开可用的Covid-19相关Twitter对话中的多个时间序列。作为用例,我们对澳大利亚Covid-19的日常案例和该国境内产生的Twitter对话实施了拟议的方法。实验结果:(i)显示了Granger导致每日COVID-19确认案例的潜在社交媒体变量的存在,并且(ii)确认这些变量为预测模型提供了其他预测能力。此外,结果表明,用于建模的社交媒体变量包含了48.83--51.38%的RMSE比基线模型的改善。我们还向公众发布了大型Covid-19特定地理标记的全球推文数据集Megocov,预计该量表的地理标记数据将有助于通过其他空间和时间上下文理解大流行的对话动态。
translated by 谷歌翻译
自Covid-19爆发以来,文献中出现了大流行动力学的天文次数,其中许多使用易感染的被移除(SIR)和易受感染的被感染(SIR)模型,或其变体,以模拟和研究冠状病毒的蔓延。 SIR和SIR是连续时间模型,是普通微分方程(ODES)的一类初始值问题(IVPS)。还应用了回归和机器学习等离散时间模型来分析CoVID-19大流行数据(例如预测感染情况),但大多数这些方法都使用简化模型,涉及基于先验预先选择的少量输入变量的简化模型知识,或使用非常复杂的模型(例如,深度学习),纯粹关注某些预测目的,并几乎没有注意模型解释性。有相对较少的研究,重点是对固有的时间滞后或延时关系的研究。在再生数(R号),感染病例和死亡之间,分析了从系统思维和动态视角的流行蔓延。本研究首次提出使用系统工程和系统识别方法来构建透明,可解释,解放和可模拟(提示)动态机器学习模型,在COVID引起的R数,感染病例和死亡之间建立联系 - 19。提示模型是基于着名的Narmax(非线性自回归移动平均线与外源投入)模型开发的模型,这可以帮助更好地了解Covid-19大流行性动态。对英国Covid-19数据进行了一个案例研究,详细说明了新发现。所提出的方法和相关的新发现对于更好地理解Covid-19大流行的传播动态非常有用。
translated by 谷歌翻译
在2020年和2021年期间,严重的急性呼吸道综合征冠状病毒2(SARS-COV-2)传播以惊人的速度在世界人口中越来越大。减少SARS-COV-2和其他疾病的蔓延和以类似的方式传播的其他疾病对于公共卫生官员来说至关重要,因为他们寻求有效地管理资源和潜在的人口控制措施,如社会疏散和检疫。通过分析美国的县网络结构,可以模拟和介入潜在的更高的感染区域。县官员可以提供有针对性的信息,准备培训,以及在这些领域的增加。虽然这些方法可能为本地化领域提供足够的对策,但它们对整个美国不充分。我们通过从疾病控制和预防中心收集冠状病毒疾病(Covid-19)感染和死亡以及来自美国人口普查局的网络邻接结构来解决这一问题。广义网络自回归(GNAR)时间序列模型已被提出为网络数据集的有效学习算法。这项工作使网络科学和运营研究技术融合到非凡的Covid-19案例,死亡和当前幸存者跨美国县县网络结构。
translated by 谷歌翻译
预测经济的短期动态 - 对经济代理商决策过程的重要意见 - 经常在线性模型中使用滞后指标。这通常在正常时期就足够了,但在危机期间可能不足。本文旨在证明,在非线性机器学习方法的帮助下,非传统和及时的数据(例如零售和批发付款)可以为决策者提供复杂的模型,以准确地估算几乎实时的关键宏观经济指标。此外,我们提供了一组计量经济学工具,以减轻机器学习模型中的过度拟合和解释性挑战,以提高其政策使用的有效性。我们的模型具有付款数据,非线性方法和量身定制的交叉验证方法,有助于提高宏观经济的启示准确性高达40 \% - 在COVID-19期间的增长较高。我们观察到,付款数据对经济预测的贡献很小,在低和正常增长期间是线性的。但是,在强年或正增长期间,付款数据的贡献很大,不对称和非线性。
translated by 谷歌翻译
近年来,美国全国化(美国)的城市化涨幅需要城市规划师和运输工程师,为大都市地区的居民提供的运输服务更加考虑。这迫使运输当局通过改进的技术和增加的服务质量来提供更好,更可靠的公共交通方式。这些改进可以通过识别和理解影响城市公共交通需求的因素来实现。可以影响城市公共交通需求的常见因素可以是内部和/或外部因素。内部因素包括过境票价,服务头路和旅行时间等政策措施。外部因素可以包括地理,社会经济和公路设施特征。在交通供需和需求之间存在固有的同时性,因此应进行两级最小二乘(2SLS)回归建模程序,以预测城市过境供求。因此,应开发两个多元线性回归模型:一个以预测运输供应和第二个以预测运输需求。结果发现,服务区域密度,每次旅行的总成本,以及最大服务中运营的平均车辆数量可用于预测运输供应,表示为车辆收入时间。此外,估计的车辆收入时间和每次旅行的总平均票价可用于预测运输需求,表示为未解释的乘客旅行。诸如各个交通机构周围区域的社会经济信息等其他数据以及各个传输系统的旅行时间信息将有助于改善开发的模型。
translated by 谷歌翻译
电力行业正在大力实施智能网格技术,以提高可靠性,可用性,安全性和效率。该实施需要技术进步,标准和法规的发展以及测试和计划。智能电网载荷预测和管理对于降低需求波动和改善连接发电机,分销商和零售商的市场机制至关重要。在政策实施或外部干预措施中,有必要分析其对电力需求的影响的不确定性,以使系统对需求的波动更加准确。本文分析了外部干预的不确定性对电力需求的影响。它实现了一种结合概率和全局预测模型的框架,使用深度学习方法来估计干预措施的因果影响分布。通过预测受影响实例的反事实分布结果,然后将其与实际结果进行对比来评估因果效应。我们将COVID-19锁定对能源使用的影响视为评估这种干预对电力需求分布的不均匀影响的案例研究。我们可以证明,在澳大利亚和某些欧洲国家的最初封锁期间,槽通常比峰值更大的下降,而平均值几乎不受影响。
translated by 谷歌翻译
COVID-19的传播表明,在不同的城市和社区之间,传播风险模式不是同质的,各种异质特征会影响传播轨迹。因此,对于预测性大流行监测,至关重要的是,在城市和社区中探索潜在的异质特征,以区分其特定的大流行扩散轨迹。为此,这项研究创建了一个网络嵌入模型,捕获跨县的访问网络以及异质特征,以根据其大流行传播轨迹来发现美国县的集群。我们从3月3日至2020年6月29日(初始波浪)收集了2,787个县的位置智能特征。其次,我们构建了一个人类访问网络,该网络将县特征作为节点属性和县之间的访问作为网络边缘。我们的归因网络嵌入方法整合了跨县访问网络的类型学特征以及异质性特征。我们对属性网络嵌入进行了聚类分析,以揭示与四个县群相对应的差异风险轨迹的四种原型。随后,我们确定了四个功能是原型之间独特的传输风险模式的重要特征。归因的网络嵌入方法和发现识别并解释了整个县的非殖民性大流行风险轨迹进行预测性大流行监测。这项研究还为大流行分析的基于数据驱动和深度学习的方法有助于补充大流行病政策分析的标准流行病学模型。
translated by 谷歌翻译
背景:Coronavirus,Covid-19首次于2020年在美国检测到。为了抑制3月中旬的疾病的传播,不同的国家发出了强制性宿舍(SAH)订单。这些非药物干预措施是根据先前经验的授权,例如1918年流感流行病。因此,我们决定研究限制对减少Covid-19传输的流动性的影响。方法:我们设计了一项生态时间序列,我们的曝光变量作为马里兰州的移动模式,于2020年3月2020年3月和我们的结果变量与同一时期的Covid-19住院治疗。我们建立了极端梯度升压(XGBoost)集合机器学习模型,并以马里兰不同地区的流动体积回归滞后的Covid-19住院治疗。结果:我们发现Covid-19住院时间增加18%,当流动性增加了5倍,同样在流动性进一步增加了十因素时增加了43%。结论:我们的研究结果表明了流动性与Covid-19例的发生率之间的正线性关系。这些发现与其他研究表明的其他研究是一致的,这表明了移动性限制的益处。尽管需要更详细的方法来精确地了解移动性限制的益处和限制,作为对Covid-19流行的反应的一部分。
translated by 谷歌翻译
Building an accurate model of travel behaviour based on individuals' characteristics and built environment attributes is of importance for policy-making and transportation planning. Recent experiments with big data and Machine Learning (ML) algorithms toward a better travel behaviour analysis have mainly overlooked socially disadvantaged groups. Accordingly, in this study, we explore the travel behaviour responses of low-income individuals to transit investments in the Greater Toronto and Hamilton Area, Canada, using statistical and ML models. We first investigate how the model choice affects the prediction of transit use by the low-income group. This step includes comparing the predictive performance of traditional and ML algorithms and then evaluating a transit investment policy by contrasting the predicted activities and the spatial distribution of transit trips generated by vulnerable households after improving accessibility. We also empirically investigate the proposed transit investment by each algorithm and compare it with the city of Brampton's future transportation plan. While, unsurprisingly, the ML algorithms outperform classical models, there are still doubts about using them due to interpretability concerns. Hence, we adopt recent local and global model-agnostic interpretation tools to interpret how the model arrives at its predictions. Our findings reveal the great potential of ML algorithms for enhanced travel behaviour predictions for low-income strata without considerably sacrificing interpretability.
translated by 谷歌翻译
预测组合在预测社区中蓬勃发展,近年来,已经成为预测研究和活动主流的一部分。现在,由单个(目标)系列产生的多个预测组合通过整合来自不同来源收集的信息,从而提高准确性,从而减轻了识别单个“最佳”预测的风险。组合方案已从没有估计的简单组合方法演变为涉及时间变化的权重,非线性组合,组件之间的相关性和交叉学习的复杂方法。它们包括结合点预测和结合概率预测。本文提供了有关预测组合的广泛文献的最新评论,并参考可用的开源软件实施。我们讨论了各种方法的潜在和局限性,并突出了这些思想如何随着时间的推移而发展。还调查了有关预测组合实用性的一些重要问题。最后,我们以当前的研究差距和未来研究的潜在见解得出结论。
translated by 谷歌翻译
从操作的角度来看,对调查响应率的准确预测至关重要。美国人口普查局的著名漫游应用程序使用了在美国人口普查计划数据库数据中培训的原则统计模型来识别难以调查的领域。较早的众包竞赛表明,一组回归树木在预测调查率方面取得了最佳性能。但是,由于有限的解释性,无法针对预期应用程序采用相应的模型。在本文中,我们提出了新的可解释的统计方法,以高精度地预测调查中的响应率。我们研究通过$ \ ell_0 $ regularization以及提供层次结构化的变体的稀疏非参数添加剂模型,可提供增强的解释性。尽管有强大的方法论基础,这种模型在计算上可能具有挑战性 - 我们提出了学习这些模型的新可扩展算法。我们还为所提出的估计量建立了新的非反应误差界。基于美国人口普查计划数据库的实验表明,我们的方法导致高质量的预测模型,可为不同人群的不同部分可行。有趣的是,我们的方法在基于梯度增强和前馈神经网络的最先进的黑盒机器学习方法中提供了可解释性的显着提高,而不会失去预测性能。我们在Python中实现的代码实现可在https://github.com/shibalibrahim/addived-models-with-sonstructred-interactions上获得。
translated by 谷歌翻译
Fingerprints are key tools in climate change detection and attribution (D&A) that are used to determine whether changes in observations are different from internal climate variability (detection), and whether observed changes can be assigned to specific external drivers (attribution). We propose a direct D&A approach based on supervised learning to extract fingerprints that lead to robust predictions under relevant interventions on exogenous variables, i.e., climate drivers other than the target. We employ anchor regression, a distributionally-robust statistical learning method inspired by causal inference that extrapolates well to perturbed data under the interventions considered. The residuals from the prediction achieve either uncorrelatedness or mean independence with the exogenous variables, thus guaranteeing robustness. We define D&A as a unified hypothesis testing framework that relies on the same statistical model but uses different targets and test statistics. In the experiments, we first show that the CO2 forcing can be robustly predicted from temperature spatial patterns under strong interventions on the solar forcing. Second, we illustrate attribution to the greenhouse gases and aerosols while protecting against interventions on the aerosols and CO2 forcing, respectively. Our study shows that incorporating robustness constraints against relevant interventions may significantly benefit detection and attribution of climate change.
translated by 谷歌翻译
在这项工作中,我们评估了人口模型和机器学习模型的合奏,以预测COVID-19大流行的不久的将来的演变,并在西班牙有特殊的用例。我们仅依靠开放和公共数据集,将发生率,疫苗接种,人类流动性和天气数据融合来喂养我们的机器学习模型(随机森林,梯度增强,K-Nearest邻居和内核岭回归)。我们使用发病率数据来调整经典人群模型(Gompertz,Logistic,Richards,Bertalanffy),以便能够更好地捕获数据的趋势。然后,我们整合了这两个模型家族,以获得更强大,更准确的预测。此外,我们已经观察到,当我们添加新功能(疫苗,移动性,气候条件)时,使用机器学习模型获得的预测有所改善,使用Shapley添加说明值分析了每个功能的重要性。就像在任何其他建模工作中一样,数据和预测质量都有多个局限性,因此必须从关键的角度看待它们,如我们在文本中所讨论的那样。我们的工作得出的结论是,这些模型的合奏使用可以改善单个预测(仅使用机器学习模型或仅使用人口模型),并且在由于缺乏相关数据而无法使用隔室模型的情况下,可以谨慎地应用。
translated by 谷歌翻译
近期不同尺度电力消耗的丰富数据开辟了新的挑战,并强调了新技术的需求,以利用更精细的尺度提供的信息,以便改善更广泛的尺度预测。在这项工作中,我们利用该分层预测问题与多尺度传输学习之间的相似性。我们分别开发了两种分层转移学习方法,分别基于广义添加剂模型和随机林的堆叠,以及专家聚合的使用。我们将这些方法应用于在第一种情况下使用智能仪表数据,以及第二种情况下的区域数据的智能仪表数据将这些方法应用于两种电力负荷预测。对于这两个useCases,我们将我们的方法的表现与基准算法的表演进行比较,我们使用可变重要性分析调查其行为。我们的结果表明了两种方法的兴趣,这导致预测的重大改善。
translated by 谷歌翻译