19009年的大流行急剧催化了电子购物者的扩散。电子购物的急剧增长无疑会对旅行需求产生重大影响。结果,运输建模者对电子购物需求建模的能力变得越来越重要。这项研究开发了预测家庭每周送货频率的模型。我们使用经典计量经济学和机器学习技术来获得最佳模型。发现社会经济因素,例如拥有在线杂货会员资格,家庭成员的平均年龄,男性家庭成员的百分比,家庭中的工人数量以及各种土地使用因素会影响房屋送货的需求。这项研究还比较了机器学习模型和经典计量经济学模型的解释和表现。在通过机器学习和计量经济学模型确定的变量效果中找到了一致性。但是,具有相似的召回精度,有序的概率模型是一个经典的计量经济学模型,可以准确预测家庭交付需求的总分布。相反,两个机器学习模型都无法匹配观察到的分布。
translated by 谷歌翻译
Building an accurate model of travel behaviour based on individuals' characteristics and built environment attributes is of importance for policy-making and transportation planning. Recent experiments with big data and Machine Learning (ML) algorithms toward a better travel behaviour analysis have mainly overlooked socially disadvantaged groups. Accordingly, in this study, we explore the travel behaviour responses of low-income individuals to transit investments in the Greater Toronto and Hamilton Area, Canada, using statistical and ML models. We first investigate how the model choice affects the prediction of transit use by the low-income group. This step includes comparing the predictive performance of traditional and ML algorithms and then evaluating a transit investment policy by contrasting the predicted activities and the spatial distribution of transit trips generated by vulnerable households after improving accessibility. We also empirically investigate the proposed transit investment by each algorithm and compare it with the city of Brampton's future transportation plan. While, unsurprisingly, the ML algorithms outperform classical models, there are still doubts about using them due to interpretability concerns. Hence, we adopt recent local and global model-agnostic interpretation tools to interpret how the model arrives at its predictions. Our findings reveal the great potential of ML algorithms for enhanced travel behaviour predictions for low-income strata without considerably sacrificing interpretability.
translated by 谷歌翻译
近年来,骑车服务的越来越重要表明,有必要研究骑车需求的关键决定因素。然而,关于骑乘需求决定因素的非线性效应和空间异质性,知之甚少。这项研究采用了可解释的基于基础学习的分析框架,以确定塑造骑车需求并在各种空间环境(机场,市区和社区)探索其非线性关联的关键因素。我们在芝加哥使用骑车旅行数据进行实证分析。结果表明,建筑环境的重要性在空间环境中各不相同,并且在预测对机场旅行的乘车需求方面共同贡献了最大的重要性。此外,建筑环境对骑车需求的非线性影响显示出强烈的空间变化。骑车需求通常对市区旅行的建筑环境变化最有反应,然后进行邻里旅行和机场旅行。这些发现提供了运输专业人员的细微见解,以管理骑车服务。
translated by 谷歌翻译
We apply classical statistical methods in conjunction with the state-of-the-art machine learning techniques to develop a hybrid interpretable model to analyse 454,897 online customers' behavior for a particular product category at the largest online retailer in China, that is JD. While most mere machine learning methods are plagued by the lack of interpretability in practice, our novel hybrid approach will address this practical issue by generating explainable output. This analysis involves identifying what features and characteristics have the most significant impact on customers' purchase behavior, thereby enabling us to predict future sales with a high level of accuracy, and identify the most impactful variables. Our results reveal that customers' product choice is insensitive to the promised delivery time, but this factor significantly impacts customers' order quantity. We also show that the effectiveness of various discounting methods depends on the specific product and the discount size. We identify product classes for which certain discounting approaches are more effective and provide recommendations on better use of different discounting tools. Customers' choice behavior across different product classes is mostly driven by price, and to a lesser extent, by customer demographics. The former finding asks for exercising care in deciding when and how much discount should be offered, whereas the latter identifies opportunities for personalized ads and targeted marketing. Further, to curb customers' batch ordering behavior and avoid the undesirable Bullwhip effect, JD should improve its logistics to ensure faster delivery of orders.
translated by 谷歌翻译
文献中广泛讨论了千禧一代的自动为中心。大多数现有研究都使用回归模型,并假设所有因素在为年轻人的驾驶行为做出贡献方面都是线性添加的。这项研究通过应用非参数统计学习方法(即梯度提升决策树(GBDT))来放松这一假设。这项研究使用2001年和2017年的美国全国旅行调查,研究了生命周期,社会人口统计学和住宅因素对千禧年和X年轻人日常驾驶距离的非线性剂量反应影响。千禧年的年轻人拥有所有其他因素的持续不断,比X-X X驾驶的距离更短。此外,住宅和经济因素解释了大约50%的年轻人的日常驾驶距离,而对生活课程活动和人口统计的集体贡献约为33%。这项研究还确定了制定旨在减少汽车旅行需求的有效土地使用政策的密度范围。
translated by 谷歌翻译
自成立以来,选择建模领域一直由理论驱动的建模方法主导。机器学习提供了一种用于建模行为的替代数据驱动方法,越来越越来越欣赏我们的领域。机器学习模型的交叉授粉,技术和实践有助于克服当前理论驱动的建模范式中遇到的问题和限制,例如模型选择的主观劳动密集型搜索过程,无法使用文本和图像数据。然而,尽管使用机器学习的进步来改善选择建模实践的潜在好处,但选择建模领域已经犹豫了拥抱机器学习。本讨论文件旨在巩固用于使用机器学习模型,技术和实践的知识,以获得选择建模,并讨论其潜力。因此,我们希望不仅希望在选择建模中进一步集成机器学习的情况是有益的,而且还可以进一步方便。为此,我们澄清了两个建模范式之间的相似性和差异;我们审查了机器学习选择建模;我们探讨了拥抱机器学习模式和技术的机会领域,以改善我们的实践。要结束本讨论文件,我们提出了一系列的研究问题,必须解决,以更好地了解机器学习如何受益选择建模。
translated by 谷歌翻译
即使有效,模型的使用也必须伴随着转换数据的各个级别的理解(上游和下游)。因此,需求增加以定义单个数据与算法可以根据其分析可以做出的选择(例如,一种产品或一种促销报价的建议,或代表风险的保险费率)。模型用户必须确保模型不会区分,并且也可以解释其结果。本文介绍了模型解释的重要性,并解决了模型透明度的概念。在保险环境中,它专门说明了如何使用某些工具来强制执行当今可以利用机器学习的精算模型的控制。在一个简单的汽车保险中损失频率估计的示例中,我们展示了一些解释性方法的兴趣,以适应目标受众的解释。
translated by 谷歌翻译
可说明的人工智能(XAI)被确定为使用机器学习(ML)模型进行预测时确定功能的重要性的可行方法。在这项研究中,我们创建了将个人健康信息(例如,他们的药物历史和合并症)作为输入的模型,并预测个体将具有急性冠状动脉综合征(ACS)不利结果的可能性。使用Xai,我们量化了特定药物对这些ACS预测的贡献,从而产生了基于XAI的药物检测技术,使用ACS作为检测的不利结果的示例。鉴定了1993年至2009年在1993年至2009年期间提供的65岁以上的人(解剖治疗化学(ATC)级别M)或心血管系统(ATC类C)药物,以及其药物历史,组合和其他关键特征来自联系的西澳大利亚数据集。培训多种ML模型以预测这些个体如果这些个体具有ACS相关的不利结果(即,用于ACS的放电诊断的死亡或住院),并且使用各种ML和XAI技术来计算哪种特征 - 特别是哪种药物 - 导致这些预测。发现ROFecoxib和Celecoxib的药物分配特征对ACS相关的不利结果预测(平均)的贡献大于零效果,并且发现ACS相关的不利结果可以预测72%的准确度。此外,发现Xai库石灰和Shap成功识别重要和不重要的功能,具有略微优于石灰的形状。 ML培训的ML模型与XAI算法串联的连接行政健康数据集可以成功地量化特征重要性,并且随着进一步的开发,可能被用作药物检测技术。
translated by 谷歌翻译
预测经济的短期动态 - 对经济代理商决策过程的重要意见 - 经常在线性模型中使用滞后指标。这通常在正常时期就足够了,但在危机期间可能不足。本文旨在证明,在非线性机器学习方法的帮助下,非传统和及时的数据(例如零售和批发付款)可以为决策者提供复杂的模型,以准确地估算几乎实时的关键宏观经济指标。此外,我们提供了一组计量经济学工具,以减轻机器学习模型中的过度拟合和解释性挑战,以提高其政策使用的有效性。我们的模型具有付款数据,非线性方法和量身定制的交叉验证方法,有助于提高宏观经济的启示准确性高达40 \% - 在COVID-19期间的增长较高。我们观察到,付款数据对经济预测的贡献很小,在低和正常增长期间是线性的。但是,在强年或正增长期间,付款数据的贡献很大,不对称和非线性。
translated by 谷歌翻译
本文量化了种族,贫困,政治和年龄的影响,对美国大陆县的Covid-19疫苗接种率。两者,OLS回归分析和随机林机学习算法应用于量化县级疫苗接种犹豫不决的因素。机器学习模型同时考虑各种变量(种族/民族,党派,年龄等)的联合影响,以捕获这些因素对疫苗接种率的独特组合。通过实施最先进的人工智能解释(AIX)算法,可以用机器学习模型解决黑盒子问题,并为每个县中的每个测量的影响因子的“多少”问题提供答案。对于大多数县来说,共和党人的投票更高,非洲裔美国人口更大,贫困率更高。虽然较高的亚洲人口份额增加了预测的疫苗接种率。从西班牙裔人口比例对疫苗接种率的影响是OLS模型中的阳性,但对于随机森林模型中具有高西班牙裔人口(> 65%)的县仅为阳性。老年人的比例和一个县中的年轻人的比例分别对OLS模型产生重大影响 - 积极和负面。相比之下,随机林模型中的影响是模糊的。由于结果在地理位置和由于AIX算法能够为每座县单独量化疫苗影响,因此这项研究可以根据当地社区量身定制。一个交互式在线映射仪表板,用于在https://www.cpp.edu/~lange/vacmap.html中找到个人U.S.数的影响因素。很明显,影响因素的影响在不同的地理区域上并不普遍相同。
translated by 谷歌翻译
Ridesplitting是合并的骑乘服务的一种形式,具有减轻骑行对环境的负面影响的巨大潜力。但是,大多数现有研究仅根据优化模型和仿真探索其理论环境益处。相比之下,这项研究旨在揭示基于观察到的中国骑车数据的数据及其决定因素的现实世界排放减少。本研究将Trip数据与Copert模型整合在一起,计算了共享乘车的CO2排放量(Ridesplitting)及其取代的单骑行(常规乘车),以估计每次骑行旅行的CO2排放降低。结果表明,并非所有的骑行旅行都减少了现实世界中的骑车的排放。二氧化碳的降低速度降低速率因行程到旅行而异,平均为43.15g/km。然后,应用可解释的机器学习模型,梯度提升机,用于探索二氧化碳排放率降低速度的关系及其决定因素之间的关系。基于Shapley添加剂解释(SHAP)方法,共享乘车的重叠率和弯路率被确定为确定二氧化碳排放率降低乘车率的最重要因素。增加重叠率,共享乘车的数量,平均速度和行驶距离比率,同时降低弯路率,实际行程距离和行驶距离差距可以增加二氧化碳排放率的降低骑行率。另外,通过部分依赖图研究了决定因素的非线性效应和相互作用。总而言之,这项研究为政府和骑车公司提供了一种科学方法,以更好地评估和优化乘车的环境利益。
translated by 谷歌翻译
血浆定义为物质的第四个状态,在高电场下可以在大气压下产生非热血浆。现在众所周知,血浆激活液体(PAL)的强和广谱抗菌作用。机器学习(ML)在医疗领域的可靠适用性也鼓励其在等离子体医学领域的应用。因此,在PALS上的ML应用可以提出一种新的观点,以更好地了解各种参数对其抗菌作用的影响。在本文中,通过使用先前获得的数据来定性预测PAL的体外抗菌活性,从而介绍了比较监督的ML模型。进行了文献搜索,并从33个相关文章中收集了数据。在所需的预处理步骤之后,将两种监督的ML方法(即分类和回归)应用于数据以获得微生物灭活(MI)预测。对于分类,MI分为四类,对于回归,MI被用作连续变量。为分类和回归模型进行了两种不同的可靠交叉验证策略,以评估所提出的方法。重复分层的K折交叉验证和K折交叉验证。我们还研究了不同特征对模型的影响。结果表明,高参数优化的随机森林分类器(ORFC)和随机森林回归者(ORFR)分别比其他模型进行了分类和回归的模型更好。最后,获得ORFC的最佳测试精度为82.68%,ORFR的R2为0.75。 ML技术可能有助于更好地理解在所需的抗菌作用中具有主要作用的血浆参数。此外,此类发现可能有助于将来的血浆剂量定义。
translated by 谷歌翻译
Covid-19是由新型冠状病毒(SARS-COV-2)引起的疾病,于2019年12月下旬首次在中国武汉出现。不久之后,该病毒在全球范围内传播,并于3月被世界卫生组织宣布为大流行病。 2020年。这造成了世界各地和美国的许多变化,包括向在线学习的教育转变。在本文中,我们试图了解Covid-19-19的大流行和在线学习的增加如何影响大学生的情感福祉。我们使用几种机器学习和统计模型来分析卢布尔雅那大学公共行政学院,斯洛文尼亚大学,与国际大学,其他高等教育机构和学生协会一起收集的数据。我们的结果表明,与学生的学术生活有关的特征对他们的情感健康产生了最大的影响。其他重要因素包括学生对大学和政府对大流行的处理以及学生的财务安全的满意。
translated by 谷歌翻译
在这项工作中,我们评估了人口模型和机器学习模型的合奏,以预测COVID-19大流行的不久的将来的演变,并在西班牙有特殊的用例。我们仅依靠开放和公共数据集,将发生率,疫苗接种,人类流动性和天气数据融合来喂养我们的机器学习模型(随机森林,梯度增强,K-Nearest邻居和内核岭回归)。我们使用发病率数据来调整经典人群模型(Gompertz,Logistic,Richards,Bertalanffy),以便能够更好地捕获数据的趋势。然后,我们整合了这两个模型家族,以获得更强大,更准确的预测。此外,我们已经观察到,当我们添加新功能(疫苗,移动性,气候条件)时,使用机器学习模型获得的预测有所改善,使用Shapley添加说明值分析了每个功能的重要性。就像在任何其他建模工作中一样,数据和预测质量都有多个局限性,因此必须从关键的角度看待它们,如我们在文本中所讨论的那样。我们的工作得出的结论是,这些模型的合奏使用可以改善单个预测(仅使用机器学习模型或仅使用人口模型),并且在由于缺乏相关数据而无法使用隔室模型的情况下,可以谨慎地应用。
translated by 谷歌翻译
在人类循环机器学习应用程序的背景下,如决策支持系统,可解释性方法应在不使用户等待的情况下提供可操作的见解。在本文中,我们提出了加速的模型 - 不可知论解释(ACME),一种可解释的方法,即在全球和本地层面迅速提供特征重要性分数。可以将acme应用于每个回归或分类模型的后验。 ACME计算功能排名不仅提供了一个什么,但它还提供了一个用于评估功能值的变化如何影响模型预测的原因 - 如果分析工具。我们评估了综合性和现实世界数据集的建议方法,同时也与福芙添加剂解释(Shap)相比,我们制作了灵感的方法,目前是最先进的模型无关的解释性方法。我们在生产解释的质量方面取得了可比的结果,同时急剧减少计算时间并为全局和局部解释提供一致的可视化。为了促进该领域的研究,为重复性,我们还提供了一种存储库,其中代码用于实验。
translated by 谷歌翻译
医学中的机器学习利用了财富的医疗保健数据来提取知识,促进临床决策,最终改善护理。然而,在缺乏人口统计分集的数据集上培训的ML模型可以在适用于不足的人群时产生次优绩效(例如少数民族,社会经济地位较低),因此延续了健康差异。在这项研究中,我们评估了四种型分类,以预测高氯血症 - 一种经常由ICU人口中的侵袭性流体给药的条件 - 并将其在种族,性别和保险亚组中进行比较。我们观察到,除了基于实验室的患者的模型性能之外,还要添加社会决定因素特征。 40个模型 - 亚组中的40分,亚组测试产生了显着不同的AUC分数,提示在将ML模型应用于社会决定簇子组时的差异。我们敦促未来的研究人员设计主动调整潜在偏见的模型,并包括他们研究中的子组报告。
translated by 谷歌翻译
In this work, a machine learning approach is developed for predicting the outcomes of football matches. The novelty of this research lies in the utilisation of the Kelly Index to first classify matches into categories where each one denotes the different levels of predictive difficulty. Classification models using a wide suite of algorithms were developed for each category of matches in order to determine the efficacy of the approach. In conjunction to this, a set of previously unexplored features were engineering including Elo-based variables. The dataset originated from the Premier League match data covering the 2019-2021 seasons. The findings indicate that the process of decomposing the predictive problem into sub-tasks was effective and produced competitive results with prior works, while the ensemble-based methods were the most effective. The paper also devised an investment strategy in order to evaluate its effectiveness by benchmarking against bookmaker odds. An approach was developed that minimises risk by combining the Kelly Index with the predefined confidence thresholds of the predictive models. The experiments found that the proposed strategy can return a profit when following a conservative approach that focuses primarily on easy-to-predict matches where the predictive models display a high confidence level.
translated by 谷歌翻译
机器学习的进步(ML)引起了人们对这项技术支持决策的浓厚兴趣。尽管复杂的ML模型提供的预测通常比传统工具的预测更准确,但这种模型通常隐藏了用户预测背后的推理,这可能导致采用和缺乏洞察力。在这种张力的激励下,研究提出了可解释的人工智能(XAI)技术,这些技术发现了ML发现的模式。尽管ML和XAI都有很高的希望,但几乎没有经验证据表明传统企业的好处。为此,我们分析了220,185家能源零售商的客户的数据,预测具有多达86%正确性的交叉购买(AUC),并表明XAI方法的Shap提供了为实际买家提供的解释。我们进一步概述了信息系统,XAI和关系营销中的研究的影响。
translated by 谷歌翻译
As ride-hailing services become increasingly popular, being able to accurately predict demand for such services can help operators efficiently allocate drivers to customers, and reduce idle time, improve congestion, and enhance the passenger experience. This paper proposes UberNet, a deep learning Convolutional Neural Network for short-term prediction of demand for ride-hailing services. UberNet empploys a multivariate framework that utilises a number of temporal and spatial features that have been found in the literature to explain demand for ride-hailing services. The proposed model includes two sub-networks that aim to encode the source series of various features and decode the predicting series, respectively. To assess the performance and effectiveness of UberNet, we use 9 months of Uber pickup data in 2014 and 28 spatial and temporal features from New York City. By comparing the performance of UberNet with several other approaches, we show that the prediction quality of the model is highly competitive. Further, Ubernet's prediction performance is better when using economic, social and built environment features. This suggests that Ubernet is more naturally suited to including complex motivators in making real-time passenger demand predictions for ride-hailing services.
translated by 谷歌翻译
目的:我们研究使用机器学习(ML)模型的可解释的累入预测,并在预测能力,稀疏性和公平性方面分析性能。与以前的作品不同,本研究列举了输出概率而不是二进制预测的可解释模型,并使用定量公平定义来评估模型。本研究还研究了模型是否可以横跨地理位置概括。方法:我们在佛罗里达州和肯塔基州的两个不同的刑事核查数据集上生成了黑盒和可解释的ML模型。我们将这些模型的预测性能和公平与目前用于司法系统中使用的两种方法进行了比较,以预测审前常规率:Arnold PSA和Compas。我们评估了所有模型的预测性能,可以在两次跨越两次预测六种不同类型犯罪的模型。结果:几种可解释的ML模型可以预测常规和黑盒ML模型,比Compas或Arnold PSA更准确。这些模型在实践中可能有用。类似于Arnold PSA,这些可解释模型中的一些可以作为一个简单的表格写入。其他可以使用一组可视化显示。我们的地理分析表明ML模型应分开培训,以便单独的位置并随时间更新。我们还为可​​解释模型提供了公平分析。结论:可解释的机器学习模型可以在预测准确性和公平性方面表现,也可以表现,也可以表现,也可以执行不可解释的方法和目前使用的风险评估尺度。机器学习模型对于单独培训,可以更准确地进行不同的位置,并保持最新。
translated by 谷歌翻译