在许多行业中,客户流失预测是一项宝贵的任务。在电信中,鉴于数据的高维度以及确定潜在的挫败感签名是多么困难,这可能代表了关于未来流失行为的重要驱动因素。在这里,我们提出了一个新颖的贝叶斯分层联合模型,该模型能够根据不同电视观看旅程中发生的事件以及事件之间需要多长时间来表征客户资料。该模型大幅度地将数据的维度从每个客户的数千个观察值降低到11个客户级参数估计和随机效果。我们使用来自40个BT客户(有20名活跃和20名最终取消订阅的20人)的数据测试我们的方法,他们的电视观看行为是从2019年10月到2019年12月的,总计约为半百万。使用贝叶斯分层模型的参数估计和随机效应采用不同的机器学习技术,作为在验证中与100 \%真实的正率和14 \%的假正率相关的最高92 \%精度可预测流失的精度放。我们提出的方法是降低数据维度的有效方法,同时保持了高描述性和预测能力。我们提供代码以在https://github.com/rafamoral/profiling_tv_watching_behaviour上实现贝叶斯模型。
translated by 谷歌翻译
我们考虑实时流失预测的问题。由于推理生成的批处理模式,传统方法只能通过离线干预措施(例如测试消息,电子邮件或静态的产品内裸露)支持保留活动。实时流失预测中的其他最新作品并未评估精确取舍以在生产中部署此类模型的成本。在本文中,我们提出了RICON,这是一种灵活,具有成本效益且健壮的机器学习系统,可使用ClickStream数据实时预测客户流失倾向。除了流失倾向的预测外,RICON还基于产品使用智能提供了见解。通过在QBO高级客户的真实大数据上应用,我们展示了Ricon在存在强大的班级不平衡的情况下如何获得2.68的顶级升降机。此外,我们执行了一项广泛的比较研究,以证明我们对里昂的建模选择是合理的。最后,我们提到了如何将RICON与Intuit中的干预平台集成在一起,以实时的生产外环境有帮助。
translated by 谷歌翻译
数据转换(DT)是将原始数据转换为支持特定分类算法的形式的过程,并有助于分析特殊目的的数据。为了提高预测性能,我们调查了各种数据变换方法。本研究在电信行业(TCI)中的客户流失预测(CCP)背景下进行,客户疲劳是一种常见的现象。我们提出了一种与CCP问题的机器学习模型相结合的数据转换方法的新方法。我们在公开的TCI数据集中进行了实验,并在广泛使用的评估措施方面评估了性能(例如,AUC,精确,召回和F测量)。在这项研究中,我们提出了全面的比较来肯定转化方法的影响。比较结果和统计检验证明,大多数所提出的基于数据转换的优化模型显着提高了CCP的性能。总的来说,通过这份手稿介绍了电信行业的有效和优化的CCP模型。
translated by 谷歌翻译
We apply classical statistical methods in conjunction with the state-of-the-art machine learning techniques to develop a hybrid interpretable model to analyse 454,897 online customers' behavior for a particular product category at the largest online retailer in China, that is JD. While most mere machine learning methods are plagued by the lack of interpretability in practice, our novel hybrid approach will address this practical issue by generating explainable output. This analysis involves identifying what features and characteristics have the most significant impact on customers' purchase behavior, thereby enabling us to predict future sales with a high level of accuracy, and identify the most impactful variables. Our results reveal that customers' product choice is insensitive to the promised delivery time, but this factor significantly impacts customers' order quantity. We also show that the effectiveness of various discounting methods depends on the specific product and the discount size. We identify product classes for which certain discounting approaches are more effective and provide recommendations on better use of different discounting tools. Customers' choice behavior across different product classes is mostly driven by price, and to a lesser extent, by customer demographics. The former finding asks for exercising care in deciding when and how much discount should be offered, whereas the latter identifies opportunities for personalized ads and targeted marketing. Further, to curb customers' batch ordering behavior and avoid the undesirable Bullwhip effect, JD should improve its logistics to ensure faster delivery of orders.
translated by 谷歌翻译
本文使用机器学习方法对建模用户行为进行建模的开放精算数学问题,以预测非寿命保险产品的购买意图。一家公司了解用户与其网站的互动是有价值的,因为它为消费者行为提供了丰富和个性化的洞察力。用户行为建模的大多数现有研究旨在解释或预测搜索引擎结果页面或在赞助搜索中估计点击率。这些模型基于关于网页的用户检测模式的概念和网页的项目表示。调查建模用户行为以预测商业网站的购买意图的问题,我们观察到用户的意图会产生高依赖,对用户如何在用户访问的不同网页的方式导航网站,什么样的网页用户互动,用户在每个网页上花了多少时间。灵感来自这些发现,我们提出了两种不同的方式代表用户会话的特征,导致了基于用户点击的购买预测的两个模型:一个基于馈送前向神经网络,另一个基于经常性神经网络。我们通过使用用户的人口统计特征将上述两种模型与模型进行比较,检查用户点击用户点击的歧视以预测购买意图。我们的实验结果表明,根据标准分类评估指标,我们的点击基础模型显着优于人口统计模型,并且基于用户点击的顺序表示的模型比基于点击特征工程的模型产生略大的性能。
translated by 谷歌翻译
在免费增值游戏中,玩家的收入来自于应用内购买以及该玩家所曝光的广告。玩家玩游戏越长,他或她将在游戏中产生收入的机会就越高。在这种情况下,能够及时检测玩家即将退出比赛(Churn)以做出反应并尝试将玩家保留在游戏中,从而延长他或她的游戏寿命非常重要。在本文中,我们调查了如何通过使用不同的神经网络体系结构组合顺序和汇总数据来改善流失预测中最新的最新预测。比较分析的结果表明,两种数据类型的组合可以根据纯粹的顺序或纯聚合数据来提高预测准确性比预测因子。
translated by 谷歌翻译
为了引导电子商务用户进行购买,营销人员依靠对用户何时退出而无需购买的预测。以前,此类预测是基于隐藏的马尔可夫模型(HMM),因为它们具有不同用户意图的潜在购物阶段建模的能力。在这项工作中,我们开发了持续时间依赖的隐藏马尔可夫模型。与传统的HMM相反,它明确地对潜在状态的持续时间进行了建模,从而使国家变得“粘性”。提出的模型在检测用户退出时优于先前的HMM:在不购买的100个用户退出中,它可以正确识别另外18个。这可以帮助营销人员更好地管理电子商务客户的在线行为。我们模型卓越性能的原因是持续时间依赖性,这使我们的模型能够恢复以扭曲时间感的特征的潜在状态。我们最终为此提供了理论上的解释,该解释基于“流”的概念。
translated by 谷歌翻译
我们应用因果机学习算法来评估营销干预措施的因果影响,即优惠券活动,对零售商的销售。除了评估不同类型的优惠券的平均影响外,我们还调查了不同客户群的因果关系效应的异质性,例如,在相对较高的客户与先前购买相对较高的客户之间。最后,我们使用最佳政策学习来确定(以数据驱动方式)哪些客户群应针对优惠券活动,以最大程度地提高营销干预措施在销售方面的有效性。我们发现,在检查的五个优惠券类别中,只有两个,即适用于药店产品和其他食品产品类别的优惠券,对零售商销售具有统计学上的显着积极影响。对小组平均治疗效果的评估表明,在商店的先前购买中定义的客户群中,优惠券提供的影响有很大的差异,药品店优惠券在先前购买较高的客户和其他食品优惠券中特别有效先前购买较低的客户。我们的研究提供了一种用例,用于在业务分析中应用因果机学习,以评估特定公司政策(例如营销活动)对决策支持的因果影响。
translated by 谷歌翻译
零售商的主要障碍之一是了解他们可以从合同需求响应(DR)客户期望的消费弹性。零售商提供的DR产品的目前的趋势不是消费者特定的,这对消费者在这些计划中的积极参与的额外障碍带来了额外的障碍。消费者需求行为的弹性因个人而异。该实用程序将从知识中获益,更准确地了解其价格的变化将如何修改其客户的消费模式。这项工作提出了博士签约消费者消费弹性的功能模型。该模型的目的是确定负载调整,消费者可以为不同的价格水平提供给零售商或公用事业。拟议的模型使用贝叶斯概率方法来识别实际的负载调整,单个合同的客户可以提供它可以体验的不同价格水平。发达的框架为零售商或公用事业提供了一个工具,以获得关于个人消费者如何应对不同价格水平的关键信息。这种方法能够量化消费者对DR信号作出反应的可能性,并识别各个合同的博士客户提供的实际负载调整提供他们可以体验的不同价格水平。该信息可用于最大限度地提高零售商或实用程序可以向系统运营商提供的服务的控制和可靠性。
translated by 谷歌翻译
在过去二十年中,识别具有不同纵向数据趋势的群体的方法已经成为跨越许多研究领域的兴趣。为了支持研究人员,我们总结了文献关于纵向聚类的指导。此外,我们提供了一种纵向聚类方法,包括基于基团的轨迹建模(GBTM),生长混合模拟(GMM)和纵向K平均值(KML)。该方法在基本级别引入,并列出了强度,限制和模型扩展。在最近数据收集的发展之后,将注意这些方法的适用性赋予密集的纵向数据(ILD)。我们展示了使用R.中可用的包在合成数据集上的应用程序的应用。
translated by 谷歌翻译
关于日益增长的直播媒介的一种普遍信念是,其价值在于其“实时”组成部分。我们通过比较实时事件需求的价格弹性如何在直播中和之后的生活中进行了比较,从而研究了这种信念。我们使用来自大型直播平台的独特且丰富的数据来做到这一点,该数据使消费者可以在流中期后购买录制版本的直播版本。在我们背景下的一个挑战是,存在高维混杂因素,其与治疗政策(即价格)和兴趣结果(即需求)的关系是复杂的,并且仅部分知道。我们通过使用广义正交随机森林框架来解决这一挑战,以进行异质治疗效果估计。我们发现在整个事件生命周期中,需求价格弹性的时间弹性都显着。具体而言,随着时间的流逝,需求变得越来越敏感,直到直播一天,那天就变成了无弹性。在生活后的时期,对录制版本的需求仍然对价格敏感,但远低于在播放前的时期。我们进一步表明,价格弹性的这种时间变化是由此类事件固有的质量不确定性以及在直播过程中与内容创建者进行实时互动的机会所驱动的。
translated by 谷歌翻译
天然气管道中的泄漏检测是石油和天然气行业的一个重要且持续的问题。这尤其重要,因为管道是运输天然气的最常见方法。这项研究旨在研究数据驱动的智能模型使用基本操作参数检测天然气管道的小泄漏的能力,然后使用现有的性能指标比较智能模型。该项目应用观察者设计技术,使用回归分类层次模型来检测天然气管道中的泄漏,其中智能模型充当回归器,并且修改后的逻辑回归模型充当分类器。该项目使用四个星期的管道数据流研究了五个智能模型(梯度提升,决策树,随机森林,支持向量机和人工神经网络)。结果表明,虽然支持向量机和人工神经网络比其他网络更好,但由于其内部复杂性和所使用的数据量,它们并未提供最佳的泄漏检测结果。随机森林和决策树模型是最敏感的,因为它们可以在大约2小时内检测到标称流量的0.1%的泄漏。所有智能模型在测试阶段中具有高可靠性,错误警报率为零。将所有智能模型泄漏检测的平均时间与文献中的实时短暂模型进行了比较。结果表明,智能模型在泄漏检测问题中的表现相对较好。该结果表明,可以与实时瞬态模型一起使用智能模型,以显着改善泄漏检测结果。
translated by 谷歌翻译
业务流程的自动化和数字化导致信息系统中捕获的大量数据,这可以帮助企业更好地理解其流程,改善工作流或提供运营支持。通过对正在进行的过程进行预测,可以识别瓶颈并重新分配资源,以及在过程实例的状态(案例)中获得的见解。传统上,数据是以带有单个识别案例概念的事件日志的形式从系统中提取的,例如用于现金订单(O2C)流程的订单ID。但是,实际过程通常具有多种对象类型,例如订单,项目和软件包,因此强制使用单个案例概念的格式不会反映数据中的基本关系。引入了以对象为中心的事件日志(OCEL)格式,以正确捕获此信息。最先进的预测方法仅根据传统事件日志量身定制。该论点表明,可以使用OCEL中包含的丰富数据来增强一种利用生成对抗网络(GAN),长期记忆(LSTM)体系结构(SEQ2SEQ)的预测方法。 OCEL中的对象可以具有可用于预测下一个事件和时间戳的属性,例如对于对象类型包的优先类属性,指示速度较慢或更快地处理。在预测剩余事件的序列相似性和时间戳的平均绝对误差(MAE)的指标中,本文中的方法匹配或超过了先前的研究,具体取决于所选对象属性是否是模型的有用特征。此外,本文提供了一个Web界面,以预测用户输入中的下一个活动序列。
translated by 谷歌翻译
许多收集行为大数据的互联网平台都使用它来预测内部目的的用户行为及其业务客户(例如广告商,保险公司,安全部队,政府,政治咨询公司),他们利用了个性化,定位和其他决策的预测-制造。因此,提高预测精度非常有价值。数据科学研究人员设计了改善预测的算法,模型和方法。通过更大,更丰富的数据,还可以改善预测。除了改进算法和数据外,平台还可以通过使用行为修改技术将用户的行为推向其预测值,从而偷偷摸摸地实现更好的预测准确性,从而证明了更多的某些预测。这种明显的“改进”预测可能是通过使用强化学习算法结合预测和行为修改的。机器学习和统计文献中没有这种策略。研究其特性需要将因果关系与预测符号整合在一起。为此,我们将Pearl的因果Do(。)操作员纳入预测词汇中。然后,我们分解给定行为修改的预期预测误差,并确定影响预测能力的组件。我们的派生阐明了这种行为修改对数据科学家,平台,客户和行为被操纵的人类的影响。行为修改可以使用户的行为更加可预测,甚至更均匀;然而,当业务客户在实践中使用预测时,这种明显的可预测性可能不会推广。朝着他们的预测推动的结果可能与客户的意图矛盾,并且对操纵用户有害。
translated by 谷歌翻译
机器学习渗透到许多行业,这为公司带来了新的利益来源。然而,在人寿保险行业中,机器学习在实践中并未被广泛使用,因为在过去几年中,统计模型表明了它们的风险评估效率。因此,保险公司可能面临评估人工智能价值的困难。随着时间的流逝,专注于人寿保险行业的修改突出了将机器学习用于保险公司的利益以及通过释放数据价值带来的利益。本文回顾了传统的生存建模方法论,并通过机器学习技术扩展了它们。它指出了与常规机器学习模型的差异,并强调了特定实现在与机器学习模型家族中面对审查数据的重要性。在本文的补充中,已经开发了Python库。已经调整了不同的开源机器学习算法,以适应人寿保险数据的特殊性,即检查和截断。此类模型可以轻松地从该SCOR库中应用,以准确地模拟人寿保险风险。
translated by 谷歌翻译
在许多背景下,预测将在给定期间发起特定活动的人口中的个人数量是有用的。例如,将安装软件更新的用户数量,将在网站上使用新功能或将参与A / B测试的客户数量。在实际设置中,在分发时间内,个人存在异质性,直到它们会发起。出于这些原因,假设在连续日期观察到的新人数量是不合适的。鉴于参与初始时期的独特用户数量的观察,我们提出了一种简单但新的贝叶斯方法,用于预测随后将在随后的时间内参与的额外个人的数量。我们说明了该方法在在线实验中预测样本量的性能。
translated by 谷歌翻译
预测过程分析已成为组织的基本援助,从而为其流程提供在线运营支持。但是,需要向流程利益相关者提供解释为什么预测给定流程执行以某种方式行事的原因。否则,他们将不太可能相信预测性监测技术,从而采用它。本文提出了一个预测分析框架,该框架还具有基于Shapley值的游戏理论的解释功能。该框架已在IBM Process采矿套件中实施,并为业务用户商业化。该框架已在现实生活事件数据上进行了测试,以评估预测的质量和相应的评估。特别是,已经执行了用户评估,以了解系统提供的解释是否可以使流程利益相关者可理解。
translated by 谷歌翻译
Algorithms that involve both forecasting and optimization are at the core of solutions to many difficult real-world problems, such as in supply chains (inventory optimization), traffic, and in the transition towards carbon-free energy generation in battery/load/production scheduling in sustainable energy systems. Typically, in these scenarios we want to solve an optimization problem that depends on unknown future values, which therefore need to be forecast. As both forecasting and optimization are difficult problems in their own right, relatively few research has been done in this area. This paper presents the findings of the ``IEEE-CIS Technical Challenge on Predict+Optimize for Renewable Energy Scheduling," held in 2021. We present a comparison and evaluation of the seven highest-ranked solutions in the competition, to provide researchers with a benchmark problem and to establish the state of the art for this benchmark, with the aim to foster and facilitate research in this area. The competition used data from the Monash Microgrid, as well as weather data and energy market data. It then focused on two main challenges: forecasting renewable energy production and demand, and obtaining an optimal schedule for the activities (lectures) and on-site batteries that lead to the lowest cost of energy. The most accurate forecasts were obtained by gradient-boosted tree and random forest models, and optimization was mostly performed using mixed integer linear and quadratic programming. The winning method predicted different scenarios and optimized over all scenarios jointly using a sample average approximation method.
translated by 谷歌翻译
机器学习的进步(ML)引起了人们对这项技术支持决策的浓厚兴趣。尽管复杂的ML模型提供的预测通常比传统工具的预测更准确,但这种模型通常隐藏了用户预测背后的推理,这可能导致采用和缺乏洞察力。在这种张力的激励下,研究提出了可解释的人工智能(XAI)技术,这些技术发现了ML发现的模式。尽管ML和XAI都有很高的希望,但几乎没有经验证据表明传统企业的好处。为此,我们分析了220,185家能源零售商的客户的数据,预测具有多达86%正确性的交叉购买(AUC),并表明XAI方法的Shap提供了为实际买家提供的解释。我们进一步概述了信息系统,XAI和关系营销中的研究的影响。
translated by 谷歌翻译
在热情好客中,营销部门使用分段创建量身定制的策略,以确保个性化营销。本研究通过分层群集基于广泛的功能,通过分段群集来提供数据驱动方法。该行业需要可理解的结果,为营销部门提供了适应性,使数据驱动的决策和最终驾驶利润。营销部门指定了一个引导无监督机器学习算法的业务问题。客人的特色随着时间的推移而变化;因此,客人将从一个段转换为另一个段的概率。该研究的目的是提供从原始数据到可操作见解的过程中的步骤,该洞察力是热情好客公司如何采用算法方法的指导。
translated by 谷歌翻译