定制(个性化)上下文定价申请中的传统AI方法假设在线定价时的数据分布类似于培训期间观察到的数据分布。然而,由于客户购买模式的动态性质,这种假设可以在实践中违反,特别是由于诸如Covid-19等意外的系统冲击而导致。我们通过将其作为协变速转变和概念漂移检测问题来研究Covid-19大流行期间的主要航空公司的客户行为的变化。我们确定哪些客户更改了他们的旅行和购买行为以及使用(i)快速广义子集扫描和(ii)因果林的改变的属性。在我们的模拟和现实数据的实验中,我们介绍了这两种技术如何通过定性分析来使用。
translated by 谷歌翻译
我们根据机器学习,即人工智能的子场,折扣对瑞士联邦铁路发行的火车票的需求影响。考虑到基于调查的超级票的买家样本,我们调查了哪些客户或旅行相关的特征(包括折现率)预测购买行为,即:预订旅行,否则未通过火车实现,而不是第二次购买 - 售票或重新安排旅行时(例如,远离高峰时间),当时被提供超级票时。预测机器学习表明,客户的年龄,与特定连接的需求相关信息(例如出发时间和利用率)以及折现水平允许在一定程度上预测购买行为。此外,我们使用因果机学习来评估折现率对重新安排旅行的影响,这似乎是根据高峰时间的容量限制而相关的。假设(i)折现率是基于我们丰富的特征的准随机,(ii)购买决策以折现率单调较弱,我们确定了“始终购买者”的折现率的效果,谁会旅行。即使没有折扣,也要根据我们的调查,该调查在没有折扣的情况下询问客户行为。我们发现,平均而言,将折现率提高一个百分点会使重新安排的旅行的份额增加0.16个百分点,但总是买家。研究效果的异质性在观察物中的异质性表明,在控制其他几个特征时,休闲旅行者以及高峰时段的效果较高。
translated by 谷歌翻译
电力行业正在大力实施智能网格技术,以提高可靠性,可用性,安全性和效率。该实施需要技术进步,标准和法规的发展以及测试和计划。智能电网载荷预测和管理对于降低需求波动和改善连接发电机,分销商和零售商的市场机制至关重要。在政策实施或外部干预措施中,有必要分析其对电力需求的影响的不确定性,以使系统对需求的波动更加准确。本文分析了外部干预的不确定性对电力需求的影响。它实现了一种结合概率和全局预测模型的框架,使用深度学习方法来估计干预措施的因果影响分布。通过预测受影响实例的反事实分布结果,然后将其与实际结果进行对比来评估因果效应。我们将COVID-19锁定对能源使用的影响视为评估这种干预对电力需求分布的不均匀影响的案例研究。我们可以证明,在澳大利亚和某些欧洲国家的最初封锁期间,槽通常比峰值更大的下降,而平均值几乎不受影响。
translated by 谷歌翻译
我们应用因果机学习算法来评估营销干预措施的因果影响,即优惠券活动,对零售商的销售。除了评估不同类型的优惠券的平均影响外,我们还调查了不同客户群的因果关系效应的异质性,例如,在相对较高的客户与先前购买相对较高的客户之间。最后,我们使用最佳政策学习来确定(以数据驱动方式)哪些客户群应针对优惠券活动,以最大程度地提高营销干预措施在销售方面的有效性。我们发现,在检查的五个优惠券类别中,只有两个,即适用于药店产品和其他食品产品类别的优惠券,对零售商销售具有统计学上的显着积极影响。对小组平均治疗效果的评估表明,在商店的先前购买中定义的客户群中,优惠券提供的影响有很大的差异,药品店优惠券在先前购买较高的客户和其他食品优惠券中特别有效先前购买较低的客户。我们的研究提供了一种用例,用于在业务分析中应用因果机学习,以评估特定公司政策(例如营销活动)对决策支持的因果影响。
translated by 谷歌翻译
We consider the problem of dynamic pricing of a product in the presence of feature-dependent price sensitivity. Developing practical algorithms that can estimate price elasticities robustly, especially when information about no purchases (losses) is not available, to drive such automated pricing systems is a challenge faced by many industries. Based on the Poisson semi-parametric approach, we construct a flexible yet interpretable demand model where the price related part is parametric while the remaining (nuisance) part of the model is non-parametric and can be modeled via sophisticated machine learning (ML) techniques. The estimation of price-sensitivity parameters of this model via direct one-stage regression techniques may lead to biased estimates due to regularization. To address this concern, we propose a two-stage estimation methodology which makes the estimation of the price-sensitivity parameters robust to biases in the estimators of the nuisance parameters of the model. In the first-stage we construct estimators of observed purchases and prices given the feature vector using sophisticated ML estimators such as deep neural networks. Utilizing the estimators from the first-stage, in the second-stage we leverage a Bayesian dynamic generalized linear model to estimate the price-sensitivity parameters. We test the performance of the proposed estimation schemes on simulated and real sales transaction data from the Airline industry. Our numerical studies demonstrate that our proposed two-stage approach reduces the estimation error in price-sensitivity parameters from 25\% to 4\% in realistic simulation settings. The two-stage estimation techniques proposed in this work allows practitioners to leverage modern ML techniques to robustly estimate price-sensitivities while still maintaining interpretability and allowing ease of validation of its various constituent parts.
translated by 谷歌翻译
许多收集行为大数据的互联网平台都使用它来预测内部目的的用户行为及其业务客户(例如广告商,保险公司,安全部队,政府,政治咨询公司),他们利用了个性化,定位和其他决策的预测-制造。因此,提高预测精度非常有价值。数据科学研究人员设计了改善预测的算法,模型和方法。通过更大,更丰富的数据,还可以改善预测。除了改进算法和数据外,平台还可以通过使用行为修改技术将用户的行为推向其预测值,从而偷偷摸摸地实现更好的预测准确性,从而证明了更多的某些预测。这种明显的“改进”预测可能是通过使用强化学习算法结合预测和行为修改的。机器学习和统计文献中没有这种策略。研究其特性需要将因果关系与预测符号整合在一起。为此,我们将Pearl的因果Do(。)操作员纳入预测词汇中。然后,我们分解给定行为修改的预期预测误差,并确定影响预测能力的组件。我们的派生阐明了这种行为修改对数据科学家,平台,客户和行为被操纵的人类的影响。行为修改可以使用户的行为更加可预测,甚至更均匀;然而,当业务客户在实践中使用预测时,这种明显的可预测性可能不会推广。朝着他们的预测推动的结果可能与客户的意图矛盾,并且对操纵用户有害。
translated by 谷歌翻译
Recently, many causal estimators for Conditional Average Treatment Effect (CATE) and instrumental variable (IV) problems have been published and open sourced, allowing to estimate granular impact of both randomized treatments (such as A/B tests) and of user choices on the outcomes of interest. However, the practical application of such models has ben hampered by the lack of a valid way to score the performance of such models out of sample, in order to select the best one for a given application. We address that gap by proposing novel scoring approaches for both the CATE case and an important subset of instrumental variable problems, namely those where the instrumental variable is customer acces to a product feature, and the treatment is the customer's choice to use that feature. Being able to score model performance out of sample allows us to apply hyperparameter optimization methods to causal model selection and tuning. We implement that in an open source package that relies on DoWhy and EconML libraries for implementation of causal inference models (and also includes a Transformed Outcome model implementation), and on FLAML for hyperparameter optimization and for component models used in the causal models. We demonstrate on synthetic data that optimizing the proposed scores is a reliable method for choosing the model and its hyperparameter values, whose estimates are close to the true impact, in the randomized CATE and IV cases. Further, we provide examles of applying these methods to real customer data from Wise.
translated by 谷歌翻译
数据科学有可能改善各种垂直领域的业务。尽管狮子的数据科学项目使用了一种预测方法,但这些预测应成为决策。但是,这种两步的方法不仅是最佳的,甚至可能降低性能并使项目失败。另一种选择是遵循规范性的框架,在该框架中,行动是“第一公民”,以便该模型制定规定采取行动的政策,而不是预测结果。在本文中,我们解释了为什么规定的方法很重要,并提供了分步方法论:规定的画布。后者旨在改善项目利益相关者的框架和沟通,包括项目和数据科学经理,以成功地产生业务影响。
translated by 谷歌翻译
我们研究了一个定价设置,其中每个客户都基于客户和/或产品特征提供了一种预测客户对该产品的估值的产品特征。通常只有历史销售记录,我们遵守每个客户是否以规定的价格购买产品,而不是客户的真实估值。因此,数据受到历史销售政策的影响,历史销售政策在没有进行实际实验的可能性的情况下估算未来损失/遗憾的困难/遗憾的损失/遗憾,而是优化诸如收入管理等下游任务的新政策。我们研究如何制定损失功能,该功能可用于直接优化定价策略,而不是通过中间需求估计阶段,这可能在实践中被偏见,因为模型拼写,正常化或校准差。虽然在估值数据可用时提出了现有方法,但我们提出了观察数据设置的损失函数。为实现这一目标,我们将机器学习的想法适应损坏的标签,我们可以考虑每个观察到的客户的结果(购买或不按规定的价格购买),作为客户估值的(已知)概率转变。从这种转变,我们派生了一类合适的无偏损失功能。在此类中,我们识别最小方差估计器,那些对不良需求函数估计的稳健性,并在估计的需求功能有用时提供指导。此外,我们还表明,当应用于我们的上下文定价环境时,在违规评估文学中流行的估计人员在这类损失职能范围内,并且当每个估算师在实践中可能表现良好时,还提供管理层。
translated by 谷歌翻译
关于人们的预测,例如他们预期的教育成就或信用风险,可以表现出色,并塑造他们旨在预测的结果。了解这些预测对最终结果的因果影响对于预测未来预测模型的含义并选择要部署哪些模型至关重要。但是,该因果估计任务带来了独特的挑战:模型预测通常是输入特征的确定性功能,并且与结果高度相关,这可能使预测的因果效应不可能从协变量的直接效应中解散。我们通过因果可识别性的角度研究了这个问题,尽管该问题完全普遍,但我们突出了三种自然情况,在这些情况下,可以从观察数据中确定预测对结果的因果影响:基于预测或基于预测的决策中的随机化。 ,在数据收集过程中部署的预测模型和离散预测输出的过度参数化。我们从经验上表明,在适当的可识别性条件下,从预测中预测的监督学习的标准变体可以找到特征,预测和结果之间的可转移功能关系,从而得出有关新部署的预测模型的结论。我们的积极结果从根本上依赖于在数据收集期间记录的模型预测,从而提出了重新思考标准数据收集实践的重要性,以使进步能够更好地理解社会成果和表现性反馈循环。
translated by 谷歌翻译
大型观察数据越来越多地提供健康,经济和社会科学等学科,研究人员对因果问题而不是预测感兴趣。在本文中,从旨在调查参与学校膳食计划对健康指标的实证研究,研究了使用非参数回归的方法估算异质治疗效果的问题。首先,我们介绍了与观察或非完全随机数据进行因果推断相关的设置和相关的问题,以及如何在统计学习工具的帮助下解决这些问题。然后,我们审查并制定现有最先进的框架的统一分类,允许通过非参数回归模型来估算单个治疗效果。在介绍模型选择问题的简要概述后,我们说明了一些关于三种不同模拟研究的方法的性能。我们通过展示一些关于学校膳食计划数据的实证分析的一些方法的使用来结束。
translated by 谷歌翻译
因果推断是在采用干预时估计因果关系中的因果效应。确切地说,在具有二进制干预措施的因果模型中,即控制和治疗,因果效应仅仅是事实和反事实之间的差异。困难是必须估算反事实,因此因果效应只能是估计。估计反事实的主要挑战是确定影响结果和治疗的混杂因素。一种典型的方法是将因果推论作为监督学习问题,因此可以预测反事实。包括线性回归和深度学习模型,最近的机器学习方法已适应因果推断。在本文中,我们提出了一种通过使用变分信息瓶颈(CEVIB)来估计因果效应的方法。有希望的点是,VIB能够自然地将变量从数据中蒸馏出来,从而可以通过使用观察数据来估计因果效应。我们通过将CEVIB应用于三个数据集,表明我们的方法实现了最佳性能,将其应用于其他方法。我们还实验表明了我们方法的鲁棒性。
translated by 谷歌翻译
训练因果效果变分性自身摩托(CEVAE)以预测给定的观察治疗数据的结果,而使用重要性采样均匀的处理分布训练均匀治疗变分性自身培训(UTVAE)。在本文中,我们表明,通过减轻训练训练以测试时间发生的分布换档,使用对观察治疗分布的均匀处理导致更好的因果化推断。我们还探讨了统一和观察治疗分布的组合,推断和生成网络培训目标,以找到更好的培训程序,用于推断治疗效果。实验,我们发现所提出的Utvae在综合效应误差估计比Sycleiny和IHDP数据集上的CEVAE估计的估计是更好的绝对平均处理效果误差和精度。
translated by 谷歌翻译
在个性化决策中,需要证据来确定诉讼(治疗)是否适合个人。可以通过对亚组中的治疗效应异质性进行建模来获得此类证据。现有的可解释的建模方法采用自上而下的方法来寻找具有异质治疗效果的亚组,它们可能会错过个人最具体和最相关的环境。在本文中,我们设计了\ emph {治疗效果模式(TEP)}来表示数据中的治疗效果异质性。为了实现TEP的可解释呈现,我们使用围绕结果的局部因果结构,以明确说明如何在建模中使用这些重要变量。我们还得出了一个公正估计\ emph {条件平均因果效应(CATE)}的公式,它使用我们的问题设置中的局部结构进行了估计。在发现过程中,我们旨在最大程度地减少以模式表示的每个子组中的异质性。我们提出了一种自下而上的搜索算法,以发现适合个性化决策的最具体情况的最特定模式。实验表明,所提出的方法模型治疗效果的异质性比合成和现实世界数据集中的其他三种基于树的方法更好。
translated by 谷歌翻译
我们考虑实时流失预测的问题。由于推理生成的批处理模式,传统方法只能通过离线干预措施(例如测试消息,电子邮件或静态的产品内裸露)支持保留活动。实时流失预测中的其他最新作品并未评估精确取舍以在生产中部署此类模型的成本。在本文中,我们提出了RICON,这是一种灵活,具有成本效益且健壮的机器学习系统,可使用ClickStream数据实时预测客户流失倾向。除了流失倾向的预测外,RICON还基于产品使用智能提供了见解。通过在QBO高级客户的真实大数据上应用,我们展示了Ricon在存在强大的班级不平衡的情况下如何获得2.68的顶级升降机。此外,我们执行了一项广泛的比较研究,以证明我们对里昂的建模选择是合理的。最后,我们提到了如何将RICON与Intuit中的干预平台集成在一起,以实时的生产外环境有帮助。
translated by 谷歌翻译
DataSet Shift在信用评分场景中很常见,并且培训数据分发与实际需要预测的数据之间的不一致可能导致模型性能不佳。但是,大多数当前研究都没有考虑到这一点,并且当培训模型时,它们直接在不同时间段中混合数据。这带来了大约两个问题。首先,存在数据泄漏的风险,即,使用未来的数据来预测过去。这可能导致离线验证的导致膨胀,但在实际应用中会导致不令人满意的结果。其次,在不同的时间段中,宏观经济环境和风险控制策略可能是不同的,借款人的行为模式也可能发生变化。具有过去数据培训的模型可能不适用于最近的阶段。因此,我们提出了一种基于对抗性验证的方法来缓解信用评分场景中的数据集转变问题。在该方法中,选择具有最接近预测数据的分布的部分训练设置样本用于通过对抗验证进行交叉验证,以确保训练模型对预测样本的泛化性能。另外,通过简单的拼接方法,与测试数据分发不一致的训练数据中的样本也也涉及交叉验证的培训过程,这充分利用了所有数据并进一步提高了模型性能。为了验证所提出的方法的有效性,通过贷款俱乐部提供的数据进行了具有若干其他数据分离方法的比较实验。实验结果表明,数据集转变在信用评分领域的重要性以及所提出的方法的优势。
translated by 谷歌翻译
业务分析(BA)的广泛采用带来了财务收益和提高效率。但是,当BA以公正的影响为决定时,这些进步同时引起了人们对法律和道德挑战的不断增加。作为对这些关注的回应,对算法公平性的新兴研究涉及算法输出,这些算法可能会导致不同的结果或其他形式的对人群亚组的不公正现象,尤其是那些在历史上被边缘化的人。公平性是根据法律合规,社会责任和效用是相关的;如果不充分和系统地解决,不公平的BA系统可能会导致社会危害,也可能威胁到组织自己的生存,其竞争力和整体绩效。本文提供了有关算法公平的前瞻性,注重BA的评论。我们首先回顾有关偏见来源和措施的最新研究以及偏见缓解算法。然后,我们对公用事业关系的详细讨论进行了详细的讨论,强调经常假设这两种构造之间经常是错误的或短视的。最后,我们通过确定企业学者解决有效和负责任的BA的关键的有影响力的公开挑战的机会来绘制前进的道路。
translated by 谷歌翻译
在线评论使消费者能够与公司聘用并提供重要的反馈。由于高维文本的复杂性,这些评论通常被简化为单一数值分数,例如评级或情绪评分。这项工作经验检查了用户生成的在线评论的因果效果对粒度水平:我们考虑多个方面,例如餐厅的食品和服务。了解消费者对不同方面的意见可以帮助详细评估业务绩效并有效地战略业务运营。具体来说,我们的目标是回答介入问题,例如餐厅人气将是什么,如果质量为本。它的方面服务增加了10%?对观测数据的因果推断的定义挑战是存在“混淆”,这可能不会被观察或测量,例如消费者对食品类型的偏好,使得估计效应偏差和高方差。为了解决这一挑战,我们求助于多模态代理,例如消费者简介信息和消费者和企业之间的互动。我们展示了如何有效利用丰富的信息来识别和估算在线评论中嵌入多个方面的因果效果。对综合和现实世界数据的实证评估证实了对拟议方法的可操作洞察力的功效和脱落。
translated by 谷歌翻译
在这篇扩展的抽象论文中,我们解决了因果机学习模型中的可解释性和针对性正则化的问题。特别是,我们专注于在观察到的混杂因素下估计单个因果/治疗效果的问题,这些问题可以控制并适应治疗对感兴趣结果的影响。针对因果环境调整的Black-Box ML模型在此任务中通常表现良好,但是它们缺乏可解释的输出,无法识别治疗异质性及其功能关系的主要驱动因素。我们提出了一种新型的深层反事实学习结构,用于估计可以同时进行的个人治疗效果:i)传达有针对性的正则化,并产生围绕感兴趣量的量化不确定性(即条件平均治疗效应); ii)解开协变量的基线预后和调节作用,并输出可解释的分数功能,描述了它们与结果的关系。最后,我们通过简单的模拟实验来证明该方法的使用。
translated by 谷歌翻译
零售商的主要障碍之一是了解他们可以从合同需求响应(DR)客户期望的消费弹性。零售商提供的DR产品的目前的趋势不是消费者特定的,这对消费者在这些计划中的积极参与的额外障碍带来了额外的障碍。消费者需求行为的弹性因个人而异。该实用程序将从知识中获益,更准确地了解其价格的变化将如何修改其客户的消费模式。这项工作提出了博士签约消费者消费弹性的功能模型。该模型的目的是确定负载调整,消费者可以为不同的价格水平提供给零售商或公用事业。拟议的模型使用贝叶斯概率方法来识别实际的负载调整,单个合同的客户可以提供它可以体验的不同价格水平。发达的框架为零售商或公用事业提供了一个工具,以获得关于个人消费者如何应对不同价格水平的关键信息。这种方法能够量化消费者对DR信号作出反应的可能性,并识别各个合同的博士客户提供的实际负载调整提供他们可以体验的不同价格水平。该信息可用于最大限度地提高零售商或实用程序可以向系统运营商提供的服务的控制和可靠性。
translated by 谷歌翻译