智能论文笔记

Learning Consumer Preferences from Bundle Sales Data

Ningyuan Chen , Setareh Farajollahzadeh , Guan Wang

分类： (统计)机器学习 | 机器学习

2022-09-11

产品捆绑是在线零售中使用的一种常见销售机制。为了设定有利可图的捆绑价格，卖方需要从交易数据中学习消费者的偏好。当客户购买捆绑包或多种产品时，不能使用经典方法（例如离散选择模型）来估计客户的估值。在本文中，我们提出了一种使用捆绑销售数据来了解消费者对产品的估值的方法。该方法将其降低为估计问题，其中样品由多面体区域审查。使用EM算法和蒙特卡洛模拟，我们的方法可以收回消费者估值的分布。该框架允许未观察到的无购买和集群市场细分。我们提供有关概率模型的可识别性和EM算法的收敛性的理论结果。该方法的性能也被数值证明。

translated by 谷歌翻译

Maximum likelihood recursive state estimation in state-space models: A new approach based on statistical analysis of incomplete data

Budhi Arta Surya

分类： (统计)机器学习

2022-11-09

This paper revisits the work of Rauch et al. (1965) and develops a novel method for recursive maximum likelihood particle filtering for general state-space models. The new method is based on statistical analysis of incomplete observations of the systems. Score function and conditional observed information of the incomplete observations/data are introduced and their distributional properties are discussed. Some identities concerning the score function and information matrices of the incomplete data are derived. Maximum likelihood estimation of state-vector is presented in terms of the score function and observed information matrices. In particular, to deal with nonlinear state-space, a sequential Monte Carlo method is developed. It is given recursively by an EM-gradient-particle filtering which extends the work of Lange (1995) for state estimation. To derive covariance matrix of state-estimation errors, an explicit form of observed information matrix is proposed. It extends Louis (1982) general formula for the same matrix to state-vector estimation. Under (Neumann) boundary conditions of state transition probability distribution, the inverse of this matrix coincides with the Cramer-Rao lower bound on the covariance matrix of estimation errors of unbiased state-estimator. In the case of linear models, the method shows that the Kalman filter is a fully efficient state estimator whose covariance matrix of estimation error coincides with the Cramer-Rao lower bound. Some numerical examples are discussed to exemplify the main results.

translated by 谷歌翻译

What Makes A Good Fisherman? Linear Regression under Self-Selection Bias

Yeshwanth Cherapanamjeri , Constantinos Daskalakis , Andrew Ilyas , Manolis Zampetakis

分类：机器学习 | (统计)机器学习

2022-05-06

In the classical setting of self-selection, the goal is to learn $k$ models, simultaneously from observations $(x^{(i)}, y^{(i)})$ where $y^{(i)}$ is the output of one of $k$ underlying models on input $x^{(i)}$. In contrast to mixture models, where we observe the output of a randomly selected model, here the observed model depends on the outputs themselves, and is determined by some known selection criterion. For example, we might observe the highest output, the smallest output, or the median output of the $k$ models. In known-index self-selection, the identity of the observed model output is observable; in unknown-index self-selection, it is not. Self-selection has a long history in Econometrics and applications in various theoretical and applied fields, including treatment effect estimation, imitation learning, learning from strategically reported data, and learning from markets at disequilibrium. In this work, we present the first computationally and statistically efficient estimation algorithms for the most standard setting of this problem where the models are linear. In the known-index case, we require poly$(1/\varepsilon, k, d)$ sample and time complexity to estimate all model parameters to accuracy $\varepsilon$ in $d$ dimensions, and can accommodate quite general selection criteria. In the more challenging unknown-index case, even the identifiability of the linear models (from infinitely many samples) was not known. We show three results in this case for the commonly studied $\max$ self-selection criterion: (1) we show that the linear models are indeed identifiable, (2) for general $k$ we provide an algorithm with poly$(d) \exp(\text{poly}(k))$ sample and time complexity to estimate the regression parameters up to error $1/\text{poly}(k)$, and (3) for $k = 2$ we provide an algorithm for any error $\varepsilon$ and poly$(d, 1/\varepsilon)$ sample and time complexity.

translated by 谷歌翻译

Maximum Likelihood from Incomplete Data Via the EM Algorithm

分类：

JSTOR is a not-for-profit service that helps scholars, researchers, and students discover, use, and build upon a wide range of content in a trusted digital archive. We use information technology and tools to increase productivity and facilitate new forms of scholarship. For more information about JSTOR, please contact

translated by 谷歌翻译

On Dynamic Pricing with Covariates

Hanzhao Wang , Kalyan Talluri , Xiaocheng Li

分类：机器学习 | (统计)机器学习

2021-12-25

我们在广义线性需求模型下考虑与协变量的动态定价问题：卖方可以在$ T $时间段的地平线上动态调整产品的价格，并在每次$ T $时，产品的需求是通过未知的广义线性模型共同由价格和可观察的协变量矢量$ x_t \ in \ mathbb {r} ^ d $。现有文献中的大多数假设协变量矢量$ X_T $的独立和相同分布（i.i.d.）;少数论文放松这种假设牺牲模型一般性或产生了次优遗憾的界限。在本文中，我们显示简单的定价算法有$ O（D \ SQRT {T} \ log t）$后悔上限而不假设协变量上的任何统计结构$ x_t $（甚至可以任意选择）。遗憾的上限与对数因子的下限（即使是i.i.d.假设）匹配。我们的论文如此表明（i）i.i.d.获得低遗憾的假设是不需要的，（ii）遗憾的遗憾可以独立于$ x_t $'s的协方差矩阵的（逆）最小特征值，以往的界限。此外，我们讨论了一个更好的遗憾，可以实现更好的遗憾以及如何应用汤普森采样算法来提供价格的有效计算。

translated by 谷歌翻译

Conjugate priors for count and rounded data regression

Daniel R. Kowal

分类： (统计)机器学习

2021-10-23

离散数据丰富，并且通常作为计数或圆形数据而出现。甚至对于线性回归模型，缀合格前沿和闭合形式的后部通常是不可用的，这需要近似诸如MCMC的后部推理。对于广泛的计数和圆形数据回归模型，我们介绍了能够闭合后部推理的共轭前沿。密钥后和预测功能可通过直接蒙特卡罗模拟来计算。至关重要的是，预测分布是离散的，以匹配数据的支持，并且可以在多个协变量中进行共同评估或模拟。这些工具广泛用途是线性回归，非线性模型，通过基础扩展，以及模型和变量选择。多种仿真研究表明计算，预测性建模和相对于现有替代方案的选择性的显着优势。

translated by 谷歌翻译

Statistical Inference with Local Optima

Yen-Chi Chen

分类： (统计)机器学习

2018-07-12

我们研究通过应用具有多个初始化的梯度上升方法来源的估计器的统计特性。我们派生了该估算器的目标的人口数量，并研究了从渐近正常性和自举方法构成的置信区间（CIS）的性质。特别是，我们通过有限数量的随机初始化来分析覆盖范围。我们还通过反转可能性比率测试，得分测试和WALD测试来调查CI，我们表明所得到的CIS可能非常不同。即使MLE是棘手的，我们也提出了一种两个样本测试程序。此外，我们在随机初始化下分析了EM算法的性能，并通过有限数量的初始化导出了CI的覆盖范围。

translated by 谷歌翻译

Mean field Variational Inference via Wasserstein Gradient Flow

Rentian Yao , Yun Yang

分类： (统计)机器学习

2022-07-17

变性推理（VI）为基于传统的采样方法提供了一种吸引人的替代方法，用于实施贝叶斯推断，因为其概念性的简单性，统计准确性和计算可扩展性。然而，常见的变分近似方案（例如平均场（MF）近似）需要某些共轭结构以促进有效的计算，这可能会增加不必要的限制对可行的先验分布家族，并对变异近似族对差异进行进一步的限制。在这项工作中，我们开发了一个通用计算框架，用于实施MF-VI VIA WASSERSTEIN梯度流（WGF），这是概率度量空间上的梯度流。当专门针对贝叶斯潜在变量模型时，我们将分析基于时间消化的WGF交替最小化方案的算法收敛，用于实现MF近似。特别是，所提出的算法类似于EM算法的分布版本，包括更新潜在变量变异分布的E step以及在参数的变异分布上进行最陡峭下降的m step。我们的理论分析依赖于概率度量空间中的最佳运输理论和细分微积分。我们证明了时间限制的WGF的指数收敛性，以最大程度地减少普通大地测量学严格的凸度的通用物镜功能。我们还提供了通过使用时间限制的WGF的固定点方程从MF近似获得的变异分布的指数收缩的新证明。我们将方法和理论应用于两个经典的贝叶斯潜在变量模型，即高斯混合模型和回归模型的混合物。还进行了数值实验，以补充这两个模型下的理论发现。

translated by 谷歌翻译

Selection of the Most Probable Best

Taeho Kim , Kyoung-kuk Kim , Eunhye Song

分类：机器学习 | (统计)机器学习

2022-07-15

我们考虑一个预期值排名和选择问题，其中所有K解决方案的仿真输出都取决于常见的不确定输入模型。鉴于输入模型的不确定性是由有限支持的概率单纯捕获的，我们将最佳最佳（MPB）定义为最佳概率最大的解决方案。为了设计有效的采样算法以找到MPB，我们首先得出了一个错误选择MPB的概率的较大偏差率，然后提出最佳计算预算分配（OCBA）问题，以找到最佳的静态采样比率的最佳静态采样率所有解决方案输入模型对最大化下限。我们设计了一系列顺序算法，这些算法应用于可解释和计算有效的采样规则，并证明其采样比达到了随着仿真预算的增加而达到OCBA问题的最佳条件。该算法针对用于上下文排名和选择问题的最新顺序抽样算法进行了基准测试，并证明在查找MPB时具有出色的经验性能。

translated by 谷歌翻译

Adaptivity and Confounding in Multi-Armed Bandit Experiments

Chao Qin , Daniel Russo

分类：机器学习 | (统计)机器学习

2022-02-18

我们探索了一个新的强盗实验模型，其中潜在的非组织序列会影响武器的性能。上下文 - 统一算法可能会混淆，而那些执行正确的推理面部信息延迟的算法。我们的主要见解是，我们称之为Deconfounst Thompson采样的算法在适应性和健壮性之间取得了微妙的平衡。它的适应性在易于固定实例中带来了最佳效率，但是在硬性非平稳性方面显示出令人惊讶的弹性，这会导致其他自适应算法失败。

translated by 谷歌翻译

Model-based Clustering with Missing Not At Random Data

Aude Sportisse , Christophe Biernacki , Claire Boyer , Julie Josse , Matthieu Marbac Lourdelle , Gilles Celeux , Fabien Laporte

分类： (统计)机器学习 | 机器学习

2021-12-20

近几十年来，技术进步使得可以收集大数据集。在这种情况下，基于模型的群集是一种非常流行的，灵活和可解释的方法，用于在明确定义的统计框架中进行数据探索。大型数据集的增加之一是缺失值更频繁。但是，传统方式（由于丢弃具有缺失的值或估算方法的观察）不是为聚类目的而设计的。此外，它们很少适用于常规情况，虽然在实践中频繁地缺失，但是当缺失取决于未观察到的数据值时，缺失就缺失（mnar）值，而且可能在观察到的数据值上。本文的目标是通过直接在基于模型的聚类算法内嵌入MNAR数据来提出一种新的方法。我们为数据和缺失数据指示器的联合分布进行了选择模型。它对应于数据分布的混合模型和缺失数据机制的一般Mnar模型，其可以取决于底层类（未知）和/或缺失变量本身的值。导出大量有意义的MNAR子模型，对每个子模型研究了参数的可识别性，这通常是任何MNAR提案的关键问题。考虑EM和随机EM算法估计。最后，我们对合成数据的提议子模型进行了实证评估，我们说明了我们的方法对医疗寄存器的方法，创伤者（R）数据集。

translated by 谷歌翻译

An Introduction to Modern Statistical Learning

Joseph G. Makin

分类：机器学习

2022-07-20

这项正在进行的工作旨在为统计学习提供统一的介绍，从诸如GMM和HMM等经典模型到现代神经网络（如VAE和扩散模型）缓慢地构建。如今，有许多互联网资源可以孤立地解释这一点或新的机器学习算法，但是它们并没有（也不能在如此简短的空间中）将这些算法彼此连接起来，或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统，尽管对那些已经熟悉材料的人（如这些帖子的作者）不满意，但对新手的入境造成了重大障碍。同样，我的目的是将各种模型（尽可能）吸收到一个用于推理和学习的框架上，表明（以及为什么）如何以最小的变化将一个模型更改为另一个模型（其中一些是新颖的，另一些是文献中的）。某些背景当然是必要的。我以为读者熟悉基本的多变量计算，概率和统计以及线性代数。这本书的目标当然不是完整性，而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后，目标是补充而不是替换，诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本，该文本现在已经15岁了。

translated by 谷歌翻译

Beyond Matérn: On A Class of Interpretable Confluent Hypergeometric Covariance Functions

Pulong Ma , Anindya Bhadra

分类： (统计)机器学习

2019-11-14

垫子的协方差函数是空间统计和不确定性量化文献中预测的热门选择。垫子纳米级的一个主要好处是，可以精确控制随机过程的平均方形差异性。然而，垫子的纳米阶级具有指数腐烂的尾部，因此可能不适用于建模多项式腐烂的依赖性。使用多项式协方彰可以纠正这个问题;然而，在相应过程的平均方形差异程度上失去控制，在现有多项式考虑因素的随机过程中是无限的平均可分辨率或无论是均值的可分方式。我们构建一个名为\ EMPH {Confluent HyperGeometric}（CH）类的新的协方差函数系列使用垫子\'课程的比例表示，其中一个人获得垫片和多项式协方差的益处。结果协方差包含两个参数：一个控制原点附近的平均方形可分性程度，另一个控制尾部沉重，彼此独立地控制。使用光谱表示，我们导出了这种新协方差的理论属性，包括填充渐近学下的最大似然估计量的等效措施和渐近行为。通过广泛的模拟验证CH类的改进的理论特性。应用使用NASA的轨道碳观察台-2卫星数据证实了CH类在垫子类上的优势，尤其是外推设置。

translated by 谷歌翻译

State and parameter learning with PaRIS particle Gibbs

Gabriel Cardoso , Yazid Janati El Idrissi , Sylvain Le Corff , Eric Moulines , Jimmy Olsson

分类： (统计)机器学习

2023-01-02

Non-linear state-space models, also known as general hidden Markov models, are ubiquitous in statistical machine learning, being the most classical generative models for serial data and sequences in general. The particle-based, rapid incremental smoother PaRIS is a sequential Monte Carlo (SMC) technique allowing for efficient online approximation of expectations of additive functionals under the smoothing distribution in these models. Such expectations appear naturally in several learning contexts, such as likelihood estimation (MLE) and Markov score climbing (MSC). PARIS has linear computational complexity, limited memory requirements and comes with non-asymptotic bounds, convergence results and stability guarantees. Still, being based on self-normalised importance sampling, the PaRIS estimator is biased. Our first contribution is to design a novel additive smoothing algorithm, the Parisian particle Gibbs PPG sampler, which can be viewed as a PaRIS algorithm driven by conditional SMC moves, resulting in bias-reduced estimates of the targeted quantities. We substantiate the PPG algorithm with theoretical results, including new bounds on bias and variance as well as deviation inequalities. Our second contribution is to apply PPG in a learning framework, covering MLE and MSC as special examples. In this context, we establish, under standard assumptions, non-asymptotic bounds highlighting the value of bias reduction and the implicit Rao--Blackwellization of PPG. These are the first non-asymptotic results of this kind in this setting. We illustrate our theoretical results with numerical experiments supporting our claims.

translated by 谷歌翻译

Quasi-Bayesian Dual Instrumental Variable Regression

Ziyu Wang , Yuhao Zhou , Tongzheng Ren , Jun Zhu

分类： (统计)机器学习 | 机器学习

2021-06-16

近年来目睹了采用灵活的机械学习模型进行乐器变量（IV）回归的兴趣，但仍然缺乏不确定性量化方法的发展。在这项工作中，我们为IV次数回归提出了一种新的Quasi-Bayesian程序，建立了最近开发的核化IV模型和IV回归的双/极小配方。我们通过在$ l_2 $和sobolev规范中建立最低限度的最佳收缩率，并讨论可信球的常见有效性来分析所提出的方法的频繁行为。我们进一步推出了一种可扩展的推理算法，可以扩展到与宽神经网络模型一起工作。实证评价表明，我们的方法对复杂的高维问题产生了丰富的不确定性估计。

translated by 谷歌翻译

Distributed Learning of Finite Gaussian Mixtures

Qiong Zhang , Jiahua Chen

分类： (统计)机器学习

2020-10-20

信息技术的进步导致了非常大的数据集，通常保存在不同的存储中心。必须适于现有的统计方法来克服所产生的计算障碍，同时保持统计有效性和效率。分裂和征服方法已应用于许多领域，包括分位式流程，回归分析，主偶数和指数家庭。我们研究了有限高斯混合的分布式学习的分裂和征服方法。我们建议减少策略并开发一种有效的MM算法。新估计器显示在某些一般条件下保持一致并保留根 - N一致性。基于模拟和现实世界数据的实验表明，如果后者是可行的，所提出的分离和征管方法具有基于完整数据集的全球估计的统计性能。如果模型假设与真实数据不匹配，甚至可以略高于全局估算器。它还具有比某些现有方法更好的统计和计算性能。

translated by 谷歌翻译

Off-Policy Confidence Interval Estimation with Confounded Markov Decision Process

Chengchun Shi , Jin Zhu , Ye Shen , Shikai Luo , Hongtu Zhu , Rui Song

分类： (统计)机器学习 | 机器学习

2022-02-22

本文关注的是，基于无限视野设置中预采用的观察数据，为目标策略的价值离线构建置信区间。大多数现有作品都假定不存在混淆观察到的动作的未测量变量。但是，在医疗保健和技术行业等实际应用中，这种假设可能会违反。在本文中，我们表明，使用一些辅助变量介导动作对系统动态的影响，目标策略的价值在混杂的马尔可夫决策过程中可以识别。基于此结果，我们开发了一个有效的非政策值估计器，该估计值可用于潜在模型错误指定并提供严格的不确定性定量。我们的方法是通过理论结果，从乘车共享公司获得的模拟和真实数据集证明的。python实施了建议的过程，请访问https://github.com/mamba413/cope。

translated by 谷歌翻译

Learning to Sell a Focal-ancillary Combination

Hanzhao Wang , Xiaocheng Li , Kalyan Talluri

分类：机器学习

2022-07-23

以下序列出售了许多产品：首先显示焦点产品，如果购买客户，则显示一种或多种辅助产品以供购买。一个突出的例子是出售航空票，首先显示航班，并在选择时出售了许多辅助机构，例如机舱或袋装选项，座位选择，保险等。该公司必须决定销售格式 - 是按串联捆绑或作为捆绑销售的形式出售 - 以及如何分别或捆绑产品为焦点和辅助产品定价。由于仅在购买焦点产品后才考虑辅助性，因此公司选择的销售策略会在产品之间创建信息和学习依赖性：例如，仅提供一套捆绑包将排除学习客户对焦点的估值和辅助产品。在本文中，我们在以下情况下研究了这种焦点和辅助项目组合的学习策略：（a）纯捆绑向所有客户捆绑，（b）个性化机制，在其中，根据客户的某些观察到的功能，这两种产品都会呈现并以捆绑包或顺序定价，（c）最初（适用于所有客户），并在地平线期间永久切换（如果更有利可图）。我们为所有三种情况设计定价和决策算法，遗憾的是由$ o（d \ sqrt {t} \ log t）$限制，以及第三种情况的最佳切换时间。

translated by 谷歌翻译

Representing Random Utility Choice Models with Neural Networks

Ali Aouad , Antoine Désir

分类：机器学习 | (统计)机器学习

2022-07-26

在深度学习的成功中，我们提出了一类基于神经网络的离散选择模型，称为Runnets，该模型的灵感来自随机效用最大化（RUM）框架。该模型使用样品平均近似（SAA）方法制定了代理的随机效用函数。我们表明，Runmets急剧近似于朗姆酒离散选择模型的类别：从随机效用最大化中得出的任何模型都具有选择概率，可以通过Rumnet任意密切近似。相互地，任何runmet都与朗姆酒原则一致。我们在选择数据上拟合的Rumnets的概括误差中得出了上限，并根据数据集和体系结构的关键参数预测新的，看不见的数据的选择能力。通过利用开源库作为神经网络，我们发现Rumnet在两个现实世界数据集上的大幅度差距超过了其他最先进的选择建模和机器学习方法。

translated by 谷歌翻译

Approximate Bayesian Computation via Classification

Yuexi Wang , Tetsuya Kaji , Veronika Ročková

分类： (统计)机器学习

2021-11-22

近似贝叶斯计算（ABC）使复杂模型中的统计推断能够计算，其可能性难以计算，但易于模拟。 ABC通过接受/拒绝机制构建到后部分布的内核类型近似，该机制比较真实和模拟数据的摘要统计信息。为了避免对汇总统计数据的需求，我们直接将经验分布与通过分类获得的Kullback-Leibler（KL）发散估计值进行比较。特别是，我们将灵活的机器学习分类器混合在ABC中以自动化虚假/真实数据比较。我们考虑传统的接受/拒绝内核以及不需要ABC接受阈值的指数加权方案。我们的理论结果表明，我们的ABC后部分布集中在真实参数周围的速率取决于分类器的估计误差。我们得出了限制后形状的结果，并找到了一个正确缩放的指数内核，渐近常态持有。我们展示了我们对模拟示例以及在股票波动率估计的背景下的真实数据的有用性。

translated by 谷歌翻译