在深度学习的成功中,我们提出了一类基于神经网络的离散选择模型,称为Runnets,该模型的灵感来自随机效用最大化(RUM)框架。该模型使用样品平均近似(SAA)方法制定了代理的随机效用函数。我们表明,Runmets急剧近似于朗姆酒离散选择模型的类别:从随机效用最大化中得出的任何模型都具有选择概率,可以通过Rumnet任意密切近似。相互地,任何runmet都与朗姆酒原则一致。我们在选择数据上拟合的Rumnets的概括误差中得出了上限,并根据数据集和体系结构的关键参数预测新的,看不见的数据的选择能力。通过利用开源库作为神经网络,我们发现Rumnet在两个现实世界数据集上的大幅度差距超过了其他最先进的选择建模和机器学习方法。
translated by 谷歌翻译
本文探讨了深度神经网络,用于制定生产或离散选择的最大程度的经济模型的半造型估计。我们认为某些深网络特别适合作为非参数筛,以近似于连续或离散优化的非线性潜变量模型导致的回归函数。这种类型的多级模型通常在回归函数中的回归(“输入”)之间产生丰富的交互效果,以便在“减少”映射形式输入中可能没有合理的可分离性限制,以便输出以缓解诅咒维度。相反,在全球层面或中间阶段的经济形状,稀疏性或可分离限制通常在潜在的变量模型方面陈述。如果潜伏的变量模型的足够灵活的版本用于近似未知的回归函数,我们将以更直接的方式施加对这种类型的限制以更直接的方式施加。
translated by 谷歌翻译
由于在数据稀缺的设置中,交叉验证的性能不佳,我们提出了一个新颖的估计器,以估计数据驱动的优化策略的样本外部性能。我们的方法利用优化问题的灵敏度分析来估计梯度关于数据中噪声量的最佳客观值,并利用估计的梯度将策略的样本中的表现为依据。与交叉验证技术不同,我们的方法避免了为测试集牺牲数据,在训练和因此非常适合数据稀缺的设置时使用所有数据。我们证明了我们估计量的偏见和方差范围,这些问题与不确定的线性目标优化问题,但已知的,可能是非凸的,可行的区域。对于更专业的优化问题,从某种意义上说,可行区域“弱耦合”,我们证明结果更强。具体而言,我们在估算器的错误上提供明确的高概率界限,该估计器在策略类别上均匀地保持,并取决于问题的维度和策略类的复杂性。我们的边界表明,在轻度条件下,随着优化问题的尺寸的增长,我们的估计器的误差也会消失,即使可用数据的量仍然很小且恒定。说不同的是,我们证明我们的估计量在小型数据中的大规模政权中表现良好。最后,我们通过数值将我们提出的方法与最先进的方法进行比较,通过使用真实数据调度紧急医疗响应服务的案例研究。我们的方法提供了更准确的样本外部性能估计,并学习了表现更好的政策。
translated by 谷歌翻译
选择模型一直是研究经济学,市场营销,运营研究和心理学等许多领域的个人偏好或实用性的核心主题。尽管有关选择模型的绝大多数文献都致力于导致管理和政策制定见解的分析属性,但从经验数据中学习选择模型的现有方法通常在计算上棘手或效率低下。在本文中,我们在两个选择模型的两个设置下开发了基于学习的选择模型:(i)无功能和(ii)基于功能。我们的模型既捕获了每个候选选择的内在效用,又捕获了分类对选择概率的影响。合成和真实数据实验证明了拟议模型的性能,从现有选择模型的恢复,样本复杂性,分类效果,体系结构设计和模型解释方面。
translated by 谷歌翻译
标签排名(LR)对应于学习一个假设的问题,以通过有限一组标签将功能映射到排名。我们采用了对LR的非参数回归方法,并获得了这一基本实际问题的理论绩效保障。我们在无噪声和嘈杂的非参数回归设置中介绍了一个用于标签排名的生成模型,并为两种情况下提供学习算法的示例复杂性界限。在无噪声环境中,我们研究了全排序的LR问题,并在高维制度中使用决策树和随机林提供计算有效的算法。在嘈杂的环境中,我们考虑使用统计观点的不完整和部分排名的LR更通用的情况,并使用多种多组分类的一种方法获得样本复杂性范围。最后,我们与实验补充了我们的理论贡献,旨在了解输入回归噪声如何影响观察到的输出。
translated by 谷歌翻译
我们在具有不对称损耗功能的数据丰富的环境中研究了二元选择问题。经济学学文献涵盖非参数二元选择问题,但在富含数据的环境中没有提供计算上有吸引力的解决方案。机器学习文献具有许多算法,但主要集中在独立于协变量的损耗功能上。我们表明,通过基于损失的损失的重量或最先进的机器学习技术,可以通过非常简单的损失的重量来实现关于与一般损失函数的二元成果的理论上有效决策。我们将我们的分析应用于审前拘留中的种族正义。
translated by 谷歌翻译
Testing the significance of a variable or group of variables $X$ for predicting a response $Y$, given additional covariates $Z$, is a ubiquitous task in statistics. A simple but common approach is to specify a linear model, and then test whether the regression coefficient for $X$ is non-zero. However, when the model is misspecified, the test may have poor power, for example when $X$ is involved in complex interactions, or lead to many false rejections. In this work we study the problem of testing the model-free null of conditional mean independence, i.e. that the conditional mean of $Y$ given $X$ and $Z$ does not depend on $X$. We propose a simple and general framework that can leverage flexible nonparametric or machine learning methods, such as additive models or random forests, to yield both robust error control and high power. The procedure involves using these methods to perform regressions, first to estimate a form of projection of $Y$ on $X$ and $Z$ using one half of the data, and then to estimate the expected conditional covariance between this projection and $Y$ on the remaining half of the data. While the approach is general, we show that a version of our procedure using spline regression achieves what we show is the minimax optimal rate in this nonparametric testing problem. Numerical experiments demonstrate the effectiveness of our approach both in terms of maintaining Type I error control, and power, compared to several existing approaches.
translated by 谷歌翻译
这项工作提出了一种分散的架构,其中个别代理旨在解决分类问题,同时观察不同尺寸的流特征,并从可能不同的分布产生。在社会学习的背景下,已经开发了几种有用的策略,通过跨分布式代理的本地合作解决了决策问题,并允许他们从流数据中学习。然而,传统的社会学习策略依赖于每个代理人对观察结果分布的重要知识的基本假设。在这项工作中,我们通过引入一种机器学习框架来克服这一问题,该机器学习框架利用图形的社交交互,导致分布式分类问题的完全数据驱动的解决方案。在拟议的社交机器学习(SML)策略中,存在两个阶段:在训练阶段,分类器被独立培训,以使用有限数量的训练样本来产生一组假设的信念;在预测阶段,分类器评估流媒体未标记的观察,并与邻近分类器共享他们的瞬时信仰。我们表明SML策略使得代理能够在这种高度异构的环境下一致地学习,并且即使在预测阶段决定未标记的样本时,即使在预测阶段也允许网络继续学习。预测决策用于以明显不同的方式不断地提高性能,这些方式与大多数现有的静态分类方案不同,在培训之后,未标记数据的决策不会重新用于改善未来的性能。
translated by 谷歌翻译
许多实际优化问题涉及不确定的参数,这些参数具有概率分布,可以使用上下文特征信息来估算。与首先估计不确定参数的分布然后基于估计优化目标的标准方法相反,我们提出了一个\ textIt {集成条件估计 - 优化}(ICEO)框架,该框架估计了随机参数的潜在条件分布同时考虑优化问题的结构。我们将随机参数的条件分布与上下文特征之间的关系直接建模,然后以与下游优化问题对齐的目标估算概率模型。我们表明,我们的ICEO方法在适度的规律性条件下渐近一致,并以概括范围的形式提供有限的性能保证。在计算上,使用ICEO方法执行估计是一种非凸面且通常是非差异的优化问题。我们提出了一种通用方法,用于近似从估计的条件分布到通过可区分函数的最佳决策的潜在非差异映射,这极大地改善了应用于非凸问题的基于梯度的算法的性能。我们还提供了半代理案例中的多项式优化解决方案方法。还进行了数值实验,以显示我们在不同情况下的方法的经验成功,包括数据样本和模型不匹配。
translated by 谷歌翻译
我们研究了基于消费者的决策积极学习非参数选择模型的问题。我们提出一个负面结果,表明这种选择模型可能无法识别。为了克服可识别性问题,我们介绍了选择模型的有向无环图(DAG)表示,从某种意义上说,该模型可以捕获有关选择模型的更多信息,从而可以从理论上识别信息。然后,我们考虑在主动学习环境中学习与此DAG表示的近似的问题。我们设计了一种有效的主动学习算法,以估计非参数选择模型的DAG表示,该模型在多项式时间内运行时,当随机均匀地绘制频繁排名。我们的算法通过主动和反复提供各种项目并观察所选项目来了解最受欢迎的频繁偏好项目的分布。我们表明,与相应的非活动学习估计算法相比,我们的算法可以更好地恢复有关消费者偏好的合成和公开数据集的一组频繁偏好。这证明了我们的算法和主动学习方法的价值。
translated by 谷歌翻译
我们考虑具有未知实用程序参数的多项式logit模型(MNL)下的动态分类优化问题。本文研究的主要问题是$ \ varepsilon $ - 污染模型下的模型错误指定,该模型是强大统计和机器学习中的基本模型。特别是,在整个长度$ t $的销售范围内,我们假设客户根据$(1- \ varepsilon)$ - 时间段的$(1- \ varepsilon)的基础多项式logit选择模型进行购买,并进行任意购买取而代之的是在剩余的$ \ varepsilon $ - 分数中的决策。在此模型中,我们通过主动淘汰策略制定了新的强大在线分类优化政策。我们对遗憾建立上限和下界,并表明当分类能力恒定时,我们的政策是$ t $的最佳对数因素。分类能力具有恒定的上限。我们进一步制定了一种完全自适应策略,该政策不需要任何先验知识,即污染参数$ \ varepsilon $。如果存在最佳和亚最佳产品之间存在的亚临时差距,我们还建立了依赖差距的对数遗憾上限和已知的 - $ \ VAREPSILON $和UNKNOWER-$ \ \ VAREPSILON $案例。我们的仿真研究表明,我们的政策表现优于基于上置信度范围(UCB)和汤普森采样的现有政策。
translated by 谷歌翻译
在因果推理和强盗文献中,基于观察数据的线性功能估算线性功能的问题是规范的。我们分析了首先估计治疗效果函数的广泛的两阶段程序,然后使用该数量来估计线性功能。我们证明了此类过程的均方误差上的非反应性上限:这些边界表明,为了获得非反应性最佳程序,应在特定加权$ l^2 $中最大程度地估算治疗效果的误差。 -规范。我们根据该加权规范的约束回归分析了两阶段的程序,并通过匹配非轴突局部局部最小值下限,在有限样品中建立了实例依赖性最优性。这些结果表明,除了取决于渐近效率方差之外,最佳的非质子风险除了取决于样本量支持的最富有函数类别的真实结果函数与其近似类别之间的加权规范距离。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
The fundamental learning theory behind neural networks remains largely open. What classes of functions can neural networks actually learn? Why doesn't the trained network overfit when it is overparameterized?In this work, we prove that overparameterized neural networks can learn some notable concept classes, including two and three-layer networks with fewer parameters and smooth activations. Moreover, the learning can be simply done by SGD (stochastic gradient descent) or its variants in polynomial time using polynomially many samples. The sample complexity can also be almost independent of the number of parameters in the network.On the technique side, our analysis goes beyond the so-called NTK (neural tangent kernel) linearization of neural networks in prior works. We establish a new notion of quadratic approximation of the neural network (that can be viewed as a second-order variant of NTK), and connect it to the SGD theory of escaping saddle points.
translated by 谷歌翻译
稀有事件仿真技术,如重要采样(是),构成强大的工具,以加速罕见灾难性事件的具有挑战性的估算。这些技术经常利用底层系统结构的知识和分析,以赋予赋予理想的效率保证。然而,黑匣子问题,特别是来自最近AI驱动的物理系统的安全关键型应用的问题,可以从根本上破坏他们的效率担保,并在没有诊断地检测的情况下导致危险的估计。我们提出了一个框架,称为深度概率加速评估(Deep-Prae)来设计统计保障是通过转换多功能的黑匣子采样器,但可能缺乏保证,以便我们称之为放松的效率证明,允许准确估计界限。论罕见事件概率。我们介绍了深度PRAE理论,将主导点概念与稀有事件集合通过深度神经网络分类器进行了学习,并证明了其在数值例子中的有效性,包括智能驾驶算法的安全测试。
translated by 谷歌翻译
嵌套模拟涉及通过模拟估算条件期望的功能。在本文中,我们提出了一种基于内核RIDGE回归的新方法,利用作为多维调节变量的函数的条件期望的平滑度。渐近分析表明,随着仿真预算的增加,所提出的方法可以有效地减轻了对收敛速度的维度诅咒,只要条件期望足够平滑。平滑度桥接立方根收敛速度之间的间隙(即标准嵌套模拟的最佳速率)和平方根收敛速率(即标准蒙特卡罗模拟的规范率)。我们通过来自投资组合风险管理和输入不确定性量化的数值例子来证明所提出的方法的性能。
translated by 谷歌翻译
经典的错误发现率(FDR)控制程序提供了强大而可解释的保证,而它们通常缺乏灵活性。另一方面,最近的机器学习分类算法是基于随机森林(RF)或神经网络(NN)的算法,具有出色的实践表现,但缺乏解释和理论保证。在本文中,我们通过引入新的自适应新颖性检测程序(称为Adadetect)来使这两个相遇。它将多个测试文献的最新作品范围扩展到高维度的范围,尤其是Yang等人的范围。 (2021)。显示AD​​ADETECT既可以强烈控制FDR,又具有在特定意义上模仿甲骨文之一的力量。理论结果,几个基准数据集上的数值实验以及对天体物理数据的应用,我们的方法的兴趣和有效性得到了证明。特别是,虽然可以将AdadEtect与任何分类器结合使用,但它在带有RF的现实世界数据集以及带有NN的图像上特别有效。
translated by 谷歌翻译
本文在动态定价的背景下调查预先存在的离线数据对在线学习的影响。我们在$ t $期间的销售地平线上研究单一产品动态定价问题。每个时段的需求由产品价格根据具有未知参数的线性需求模型确定。我们假设在销售地平线开始之前,卖方已经有一些预先存在的离线数据。离线数据集包含$ N $示例,其中每个标准是由历史价格和相关的需求观察组成的输入输出对。卖方希望利用预先存在的离线数据和顺序在线数据来最大限度地减少在线学习过程的遗憾。我们的特征在于在线学习过程的最佳遗憾的脱机数据的大小,位置和分散的联合效果。具体而言,离线数据的大小,位置和色散由历史样本数量为$ n $,平均历史价格与最佳价格$ \ delta $之间的距离以及历史价格的标准差价Sigma $分别。我们表明最佳遗憾是$ \ widetilde \ theta \ left(\ sqrt {t} \ wedge \ frac {t} {(n \ wedge t)\ delta ^ 2 + n \ sigma ^ 2} \右)$,基于“面对不确定性”原则的“乐观主义”的学习算法,其遗憾是最佳的对数因子。我们的结果揭示了对脱机数据的大小的最佳遗憾率的惊人变换,我们称之为阶段转型。此外,我们的结果表明,离线数据的位置和分散也对最佳遗憾具有内在效果,我们通过逆平面法量化了这种效果。
translated by 谷歌翻译
近似消息传递(AMP)是解决高维统计问题的有效迭代范式。但是,当迭代次数超过$ o \ big(\ frac {\ log n} {\ log log \ log \ log n} \时big)$(带有$ n $问题维度)。为了解决这一不足,本文开发了一个非吸附框架,用于理解峰值矩阵估计中的AMP。基于AMP更新的新分解和可控的残差项,我们布置了一个分析配方,以表征在存在独立初始化的情况下AMP的有限样本行为,该过程被进一步概括以进行光谱初始化。作为提出的分析配方的两个具体后果:(i)求解$ \ mathbb {z} _2 $同步时,我们预测了频谱初始化AMP的行为,最高为$ o \ big(\ frac {n} {\ mathrm {\ mathrm { poly} \ log n} \ big)$迭代,表明该算法成功而无需随后的细化阶段(如最近由\ citet {celentano2021local}推测); (ii)我们表征了稀疏PCA中AMP的非反应性行为(在尖刺的Wigner模型中),以广泛的信噪比。
translated by 谷歌翻译
机器学习通常以经典的概率理论为前提,这意味着聚集是基于期望的。现在有多种原因可以激励人们将经典概率理论作为机器学习的数学基础。我们系统地检查了一系列强大而丰富的此类替代品,即各种称为光谱风险度量,Choquet积分或Lorentz规范。我们提出了一系列的表征结果,并演示了使这个光谱家族如此特别的原因。在此过程中,我们证明了所有连贯的风险度量的自然分层,从它们通过利用重新安排不变性Banach空间理论的结果来诱导的上层概率。我们凭经验证明了这种新的不确定性方法如何有助于解决实用的机器学习问题。
translated by 谷歌翻译