本文关注的是,基于无限视野设置中预采用的观察数据,为目标策略的价值离线构建置信区间。大多数现有作品都假定不存在混淆观察到的动作的未测量变量。但是,在医疗保健和技术行业等实际应用中,这种假设可能会违反。在本文中,我们表明,使用一些辅助变量介导动作对系统动态的影响,目标策略的价值在混杂的马尔可夫决策过程中可以识别。基于此结果,我们开发了一个有效的非政策值估计器,该估计值可用于潜在模型错误指定并提供严格的不确定性定量。我们的方法是通过理论结果,从乘车共享公司获得的模拟和真实数据集证明的。python实施了建议的过程,请访问https://github.com/mamba413/cope。
translated by 谷歌翻译
乘车共享公司等双面市场通常涉及一组跨时间和/或位置做出顺序决策的主题。随着智能手机和物联网的快速发展,它们实质上改变了人类的运输格局。在本文中,我们考虑了乘车共享公司的大规模车队管理,这些公司涉及随着时间的推移接收产品(或治疗)序列的不同领域的多个单元。在这些研究中出现了主要的技术挑战,例如政策评估,因为(i)空间和时间附近会导致位置和时间之间的干扰; (ii)大量位置导致维度的诅咒。为了同时解决这两个挑战,我们介绍了在这些研究中进行政策评估的多机构增强学习(MARL)框架。我们提出了新的估计量,即在不同产品下的平均结果,尽管州行动空间具有很高的差异性。提出的估计量在模拟实验中有利。我们进一步说明了我们的方法使用从双面市场公司获得的真实数据集来评估应用不同的补贴策略的效果。我们提出的方法的Python实现可在https://github.com/runzhestat/causalmarl上获得。
translated by 谷歌翻译
在本文中,我们介绍了有关典型乘车共享系统中决策优化问题的强化学习方法的全面,深入的调查。涵盖了有关乘车匹配,车辆重新定位,乘车,路由和动态定价主题的论文。在过去的几年中,大多数文献都出现了,并且要继续解决一些核心挑战:模型复杂性,代理协调和多个杠杆的联合优化。因此,我们还引入了流行的数据集和开放式仿真环境,以促进进一步的研发。随后,我们讨论了有关该重要领域的强化学习研究的许多挑战和机会。
translated by 谷歌翻译
A / B测试或在线实验是一种标准的业务策略,可以在制药,技术和传统行业中与旧产品进行比较。在双面市场平台(例如优步)的在线实验中出现了主要挑战,其中只有一个单位接受一系列处理随着时间的推移。在这些实验中,给定时间的治疗会影响当前结果以及未来的结果。本文的目的是引入用于在这些实验中携带A / B测试的加强学习框架,同时表征长期治疗效果。我们所提出的测试程序允许顺序监控和在线更新。它通常适用于不同行业的各种治疗设计。此外,我们系统地研究了我们测试程序的理论特性(例如,尺寸和功率)。最后,我们将框架应用于模拟数据和从技术公司获得的真实数据示例,以说明其在目前的实践中的优势。我们的测试的Python实现是在https://github.com/callmespring/causalrl上找到的。
translated by 谷歌翻译
现代生物医学研究通常收集多视图数据,即在同一组对象上测量的多种类型的数据。高维多视图数据分析中的流行模型是将每个视图的数据矩阵分解为跨所有数据视图常见的潜在因子生成的低级常见源矩阵,对应于每个视图的低级别源矩阵和添加剂噪声矩阵。我们提出了一种用于该模型的新型分解方法,称为基于分解的广义规范相关分析(D-GCCA)。与大多数现有方法使用的欧几里德点产品空间相比,D-GCCA严格地定义了随机变量的L2空间的分解,从而能够为低秩矩阵恢复提供估计一致性。此外,为了良好校准共同的潜在因子,我们对独特的潜在因子施加了理想的正交性限制。然而,现有方法不充分考虑这种正交性,因此可能遭受未检测到的共同源变异的大量损失。我们的D-GCCA通过分离规范变量中的共同和独特的组分,同时从主成分分析的角度享受吸引人的解释,进一步逐步进行一步。此外,我们建议使用常见的或独特潜在因子解释的信号方差的可变级别比例,以选择最受影响的变量。我们的D-GCCA方法的一致估计是通过良好的有限样本数性能建立的,并且具有封闭式表达式,导致有效计算,特别是对于大规模数据。 D-GCCA在最先进的方法上的优越性也在模拟和现实世界数据示例中得到证实。
translated by 谷歌翻译
机器学习的最新进展显着改善了对源代码数据的理解,并在许多下游任务上取得了良好的表现。像GitHub这样的开源存储库使用丰富的未标记代码数据启用此过程。但是,缺乏高质量标记的数据在很大程度上阻碍了几个相关任务的进度,例如程序翻译,摘要,合成和代码搜索。本文介绍了XLCOST,跨语言代码摘要数据集,这是一种用于跨语言代码智能的新基准数据集。我们的数据集包含来自8种语言(7种常用编程语言和英语)的细粒并行数据,并支持10个跨语性代码任务。据我们所知,就规模和语言数量而言,它是源代码的最大并行数据集。我们还为每个任务提供了几种最先进的基线模型的性能。我们认为,这个新数据集可能是研究界的宝贵资产,并促进了跨语法代码智能的新方法的开发和验证。
translated by 谷歌翻译
从\ emph {nocedended}点云中重建3D几何形状可以使许多下游任务受益。最近的方法主要采用神经网络的神经形状表示,以代表签名的距离字段,并通过无签名的监督适应点云。但是,我们观察到,使用未签名的监督可能会导致严重的歧义,并且通常会导致\ emph {意外}故障,例如在重建复杂的结构并与重建准确的表面斗争时,在自由空间中产生不希望的表面。为了重建一个更好的距离距离场,我们提出了半签名的神经拟合(SSN拟合),该神经拟合(SSN拟合)由半签名的监督和基于损失的区域采样策略组成。我们的关键见解是,签名的监督更具信息性,显然可以轻松确定对象之外的区域。同时,提出了一种新颖的重要性抽样,以加速优化并更好地重建细节。具体而言,我们将对象空间弹并分配到\ emph {sign-newand}和\ emph {sign-unawern}区域,其中应用了不同的监督。此外,我们根据跟踪的重建损失自适应地调整每个体素的采样率,以便网络可以更多地关注复杂的拟合不足区域。我们进行了广泛的实验,以证明SSN拟合在多个数据集的不同设置下实现最新性能,包括清洁,密度变化和嘈杂的数据。
translated by 谷歌翻译
为了构建人工神经网络,例如生物智能系统,最近的作品将许多任务统一为通才模型,该模型可以使用共享参数处理各种任务,并且没有任何特定于任务的模块。尽管通才模型在各种基准上取得了令人鼓舞的结果,但与任务特殊模型相比,它们在某些任务上具有绩效降解。在这项工作中,我们发现不同任务和方式之间的干扰是这种现象的主要因素。为了减轻这种干扰,我们将条件混合物(条件MOE)引入通才模型。建议在不同级别的条件下采用路由策略来考虑培训/推理成本和概括能力。通过合并提出的条件MOE,最近提出的通才模型Uni-Pectiver可以有效地减轻任务和方式的干扰,并通过迅速调整1%的下游数据,从而在一系列下游任务上实现最新的结果。 。此外,有条件的MOE的引入仍然具有通才模型对新任务(例如视频文本检索和视频标题)进行零摄像推断的概括能力。应发布代码和预培训的通才模型。
translated by 谷歌翻译
智能城市的智能交通灯可以最佳地减少交通拥堵。在这项研究中,我们采用了加强学习,培训了城市移动模拟器的红绿灯的控制代理。由于现有工程的差异,除了基于价值的方法之外,利用基于策略的深度加强学习方法,近端策略优化(PPO),例如Deep Q网络(DQN)和双DQN(DDQN)。首先,将获得PPO的最佳政策与来自DQN和DDQN的PPO相比。发现PPO的政策比其他政策更好。接下来,而不是固定间隔的流量光阶段,我们采用具有可变时间间隔的光相位,这导致更好的策略来传递流量流。然后,研究了环境和行动干扰的影响,以展示基于学习的控制器是强大的。最后,我们考虑不平衡的交通流量,并发现智能流量可以适度地对不平衡的流量方案执行,尽管它仅从平衡流量方案中了解最佳策略。
translated by 谷歌翻译
在本文中,我们专注于研究中国问题匹配的鲁棒性评估。以前的大多数关于分析鲁棒性问题的工作专注于只有一种或几种类型的人工对抗例。相反,我们认为有必要制定关于自然文本模型语言能力的综合评估。为此目的,我们创建了一个中国数据集即duqm,其中包含具有语言扰动的自然问题,以评估问题匹配模型的鲁棒性。Duqm包含3个类别和13个子类别,具有32个语言扰动。广泛的实验表明,DUQM具有更好的区分不同模型的能力。重要的是,DuQM中语言现象评估的详细分类有助于我们轻松诊断不同模型的强度和弱点。此外,我们的实验结果表明,人工对抗实例的影响不适用于自然文本。
translated by 谷歌翻译