本文讨论了具有丰富记录数据的域中的政策选择问题,但互动预算有限。解决此问题将在行业,机器人和推荐领域中安全评估和部署离线强化学习政策等。已经提出了几种违规评估(OPE)技术以评估仅使用记录数据的策略的值。然而,OPE的评估与真实环境中的完整在线评估之间仍然存在巨大差距。然而,在实践中通常不可能进行大量的在线互动。为了克服这个问题,我们介绍了\ emph {主动脱机策略选择} - 一种新的顺序决策方法,将记录数据与在线交互相结合,以识别最佳策略。这种方法使用ope估计来热启动在线评估。然后,为了利用有限的环境相互作用,我们决定基于具有表示政策相似性的内核函数的贝叶斯优化方法来评估哪个策略。我们使用大量候选政策的多个基准,以表明所提出的方法提高了最先进的OPE估计和纯在线策略评估。
translated by 谷歌翻译
我们给出了\ emph {list-codobable协方差估计}的第一个多项式时间算法。对于任何$ \ alpha> 0 $,我们的算法获取输入样本$ y \ subseteq \ subseteq \ mathbb {r}^d $ size $ n \ geq d^{\ mathsf {poly}(1/\ alpha)} $获得通过对抗损坏I.I.D的$(1- \ alpha)n $点。从高斯分布中的样本$ x $ size $ n $,其未知平均值$ \ mu _*$和协方差$ \ sigma _*$。在$ n^{\ mathsf {poly}(1/\ alpha)} $ time中,它输出$ k = k(\ alpha)=(1/\ alpha)^{\ mathsf {poly}的常数大小列表(1/\ alpha)} $候选参数,具有高概率,包含$(\ hat {\ mu},\ hat {\ sigma})$,使得总变化距离$ tv(\ Mathcal {n}(n})(n}(n})( \ mu _*,\ sigma _*),\ Mathcal {n}(\ hat {\ mu},\ hat {\ sigma}))<1-o _ {\ alpha}(1)$。这是距离的统计上最强的概念,意味着具有独立尺寸误差的参数的乘法光谱和相对Frobenius距离近似。我们的算法更普遍地适用于$(1- \ alpha)$ - 任何具有低度平方总和证书的分布$ d $的损坏,这是两个自然分析属性的:1)一维边际和抗浓度2)2度多项式的超收缩率。在我们工作之前,估计可定性设置的协方差的唯一已知结果是针对Karmarkar,Klivans和Kothari(2019),Raghavendra和Yau(2019和2019和2019和2019和2019年)的特殊情况。 2020年)和巴克西(Bakshi)和科塔里(Kothari)(2020年)。这些结果需要超级物理时间,以在基础维度中获得任何子构误差。我们的结果意味着第一个多项式\ emph {extcect}算法,用于列表可解码的线性回归和子空间恢复,尤其允许获得$ 2^{ - \ Mathsf { - \ Mathsf {poly}(d)} $多项式时间错误。我们的结果还意味着改进了用于聚类非球体混合物的算法。
translated by 谷歌翻译
我们介绍了用于插槽,意图分类和虚拟助手评估的大规模数据集 - 数字亚马逊SLU资源包(SLURP)。大规模包含1M现实,平行,标记为虚拟助手的话语,涵盖51种语言,18个域,60个意图和55个插槽。通过任务专业翻译人员将仅英文slurp数据集定位为29属的50种类型多样性的语言来创建大规模。我们还介绍了XLM-R和MT5上的建模结果,包括精确的匹配精度,意图分类精度和插槽填充F1分数。我们已经公开发布了数据集,建模代码和模型。
translated by 谷歌翻译
许多日常活动和心理物理实验涉及在工作记忆中保持多个项目。当物品采用连续值(例如,方向,对比度,长度,响度),它们必须以适当的尺寸的连续结构存储。我们调查如何通过培训经常性网络在神经电路中在神经电路中提出两个先前显示的刺激取向。我们发现两个方向的活动歧管类似于克利福德·托鲁斯。虽然夹层和标准圆环(甜甜圈的表面)是拓扑相当的,但它们具有重要的功能差异。克利福德·托鲁斯平等地对待两种方向,并使它们保持在正交子空间中,如任务所要求的,而标准的圆环没有。我们发现并表征了支持Clifford Torus的连接模式。此外,除了通过持久性活动存储信息的吸引子之外,我们的网络还使用动态代码,其中单位改变调谐以防止新的感官输入覆盖先前存储的输入。我们认为,每当多个输入通过共享连接输入存储器系统时,通常需要这种动态代码。最后,我们将我们的框架应用于人类心理物理学实验,其中受试者报告了两个记忆的方向。通过改变RNN的培训条件,我们测试和支持人类行为是神经噪声的产物的假设,并且依赖于两个取向之间的序数关系的更稳定和行为相关的记忆。这表明RNNS中的合适的归纳偏差对于揭示人脑如何实现工作记忆很重要。这些结果在一起,了解了一类视觉解码任务的神经计算,从人类行为缩小到突触连接。
translated by 谷歌翻译
专家员工的文字式传输技术有可能改善科学社区成员与公众之间的沟通。专家制作的高质量信息往往充满了困难的术语外国人,努力了解。这是医疗领域的一个特别值得注意的问题,其中Layman经常在线医学文本混淆。目前,两个瓶颈干扰了建立高质量医学专家外延式转移系统的目标:曾经专家和外行术语的缺点是普及的预押医学域语言模型,缺乏并行的Corpora培训转让任务本身。为了缓解第一个问题,我们提出了一种新颖的语言模型(LM)预测任务,知识基础同化,从自我监督学习期间将来自专家和外行式医学术语术语的边缘的预先训练数据综合为LM的LM。 。要缓解第二个问题,我们使用基于边缘的标准在医学专家 - Layman域中建立大规模并行语料库。我们的实验表明,基于变压器的模型,以知识库同化和其他良好的预先预订任务对我们的新并行语料库进行了微调,这导致专家外部转账基准的相当大,达到了我们人类评估的平均相对改善总体成功率(OSR),达106%。我们释放我们的代码和并行语料库以供未来的研究。
translated by 谷歌翻译