强化学习算法通常需要数百万个环境交互才能在稀疏奖励设置中学习成功的策略。 HindsightExperience Replay(HER)作为一种技术被引入,通过重新设想不成功的轨迹作为成功的轨迹,通过取代原先预期的目标来提高样本效率。但是,此方法不适用于目标配置未知且必须从观察中推断的视域。在这项工作中,我们展示了如何使用在相对较少的目标快照上训练的生成模型来成功幻觉成功的视觉轨迹。据我们所知,这是第一项工作,代理政策仅以其国家为条件。 Wethen将此模型应用于离散和连续设置中的强化学习代理。我们在3D环境和模拟机器人应用程序中显示导航和拾取任务的结果。我们的方法显示了标准RL算法和从先前工作得到的基线的标记改进。
translated by 谷歌翻译
通过深度神经网络学习的表示倾向于高度信息化,但在他们学习编码的信息方面是不透明的。我们介绍了一种概率建模方法,该方法学习用两个独立的深度表示来表示数据:不变表示法对数据所属类的信息进行编码,以及编码对称变换的等变量表示,定义类流形内的特定数据点(等效于表示表示随对称变换而自然变化)。这种方法主要基于通过两个变量进行数据的战略路由,因此在概念上是透明的,易于实现,并且原则上通常适用于由离散类别的连续分布组成的任何数据(例如图像中的对象,语言中的主题,个体)在行为数据中)。我们展示了在监督和半监督环境中的定性引人注目的代表性学习和竞争性定量表现,与文献中的可比建模方法相比,几乎没有微调。
translated by 谷歌翻译
动态投资组合优化是根据投资者的回报风险概况,在一些连续交易时段内依次将财富分配给一组资产的过程。使用机器学习自动执行此过程仍然是一个具有挑战性的问题。在这里,我们设计了一个具有自主交易代理的深度强化学习(RL)架构,以便根据全球目标,自主权定期制定投资决策和行动。特别是,在不依赖纯粹的无模型RL代理的情况下,使用由注入预测模块(IPM),生成性对抗数据增强模块(DAM)和行为克隆模块(BCM)组成的新型RL架构来润湿我们的交易代理。我们基于模型的方法适用于策略上或非策略RL算法。我们进一步设计了后端测试和执行引擎,它实时与RL代理进行交互。使用历史{\ em real}金融市场数据,我们模拟具有实际约束的交易,并证明我们提出的模型与基线交易策略和先前工作中的无模型RLagent相比具有鲁棒性,盈利性和风险敏感性。
translated by 谷歌翻译
用于高维最近邻搜索问题(NNS)的大多数有效次线性时间索引算法基于环境空间$ \ mathbb {R} ^ d $的空间分区。受最近关于通用度量空间NNS的理论工作的启发[Andoni,Naor,Nikolov,Razenshteyn,Waingarten STOC 2018,FOCS 2018],我们开发了一个新的框架,用于构建这样的分区,将问题简化为平衡图分区,然后通过监督分类。我们分别用KaHIP图分区器[Sanders,Schulz SEA 2013]和神经网络实例化这种通用方法,以获得一种称为NeuralLocality-Sensitive Hashing(Neural LSH)的新分区程序。在NNS的几个标准基准测试中,我们的实验表明,通过Neural LSH找到的分区始终优于通过基于量化和树的方法找到的分区。
translated by 谷歌翻译
我们提出了一种新颖的端到端基于方面的评级预测模型(AspeRa),该模型基于项目的评论文本来估计用户评级,同时发现可用于解释预测或简档用户的评论的连贯方面。 AspeRa模型使用最大边际损失进行联合项目和用户嵌入式学习以及双头架构;在两个真实世界的用户评论数据集中,它显着优于最近提出的最先进模型,如DeCoCoNN,HFT,NARRE和TransRev。基于这些方面的定性检验和预测模型的定量评估,我们展示了如何在推荐系统中使用方面嵌入。
translated by 谷歌翻译
在线排名评估是信息检索的关键挑战之一。虽然可以通过交错比较方法推断出资源管理者的偏好,但如何有效地选择一对资源管理者来生成结果列表而不会过多地降低用户体验可以被形式化为一个K型武装的决斗性强盗问题,这是一个在线部分信息学习框架,其中反馈以对位偏好的形式出现。商业搜索系统可以同时评估大量的商人,并且在大量存在者的存在下有效地进行扩展尚未得到充分研究。在本文中,我们专注于在所谓的Condorcet假设下解决大规模在线排名评估问题,其中存在一个优于所有其他计划者的最优计算器。我们提出Merge Double ThompsonSampling(MergeDTS),它首先采用分治策略,将算法进行的比较定位到小批量的运算符,然后使用Thompson采样(TS)来减少这些小内部的次优助手之间的比较批次。 MergeDTS的有效性(遗憾)和效率(时间复杂度)通过网络搜索在线评估领域的实例进行了广泛评估。我们的主要观点是,对于大规模的Condorcet级别评估问题,MergeDTS表现出最先进的决斗强盗算法。
translated by 谷歌翻译
通常会在多组用户之间收集敏感统计信息,并随着时间的推移重复收集报告。例如,可以通过这样的报告来监视用户的私人偏好或软件使用的趋势。我们研究了在局部差分隐私(LDP)模型中收集此类统计数据,并描述了一种算法,其隐私成本在用户价值变化的数量上是多对数的。更基本的是 - 通过建立用户报告的匿名性 - 我们还说明了在差异隐私的中心模型中查看时,我们的LDP算法的隐私成本实际上可以更低。我们通过一种新的和一般的隐私放大技术表明,任何满足$ \ varepsilon $ -local差异隐私的置换 - 不变量算法都将满足$(O(\ varepsilon \ sqrt {\ log(1 / \ delta)/ n}),\ delta)$ - 中央差异隐私。通过这个,我们解释了LDP协议的高噪声和$ \ sqrt {n} $开销是如何导致它们在中心模型中显着更加私密的结果。作为一个实际的推论,我们的结果意味着几个基于LDP的工业部署可能比隐藏的$ \ varepsilon $表明的隐私成本要低得多 - 至少如果报告是匿名的。
translated by 谷歌翻译
气体是计算工作量的一个测量单位,它将执行参与以太坊区块链平台的每一项操作。以太坊虚拟机(EVM)执行的每条指令都具有由以太坊指定的相关气体消耗量。如果交易超过用户分配的气体量(称为气体限制),则会产生不合理的气体。由于天然气行为,存在大量合同漏洞。我们报告了GASTAP的设计和实施,GASTAP是一种智能合约分析平台,它将智能合约(EVM,反汇编EVM或Solidity源代码)作为输入,并自动推断其所有公共功能的声音上限。我们的公司确保如果用户支付的燃气限额高于我们的燃气限额,则合同不存在燃气不足的漏洞。
translated by 谷歌翻译
在我们最近的工作中(Bubeck,Price,Razenshteyn,arXiv:1805.10204),我们认为机器学习中的对抗性例子可能是由于问题的固有计算硬度。更确切地说,我们构建了一个二元分类任务,其中(i)存在一个健壮的分类器;然而,在(ii)统计查询模型中,可以通过有效算法获得非平凡的准确性。在本文中,我们大大加强了(i)和(ii):我们现在构建一个任务,它允许(i')一个最大鲁棒的分类器(即它可以容忍与实例本身大小相当的大小扰动);此外,我们证明了在(ii')下学习这项任务的计算硬度是一个标准的加密假设。
translated by 谷歌翻译
考虑一个Euclidean $ k $ -means或$ k $ -medians聚类的实例。通过投影到随机$ O(\ log(k / \ varepsilon)/ \ varepsilon ^ 2)$ - 维子空间,确定最优解的成本保持高达$(1+ \ varepsilon)$ 。此外,每个聚类的成本都保存在$(1+ \ varepsilon)$内。更一般地,我们的结果适用于满足温和的亚高斯尾条件的任何维度缩减图。我们在维度上的界限几乎是最优的。此外,我们的结果适用于Euclidean $ k $ -clustering,其距离提高到任何$ p $的$ p $ -th幂。对于$ k $ -means,我们的结果解决了Cohen,Elder,Musco,Musco和Persu提出的公开问题(STOC 2015);对于$ k $ -medians,它回答了Kannan提出的问题。
translated by 谷歌翻译