强化学习算法通常需要数百万个环境交互才能在稀疏奖励设置中学习成功的策略。 HindsightExperience Replay(HER)作为一种技术被引入,通过重新设想不成功的轨迹作为成功的轨迹,通过取代原先预期的目标来提高样本效率。但是,此方法不适用于目标配置未知且必须从观察中推断的视域。在这项工作中,我们展示了如何使用在相对较少的目标快照上训练的生成模型来成功幻觉成功的视觉轨迹。据我们所知,这是第一项工作,代理政策仅以其国家为条件。 Wethen将此模型应用于离散和连续设置中的强化学习代理。我们在3D环境和模拟机器人应用程序中显示导航和拾取任务的结果。我们的方法显示了标准RL算法和从先前工作得到的基线的标记改进。
translated by 谷歌翻译
当音频信号包含串扰时,观察到自动语音识别(ASR)系统的显着性能下降。最近提出的解决多扬声器ASR问题的方法之一是深度聚类(DPCL)方法。将DPCL与最先进的混合声学模型相结合,我们在常用的wsj0-2mix数据集上获得了16.5%的单词错误率(WER),这是迄今为止我们所知道的最佳性能。 wsj0-2mix数据集包含模拟的串扰,其中多个扬声器的语音几乎覆盖整个话语。在更真实的ASR场景中,音频信号包含单个说话者语音的重要部分,并且仅信号的一部分包含多个竞争扬声器的语音。本文研究了在稀疏重叠的情况下应用DPCLas作为ASR预处理方法的障碍。为此,我们提出了一种数据模拟方法,与wsj0-2mix数据集密切相关,生成任意重叠率稀疏重叠的语音数据集。将DPCL应用于稀疏重叠语音的分析是完全重叠的数据集之间的重要中间步骤,如wsj0-2mix和更真实的ASR数据集,例如CHiME-5或AMI。
translated by 谷歌翻译
最近的深度学习方法在语音增强和分离任务方面取得了令人瞩目的成绩然而,这些方法尚未被研究用于分离不同类型的任意声音的混合物,我们称之为通用声音分离的任务,并且未知语音任务的性能是否延续到非语音任务。为了研究这个问题,我们开发了包含任意形式的混合物的通用数据集,并用它来研究基于掩模的分离结构的空间,改变整体网络结构和信号转换的框架分析 - 合成基础。这些网络体系结构包括卷积长期短期记忆网络和时间膨胀卷积栈,其灵感来自最近成功的时间性能增强网络,如ConvTasNet。对于后一种体系结构,我们还提出了新的修改,以进一步提高分离性能。在框架分析 - 合成的基础上,我们使用在TEVasNet中使用的ashort-time傅立叶变换(STFT)或可学习的基础进行探索,并且对于这两个基础,我们检查窗口大小的影响。特别是对于STFT ,我们发现较长的窗口(25-50毫秒)最好的forspeech /非语音分离,而较短的窗口(2.5毫秒)工作最好的任意声音。对于可学习的基础,较短的窗口(2.5毫秒)最适合所有任务。令人惊讶的是,对于通用声音分离,STFT的性能优于基础。我们最好的方法可以改善语音/非语音分离的音阶 - 不变信号与失真比超过13 dB,并且通用声音分离接近10 dB。
translated by 谷歌翻译
新闻标题生成是文本摘要的一个基本问题,因为它受到约束,定义明确,并且仍然难以解决。词汇量有限的模型无法很好地解决,因为新的命名实体可以在新闻中经常出现,而这些实体通常应该在头条中。由于大量可能的单词形式,在形态丰富的语言中的新闻文章,例如Russianrequire模型修改。本研究旨在验证可能从原始文章复制单词的模型比没有这种选项的模型表现更好。所提出的模型在所提供的测试数据集上实现了23的平均ROUGE分数,其比没有复制机制的类似模型的结果大8个点。此外,由此产生的模型比俄罗斯新闻的新数据集中的任何已知模型表现更好。
translated by 谷歌翻译
变形金刚是强大的序列模型,但需要时间和内存与序列长度呈二次方式。在本文中,我们引入了关注矩阵的稀疏因子,将其减少到$ O(n \ sqrt {n})$。我们还介绍了a)对训练深度网络的体系结构和初始化的变化,b)重新计算注意矩阵以节省内存,以及c)用于训练的快速注意内核。我们称这些变化为稀疏变形金刚的网络,并表明它们可以使用数百层来模拟数万次步长的序列。我们使用相同的架构来处理来自原始字节的模式图像,音频和文本,为Enwik8,CIFAR-10和ImageNet-64的密度建模设置了新的技术水平。我们生成了证明全局一致性和多样性的非条件样本,并且表明原则上可以将自我关注用于长度为一百万或更多的模型序列。
translated by 谷歌翻译
通过深度神经网络学习的表示倾向于高度信息化,但在他们学习编码的信息方面是不透明的。我们介绍了一种概率建模方法,该方法学习用两个独立的深度表示来表示数据:不变表示法对数据所属类的信息进行编码,以及编码对称变换的等变量表示,定义类流形内的特定数据点(等效于表示表示随对称变换而自然变化)。这种方法主要基于通过两个变量进行数据的战略路由,因此在概念上是透明的,易于实现,并且原则上通常适用于由离散类别的连续分布组成的任何数据(例如图像中的对象,语言中的主题,个体)在行为数据中)。我们展示了在监督和半监督环境中的定性引人注目的代表性学习和竞争性定量表现,与文献中的可比建模方法相比,几乎没有微调。
translated by 谷歌翻译
动态投资组合优化是根据投资者的回报风险概况,在一些连续交易时段内依次将财富分配给一组资产的过程。使用机器学习自动执行此过程仍然是一个具有挑战性的问题。在这里,我们设计了一个具有自主交易代理的深度强化学习(RL)架构,以便根据全球目标,自主权定期制定投资决策和行动。特别是,在不依赖纯粹的无模型RL代理的情况下,使用由注入预测模块(IPM),生成性对抗数据增强模块(DAM)和行为克隆模块(BCM)组成的新型RL架构来润湿我们的交易代理。我们基于模型的方法适用于策略上或非策略RL算法。我们进一步设计了后端测试和执行引擎,它实时与RL代理进行交互。使用历史{\ em real}金融市场数据,我们模拟具有实际约束的交易,并证明我们提出的模型与基线交易策略和先前工作中的无模型RLagent相比具有鲁棒性,盈利性和风险敏感性。
translated by 谷歌翻译
用于高维最近邻搜索问题(NNS)的大多数有效次线性时间索引算法基于环境空间$ \ mathbb {R} ^ d $的空间分区。受最近关于通用度量空间NNS的理论工作的启发[Andoni,Naor,Nikolov,Razenshteyn,Waingarten STOC 2018,FOCS 2018],我们开发了一个新的框架,用于构建这样的分区,将问题简化为平衡图分区,然后通过监督分类。我们分别用KaHIP图分区器[Sanders,Schulz SEA 2013]和神经网络实例化这种通用方法,以获得一种称为NeuralLocality-Sensitive Hashing(Neural LSH)的新分区程序。在NNS的几个标准基准测试中,我们的实验表明,通过Neural LSH找到的分区始终优于通过基于量化和树的方法找到的分区。
translated by 谷歌翻译
我们提出了一种新颖的端到端基于方面的评级预测模型(AspeRa),该模型基于项目的评论文本来估计用户评级,同时发现可用于解释预测或简档用户的评论的连贯方面。 AspeRa模型使用最大边际损失进行联合项目和用户嵌入式学习以及双头架构;在两个真实世界的用户评论数据集中,它显着优于最近提出的最先进模型,如DeCoCoNN,HFT,NARRE和TransRev。基于这些方面的定性检验和预测模型的定量评估,我们展示了如何在推荐系统中使用方面嵌入。
translated by 谷歌翻译
在线排名评估是信息检索的关键挑战之一。虽然可以通过交错比较方法推断出资源管理者的偏好,但如何有效地选择一对资源管理者来生成结果列表而不会过多地降低用户体验可以被形式化为一个K型武装的决斗性强盗问题,这是一个在线部分信息学习框架,其中反馈以对位偏好的形式出现。商业搜索系统可以同时评估大量的商人,并且在大量存在者的存在下有效地进行扩展尚未得到充分研究。在本文中,我们专注于在所谓的Condorcet假设下解决大规模在线排名评估问题,其中存在一个优于所有其他计划者的最优计算器。我们提出Merge Double ThompsonSampling(MergeDTS),它首先采用分治策略,将算法进行的比较定位到小批量的运算符,然后使用Thompson采样(TS)来减少这些小内部的次优助手之间的比较批次。 MergeDTS的有效性(遗憾)和效率(时间复杂度)通过网络搜索在线评估领域的实例进行了广泛评估。我们的主要观点是,对于大规模的Condorcet级别评估问题,MergeDTS表现出最先进的决斗强盗算法。
translated by 谷歌翻译