强化学习中的选项框架模拟了技能或时间延长的动作序列的概念。发现可重复使用的技能通常需要构建选项,导航到瓶颈状态。这项工作采用了一种互补的方法,我们试图找到导航到具有里程碑意义的国家的选择。这些状态是连接良好的区域的原型代表,因此可以相对容易地访问相关区域。在这项工作中,我们提出了Successor Options,它使用Successor Representations来构建状态空间模型。使用新颖的伪奖励来学习这些选项策略,并且可以轻松地将模型转换为高维空间。此外,我们还提出了一个在构造成功表示和构建选项之间迭代的增量后继选项模型,当robustSuccessor表示不能仅仅从原始操作构建时,这很有用。我们展示了我们的方法对网格世界的集合以及Fetch的高维机器人控制环境的功效。
translated by 谷歌翻译
我们提出了一种学习嵌入式几次学习的方法,该方法适用于任何方式和任意数量的镜头(无镜头)。除了将类原型固定为样本嵌入的欧几里德平均值之外,我们允许它们生活在更高维度的空间(嵌入式类模型)中,并学习原型和模型参数。类表示函数是隐式定义的,它允许我们使用简单的恒定大小结构来处理每个类的可变数量的镜头。类嵌入包含度量学习,这有助于在不占用类表示空间的情况下添加新类。尽管一般而且没有调整到基准,但我们的方法在标准的少数基准数据集上实现了最先进的性能。
translated by 谷歌翻译
自动化应用正在推动在仓库和制造环境中部署许多高DoFmanipulator。这促使人们努力优化涉及单臂的操纵任务。然而,协调多个臂以进行操纵,引入了由增加的DoF引起的额外的计算挑战,以及许多操纵器可执行的可用操作的组合增加,包括臂之间的切换。这里的重点是寻找和放置任务的情况,这需要执行一系列切换,从而实现计算效率,渐近最优性和实际时间性能。本文利用多机器人运动规划的最新进展,为高DoF系统提出了一种新的dRRT *算法的多模态扩展。关键的见解是,在给定可能的拾取和切换配置的输入集的情况下,直接探索集成多臂任务和运动规划问题的复合空间,而不是天真地解决运动规划问题的序列。渐近最优性保证是通过随着时间的推移采样额外的选择和移交可能。评估表明,该方法可以快速找到初始解,并随着时间的推移提高其质量。它还成功地将解决方案引入到与替代方案相关的更难的问题实例中,并且随着机器人数量的增加而有效地扩展。
translated by 谷歌翻译
深度学习是计算机科学中发展最快的技术之一,具有多种应用。但到目前为止,这种前所未有的增长仅限于深度学习专家的消费。主要的挑战是学习编程库的陡峭学习曲线和直观系统的缺陷,使非专家能够消耗深度学习。为了实现这一目标,我们研究了无代码范式的有效性,以设计深度学习模型。特别是,与传统的编程和替代的可视编程范例相比,可视化的拖放界面更有效。我们进行不同专家级别的用户研究,以测量不同编程范例中的入门级障碍和开发人员负载。对于传统的编程方法,我们获得了90的系统可用性量表(SUS)和建议的可视编程的NASA任务负载指数(TLX)得分为21和68和52。
translated by 谷歌翻译
基于编码器 - 解码器的神经架构作为端到端开放域对话系统中最先进方法的基础。由于大多数此类系统都采用最大似然(MLE)目标进行训练,因此无法解决诸如缺乏普遍性和一般响应问题等问题,即系统响应可能是对大量用户话语的回答,例如“也许,我不知道。“通过选择来自不同方法的响应,在每个回合中对系统响应的相关性和兴趣性有明确的反馈可以是减轻这些问题和提高系统质量的有用信号。为实现这一目标,我们提出了一个系统,用于评估每个对话框的聊天机器人响应,以实现一致性和一致性。我们的系统提供明确的转弯级别对话质量反馈,我们表明它与人类评估高度相关。为了表明在神经反应生成模型中包含这种反馈提高了对话质量,我们提出了两种不同的互补机制,将显式反馈纳入神经反应生成模型:在训练期间重新激活和直接修改损失函数。 Ourstudies表明,包含这些组合反馈机制的响应生成模型在开放域语音对话设置中产生更具吸引力和连贯性的响应,使用自动和人工评估显着提高响应质量。
translated by 谷歌翻译
在实际大规模机器学习中使用的步长调度与由随机近似理论认为是最优的步长调度之间存在明显的差异。理论上,大多数结果利用多项式衰减学习速率时间表,而在实践中,“StepDecay”时间表是最受欢迎的时间表之一,其中学习速率被切割每个恒定数量的时期(即,这是几何衰减时间表)。这项工作考察了流量最小二乘回归的随机优化问题的步骤衰减时间表(在非强凸和强凸的情况下),其中我们表明最佳学习速率时间表的尖锐理论表征远比前面提到的更为细微。工作。我们特别关注使用随机梯度下降的最终迭代时可达到的速率,这在实践中是常见的。我们的主要结果可证明,适当调整的几何衰减学习率计划提供了任何多项式衰减学习率计划的指数改进(就条件数而言)。我们还为这些结果的广泛适用性提供实验支持,包括用于培训现代深度神经网络。
translated by 谷歌翻译
我们提出了第一个使用事件相机进行物体检测和分类的基于事件的,节能的方法。与传统的基于帧的相机相比,选择事件相机会产生高时间分辨率(微秒级),低功耗(几百mW)和宽动态范围(120 dB)作为吸引人的特性。然而,基于事件的对象识别系统在准确性方面远远落后于基于帧的对象。为此,本文提出了一种基于事件的特征提取方法,该方法通过在图像帧上累积局部活动,然后将主成分分析(PCA)应用于归一化的邻域来设计。随后,我们通过利用特征表示的低维度来提出一种无回溯的k-d树机制预处理特征匹配。另外,所提出的kd树机制允许特征选择以在硬件资源被限制以实现降维时获得较低维度的字典表示。因此,所提出的系统可以在现场可编程门阵列(FPGA)设备上实现,从而导致高性能。资源比率。所提出的系统在用于对象分类的基于事实的基于事件的数据集上进行测试,显示出优越的分类性能和相关的最新算法。此外,我们通过有限的训练数据和地面truthannotations在非控制照明条件下验证了实验室设置中的物体检测方法和实时FPGA性能。
translated by 谷歌翻译
本文研究了一类受限制的不安定多臂匪徒。约束的形式是随时可用的武器。这种变化可以是随机的也可以是半确定的。可以选择在每个决策间隔中播放固定数量的范围。每个军队的游戏都依赖于州的奖励。通过来自所释放的臂的二进制反馈信号可以部分地观察到当前的武器状态。武器的当前可用性是完全可以观察到的。目标是最大限度地累积奖励。有关部分国家信息的军备未来可用性的不确定性使这一目标具有挑战性。使用Whittle的索引策略分析了这个优化问题。为此,研究了一个不受约束的不安分的单臂匪徒。它被证明可以接受阈值类型的最优策略,并且也是可索引的。提出了一种计算Whittle指数的算法。此外,为了估计各种解的次优性程度,推导了价值函数的上界。仿真研究比较了Whittle指数,修正的Wittle指数和近视指标的表现。
translated by 谷歌翻译
Executable semantic parsing is the task of converting natural language utterances into logical forms that can be directly used as queries to get a response. We build a transfer learning framework for executable semantic parsing. We show that the framework is effective for Question Answering (Q&A) as well as for Spoken Language Understanding (SLU). We further investigate the case where a parser on a new domain can be learned by exploiting data on other domains, either via multi-task learning between the target domain and an auxiliary domain or via pre-training on the auxiliary domain and fine-tuning on the target domain. With either flavor of transfer learning , we are able to improve performance on most domains; we experiment with public data sets such as Overnight and NLmaps as well as with commercial SLU data. The experiments carried out on data sets that are different in nature show how executable semantic parsing can unify different areas of NLP such as Q&A and SLU.
translated by 谷歌翻译
优化深度神经网络在很大程度上被认为是一种经验过程,需要手动调整几个参数,例如学习速率,重量衰减和辍学率。可以说,学习率是这些学习中最重要的,这在最近的研究中得到了更多的关注。本文提出了一种计算深度神经网络学习率的新方法。我们推导出一个动态计算学习率的理论框架,然后在标准数据集和体系结构上展示实验结果,以证明我们的方法的有效性。
translated by 谷歌翻译