情绪可以提供自然的交流方式,以补充许多领域中社交机器人(例如文本和语音)现有的多模式能力。我们与112、223和151名参与者进行了三项在线研究,以调查使用情绪作为搜救(SAR)机器人的交流方式的好处。在第一个实验中,我们研究了通过机器人的情绪传达与SAR情况有关的信息的可行性,从而导致了从SAR情况到情绪的映射。第二项研究使用控制控制理论是推导此类映射的替代方法。此方法更灵活,例如允许对不同的情绪集和不同机器人进行调整。在第三个实验中,我们使用LED作为表达通道为外观受限的室外现场研究机器人创建了情感表达。在各种模拟的SAR情况下,使用这些情感表达式,我们评估了这些表达式对参与者(采用救援人员的作用)的影响。我们的结果和提议的方法提供了(a)有关情感如何帮助在SAR背景下传达信息的见解,以及(b)在(模拟)SAR通信环境中添加情绪为传播方式的有效性的证据。
translated by 谷歌翻译
局部线性嵌入(LLE)是一种非线性光谱维度降低和多种学习方法。它有两个主要步骤,分别是线性重建和分别在输入空间和嵌入空间中的点的线性嵌入。在这项工作中,我们从随机的角度看线性重建步骤,其中假定每个数据点都以其线性重建权重为潜在因素。 LLE的随机线性重建是使用预期最大化解决的。我们表明,三种基本维度降低方法(即LLE,因子分析和概率主体组件分析(PCA))之间存在理论上的联系。 LLE的随机线性重建与因子分析和概率PCA相似。这也解释了为什么因子分析和概率PCA是线性的,而LLE是一种非线性方法。这项工作结合了两种降低维度的广泛方法,即光谱和概率算法。
translated by 谷歌翻译
使用玩具航海导航环境,我们表明,只有已知有关部分观察到的马尔可夫决策过程(POMDP)的部分信息,可以使用动态编程。通过将不确定性纳入我们的模型,我们表明可以构建维护安全的导航策略。添加受控感测方法,我们表明这些策略同时也可以降低测量成本。
translated by 谷歌翻译
在科学应用中使用强化学习(RL),如材料设计和自动化学,正在增加。然而,一个主要挑战实际上,测量系统的状态通常在科学应用中昂贵且耗时,而使用RL的策略学习需要在每次步骤之后进行测量。在这项工作中,我们将测量成本以耗旧奖励的形式明确,并提出了一个框架,使得能够从架子的深rl算法中学习选择操作和确定是否测量当前状态的策略每个时间步骤的系统。通过这种方式,该代理商学会与信息成本相比平衡信息。我们的研究结果表明,当在该制度下培训时,Dueling DQN和PPO代理商可以学习最佳的行动政策,同时制作多达50 \%的状态测量,并且经常性的神经网络可以在测量中产生大于50±50%。我们假设这些减少可以帮助降低屏障将RL应用于现实世界的科学应用。
translated by 谷歌翻译
这是关于生成对抗性网络(GaN),对抗性自身额外的教程和调查纸张及其变体。我们开始解释对抗性学习和香草甘。然后,我们解释了条件GaN和DCGAN。介绍了模式崩溃问题,介绍了各种方法,包括小纤维GaN,展开GaN,Bourgan,混合GaN,D2Gan和Wasserstein GaN,用于解决这个问题。然后,GaN中的最大似然估计与F-GaN,对抗性变分贝叶斯和贝叶斯甘甘相同。然后,我们涵盖了GaN,Infogan,Gran,Lsgan,Enfogan,Gran,Lsgan,Catgan,MMD Gan,Lapgan,Progressive Gan,Triple Gan,Lag,Gman,Adagan,Cogan,逆甘,Bigan,Ali,Sagan,Sagan,Sagan,Sagan,甘肃,甘肃,甘河的插值和评估。然后,我们介绍了GaN的一些应用,例如图像到图像转换(包括Pacchgan,Cyclegan,Deepfacedrawing,模拟GaN,Interactive GaN),文本到图像转换(包括Stackgan)和混合图像特征(包括罚球和mixnmatch)。最后,我们解释了基于对冲学习的AutoEncoders,包括对手AutoEncoder,Pixelgan和隐式AutoEncoder。
translated by 谷歌翻译
独立的强化学习算法没有理论保证,用于在多代理设置中找到最佳策略。然而,在实践中,先前的作品报告了在某些域中的独立算法和其他方面的良好性能。此外,文献中缺乏对独立算法的优势和弱点的全面研究。在本文中,我们对四个Pettingzoo环境进行了独立算法的性能的实证比较,这些环境跨越了三种主要类别的多助理环境,即合作,竞争和混合。我们表明,在完全可观察的环境中,独立的算法可以在协作和竞争环境中与多代理算法进行同步。对于混合环境,我们表明通过独立算法培训的代理商学会单独执行,但未能学会与盟友合作并与敌人竞争。我们还表明,添加重复性提高了合作部分可观察环境中独立算法的学习。
translated by 谷歌翻译
在过去的十年中,多智能经纪人强化学习(Marl)已经有了重大进展,但仍存在许多挑战,例如高样本复杂性和慢趋同稳定的政策,在广泛的部署之前需要克服,这是可能的。然而,在实践中,许多现实世界的环境已经部署了用于生成策略的次优或启发式方法。一个有趣的问题是如何最好地使用这些方法作为顾问,以帮助改善多代理领域的加强学习。在本文中,我们提供了一个原则的框架,用于将动作建议纳入多代理设置中的在线次优顾问。我们描述了在非传记通用随机游戏环境中提供多种智能强化代理(海军上将)的问题,并提出了两种新的基于Q学习的算法:海军上将决策(海军DM)和海军上将 - 顾问评估(Admiral-AE) ,这使我们能够通过适当地纳入顾问(Admiral-DM)的建议来改善学习,并评估顾问(Admiral-AE)的有效性。我们从理论上分析了算法,并在一般加上随机游戏中提供了关于他们学习的定点保证。此外,广泛的实验说明了这些算法:可以在各种环境中使用,具有对其他相关基线的有利相比的性能,可以扩展到大状态行动空间,并且对来自顾问的不良建议具有稳健性。
translated by 谷歌翻译
这是关于Boltzmann机器(BM),受限玻尔兹曼机器(RBM)和Deep信念网络(DBN)的教程和调查论文。我们从概率图形模型,Markov随机字段,Gibbs采样,统计物理学,ISING模型和Hopfield网络的必需背景开始。然后,我们介绍BM和RBM的结构。解释了可见变量和隐藏变量的条件分布,RBM中的GIBBS采样以生成变量,通过最大似然估计训练BM和RBM以及对比度差异。然后,我们讨论变量的不同可能的离散和连续分布。我们介绍有条件的RBM及其训练方式。最后,我们将深度信念网络解释为RBM模型的一堆。本文有关玻尔兹曼机器的论文在包括数据科学,统计,神经计算和统计物理学在内的各个领域都有用。
translated by 谷歌翻译
这是一份有关降低光谱维度降低方法统一的教程和调查论文,通过半决赛编程(SDP)学习内核学习,最大方差展开(MVU)或半芬特嵌入(SDE)及其变体。我们首先解释了如何将频谱降低方法降低方法统一为具有不同内核的内核主成分分析(PCA)。在距离矩阵方面,该统一可以解释为内核的本本函数学习或表示。然后,由于光谱方法被统一为内核PCA,因此我们说,让我们学习将数据的歧管展开至最大方差的最佳内核。我们首先简要介绍了SDP的内核学习来进行转导任务。然后,我们详细解释MVU。解释了使用最近的邻居图,通过课堂展开,Fisher Criterion和通过彩色MVU进行的各种监督MVU。我们还使用本征函数和内核映射解释了MVU的样本外扩展。最后,我们介绍了MVU的其他变体,包括尊重嵌入,放松的MVU和Landmark MVU的动作,以获取大数据。
translated by 谷歌翻译
这是针对非线性维度和特征提取方法的教程和调查论文,该方法基于数据图的拉普拉斯语。我们首先介绍邻接矩阵,拉普拉斯矩阵的定义和拉普拉斯主义的解释。然后,我们涵盖图形和光谱聚类的切割,该谱图应用于数据子空间。解释了Laplacian征收及其样本外扩展的不同优化变体。此后,我们将保留投影的局部性及其内核变体作为拉普拉斯征本征的线性特殊案例。然后解释了图嵌入的版本,这些版本是Laplacian eigenmap和局部保留投影的广义版本。最后,引入了扩散图,这是基于数据图和随机步行的方法。
translated by 谷歌翻译