表面分级是在施工现场管道中的一项重要任务,这是平衡含有预倾角沙桩的不平衡区域的过程。这种劳动密集型过程通常是由任何建筑工地的关键机械工具推土机进行的。当前的自动化表面分级的尝试实现了完美的定位。但是,在实际情况下,由于代理人的感知不完善,因此该假设失败了,从而导致性能降解。在这项工作中,我们解决了不确定性下自动分级的问题。首先,我们实施模拟和缩放现实世界原型环境,以在此环境中快速策略探索和评估。其次,我们将问题形式化为部分可观察到的马尔可夫决策过程,并培训能够处理此类不确定性的代理商。我们通过严格的实验表明,经过完美本地化训练的代理人在出现本地化不确定性时会遭受降低的性能。但是,使用我们的方法培训的代理商将制定更强大的政策来解决此类错误,从而表现出更好的评分性能。
translated by 谷歌翻译
我们提出了一个简明的视频表示,该视频将感知有意义的功能编码为图。通过这种表示,我们旨在利用视频中的大量冗余并节省计算。首先,我们通过将Superpixel视为图形节点并在相邻的Superpixels之间创建空间和时间连接来构建视频的超级像素图表示。然后,我们利用图形卷积网络来处理此表示形式并预测所需的输出。结果,我们能够使用更少的参数训练模型,这转化为简短的培训期和计算资源要求的减少。一项关于公开可用数据集动力学-400和Charades的全面实验研究表明,该提出的方法具有很高的成本效益,并且在培训和推理过程中使用有限的商品硬件。它减少了计算要求10倍,同时获得与最先进方法相当的结果。我们认为,提出的方法是一个有希望的方向,可以为更有效地解决视频理解打开大门,并使更多的资源用户能够在该研究领域蓬勃发展。
translated by 谷歌翻译
重播缓冲区是许多强化学习方案中的关键组成部分。然而,他们的理论特性尚未完全理解。在本文中,我们分析了一个系统,将随机过程X推入重型缓冲区,然后随机采样以从重播缓冲区生成随机过程y。我们提供了采样过程的属性分析,例如平稳性,马尔可波和自相关,就原始过程的属性而言。我们的理论分析阐明了为什么重播缓冲液可能是良好的去率。我们的分析提供了理论工具,以证明基于重播缓冲算法的收敛性,这些算法在强化学习方案中很普遍。
translated by 谷歌翻译
在这项工作中,我们旨在解决自动分级问题,在这种情况下,必须将推土机弄平不平衡的区域。此外,我们探索了弥合模拟环境和实际场景之间差距的方法。我们设计了一个现实的物理模拟,也是模仿真实推土机动力学和感官信息的缩放的真实原型环境。我们建立了启发式方法和学习策略,以解决问题。通过广泛的实验,我们表明,尽管启发式方法能够在清洁且无噪音的模拟环境中解决该问题,但在面对现实世界情景时,它们在灾难性的环境中失败。由于启发式方法能够在模拟环境中成功解决任务,因此我们表明它们可以被利用来指导学习代理,该学习代理可以在模拟和缩放原型环境中概括和解决任务。
translated by 谷歌翻译
在这项工作中,我们建立了对砂桩镶嵌的不均匀区域的解说中的自治控制的启发式和学习策略。我们将问题正式化为马尔可夫决策过程,设计了一个演示了代理环境交互的模拟,最后将我们的模拟器与真正的Dozer原型进行了比较。我们使用钢筋学习,行为克隆和对比学习的方法来培训混合政策。我们的培训代理AGPNET达到人力级性能,优于自主分级任务的当前最先进的机器学习方法。此外,我们的代理能够从随机情景中推广到看不见的世界问题。
translated by 谷歌翻译
图形神经网络(GNNS)已成为与图形相关任务的高度成功的工具。然而,现实世界问题涉及非常大的图表,并且将GNNS所需的计算资源迅速增长。此外,实际图的嘈杂性质和大小导致GNNS如果不正常化,则会过度适合。令人惊讶的是,最近的作品表明,大图通常涉及许多可以消除的冗余组件,而不会影响太多性能。这包括通过GNN层或作为缩小输入图的预处理步骤的推理期间节点或边缘去除。这种有趣现象使得能够开发高效和准确的最先进的GNN。在本文中,我们进一步迈出了逐步逐步揭示这种现象,并提出一种称为地区敏感修剪(LSP)的系统方法,用于基于位置敏感散列的曲线图。我们的目标是缩小图形,使原始图的类似本地环境导致生成的稀疏图中的类似环境,这是与图形相关任务的重要特征。为了证明基于本地图形属性的修剪应用,我们举例说明了基于各种场景中的其他修剪策略应用修剪的优势。关于合成和现实世界数据集的广泛实验证明了LSP的优越性,从大图中除去大量边缘而不会影响性能,伴随着相当大的加速度。
translated by 谷歌翻译
在现实世界中的机器人在现实环境中的许多可能的应用领域都铰接机器人掌握物体的能力。因此,机器人Grasping多年来一直是有效的研究领域。通过我们的出版物,我们有助于使机器人能够掌握,特别关注垃圾桶采摘应用。垃圾拣选尤其挑战,由于经常杂乱和非结构化的物体排列以及通过简单的顶部掌握的物体的频繁避免的避神。为了解决这些挑战,我们提出了一种基于软演员 - 评论家(SAC)的混合离散调整的完全自我监督的强化学习方法。我们使用参数化运动原语来推动和抓握运动,以便为我们考虑的困难设置启用灵活的适应行为。此外,我们使用数据增强来提高样本效率。我们证明了我们提出的关于具有挑战性的采摘情景的方法,其中平面掌握学习或行动离散化方法会面临很大困难
translated by 谷歌翻译
许多微体系式优化为深度神经网络解锁了巨大的处理能力,从而促进了AI革命。随着这种优化的精疲力尽,现代AI的增长现在是通过培训系统的性能,尤其是其数据流动的。我们没有专注于单个加速器,而是研究了全系统规模的大规模培训的数据移动特征。基于我们的工作量分析,我们设计了HammingMesh,这是一种新颖的网络拓扑,以低成本提供高的带宽,并具有很高的工作计划灵活性。具体而言,HammingMesh可以支持具有两个并行性的两个维度的深度学习培训工作的完整带宽和隔离。此外,它还为通用流量的高全球带宽提供支持。因此,HammingMesh将为未来的大规模深度学习系统供电,并具有极端的带宽要求。
translated by 谷歌翻译
Over the past decade, neural networks have been successful at making predictions from biological sequences, especially in the context of regulatory genomics. As in other fields of deep learning, tools have been devised to extract features such as sequence motifs that can explain the predictions made by a trained network. Here we intend to go beyond explainable machine learning and introduce SEISM, a selective inference procedure to test the association between these extracted features and the predicted phenotype. In particular, we discuss how training a one-layer convolutional network is formally equivalent to selecting motifs maximizing some association score. We adapt existing sampling-based selective inference procedures by quantizing this selection over an infinite set to a large but finite grid. Finally, we show that sampling under a specific choice of parameters is sufficient to characterize the composite null hypothesis typically used for selective inference-a result that goes well beyond our particular framework. We illustrate the behavior of our method in terms of calibration, power and speed and discuss its power/speed trade-off with a simpler data-split strategy. SEISM paves the way to an easier analysis of neural networks used in regulatory genomics, and to more powerful methods for genome wide association studies (GWAS).
translated by 谷歌翻译
Vision Transformers (ViTs) have become a dominant paradigm for visual representation learning with self-attention operators. Although these operators provide flexibility to the model with their adjustable attention kernels, they suffer from inherent limitations: (1) the attention kernel is not discriminative enough, resulting in high redundancy of the ViT layers, and (2) the complexity in computation and memory is quadratic in the sequence length. In this paper, we propose a novel attention operator, called lightweight structure-aware attention (LiSA), which has a better representation power with log-linear complexity. Our operator learns structural patterns by using a set of relative position embeddings (RPEs). To achieve log-linear complexity, the RPEs are approximated with fast Fourier transforms. Our experiments and ablation studies demonstrate that ViTs based on the proposed operator outperform self-attention and other existing operators, achieving state-of-the-art results on ImageNet, and competitive results on other visual understanding benchmarks such as COCO and Something-Something-V2. The source code of our approach will be released online.
translated by 谷歌翻译