时间序列数据出现在各种应用程序中,例如智能运输和环境监测。时间序列分析的基本问题之一是时间序列预测。尽管最近的深度时间序列预测方法取得了成功,但它们仍需要足够的历史价值观察才能进行准确的预测。换句话说,输出长度(或预测范围)与输入和输出长度之和的比率应足够低(例如,0.3)。随着比率的增加(例如,到0.8),预测准确性的不确定性显着增加。在本文中,我们从理论和经验上都表明,通过将相关时间序列检索作为参考文献可以有效地降低不确定性。在理论分析中,我们首先量化不确定性,并显示其与平方误差(MSE)的连接。然后,我们证明,带有参考的模型比没有参考的模型更容易学习,因为检索到的参考可能会降低不确定性。为了凭经验证明基于检索的时间序列预测模型的有效性,我们引入了一种简单而有效的两阶段方法,称为“保留”,该方法由关系检索和内容合成组成。我们还表明,可以轻松地适应时空时间序列和时间序列插补设置。最后,我们评估了现实世界数据集上的延迟,以证明其有效性。
translated by 谷歌翻译
多模式变压器的最新努力通过合并视觉和文本信息改善了视觉上丰富的文档理解(VRDU)任务。但是,现有的方法主要集中于诸如单词和文档图像贴片之类的细粒元素,这使得他们很难从粗粒元素中学习,包括短语和显着视觉区域(如突出的图像区域)等自然词汇单元。在本文中,我们对包含高密度信息和一致语义的粗粒元素更为重要,这对于文档理解很有价值。首先,提出了文档图来模拟多层次多模式元素之间的复杂关系,其中通过基于群集的方法检测到显着的视觉区域。然后,提出了一种称为mmlayout的多模式变压器,以将粗粒的信息纳入基于图形的现有预训练的细颗粒的多峰变压器中。在mmlayout中,粗粒信息是从细粒度聚集的,然后在进一步处理后,将其融合到细粒度中以进行最终预测。此外,引入常识增强以利用天然词汇单元的语义信息。关于四个任务的实验结果,包括信息提取和文档问答,表明我们的方法可以根据细粒元素改善多模式变压器的性能,并使用更少的参数实现更好的性能。定性分析表明,我们的方法可以在粗粒元素中捕获一致的语义。
translated by 谷歌翻译
近年来,商业上可用和负担得起的四足动物机器人激增,其中许多平台在研究和行业中都被积极使用。随着腿部机器人的可用性的增长,对这些机器人能够执行有用技能的控制器的需求也是如此。但是,大多数用于控制器开发的基于学习的框架都集中在培训机器人特定的控制器上,该过程需要为每个新机器人重复。在这项工作中,我们引入了一个用于训练四足机器人的广义运动(Genloco)控制器的框架。我们的框架合成了可以部署在具有相似形态的各种四足动物的机器人上的通用运动控制器。我们提出了一种简单但有效的形态随机化方法,该方法在程序上生成了一组训练的模拟机器人。我们表明,通过对这套模拟机器人进行训练,我们的模型获得了更多的通用控制策略,这些策略可以直接转移到具有多种形态的新型模拟和真实世界机器人中,在训练过程中未观察到。
translated by 谷歌翻译
我们解决了使四足机器人能够使用强化学习在现实世界中执行精确的射击技巧的问题。开发算法使腿部机器人能够向给定的目标射击足球,这是一个具有挑战性的问题,它将机器人运动控制和计划结合到一项任务中。为了解决这个问题,我们需要考虑控制动态腿部机器人期间的动态限制和运动稳定性。此外,我们需要考虑运动计划,以在地面上射击难以模拟的可变形球,并不确定摩擦到所需的位置。在本文中,我们提出了一个层次结构框架,该框架利用深厚的强化学习来训练(a)强大的运动控制政策,可以跟踪任意动议,以及(b)一项计划政策,以决定所需的踢球运动将足球射击到目标。我们将提议的框架部署在A1四足动物机器人上,使其能够将球准确地射击到现实世界中的随机目标。
translated by 谷歌翻译
Vision Transformer(VIT)最近由于其出色的模型功能而引起了计算机视觉的极大关注。但是,大多数流行的VIT模型都有大量参数,从而限制了其在资源有限的设备上的适用性。为了减轻这个问题,我们提出了Tinyvit,这是一个新的小型,有效的小型视觉变压器,并通过我们提议的快速蒸馏框架在大型数据集上预处理。核心思想是将知识从大型模型转移到小型模型,同时使小型模型能够获得大量预处理数据的股息。更具体地说,我们在预训练期间应用蒸馏进行知识转移。大型教师模型的徽标被稀疏并提前存储在磁盘中,以节省内存成本和计算开销。微小的学生变形金刚自动从具有计算和参数约束的大型审计模型中缩小。全面的实验证明了TinyVit的功效。它仅具有21m参数的Imagenet-1k上的前1个精度为84.8%,与在Imagenet-21K上预读的SWIN-B相当,而使用较少的参数则使用了4.2倍。此外,增加图像分辨率,TinyVit可以达到86.5%的精度,仅使用11%参数,比SWIN-L略好。最后但并非最不重要的一点是,我们在各种下游任务上展示了TinyVit的良好转移能力。代码和型号可在https://github.com/microsoft/cream/tree/main/tinyvit上找到。
translated by 谷歌翻译
最近,许多半监督的对象检测(SSOD)方法采用教师学生框架并取得了最新的结果。但是,教师网络与学生网络紧密相结合,因为教师是学生的指数移动平均值(EMA),这会导致表现瓶颈。为了解决耦合问题,我们为SSOD提出了一个周期自我训练(CST)框架,该框架由两个老师T1和T2,两个学生S1和S2组成。基于这些网络,构建了一个周期自我训练机制​​,即S1 $ {\ rightarrow} $ t1 $ {\ rightArow} $ s2 $ {\ rightArrow} $ t2 $ {\ rightArrow} $ s1。对于S $ {\ Rightarrow} $ T,我们还利用学生的EMA权重来更新老师。对于t $ {\ rightarrow} $ s,而不是直接为其学生S1(S2)提供监督,而是老师T1(T2)为学生S2(S1)生成伪标记,从而松散耦合效果。此外,由于EMA的财产,老师最有可能积累学生的偏见,并使错误变得不可逆转。为了减轻问题,我们还提出了分配一致性重新加权策略,在该策略中,根据教师T1和T2的分配一致性,将伪标记重新加权。通过该策略,可以使用嘈杂的伪标签对两个学生S2和S1进行训练,以避免确认偏见。广泛的实验证明了CST的优势,通过将AP比基线优于最先进的方法提高了2.1%的绝对AP改进,并具有稀缺的标记数据,而胜过了2.1%的绝对AP。
translated by 谷歌翻译
旨在找到合成靶分子的反应途径的循环合成计划在化学和药物发现中起着重要作用。此任务通常被建模为搜索问题。最近,数据驱动的方法吸引了许多研究兴趣,并显示了反递归计划的有希望的结果。我们观察到在搜索过程中多次访问了相同的中间分子,并且通常在先前基于树的方法(例如,或树搜索,蒙特卡洛树搜索)中独立处理。这样的裁员使搜索过程效率低下。我们提出了基于图的搜索策略,以消除任何中间分子的冗余探索。由于图形上的搜索比在树上更复杂,因此我们进一步采用图形神经网络来指导图形搜索。同时,我们的方法可以在图中搜索一批目标,并在基于树的搜索方法中删除目标间重复。两个数据集的实验结果证明了我们方法的有效性。尤其是在广泛使用的USPTO基准测试中,我们将搜索成功率提高到99.47%,以2.6分提高了先前的最新性能。
translated by 谷歌翻译
天气预报是一项有吸引力的挑战性任务,因为它对人类生活和大气运动的复杂性的影响。在大量历史观察到的时间序列数据的支持下,该任务适用于数据驱动的方法,尤其是深层神经网络。最近,基于图神经网络(GNN)方法在时空预测方面取得了出色的性能。但是,基于规范的GNNS方法仅分别对每个站的气象变量的局部图或整个车站的全局图进行建模,从而缺乏不同站点的气象变量之间的信息相互作用。在本文中,我们提出了一种新型的层次时空图形神经网络(Histgnn),以模拟多个站点气象变量之间的跨区域时空相关性。自适应图学习层和空间图卷积用于构建自学习图,并研究可变级别和站点级别图的节点之间的隐藏依赖性。为了捕获时间模式,扩张的成立为GATE时间卷积的主干旨在对长而各种气象趋势进行建模。此外,提出了动态的交互学习来构建在层次图中传递的双向信息。三个现实世界中的气象数据集的实验结果表明,史基元超过7个基准的卓越性能,并且将误差降低了4.2%至11.6%,尤其是与最先进的天气预测方法相比。
translated by 谷歌翻译
近年来,涌入3D自主车辆对象检测算法。但是,很少关注取向预测。现有的研究工作提出了各种预测方法,但尚未进行全面的,确凿的审查。通过我们的实验,我们使用基提3D对象检测数据集分类和经验地比较各种现有方向表示的准确性性能,并提出了一种新的方向表示形式:三象。其中,基于笛卡尔的基于笛卡尔的表示或单个垃圾箱实现了最高的精度,具有额外的通道输入(位置编码和深度图),不会提高预测性能。我们的代码在github上发布:https://github.com/umd-fire-coml/kittio -orientation-learning
translated by 谷歌翻译
最近,通过对比视觉 - 语言预训练(CLIP)的零射击和少量学习已经在2D视觉识别上显示了鼓舞人心的性能,从而了解在开放词汇设置中将图像与其相应的文本匹配。然而,它仍然在探索中,是否通过2D中的大规模图像文本对预先训练的剪辑可以推广到3D识别。在本文中,我们通过提出引人点来识别这种设置是可行的,这在剪辑编码点云和3D类别文本之间进行对准。具体地,我们通过将点云投射到多视图深度映射而不呈现,并聚合视图零拍摄预测以实现从2D到3D的知识转移。首先,我们设计了一个视图间适配器,以更好地提取全局特征,并自适应地融合从3D到2D预培训的剪辑中学到的几次拍摄知识。只需在几次拍摄设置中微调轻量级适配器,可以在很大程度上提高要素的性能。此外,我们遵守CONTCLIP和古典3D监督网络之间的互补财产。通过简单的合奏,PointClip提高了基线的性能,甚至超越了最先进的模型。因此,PointClip是在低资源成本和数据制度下通过剪辑的有效3D点云理解的有希望的替代方案。我们在广泛采用的ModelNet10,ModelNet40和挑战ScanObjectnn上进行彻底的实验,以证明Pointclip的有效性。代码在https://github.com/zrrskywalker/pointclip发布。
translated by 谷歌翻译