最近的进展表明,使用对比图像文本对的大规模预训练可以是从自然语言监督的高质量视觉表演学习的有前途的替代方案。从更广泛的监督来源受益,这种新的范例展示了对下游分类任务和数据集的令人印象深刻的可转移性。然而,从图像文本对中学习的知识转移到更复杂的密集预测任务的问题几乎没有访问过。在这项工作中,我们通过隐式和明确地利用来自剪辑的预先训练的知识来提出了一种新的密集预测框架。具体地,我们将剪辑中的原始图像文本匹配问题转换为像素文本匹配问题,并使用像素文本分数图来指导致密预测模型的学习。通过进一步使用图像中的上下文信息来提示语言模型,我们能够促进我们的模型来更好地利用预先接受训练的知识。我们的方法是模型 - 不可行的,它可以应用于任意密集的预测系统和各种预先训练的视觉底座,包括夹模型和想象成预先训练的模型。广泛的实验证明了我们对语义分割,对象检测和实例分段任务的方法的卓越性能。代码可在https://github.com/raoyongming/denseclip获得
translated by 谷歌翻译
我们呈现Point-Bert,一种用于学习变压器的新范式,以概括BERT对3D点云的概念。灵感来自BERT,我们将屏蔽点建模(MPM)任务设计为预列火车点云变压器。具体地,我们首先将点云划分为几个本地点修补程序,并且具有离散变化性AutoEncoder(DVAE)的点云标记器被设计为生成包含有意义的本地信息的离散点令牌。然后,我们随机掩盖了一些输入点云的补丁并将它们送入骨干变压器。预训练目标是在销售器获得的点代币的监督下恢复蒙面地点的原始点令牌。广泛的实验表明,拟议的BERT风格的预训练策略显着提高了标准点云变压器的性能。配备了我们的预培训策略,我们表明,纯变压器架构对ModelNet40的准确性为93.8%,在ScanObjectnn的最艰难的设置上的准确性为83.1%,超越精心设计的点云模型,手工制作的设计更少。我们还证明,Point-Bert从新的任务和域中获悉的表示,我们的模型在很大程度上推动了几个射击点云分类任务的最先进。代码和预先训练的型号可在https://github.com/lulutang0608/pint -bert上获得
translated by 谷歌翻译
表是存储数据的永远存在的结构。现在存在不同的方法来物理地存储表格数据。PDF,图像,电子表格和CSV是领先的例子。能够解析由这些结构界限的表结构和提取内容在许多应用中具有很高的重要性。在本文中,我们设计了Diallagarser,一个系统能够在天然PDF和具有高精度的扫描图像中解析表的系统。我们已经进行了广泛的实验,以展示领域适应在开发这种工具方面的功效。此外,我们创建了TableAnnotator和Excelannotator,构成了基于电子表格的弱监督机制和管道,以实现表解析。我们与研究界共享这些资源,以促进这种有趣方向的进一步研究。
translated by 谷歌翻译
该调查侧重于地球系统科学中的当前问题,其中可以应用机器学习算法。它概述了以前的工作,在地球科学部,印度政府的持续工作,以及ML算法的未来应用到一些重要的地球科学问题。我们提供了与本次调查的比较的比较,这是与机器学习相关的多维地区的思想地图,以及地球系统科学(ESS)中机器学习的Gartner的炒作周期。我们主要关注地球科学的关键组成部分,包括大气,海洋,地震学和生物圈,以及覆盖AI / ML应用程序统计侦查和预测问题。
translated by 谷歌翻译
在本文中,我们提出了一个围绕一个名为事件分解重新编译网络(EDRNET)的新架构围绕着围绕的框架,以在监督和弱监管的设置中解决视听事件(AVE)定位问题。现实世界中的Aves展示了共同的解开模式(被称为事件进度检查点(EPC)),人类可以通过听觉和视觉感官的合作来察觉。与尝试识别整个事件序列的早期方法不同,使用堆叠的时间卷积来识别整个事件序列,EDRNET模型EPC和EPC间关系。基于EPC表示属于事件类别的秘密,我们介绍了基于国家机器的视频融合,这是一种使用不同的EPC模板序列混合源视频的新型增强技术。此外,我们设计了一个名为陆地海洋损失的新损失功能,以缩小连续前景和背景表示。最后,为了减轻在弱监管期间令人困惑的事件的问题,我们提出了一种称为袋子的预测稳定方法,以实例标签校正。 AVE DataSet上的实验表明,我们的集体框架通过相当大的余量优于最先进的。
translated by 谷歌翻译
节点分类是关系学习中的一个核心任务,在两个密钥原理上具有当前最先进的静脉:(i)预测是节点邻居的排序的禁用 - 不变,并且(ii)预测是函数节点的$ r $ -hop邻域拓扑和属性,$ r \ geq 2 $。图形神经网络和集体推理方法(例如,信仰传播)依赖于最多$ r $-hops的信息。在这项工作中,我们研究了使用更强大的置换不变功能,有时可以避免对分类器的需求收集超过$ 1 $ -hop的信息。为此,我们介绍了一个新的架构,集旋转,概括了德·德斯集(Zaheer等,2017),一种简单而广泛使用的置换不变表示。设置捻线仪理论上提高了DeadSets的表现力,使其捕获更高阶依赖性,同时保持其简单性和低计算成本。经验上,我们看到了在若干任务中的Deplsets套装以及各种图形神经网络和集体推理方案的准确性改进,同时展示了其实现简单和计算效率。
translated by 谷歌翻译
神经辐射场(NERF)在建模3D对象和受控场景中取得了出色的性能,通常在单一的范围内。在这项工作中,我们首次尝试将NERF带到城市规模,观点包括卫星级,旨在捕获一个城市的概览,到地面图像,显示架构的复杂细节。到现场的相机距离的广泛跨度产生了具有不同细节水平和空间覆盖率的多尺度数据,这对Vanilla Nerf产生了极大的挑战,并将其偏向于受损结果。为了解决这些问题,我们介绍了CitynerF,这是一个渐进式学习范例,可以同步地增长NERF模型和训练。从拟合浅景层的遥远的视图开始,随着训练的进展,附加新的块以在越来越近的视图中适应新兴细节。该策略有效地激活了位置编码中的高频信道,并将更复杂的细节展开,因为训练进行了。我们展示了CitalnerF在模拟各种城市规模场景中的优越性,具有巨大的不同视图,以及在不同级别的细节中渲染视图的支持。
translated by 谷歌翻译
我们提出了一种新颖的少量射击动作识别框架,它增强了特定于类特征的特征歧视性,同时学习高阶时间表示。我们的方法的重点是一种新的时空浓缩模块,可以使用专用的本地补丁级别和全局帧级别富集子模块聚合空间和时间上下文。本地补丁级别的浓缩捕获了基于外观的动作特征。另一方面,全局帧级富集明确地编码了广泛的时间上下文,从而随着时间的推移捕获相关对象特征。然后利用产生的时空富集的表示来学习查询和支持动作子序列之间的关系匹配。我们在补丁级丰富的功能上进一步引入了查询类相似性分类器,通过在所提出的框架中加强特征学习来增强特定于类的特征歧视性。实验是在四次拍摄动作识别基准测试中执行:动力学,SSV2,HMDB51和UCF101。我们广泛的消融研究揭示了拟议贡献的好处。此外,我们的方法在所有四个基准上设置了一种新的最先进的。在挑战SSV2基准测试中,与文献中的最佳现有方法相比,我们的方法在分类准确性中实现了3.5%的绝对增益。我们的代码和型号将公开发布。
translated by 谷歌翻译
对于在现实世界中运营的机器人来说,期望学习可以有效地转移和适应许多任务和场景的可重复使用的行为。我们提出了一种使用分层混合潜变量模型来从数据中学习抽象运动技能的方法。与现有工作相比,我们的方法利用了离散和连续潜在变量的三级层次结构,以捕获一组高级行为,同时允许如何执行它们的差异。我们在操纵域中展示该方法可以有效地将离线数据脱落到不同的可执行行为,同时保留连续潜变量模型的灵活性。由此产生的技能可以在新的任务,看不见的对象和州内转移和微调到基于视觉的策略,与现有的技能和仿制的方法相比,产生更好的样本效率和渐近性能。我们进一步分析了技能最有益的方式以及何时:他们鼓励定向探索来涵盖与任务相关的国家空间的大区域,使其在挑战稀疏奖励环境中最有效。
translated by 谷歌翻译
为了提高实例级别检测/分割性能,现有的自我监督和半监督方法从未标记的数据提取非常任务 - 无关或非常任务特定的训练信号。我们认为这两种方法在任务特异性频谱的两端是任务性能的次优。利用太少的任务特定的培训信号导致底下地区任务的地面真理标签导致磨损,而相反的原因会在地面真理标签上过度装修。为此,我们提出了一种新的类别无关的半监督预测(CASP)框架,在提取来自未标记数据的训练信号中实现更有利的任务特异性平衡。与半监督学习相比,CASP通过忽略伪标签中的类信息并具有仅使用任务 - 不相关的未标记数据的单独预先预订阶段来减少训练信号的任务特异性。另一方面,CASP通过利用盒子/面具级伪标签来保留适量的任务特异性。因此,我们的预磨模模型可以更好地避免在下游任务上的FineTuned时避免在地面真理标签上抵抗/过度拟合。使用3.6M未标记的数据,我们在对象检测上实现了4.7%的显着性能增益。我们的预制模型还展示了对其他检测和分割任务/框架的优异可转移性。
translated by 谷歌翻译