在异质图上的自我监督学习(尤其是对比度学习)方法可以有效地摆脱对监督数据的依赖。同时,大多数现有的表示学习方法将异质图嵌入到欧几里得或双曲线的单个几何空间中。这种单个几何视图通常不足以观察由于其丰富的语义和复杂结构而观察到异质图的完整图片。在这些观察结果下,本文提出了一种新型的自我监督学习方法,称为几何对比度学习(GCL),以更好地表示监督数据是不可用时的异质图。 GCL同时观察了从欧几里得和双曲线观点的异质图,旨在强烈合并建模丰富的语义和复杂结构的能力,这有望为下游任务带来更多好处。 GCL通过在局部局部和局部全球语义水平上对比表示两种几何视图之间的相互信息。在四个基准数据集上进行的广泛实验表明,在三个任务上,所提出的方法在包括节点分类,节点群集和相似性搜索在内的三个任务上都超过了强基础,包括无监督的方法和监督方法。
translated by 谷歌翻译
洪水灾害造成巨大的社会和经济损失。但是,传统的物理模型和基于学习的洪水预测模型都需要大量的历史洪水数据来训练模型参数。当来到一些没有足够历史数据的新站点时,由于过度拟合,模型性能会大大下降。该技术报告提出了一个洪水域适应网络(Flooddan),这是将无监督的域适应性(UDA)应用于洪水预测问题的基准。具体而言,洪水的培训包括两个阶段:在第一阶段,我们训练一个降雨编码器和一个预测头,以学习有关大规模源域数据的一般可转移的水文知识;在第二阶段,我们通过对抗结构域的比对将验证编码器中的知识转移到目标域的降雨编码器中。在推断期间,我们利用了在第二阶段接受训练的目标域降雨编码器,并在第一阶段进行了训练的预测头,以获得洪水预测的预测。 Tunxi和Changhua洪水数据集的实验结果表明,Flooddan可以通过零目标域监督有效地进行洪水预测。 Flooddan的性能与使用450-500小时的监督的监督模型相当。
translated by 谷歌翻译
联合学习仅通过将本地模型更新传输到中央服务器来减轻分布式学习的隐私风险。但是,它面临着挑战,包括客户数据集的统计异质性以及客户设备的资源限制,这严重影响了培训性能和用户体验。先前的工作通过将个性化与模型压缩方案结合起来解决了这些挑战,包括量化和修剪。但是,修剪是数据依赖性的,因此必须在客户端进行,这需要相当大的计算成本。此外,修剪通常会在\ {0,1 \} $中训练二进制超级卸义$ \,这显着限制了模型容量,但没有计算益处。因此,培训需要高计算成本,并且需要很长时间才能收敛,而模型性能则没有回报。在这项工作中,我们提出了Hidenseek,该HIDENSEK在初始化时采用单次数据不合稳定的修剪来获得基于权重的突触显着性的子网。然后,每个客户端优化了\ { - 1,+1 \} $乘以未经修复的权重的标志Super-Mask $ \,以允许更快的收敛速度与最先进的压缩率相同。三个数据集的经验结果表明,与最先进的hidenseek相比,Hidenseek将推论精度提高了40.6 \%,同时将沟通成本和培训时间分别降低了39.7 \%和46.8%。
translated by 谷歌翻译
对于无监督的预处理,蒙版重建预训练(MRP)接近随机掩盖输入贴片,然后通过自动编码器重建这些掩盖贴片的像素或语义特征。然后,对于下游任务,对经过预处理的编码器进行微调显着超过了从头开始训练的常规监督学习(SL)。但是,目前尚不清楚1)MRP如何在预科阶段执行语义学习以及2)为什么它有助于下游任务。为了解决这些问题,我们从理论上表明,在两/单层的卷积编码器/解码器的自动编码器上,MRP可以在预处理数据集中捕获所有判别语义,因此显示出其在下游任务上的SL上的可证明的改进。具体而言,我们假设预处理数据集包含比率$ 1- \ mu $的多视图样本和比率$ \ mu $的单视图样本,其中多/单视图样本具有多个/单个歧视性语义。然后,为了预处理,我们证明1)MRP编码器的卷积内核捕获了预科数据中的所有歧视性语义; 2)卷积内核最多可以捕获一种语义。因此,在下游监督的微调中,大多数语义都会被捕获,并且不同的语义不会融合在一起。这有助于下游微调网络轻松建立内核和语义类标签之间的关系。通过这种方式,MRP中的微调编码器可证明达到零测试误差,对于多视图和单视图测试数据,概率很高。相比之下,正如〜[3]所证明的那样,传统的SL只能在单视图测试数据的$ 0.5 \ mu $之间获得测试准确性。这些结果共同解释了MRP在下游任务中的好处。实验结果证明了多视图数据假设和我们的理论含义。
translated by 谷歌翻译
视觉变压器(VIT)的几乎没有射击的学习能力很少进行,尽管有很大的需求。在这项工作中,我们从经验上发现,使用相同的少数学习框架,例如\〜元基线,用VIT模型代替了广泛使用的CNN特征提取器,通常严重损害了几乎没有弹药的分类性能。此外,我们的实证研究表明,在没有归纳偏见的情况下,VIT通常会在几乎没有射击的学习方面学习低资格的令牌依赖性,在这些方案下,只有几个标记的培训数据可获得,这在很大程度上会导致上述性能降级。为了减轻这个问题,我们首次提出了一个简单而有效的几杆培训框架,即自我推广的监督(Sun)。具体而言,除了对全球语义学习的常规监督外,太阳还进一步预处理了少量学习数据集的VIT,然后使用它来生成各个位置特定的监督,以指导每个补丁令牌。此特定于位置的监督告诉VIT哪个贴片令牌相似或不同,因此可以加速令牌依赖的依赖学习。此外,它将每个贴片令牌中的本地语义建模,以提高对象接地和识别能力,以帮助学习可概括的模式。为了提高特定于位置的监督的质量,我们进一步提出了两种技术:〜1)背景补丁过滤以滤掉背景补丁并将其分配为额外的背景类别; 2)空间一致的增强,以引入足够的多样性以增加数据,同时保持生成的本地监督的准确性。实验结果表明,使用VITS的太阳显着超过了其他VIT的少量学习框架,并且是第一个获得比CNN最先进的效果更高的性能。
translated by 谷歌翻译
本文解决了颞句的接地。以前的作品通常通过学习帧级视频功能来解决此任务并将其与文本信息对齐。这些作品的一个主要限制是,由于帧级特征提取,它们未能利用具有微妙的外观差异的模糊视频帧。最近,一些方法采用更快的R-CNN来提取每帧中的详细物体特征来区分细粒的外观相似性。然而,由于对象检测模型缺乏时间建模,因此通过更快的R-CNN提取的对象级别特征遭受缺失的运动分析。为了解决这个问题,我们提出了一种新颖的运动外观推理网络(MARN),其包括动作感知和外观感知对象特征,以更好的原因对象关系来建立连续帧之间的活动。具体而言,我们首先介绍两个单独的视频编码器以将视频嵌入到相应的主导和外观 - 方面对象表示中。然后,我们开发单独的运动和外观分支,以分别学习运动引导和外观引导的对象关系。最后,来自两个分支的运动和外观信息都与用于最终接地的更多代表性的特征相关联。对两个具有挑战性的数据集(Chardes-Sta和Tacos)的广泛实验表明,我们提出的马恩在以前的最先进的方法中大大优于大幅度。
translated by 谷歌翻译
时间句地接地(TSG)是视频理解的关键和基础。虽然现有方法训练具有大量数据的精心设计的深网络,但我们发现他们可以轻松忘记由于偏移数据分布而在训练阶段的很少出现的情况,这影响了模型概括并导致不希望的表现。为了解决这个问题,我们提出了一个内存增强的网络,称为内存引导的语义学习网络(MGSL-net),它学习并记住在TSG任务中的很少出现的内容。具体而言,MGSL-Net由三个主要部件组成:跨模型互动模块,存储器增强模块和异构注意力模块。我们首先将给定的视频查询对与跨模型图卷积网络对齐,然后利用内存模块在域特定的持久存储器中记录跨模板共享语义功能。在培训期间,内存插槽与常见和罕见的案例动态相关,减轻了遗忘问题。在测试中,可以通过检索存储的存储器来提高罕见的情况,从而产生更好的概括。最后,使用异构注意力模块在视频和查询域中集成增强的多模态特征。三个基准测试的实验结果表明了我们对效率和效率的方法的优势,这在整个数据集上显着提高了准确性,而且在罕见的情况下也是如此。
translated by 谷歌翻译
深度神经网络容易受到对抗的例子,这可以通过添加微妙的扰动来欺骗深层模型。虽然现有的攻击已经取得了有希望的结果,但它仍然在黑盒设置下留下长途来产生可转移的对抗性示例。为此,本文提出提高对抗示例的可转移性,并将双阶段特征级扰动应用于现有模型,以隐式创建一组不同的模型。然后在迭代期间由纵向集合融合这些模型。该方法被称为双级网络侵蚀(DSNE)。我们对非残留和残余网络进行全面的实验,并获得更多可转移的对抗实例,其计算成本类似于最先进的方法。特别地,对于残余网络,通过将残余块信息偏置到跳过连接,可以显着改善对抗性示例的可转移性。我们的工作为神经网络的建筑脆弱性提供了新的见解,并对神经网络的稳健性带来了新的挑战。
translated by 谷歌翻译
最近,自主驾驶社会上有许多进展,吸引了学术界和工业的很多关注。然而,现有的作品主要专注于汽车,自动驾驶卡车算法和模型仍然需要额外的开发。在本文中,我们介绍了智能自动驾驶卡车系统。我们所呈现的系统由三个主要组成部分组成,1)一个现实的交通仿真模块,用于在测试场景中产生现实的交通流量,2)设计和评估了在现实世界部署中模仿实际卡车响应的高保真卡车模型,3 )具有基于学习的决策算法和多模轨迹策划仪的智能计划模块,考虑到卡车的约束,道路斜率变化和周围的交通流量。我们为每个组分单独提供定量评估,以证明每个部件的保真度和性能。我们还将我们的建议系统部署在真正的卡车上,并进行真实的世界实验,表明我们的系统能力缓解了SIM-TO-REAL差距。我们的代码可以在https://github.com/inceptioresearch/iits提供
translated by 谷歌翻译
科学主题的分类方案概述了其知识体系。它还可以用于促进访问研究文章和与受试者相关的其他材料。例如,ACM计算分类系统(CCS)用于ACM数字库搜索界面以及索引计算机科学论文。我们观察到,计算语言学(CL)和自然语言处理(NLP),不存在综合分类系统等CCS或数学主题分类(MSC)。我们提出了一个分类方案 - 基于在这一主题的77个大学课程的在线讲座的分析,Cl / NLP的Clicker。目前拟议的分类学包括334个主题,并侧重于CL / NLP的教育方面;它主要是基于,但不是完全,在NLP课程的讲义中。我们讨论这种分类系统如何帮助各种现实世界应用,包括辅导平台,资源检索,资源推荐,先决条件链学习和调查生成。
translated by 谷歌翻译