在对象检测模型中,检测骨干机消耗超过一半的整体推理成本。最近的研究试图通过在神经结构搜索(NAS)的帮助下优化骨干架构来降低这一成本。然而,对象检测的现有NAS方法需要数百至数千个GPU小时的搜索,使它们在快节奏的研究和开发中不切实际。在这项工作中,我们提出了一种新的零射NAS方法来解决这个问题。所提出的方法,命名为Zendet,在不训练网络参数的情况下自动设计有效的检测骨干网,从而降低了架构设计成本,几乎归零但提供了最先进的(SOTA)性能。在引擎盖下,Zendet最大化了检测骨干的差分熵,导致对象检测的更好的特征提取器,在相同的计算预算下。在仅为全自动设计的一个GPU日之后,Zendet在多个检测基准数据集上创新了SOTA检测骨干,具有很少的人为干预。与Reset-50个骨干相比,Zendet在Map中使用相同数量的拖波/参数时更好地+ 2.0%,并且在同一地图上的NVIDIA V100速度快1.54倍。稍后将发布代码和预先训练的型号。
translated by 谷歌翻译
作为主导范式,微调目标数据的预先训练模型广泛用于许多深度学习应用,特别是对于小数据集。然而,最近的研究已经明确表明,一旦培训迭代的数量增加,划痕训练都没有比这一训练前策略更糟糕的最终表现。在这项工作中,我们从学习理论中流行的泛化分析的角度重新审视这种现象。我们的结果表明,最终预测精度可能具有对预训练模型的弱依赖性,特别是在大训练迭代的情况下。观察激励我们利用预训练预调整的数据,因为此数据也可用于微调。使用预训练数据的泛化结果表明,当适当的预训练数据包含在微调中时,可以提高目标任务的最终性能。随着理论发现的洞察力,我们提出了一种新颖的选择策略来选择从预训练数据中的子集,以帮助改善目标任务的概括。 8个基准数据集上的图像分类任务的广泛实验结果验证了基于数据选择的微调管道的有效性。
translated by 谷歌翻译
基于变压器的监督预培训在重新识别(REID)中实现了良好的性能。但是,由于想象成和Reid数据集之间的域间隙,它通常需要更大的预训练数据集(例如,ImageNet-21k),以提高性能,因为变压器的强大数据拟合能力。为了解决这一挑战,这项工作可以分别从数据和模型结构的角度降低预训练和REID数据集之间的差距。我们首先调查在未标记的人物图像(Luperson DataSet)上的视觉变压器(VIV)的自我监督为了进一步降低域间隙并加速预训练,提出了灾难性的遗忘得分(CFS)来评估预训练和微调数据之间的差距。基于CFS,通过采样靠近下游REID数据的相关数据来选择一个子集,并从预训练的数据集中过滤无关数据。对于模型结构,提出了一种名为基于IBN的卷积词条(ICS)的特定于REID的模块来通过学习更不变的功能来弥合域间隙。已经进行了广泛的实验,以微调在监督学习,无监督域适应(UDA)和无监督的学习(USL)设置下进行预训练模型。我们成功将Luperson DataSet缩小为50%,没有性能下降。最后,我们在市场-1501和MSMT17上实现了最先进的表现。例如,我们的VIT-S / 16在Market1501上实现了91.3%/ 89.9%/ 89.6%用于监督/ UDA / USL REID的11501。代码和模型将发布到https://github.com/michuanhaohao/transreid -sl。
translated by 谷歌翻译
视觉问题应答(VQA)任务利用视觉图像和语言分析来回回答图像的文本问题。它是一个流行的研究课题,在过去十年中越来越多的现实应用。本文介绍了我们最近对AliceMind-MMU的研究(阿里巴巴的编码器 - 解码器来自Damo Academy - 多媒体理解的机器智能实验室),其比人类在VQA上获得相似甚至略微更好的结果。这是通过系统地改善VQA流水线来实现的,包括:(1)具有全面的视觉和文本特征表示的预培训; (2)与学习参加的有效跨模型互动; (3)一个新颖的知识挖掘框架,具有专门的专业专家模块,适用于复杂的VQA任务。处理不同类型的视觉问题,需要具有相应的专业知识在提高我们的VQA架构的表现方面发挥着重要作用,这取决于人力水平。进行了广泛的实验和分析,以证明新的研究工作的有效性。
translated by 谷歌翻译
近年来,多智能体加固学习(Marl)在各种应用中呈现出令人印象深刻的性能。但是,物理限制,预算限制以及许多其他因素通常会在多代理系统(MAS)上施加\ Texit {约束},这不能由传统的Marl框架处理。具体而言,本文重点介绍受约束的Mase,其中代理工作\纺织{合作}在各种限制下最大化预期的团队平均成本下的预期团队平均返回,并开发一个名为DECOM的\ TEXTIT {约束合作MARL}框架,名为DECOM这样的苗条。特别是,DECOM将每个代理人的策略分解为两个模块,这使得代理商之间的信息共享,以实现更好的合作。此外,通过这种模块化,DREM的训练算法将原始约束优化分为奖励的无约束优化和成本的约束满足问题。然后,Decom以计算有效的方式迭代地解决这些问题,这使得DECOM高度可扩展。我们还提供了对Decom策略更新算法的融合的理论保障。最后,我们在玩具和大规模(有500个代理)环境中使用各种类型的成本验证了DECOM的有效性。
translated by 谷歌翻译
对比学习的核心思想是区分不同的实例,并从相同实例中强制不同的视图以共享相同的表示。为了避免琐碎的解决方案,增强在生成不同视图中起重要作用,其中显示了随机裁剪来对模型来学习广义和鲁棒的表示。常用的随机作物操作保持沿着训练过程不变的两个视图之间的分布。在这项工作中,我们表明,自适应地控制沿着训练过程的两个增强视图之间的视差增强了学习的表示的质量。具体而言,我们提出了一种参数立方裁剪操作,用于视频对比度学习,其通过可分辨率的3D仿射变换自动批量3D立方。参数使用对抗目标与视频骨干同时培训,并从数据中学习最佳裁剪策略。可视化表明,参数自适应地控制了两个增强视图之间的中心距离和IOU,并且沿着训练过程的差异中的学习变化是有利于学习强烈的表示。广泛的消融研究证明了所提出的参数对多个对比学习框架和视频骨干的有效性。可以使用代码和模型。
translated by 谷歌翻译
在本文中,我们提出了一种实用的在线方法,用于解决具有非凸面目标的一类分布稳健优化(DRO),这在机器学习中具有重要应用,以改善神经网络的稳健性。在文献中,大多数用于解决DRO的方法都基于随机原始方法。然而,DRO的原始方法患有几个缺点:(1)操纵对应于数据尺寸的高维双变量是昂贵的; (2)他们对网上学习不友好,其中数据顺序地发表。为了解决这些问题,我们考虑一类具有KL发散正则化的Dual变量的DRO,将MIN-MAX问题转换为组成最小化问题,并提出了无需较大的批量批量的无需线在线随机方法。我们建立了所提出的方法的最先进的复杂性,而无需多达\ L Ojasiewicz(PL)条件。大规模深度学习任务(i)的实证研究表明,我们的方法可以将培训加速超过2次,而不是基线方法,并在带有$ \ SIM $ 265K图像的大型数据集上节省培训时间。 (ii)验证DRO对实证数据集上的经验风险最小化(ERM)的最高表现。独立兴趣,所提出的方法也可用于解决与最先进的复杂性的随机成分问题家族。
translated by 谷歌翻译
这项工作侧重于特定于域的加速器的有效敏捷设计方法。我们采用垂直开发堆栈的功能逐个功能增强,并将其应用于TVM / VTA推理加速器。我们已经增强了VTA设计空间,并启用了用于额外工作负载的端到端支持。这是通过增强VTA微架构和指令集架构(ISA)来实现的,以及通过增强TVM编译堆栈来支持各种VTA配置。 VTA TSIM实现(基于凿子)已通过ALU / GEMM执行单元的完全流水线版本增强。在TSIM中,内存宽度现在可以在8-64字节之间。对于支持较大的刮板,已经使场宽度更加灵活。已添加新的说明:元素 - WISE 8位乘法,支持深度卷积,并使用焊盘值的选择加载以支持最大池。还添加了对更多层和更好的双缓冲。完全管制的ALU / GEMM有助于显着帮助:4.9倍的循环较少,最小区域更改为在默认配置下运行RESET-18。可以实例化特征在于11.5倍的循环计数的配置,以12倍的循环计数更大的区域。显示了区域性能帕累托曲线上的许多点,展示了执行单元尺寸,内存接口宽度和刻痕尺寸的余额。最后,VTA现在能够运行MobileNet 1.0和所有层进行Resnet,包括先前禁用的池和完全连接的图层。 TVM / VTA架构始终在几分钟内以RTL呈现端到端工作量评估。通过我们的修改,它现在提供了更大的可行配置,具有广泛的成本与性能。所有提到的所有功能都可以在OpenSource叉中提供,而这些功能的子集已经上游。
translated by 谷歌翻译
最近联合学习(FL)范式的潜在假设是本地模型通常与全局模型共享与全局模型相同的网络架构,这对于具有不同的硬件和基础架构的移动和IOT设备变得不切实际。可扩展的联合学习框架应该解决配备不同计算和通信功能的异构客户端。为此,本文提出了一种新的联合模型压缩框架,它将异构低级模型分配给客户端,然后将它们聚合到全局全级模型中。我们的解决方案使得能够培训具有不同计算复杂性的异构本地模型,并汇总单个全局模型。此外,FEDHM不仅降低了设备的计算复杂性,而且还通过使用低秩模型来降低通信成本。广泛的实验结果表明,我们提出的\ System在测试顶-1精度(平均精度4.6%的精度增益)方面优于现行修剪的液体方法,在各种异构流域下较小的型号尺寸(平均较小为1.5倍) 。
translated by 谷歌翻译
Covid-19上的知识图(KGS)已建立在加速Covid-19的研究过程中。然而,KGs总是不完整,特别是新建造的Covid-19公斤。链路预测任务旨在预测(e,r,t)或(h,r,e)的丢失实体,其中H和t是某些实体,E是需要预测的实体,R是关系。这项任务还有可能解决Covid-19相关的KGS的不完全问题。虽然已经提出了各种知识图形嵌入(KGE)方法的链路预测任务,但这些现有方法遭受了使用单个评分函数的限制,这不能捕获Covid-19 Kgs的丰富特征。在这项工作中,我们提出了利用多个评分函数来提取来自现有三元组的更多特征的MDistmult模型。我们在CCKS2020 Covid-19抗病毒药物知识图(CADKG)上采用实验。实验结果表明,我们的MDistmult在CADKG数据集上的链路预测任务中实现了最先进的性能
translated by 谷歌翻译