This paper studies the algorithmic stability and generalizability of decentralized stochastic gradient descent (D-SGD). We prove that the consensus model learned by D-SGD is O(m/N +1/m+λ 2 )-stable in expectation in the non-convex non-smooth setting, where N is the total sample size of the whole system, m is the worker number, and 1−λ is the spectral gap that measures the connectivity of the communication topology. These results then deliver an2 ) in-average generalization bound, which is nonvacuous even when λ is closed to 1, in contrast to vacuous as suggested by existing literature on the projected version of D-SGD. Our theory indicates that the generalizability of D-SGD has a positive correlation with the spectral gap, and can explain why consensus control in initial training phase can ensure better generalization. Experiments of VGG-11 and ResNet-18 on CIFAR-10, CIFAR-100 and Tiny-ImageNet justify our theory. To our best knowledge, this is the first work on the topology-aware generalization of vanilla D-SGD. Code is available at https://github.com/Raiden-Zhu/ Generalization-of-DSGD.
translated by 谷歌翻译
最近,动物姿势估计引起了关注动物行为理解的学术界(例如野生动植物和保护生物学)的兴趣。但是,目前的动物姿势估计遭受了小数据集和较大的数据差异,因此很难获得稳健的性能。为了解决这个问题,我们建议可以利用语言模型学到的与姿势相关语义之间的关系的丰富知识来改善动物姿势估计。因此,在这项研究中,我们介绍了一个新颖的促进框架,以有效地采用语言模型,以更好地根据及时训练来理解动物姿势。在Promptpose中,我们建议将语言知识适应视觉动物的姿势是实现有效动物姿势估计的关键。为此,我们首先介绍文本提示,以在文本语义描述和支持动物关键点功能之间建立连接。此外,我们进一步设计了一个像素级的对比损失,以在文本描述和本地图像特征之间建立密集的联系,以及语义级别的对比损失,以弥合语言图像跨模式预训练的全球对比度之间的差距密集预测中的局部对比。在实践中,Pickerpose在改善动物姿势估计方面显示出巨大的好处。通过进行广泛的实验,我们表明,我们的及时疾病在监督和少量设置下取得了卓越的性能,超过了代表性的方法。源代码和模型将公开可用。
translated by 谷歌翻译
基于信息瓶颈(IB)的多视图学习提供了一种信息理论原则,用于寻找异质数据描述中包含的共享信息。但是,它的巨大成功通常归因于估计网络变得复杂时棘手的多元互助信息。此外,表示折衷的表示,{\ it},预测压缩和足够的一致性权衡,使IB难以同时满足这两个要求。在本文中,我们设计了几种变分信息瓶颈,以利用两个关键特征({\ it,即},充分性和一致性)用于多视图表示学习。具体而言,我们提出了一种多视图变量蒸馏(MV $^2 $ d)策略,以通过给出观点的任意输入,但没有明确估算它,从而为拟合MI提供了可扩展,灵活和分析的解决方案。在严格的理论保证下,我们的方法使IB能够掌握观测和语义标签之间的内在相关性,从而自然产生预测性和紧凑的表示。同样,我们的信息理论约束可以通过消除任务 - 求核和特定信息的信息来有效地中和对异质数据的敏感性,从而阻止在多种视图情况下两种权衡。为了验证理论上的策略,我们将方法应用于三种不同应用下的各种基准。广泛的定量和定性实验证明了我们对最新方法的方法的有效性。
translated by 谷歌翻译
由生物学进化的动机,本文通过类比与经过验证的实践进化算法(EA)相比,解释了视觉变压器的合理性,并得出了两者都具有一致的数学表述。然后,我们受到有效的EA变体的启发,我们提出了一个新型的金字塔饮食式主链,该主链仅包含拟议的\ emph {ea-ea-lase transformer}(eat)块,该块由三个残留零件组成,\ ie,\ emph {多尺度区域聚集}(msra),\ emph {global and local互动}(GLI)和\ emph {feed-forward Network}(ffn)模块,以分别建模多尺度,交互和个人信息。此外,我们设计了一个与变压器骨架对接的\ emph {与任务相关的头}(TRH),以更灵活地完成最终信息融合,并\ emph {reviv} a \ emph {调制变形MSA}(MD-MSA),以动态模型模型位置。关于图像分类,下游任务和解释性实验的大量定量和定量实验证明了我们方法比最新方法(SOTA)方法的有效性和优越性。 \例如,我们的手机(1.8m),微小(6.1m),小(24.3m)和基地(49.0m)型号达到了69.4、78.4、83.1和83.9的83.9 TOP-1仅在Imagenet-1 K上接受NAIVE训练的TOP-1食谱; Eatformer微型/小型/基本武装面具-R-CNN获得45.4/47.4/49.0盒AP和41.4/42.9/44.2掩膜可可检测,超过当代MPVIT-T,SWIN-T,SWIN-T和SWIN-S,而SWIN-S则是0.6/ 1.4/0.5盒AP和0.4/1.3/0.9掩码AP分别使用较少的拖鞋;我们的Eatformer-small/base在Upernet上获得了47.3/49.3 MIOU,超过Swin-T/S超过2.8/1.7。代码将在\ url {https://https://github.com/zhangzjn/eatformer}上提供。
translated by 谷歌翻译
由于其适应性和从稀疏数据中学习的能力,分解机(FMS)被广泛用于推荐系统。但是,对于稀疏数据中无处不在的非相互作用特征,现有的FMS只能通过其嵌入的内部产物估算与这些特征相对应的参数。不可否认,他们无法学习这些功能的直接相互作用,这限制了模型的表现力。为此,我们首先提出了受混合启发的MixFM,以生成辅助培训数据以增强FMS。与需要人工成本和专业知识的现有增强策略不同,以收集其他信息,例如位置和领域,这些额外的数据仅由原始的数据组合而没有任何专业知识支持。更重要的是,如果要混合的父样本具有非相互作用的特征,则MixFM将建立其直接相互作用。其次,考虑到MixFM可能会产生冗余甚至有害实例,我们进一步提出了由显着性引导混合措施(称为SMFM)提供动力的新型分解机。在自定义显着性的指导下,SMFM可以生成更具翔实的邻居数据。通过理论分析,我们证明所提出的方法最大程度地减少了概括误差的上限,这对增强FMS具有有益的效果。值得注意的是,我们给出了FM的第一个概括结构,这意味着概括需要更多的数据,并且在足够的表示能力下需要较小的嵌入大小。最后,在五个数据集上进行的大量实验证实,我们的方法优于基准。此外,结果表明,“中毒”混合数据同样对FM变体有益。
translated by 谷歌翻译
最近的研究表明,训练样本可以从梯度中回收,这些梯度称为梯度反转(Gradinv)攻击。但是,仍然缺乏广泛的调查,涵盖了最近的进步和对该问题的彻底分析。在本文中,我们介绍了有关Gradinv的全面调查,旨在总结尖端研究并扩大不同领域的视野。首先,我们通过将现有攻击描述为两个范式:基于迭代和递归的攻击,提出了Gradinv攻击的分类法。特别是,我们从基于迭代的攻击中挖掘出一些关键成分,包括数据初始化,模型培训和梯度匹配。其次,我们总结了针对Gradinv攻击的新兴防御策略。我们发现这些方法侧重于三种观点,涵盖了数据的晦涩,模型改进和梯度保护。最后,我们讨论了一些有希望的方向和开放问题,以进行进一步研究。
translated by 谷歌翻译
动物姿势估计和跟踪(APT)是从一系列视频帧中检测和跟踪动物关键的基本任务。以前与动物有关的数据集专注于动物跟踪或单帧动物姿势估计,而从未在这两个方面上进行。缺乏APT数据集​​阻碍了基于视频的动物姿势估计和跟踪方法的开发和评估,限制了现实世界中的应用,例如了解野生动物保护中的动物行为。为了填补这一空白,我们迈出了第一步,并提出了APT-36K,即第一个用于动物姿势估计和跟踪的大规模基准。具体而言,APT-36K由2,400个视频剪辑组成,并从30种动物物种中收集并过滤,每个视频为15帧,总共产生36,000帧。在手动注释和仔细的双重检查之后,为所有动物实例提供了高质量的关键点和跟踪注释。基于APT-36K,我们在以下三个曲目上基准了几个代表性模型:(1)在内部和域间传输学习设置下,在单个框架上进行监督的动物姿势估计,(2)未见的种间域域内概括测试动物,(3)动物跟踪的动物姿势估计。根据实验结果,我们获得了一些经验见解,并表明APT-36K提供了有价值的动物姿势估计和跟踪基准,为未来的研究提供了新的挑战和机会。该代码和数据集将在https://github.com/pandorgan/apt-36k上公​​开提供。
translated by 谷歌翻译
近年来,在实际场景中,单图(SID)引起了人们的关注。由于难以获得真实世界/清洁图像对,因此以前的真实数据集遭受了低分辨率图像,均匀的雨条,背景变化有限,甚至对图像对的不对准,从而对SID方法进行了不可思议的评估。为了解决这些问题,我们建立了一个名为Realrain-1K的新的高质量数据集,该数据集分别由1,120美元的高分辨率配对的清洁和高雨图像组成,分别具有低密度和高密度降雨条纹。 Realrain-1K中的图像是通过简单而有效的降雨密度可控制的过滤方法自动从大量现实世界中的雨滴剪辑中生成结盟。 Realrain-1K还提供丰富的雨条层作为副产品,使我们能够通过将雨条层粘贴在丰富的自然图像上,从而构建一个名为Synrain-13K的大规模合成数据集。基于它们和现有数据集,我们在三个曲目上基准了10种代表性的SID方法:(1)对Realrain-1K的全面监督学习,(2)域对真实数据集进行概括,以及(3)SYN-to-eal Toth-to to real Transvers Learning 。实验结果(1)显示了图像恢复性能和模型复杂性中代表性方法的差异,(2)验证所提出的数据集在模型概括中的重要性,(3)提供了有关从不同领域和从不同领域和学习的优越性的有用见解。关于现实世界中SID的未来研究的灯光。数据集将在https://github.com/hiker-lw/realrain-1k上发布
translated by 谷歌翻译
图像垫是指在图像中提取精确的前景。当前的自动方法倾向于不可分割地提取图像中的所有显着物体。在本文中,我们提出了一项名为Referring Image Matting(RIM)的新任务,指的是提取特定对象的细致α哑光,该矩形可以最好地匹配给定的自然语言描述。但是,普遍的视觉接地方法都限于分割水平,这可能是由于RIM缺乏高质量的数据集。为了填补空白,我们通过设计全面的图像组成和表达式生成引擎来建立第一个大规模挑战的数据集refmatte,以在当前公共高质量的前景上生产合成图像,具有灵活的逻辑和重新标记的多元化属性。 Refmatte由230个对象类别,47,500张图像,118,749个表达区域和474,996个表达式组成,将来可以轻松扩展。除此之外,我们还使用手动生成的短语注释构建了一个现实世界测试集,该词组由100个自然图像组成,以进一步评估RIM模型的概括。我们首先在两个设置(即基于提示和表达式)的两个设置中定义了RIM的任务,然后将几种代表性方法与图像垫的特定模型设计进行基准测试。结果提供了对现有方法以及可能解决方案的局限性的经验见解。我们认为,新任务RIM以及RefMatte数据集将在该领域打开新的研究方向,并促进未来的研究。该数据集和代码将在https://github.com/jizhizili/rim上公开提供。
translated by 谷歌翻译
将基于模型的增强学习(MBRL)方法的概括为具有看不见的过渡动态的环境是一个重要但充满挑战的问题。现有方法试图从过去的过渡段中提取环境指定的信息$ z $,以使动态预测模型可推广到不同的动态。但是,由于未标记环境,提取的信息不可避免地包含与过渡片段无关的冗余信息,因此未能维持$ z $的关键属性:$ z $:$ z $在相同的环境中应该是相似的,并且在不同的环境中不同。结果,学习的动力学预测函数将偏离真正的概括能力。为了解决此问题,我们引入了一个介入预测模块,以估计两个估计的$ \ hat {z} _i,\ hat {z} _J $属于同一环境的概率。此外,通过在单个环境中利用$ z $的不变性,提出了一个关系负责人,以从同一环境中实施$ \ hat {{z}} $之间的相似性。结果,冗余信息将减少在$ \ hat {z} $中。我们从经验上表明,由我们的方法估计的$ \ hat {{z}} $比以前的方法享有的冗余信息少,而这样的$ \ hat {{z}} $可以显着减少动态预测错误并改善基于模型的模型的性能带有看不见的动力学的零击中新环境的RL方法。该方法的代码可在\ url {https://github.com/cr-gjx/ria}中获得。
translated by 谷歌翻译