基于变压器的监督预培训在重新识别(REID)中实现了良好的性能。但是,由于想象成和Reid数据集之间的域间隙,它通常需要更大的预训练数据集(例如,ImageNet-21k),以提高性能,因为变压器的强大数据拟合能力。为了解决这一挑战,这项工作可以分别从数据和模型结构的角度降低预训练和REID数据集之间的差距。我们首先调查在未标记的人物图像(Luperson DataSet)上的视觉变压器(VIV)的自我监督为了进一步降低域间隙并加速预训练,提出了灾难性的遗忘得分(CFS)来评估预训练和微调数据之间的差距。基于CFS,通过采样靠近下游REID数据的相关数据来选择一个子集,并从预训练的数据集中过滤无关数据。对于模型结构,提出了一种名为基于IBN的卷积词条(ICS)的特定于REID的模块来通过学习更不变的功能来弥合域间隙。已经进行了广泛的实验,以微调在监督学习,无监督域适应(UDA)和无监督的学习(USL)设置下进行预训练模型。我们成功将Luperson DataSet缩小为50%,没有性能下降。最后,我们在市场-1501和MSMT17上实现了最先进的表现。例如,我们的VIT-S / 16在Market1501上实现了91.3%/ 89.9%/ 89.6%用于监督/ UDA / USL REID的11501。代码和模型将发布到https://github.com/michuanhaohao/transreid -sl。
translated by 谷歌翻译
布尔匹匹配对于数字集成电路设计非常重要。即使对于只有几个变量的函数,粗糙的布尔匹匹配的详尽方法也是昂贵的,因为这种算法对于N变量布尔函数的算法的时间复杂度是$ O(2 ^ {n + 1} n!)$。灵敏度是一个重要的特征,以及布尔函数复杂性的衡量标准。它已被用于分析不同领域算法的复杂性。该措施可以被视为布尔函数的签名,并且具有很大的潜力,可以帮助减少布尔匹匹配的搜索空间。在本文中,我们将布尔敏感性介绍到布尔匹配和设计几个相关的相关象征中,以增强快速布尔匹匹配。首先,我们提出了一些与布尔等价的敏感性相关的新签名。然后,我们证明了这些签名是布尔匹匹配的先决条件,我们可以使用它来减少匹配问题的搜索空间。此外,我们开发了一种快速的灵敏度计算方法来计算和比较两个布尔函数的这些签名。与传统的辅助因子和对称检测方法相比,灵敏度是另一个维度的一系列签名。我们还表明,可以轻松地集成到传统方法中的灵敏度,并将不匹配的布尔函数更快地区分。据我们所知,这是第一个向布尔匹配引入敏感性的工作。实验结果表明,我们在本文中提出的敏感性相关签名可以在很大程度上将搜索空间减少,并且通过最先进的布尔匹匹配方法执行高达3倍的加速。
translated by 谷歌翻译
我们证明了深度神经网络(NNS)的损失景观的一般嵌入原理,其解除了NNS的损失景观的层次结构,即NN的损失景观包含所有较窄NN的所有关键点。通过构建一类临界嵌入来获得该结果,该临界嵌入物将较窄的Nn的任何临界点映射到具有相同输出功能的目标Nn的临界点。通过发现广泛的一般兼容性嵌入式,我们提供了嵌入来自NNS的关键点的关键子多种尺寸的总估计。我们进一步证明了任何临界嵌入的Irfreversiblility属性,即临界点的Hessian矩阵的负/零/正小叶值的数量可能增加,但由于NN通过嵌入越来越宽,因此从未减少。使用一般兼容的临界嵌入的特殊实现,我们证明了一个严格的必要条件,以便是一个完全不变的临界点,从未成为任何关键嵌入的严格鞍端。该结果暗示宽NNS中严格鞍点的常见,这可能是在实践中广泛观察到的宽NNS易于优化的重要原因。
translated by 谷歌翻译
最近,视觉变压器(VIT)及其变体在各种计算机视觉任务中取得了有希望的表现。然而,VITS的高计算成本和培训数据要求将其应用程序限制在资源受限设置中。模型压缩是加快深度学习模型的有效方法,但压缩VITS的研究已经不太探索。许多以前的作品集中在减少令牌的数量。然而,这种攻击行会破坏VIT的空间结构,并且难以推广到下游任务中。在本文中,我们设计了统一的框架,用于对VITS及其变体的结构修剪,即升级Vits。我们的方法侧重于修剪所有VITS组件,同时保持模型结构的一致性。丰富的实验结果表明,我们的方法可以在压缩VITS和变体上实现高精度,例如,UP-DEIT-T在Imagenet上实现了75.79%的精度,这与Vanilla Deit-T以相同的计算成本优于3.59%。 UP-PVTV2-B0提高了PVTV2-B0的精度4.83%,以进行想象成分类。同时,上升VITS维护令牌表示的一致性,并在对象检测任务上提高一致的改进。
translated by 谷歌翻译
几个世纪以来,人类文明设计了金属成型技术制作工具和物品;然而,定制的金属成形仍然昂贵和复杂。激光形成折纸}(Lasergami)是一种金属形成过程,其中激光束切割并折叠平面金属板以形成三维(3D)形状。然而,设计可由激光器可折叠的结构长期以来一直是试验和错误的实践,需要大量的心理努力,并阻碍了创造实际结构的可能性。这项工作首次演示了Lasergami可以形成先前被认为是不可能被激光形成的金属结构的自由形状的。这种技术突破通过新的计算折纸方法实现,该方法模仿花朵盛开和优化激光折叠指令。结合寻址激光视线和最小化制造能源的新想法,我们报告了一个低成本的制造框架,可以通过业余爱好者和专业人士易于采用。
translated by 谷歌翻译
本文提出了过渡动作张量,一种数据驱动的框架,它在运动数据集之外创建新颖和物理准确的转换。它使模拟字符能够有效且强大地采用新的运动技能而无需修改现有问题。考虑到几种专门从事不同运动的物理模拟的控制器,张量用作它们之间的过渡的时间指南。通过查询最佳拟合用户定义的偏好的转换的Tensor,我们可以创建一个能够产生新颖的转换和解决可能需要多个动作的复杂任务的统一控制器。我们在Quadrupeds和Biped上应用框架,对转换质量进行定量和定性评估,并在遵循用户控制指令时展示其解决复杂运动计划问题的能力。
translated by 谷歌翻译
最近的进展表明,可以通过像欧妮线方程等物理限制来实现半监督隐式表示学习。然而,由于其空间不同的稀疏性,该方案尚未成功地用于LiDAR点云数据。在本文中,我们开发了一种新颖的制定,条件在局部形状嵌入上的半监督隐式功能。它利用稀疏卷积网络的强大表示力,以产生形状感知密集特征卷,同时仍允许半监控符号函数学习,而不知道自由空间的确切值。具有广泛的定量和定性结果,我们证明了这种新的学习系统的内在属性及其在现实世界道路场景中的用途。值得注意的是,我们在Semantickitti将iou从26.3%到51.0%。此外,我们探索了两个范式来集成语义标签预测,实现隐式语义完成。可以在https://github.com/open-air-sun/sisc访问代码和模型。
translated by 谷歌翻译
多目标跟踪(MOT)的典型管道是使用探测器进行对象本地化,并在重新识别(RE-ID)之后进行对象关联。该管道通过对象检测和重新ID的最近进展部分而部分地激励,并且部分地通过现有的跟踪数据集中的偏差激励,其中大多数物体倾向于具有区分外观和RE-ID模型足以建立关联。为了响应这种偏见,我们希望重新强调多目标跟踪的方法也应该在对象外观不充分辨别时起作用。为此,我们提出了一个大型数据集,用于多人跟踪,人类具有相似的外观,多样化的运动和极端关节。由于数据集包含主要组跳舞视频,我们将其命名为“DanceTrack”。我们预计DanceTrack可以提供更好的平台,以开发更多的MOT算法,这些算法依赖于视觉识别并更依赖于运动分析。在我们的数据集上,我们在数据集上基准测试了几个最先进的追踪器,并在与现有基准测试中遵守DanceTrack的显着性能下降。 DataSet,项目代码和竞争服务器播放:\ url {https://github.com/danceTrack}。
translated by 谷歌翻译
预先训练的模型已经证明是强大的增强面向任务的对话系统。但是,目前的预训练方法主要关注增强对话的理解和生成任务,同时忽略对话策略的开发。在本文中,我们提出了一个小说预先训练的对话模型,明确地通过半监督学习明确地从有限标记的对话框和大规模未标记的对话框中学习对话策略。具体而言,我们在预训练期间介绍一个对话框预测任务,以便在预训练中进行策略优化,并使用一致性正则化术语在未标记的对话的帮助下优化学习的表示。我们还实施了一个浇注机制来称量合适的未标记对话框样本。经验结果表明,星系大大提高了面向任务为导向的对话系统的性能,并在基准数据集中实现了新的最先进结果:车载,多种多纤2.0和多纺,改善其端到端合并分数2.5,5.3和5.5分。我们还显示Galaxy比各种低资源设置下的现有模型更强大的少量射击能力。
translated by 谷歌翻译
在不完美亮度条件下采取的照片的视觉质量可以通过多种因素来退化,例如,低亮度,成像噪声,颜色失真等。目前的低灯图像增强型号仅关注较低亮度的改善,或者简单地处理整体的所有退化因子,导致次优性能。在本文中,我们建议将增强模型分成两个顺序阶段。第一阶段侧重于基于像素明智的非线性映射来提高场景可见性。第二阶段专注于通过抑制其余变性因素来改善外观保真度。解耦模型有助于两个方面的增强。一方面,整个低光增强可以分为两个更容易的子组织。第一个只旨在增强可见性。它还有助于弥合低光和常光图像之间的大强度间隙。以这种方式,第二个子摊可以成形为局部外观调整。另一方面,由于从第一阶段学习的参数矩阵意识到亮度分布和场景结构,因此可以作为互补信息结合到第二阶段。在实验中,与其他低光图像增强模型相比,我们的模型在定性和定量比较方面表现出最先进的性能。此外,消融研究还验证了我们模型在多个方面的有效性,例如模型结构和损失功能。训练有素的模型可在https://github.com/hanxuhfut/decoupled-low-light-image-enhancement获得。
translated by 谷歌翻译