神经结构搜索(NAS)引起了日益增长的兴趣。为了降低搜索成本,最近的工作已经探讨了模型的重量分享,并在单枪NAS进行了重大进展。然而,已经观察到,单次模型精度较高的模型并不一定在独立培训时更好地执行更好。为了解决这个问题,本文提出了搜索空间的逐步自动设计,名为Pad-NAS。与超字幕中的所有层共享相同操作搜索空间的先前方法不同,我们根据操作修剪制定逐行搜索策略,并构建层面操作搜索空间。通过这种方式,Pad-NAS可以自动设计每层的操作,并在搜索空间质量和模型分集之间实现权衡。在搜索过程中,我们还考虑了高效神经网络模型部署的硬件平台约束。关于Imagenet的广泛实验表明我们的方法可以实现最先进的性能。
translated by 谷歌翻译
单发神经架构搜索(NAS)的算法已被广泛用于减少计算消耗。但是,由于共享权重的子网之间的干扰,从这些算法训练的超级网络中继承的子网在精度排名中的一致性较差。为了解决这个问题,我们提出了一个从一声NAS到少数NAS的逐步培训超网络。在培训方案中,我们首先以一种单发的方式训练超级网络,然后通过将它们拆分为多subnetnet并逐渐训练超级网络。最后,我们的方法在CVPR2022中排名第四,第三轻量化NAS挑战赛1。我们的代码可在https://github.com/liujiawei23333/cvpr2022-nas-competition-track-1-4tholdoluty获得。
translated by 谷歌翻译
最近,已经成功地应用于各种遥感图像(RSI)识别任务的大量基于深度学习的方法。然而,RSI字段中深度学习方法的大多数现有进步严重依赖于手动设计的骨干网络提取的特征,这严重阻碍了由于RSI的复杂性以及先前知识的限制而受到深度学习模型的潜力。在本文中,我们研究了RSI识别任务中的骨干架构的新设计范式,包括场景分类,陆地覆盖分类和对象检测。提出了一种基于权重共享策略和进化算法的一拍架构搜索框架,称为RSBNet,其中包括三个阶段:首先,在层面搜索空间中构造的超空网是在自组装的大型中预先磨削 - 基于集合单路径培训策略进行缩放RSI数据集。接下来,预先培训的SuperNet通过可切换识别模块配备不同的识别头,并分别在目标数据集上进行微调,以获取特定于任务特定的超网络。最后,我们根据没有任何网络训练的进化算法,搜索最佳骨干架构进行不同识别任务。对于不同识别任务的五个基准数据集进行了广泛的实验,结果显示了所提出的搜索范例的有效性,并证明搜索后的骨干能够灵活地调整不同的RSI识别任务并实现令人印象深刻的性能。
translated by 谷歌翻译
最近,自我关注操作员将卓越的性能作为视觉模型的独立构建块。然而,现有的自我关注模型通常是手动设计的,从CNN修改,并仅通过堆叠一个操作员而获得。很少探索相结合不同的自我关注操作员和卷积的更广泛的建筑空间。在本文中,我们探讨了具有权重共享神经结构搜索(NAS)算法的新颖建筑空间。结果架构被命名为Triomet,用于组合卷积,局部自我关注和全球(轴向)自我关注操作员。为了有效地搜索在这个巨大的建筑空间中,我们提出了分层采样,以便更好地培训超空网。此外,我们提出了一种新的重量分享策略,多头分享,专门针对多头自我关注运营商。我们搜索的Tri of将自我关注和卷积相结合优于所有独立的模型,在想象网分类上具有较少的拖鞋,自我关注比卷积更好。此外,在各种小型数据集上,我们观察对自我关注模型的劣等性能,但我们的小脚仍然能够匹配这种情况下的最佳操作员,卷积。我们的代码可在https://github.com/phj128/trionet提供。
translated by 谷歌翻译
现有的光流估计器通常采用通常用于图像分类的网络体系结构作为提取人均功能的编码器。但是,由于任务之间的自然差异,用于图像分类的架构可能是最佳的流量估计。为了解决此问题,我们建议一种名为Falownas的神经体系结构搜索方法,以自动找到用于流估计任务的更好的编码器体系结构。我们首先设计一个合适的搜索空间,包括各种卷积运算符,并构建一个体重共享的超级网络,以有效评估候选体系结构。然后,为了更好地训练超级网络,我们提出了特征对齐蒸馏,该蒸馏利用训练有素的流量估计器来指导超级网络的训练。最后,利用资源约束的进化算法找到最佳体系结构(即子网络)。实验结果表明,从超级网络继承的权重的发现的结构达到了4.67 \%f1-able kitti上的误差,这是RAFT基线的8.4 \%降低,超过了先进的手工制作的型号GMA和AGFlow,同时降低模型的复杂性和延迟。源代码和训练有素的模型将在https://github.com/vdigpku/flownas中发布。
translated by 谷歌翻译
这项工作调查了神经架构搜索中的批量标准化(NAS)。具体来说,Frankle等人。发现培训Batchnorm只能实现非竞争性能。此外,陈等人。声称培训Batchnorm只能加快10次单次NAS超网关的培训。批判性地,没有努力理解1)为什么训练Batchnorm只能找到具有减少的超空网训练时间的表演井架构,而且2)列车-BN的超网和标准列车超空网之间有什么区别。我们首先显示列车-BN网络融合到神经切线内核制度,从理论上获得与所有参数的所有参数相同的训练动态。我们的证据支持索赔仅在超培训时间上训练Batchnorm。然后,我们经验披露了培训-BN的超标网络在其他运营商的卷曲中提供了优势,导致架构之间的不公平竞争。这是因为只有卷积运算符被附加到Batchnorm。通过实验,我们表明这种不公平性使得搜索算法容易选择具有卷积的模型。为了解决这个问题,我们通过在每个操作员上放置批处理层来引入搜索空间的公平性。然而,我们观察到Chen等人的性能预测因子。在新的搜索空间上不可应用。为此,我们提出了一种新颖的综合性能指标,从三个视角评估网络:源自Batchnorm的理论属性的表达性,培训和不确定性。我们展示了我们对多NAS基准的方法(NAS-BENCH101,NAS-BENCH-201)和搜索空间(飞镖搜索空间和MOBILENET搜索空间)的有效性。
translated by 谷歌翻译
更好的准确性和效率权衡在对象检测中是一个具有挑战性的问题。在这项工作中,我们致力于研究对象检测的关键优化和神经网络架构选择,以提高准确性和效率。我们调查了无锚策略对轻质对象检测模型的适用性。我们增强了骨干结构并设计了颈部的轻质结构,从而提高了网络的特征提取能力。我们改善标签分配策略和损失功能,使培训更稳定和高效。通过这些优化,我们创建了一个名为PP-Picodet的新的实时对象探测器系列,这在移动设备的对象检测上实现了卓越的性能。与其他流行型号相比,我们的模型在准确性和延迟之间实现了更好的权衡。 Picodet-s只有0.99m的参数达到30.6%的地图,它是地图的绝对4.8%,同时与yolox-nano相比将移动CPU推理延迟减少55%,并且与Nanodet相比,MAP的绝对改善了7.1%。当输入大小为320时,它在移动臂CPU上达到123个FPS(使用桨Lite)。Picodet-L只有3.3M参数,达到40.9%的地图,这是地图的绝对3.7%,比yolov5s更快44% 。如图1所示,我们的模型远远优于轻量级对象检测的最先进的结果。代码和预先训练的型号可在https://github.com/paddlepaddle/paddledentions提供。
translated by 谷歌翻译
现有的神经结构搜索算法主要在具有短距离连接的搜索空间上。我们争辩说,这种设计虽然安全稳定,障碍搜索算法从探索更复杂的情景。在本文中,我们在具有长距离连接的复杂搜索空间上构建搜索算法,并显示现有的权重共享搜索算法由于存在\ TextBF {交织连接}而大部分失败。基于观察,我们介绍了一个名为\ textbf {if-nas}的简单且有效的算法,在那里我们在搜索过程中执行定期采样策略来构建不同的子网,避免在任何中的交织连接出现。在所提出的搜索空间中,IF-NAS优于随机采样和先前的重量共享搜索算法,通过显着的余量。 IF-NAS还推广到微单元的空间,这些空间更容易。我们的研究强调了宏观结构的重要性,我们期待沿着这个方向进一步努力。
translated by 谷歌翻译
语义细分是计算机视觉中的一个流行研究主题,并且在其上做出了许多努力,结果令人印象深刻。在本文中,我们打算搜索可以实时运行此问题的最佳网络结构。为了实现这一目标,我们共同搜索深度,通道,扩张速率和特征空间分辨率,从而导致搜索空间约为2.78*10^324可能的选择。为了处理如此大的搜索空间,我们利用差异架构搜索方法。但是,需要离散地使用使用现有差异方法搜索的体系结构参数,这会导致差异方法找到的架构参数与其离散版本作为体系结构搜索的最终解决方案之间的离散差距。因此,我们从解决方案空间正则化的创新角度来缓解离散差距的问题。具体而言,首先提出了新型的解决方案空间正则化(SSR)损失,以有效鼓励超级网络收敛到其离散。然后,提出了一种新的分层和渐进式解决方案空间缩小方法,以进一步实现较高的搜索效率。此外,我们从理论上表明,SSR损失的优化等同于L_0-NORM正则化,这说明了改善的搜索评估差距。综合实验表明,提出的搜索方案可以有效地找到最佳的网络结构,该结构具有较小的模型大小(1 m)的分割非常快的速度(175 fps),同时保持可比较的精度。
translated by 谷歌翻译
由于其效率,一声神经架构搜索(NAS)已被广泛用于发现架构。但是,先前的研究表明,由于架构之间的操作参数过度共享(即大共享范围),架构的一声绩效估计可能与他们在独立培训中的表现没有很好的相关性。因此,最近的方法构建了更高参数化的超级链,以降低共享程度。但是这些改进的方法引入了大量额外的参数,因此在培训成本和排名质量之间导致不良的权衡。为了减轻上述问题,我们建议将课程学习应用于共享范围(接近),以有效地训练超级网。具体而言,我们在一开始就以很大的共享范围(简单的课程)训练超网,并逐渐降低了超级网的共享程度(更难的课程)。为了支持这种培训策略,我们设计了一个新颖的超级网(闭合性),该超级网(CLESENET)将参数从操作中解耦,以实现灵活的共享方案和可调节的共享范围。广泛的实验表明,与其他一击的超级网络相比,Close可以在不同的计算预算限制中获得更好的排名质量,并且在与各种搜索策略结合使用时能够发现出色的体系结构。代码可从https://github.com/walkerning/aw_nas获得。
translated by 谷歌翻译
在NAS领域中,可分构造的架构搜索是普遍存在的,因为它的简单性和效率,其中两个范例,多路径算法和单路径方法主导。多路径框架(例如,DARTS)是直观的,但遭受内存使用和培训崩溃。单路径方法(例如,e.g.gdas和proxylesnnas)减轻了内存问题并缩小了搜索和评估之间的差距,但牺牲了性能。在本文中,我们提出了一种概念上简单的且有效的方法来桥接这两个范式,称为相互意识的子图可差架构搜索(MSG-DAS)。我们框架的核心是一个可分辨动的Gumbel-Topk采样器,它产生多个互斥的单路径子图。为了缓解多个子图形设置所带来的Severer Skip-Connect问题,我们提出了一个Dropblock-Identity模块来稳定优化。为了充分利用可用的型号(超级网和子图),我们介绍了一种记忆高效的超净指导蒸馏,以改善培训。所提出的框架击中了灵活的内存使用和搜索质量之间的平衡。我们展示了我们在想象中和CIFAR10上的方法的有效性,其中搜索的模型显示了与最近的方法相当的性能。
translated by 谷歌翻译
由于物体形状和图案(例如器官或肿瘤)的高可变性,3D医学图像的语义分割是一个具有挑战性的任务。鉴于最近在医学图像分割中深入学习的成功,已经引入了神经结构搜索(NAS)以查找高性能3D分段网络架构。但是,由于3D数据的大量计算要求和架构搜索的离散优化性质,之前的NAS方法需要很长的搜索时间或必要的连续放松,并且通常导致次优网络架构。虽然单次NAS可能会解决这些缺点,但其在分段域中的应用尚未在膨胀的多尺度多路径搜索空间中进行很好地研究。为了为医学图像分割启用一次性NAS,我们的方法名为Hypersegnas,介绍了通过结合建筑拓扑信息来帮助超级培训培训。在培训超级网络培训并在架构搜索期间引入开销时,可以删除这种超空头。我们表明,与以前的最先进的(SOTA)分割网络相比,Hypersegnas产生更好的表现和更直观的架构;此外,它可以在不同的计算限制下快速准确地找到良好的体系结构候选者。我们的方法是在医疗细分Decovaton(MSD)挑战的公共数据集上评估,并实现了SOTA表演。
translated by 谷歌翻译
自从搜索空间通常相当巨大(例如,$ 13 ^ {21}),训练单次NAS方法中的一个良好的Supernet很难。为了提高超网络的评估能力,一个贪婪的策略是采样良好的路径,让超标倾向于良好的路径并减轻其评估负担。然而,在实践中,由于良好路径的识别不够准确并且采样路径仍然围绕整个搜索空间散射,因此搜索仍然是效率效率低下。在本文中,我们利用显式路径滤波器来捕获路径的特征,并直接过滤那些弱的路径,从而可以更加贪婪地且有效地在缩小空间上实现搜索。具体地,基于良好的路径小于空间中的弱者的事实,我们认为“弱道”的标签将比多道路采样中的“良好路径”更自信和可靠。通过这种方式,我们因此将路径滤波器的训练施放在正面和未标记的(PU)学习范例中,并且还鼓励一个\ Texit {路径嵌入}作为更好的路径/操作表示,以增强学习过滤器的识别容量。通过这种嵌入的DINT,我们可以通过将类似的嵌入式汇总相似的操作进一步缩小搜索空间,搜索可以更高效和准确。大量实验验证了所提出的方法GredynaSv2的有效性。例如,我们获得的GreedynaSv2-L验证$ 81.1 \%$ 1 $ top-1在想象数据数据上的准确性,显着优于Reset-50强的基线。
translated by 谷歌翻译
卷积神经网络(CNNS),例如时滞神经网络(TDNN),在学习扬声器嵌入方面已经示出了它们显着的能力。但是,它们同时在存储大小,处理和记忆中带来巨大的计算成本。发现符合特定约束的专业CNN需要努力的人类专家。与手工设计的方法相比,神经结构搜索(NAS)作为自动化手动架构设计过程的实用技术,并引起了对扬声器识别等口语处理任务的越来越兴趣。在本文中,我们提出了一种高效的架构搜索框架,该架构由基于TDNN的超网络和TDNN-NAS算法组成。该提出的超网络引入了从不同层的各种分辨率的不同范围的不同范围的时间卷积,并从不同层到TDNN。在其顶部,TDNN-NAS算法通过权重共享子网迅速搜索所需的TDNN架构,这令人惊讶地减少了处理具有各种资源要求的广大设备的计算。 VOXECEL数据集上的实验结果显示了所提出的效率,可以近似有关深度,内核和宽度的$ 10 ^ {13} $架构。考虑到不同的计算约束,它实现了2.20%的误差率(eer),具有204m的乘法累积操作(Mac),1.41%eer,具有571米Mac以及0.94%的eer,具有1.45g Mac。综合调查表明,训练有素的超空心概括了在培训期间未采样的子网,并在准确性和效率之间获得有利的权衡。
translated by 谷歌翻译
高效的视频架构是在具有有限计算资源的设备上部署视频识别系统的关键。不幸的是,现有的视频架构通常是计算密集的,不适合这些应用。最近的X3D工作通过沿着多个轴扩展手工制作的图像架构,介绍了一系列高效的视频模型系列,例如空间,时间,宽度和深度。虽然在概念上的大空间中操作,但x3d一次搜索一个轴,并且仅探索了一组总共30个架构,这不足以探索空间。本文绕过了现有的2D架构,并直接搜索了一个细粒度空间中的3D架构,其中共同搜索了块类型,滤波器编号,扩展比和注意力块。采用概率性神经结构搜索方法来有效地搜索如此大的空间。动力学和某事物的评估 - 某事-V2基准确认我们的AutoX3D模型在类似的拖鞋中的准确性高达1.3%的准确性优于现有的模型,并在达到类似的性能时降低计算成本高达X1.74。
translated by 谷歌翻译
视觉变形金刚(VITS)继承了NLP的成功,但它们的结构尚未充分调查并针对视觉任务进行优化。最简单的解决方案之一是通过CNN中的广泛使用的神经结构搜索(NAS)直接搜索最佳的问题。但是,我们经验探讨了这种直接的适应将遇到灾难性的失败,并对超级形式的培训感到沮丧。在本文中,我们认为,由于VITS主要在令牌嵌入具有很小的归纳偏差上运行,因此不同架构的通道的不平衡将使重量共享假设恶化并导致培训不稳定。因此,我们开发了一种新的循环重量共享机制,用于令牌的VITS嵌入式,这使得每个通道能够更均匀地贡献所有候选架构。此外,我们还提出了身份转移,以减轻超级形式的多对一问题,并利用弱的增强和正规化技术以维持更稳定的培训。基于这些,我们所提出的方法Vitas在Deit-and Twins的Vits中取得了显着的优势。例如,只有1.4美元的G拖鞋预算,我们搜索的架构有3.3 \%$ ImageNet-比基准Deit为1美元$ k准确性。我们的结果达到3.0美元,我们的结果达到了82.0 \%$ 1 $ k,$ 1 $ k,$ 45.9 \%$ 2017 $上涨,这是2.4美元的$ 2.4 \%$优于其他VITS。
translated by 谷歌翻译
在过去几年中,已经制作了神经结构搜索领域的显着改进。然而,由于存在搜索的约束和实际推断时间之间的间隙,搜索有效网络仍然具有挑战性。为了搜索具有低推理时间的高性能网络,若干以前的作品为搜索算法设置了计算复杂性约束。然而,许多因素影响推理的速度(例如,拖鞋,MAC)。单个指示符与延迟之间的相关性并不强。目前,提出了一些重新参数化(REP)技术将多分支转换为对单路径架构进行推断友好的。然而,多分支架构仍然是人为定义和效率低下。在这项工作中,我们提出了一种适用于结构重新参数化技术的新搜索空间。 repnas是一种单级NAS方法,以便在分支号约束下有效地搜索每个层的最佳分支块(ODBB)。我们的实验结果表明,搜索的ODBB可以轻松超越手动各种分支块(DBB),高效培训。代码和型号将越早提供。
translated by 谷歌翻译
视觉变压器在识别和检测等实质性视野任务中显示了很大的视觉表示功率,从而在手动设计更有效的架构方面吸引了快速增长的努力。在本文中,我们建议使用神经架构搜索来自动化此过程,不仅可以搜索架构,还可以搜索搜索空间。中央观点是逐步发展使用权重共享超空网的E-T错误引导的不同搜索维度。此外,我们提供了一般视觉变压器的设计指南,根据空间搜索过程进行广泛的分析,这可以促进对视觉变压器的理解。值得注意的是,搜索空间的搜索模型,名为S3(用于搜索空间的短路),从搜索到的空间实现了卓越的性能,以最近提出的型号,例如在ImageNet上进行评估时的Swin,Deit和Vit。 S3的有效性也在对象检测,语义细分和视觉问题上说明,展示其泛度到下游视觉和视觉语言任务。代码和型号将在https://github.com/microsoft/cream中使用。
translated by 谷歌翻译
神经体系结构搜索(NAS)旨在自动化体系结构设计过程并改善深神经网络的性能。平台感知的NAS方法同时考虑性能和复杂性,并且可以找到具有低计算资源的表现良好的体系结构。尽管普通的NAS方法由于模型培训的重复而导致了巨大的计算成本,但在搜索过程中,训练包含所有候选架构的超级网的权重训练了一杆NAS,据报道会导致搜索成本较低。这项研究着重于体系结构复杂性的单发NAS,该NA优化了由两个指标的加权总和组成的目标函数,例如预测性能和参数数量。在现有方法中,必须使用加权总和的不同系数多次运行架构搜索过程,以获得具有不同复杂性的多个体系结构。这项研究旨在降低与寻找多个体系结构相关的搜索成本。提出的方法使用多个分布来生成具有不同复杂性的体系结构,并使用基于重要性采样的多个分布获得的样本来更新每个分布。提出的方法使我们能够在单个体系结构搜索中获得具有不同复杂性的多个体系结构,从而降低了搜索成本。所提出的方法应用于CIAFR-10和Imagenet数据集上卷积神经网络的体系结构搜索。因此,与基线方法相比,提出的方法发现了多个复杂性不同的架构,同时需要减少计算工作。
translated by 谷歌翻译
近年来,计算机视觉社区中最受欢迎的技术之一就是深度学习技术。作为一种数据驱动的技术,深层模型需要大量准确标记的培训数据,这在许多现实世界中通常是无法访问的。数据空间解决方案是数据增强(DA),可以人为地从原始样本中生成新图像。图像增强策略可能因数据集而有所不同,因为不同的数据类型可能需要不同的增强以促进模型培训。但是,DA策略的设计主要由具有领域知识的人类专家决定,这被认为是高度主观和错误的。为了减轻此类问题,一个新颖的方向是使用自动数据增强(AUTODA)技术自动从给定数据集中学习图像增强策略。 Autoda模型的目的是找到可以最大化模型性能提高的最佳DA策略。这项调查从图像分类的角度讨论了Autoda技术出现的根本原因。我们确定标准自动赛车模型的三个关键组件:搜索空间,搜索算法和评估功能。根据他们的架构,我们提供了现有图像AUTODA方法的系统分类法。本文介绍了Autoda领域的主要作品,讨论了他们的利弊,并提出了一些潜在的方向以进行未来的改进。
translated by 谷歌翻译