基于学习的边缘检测有很强地监督的是用像素 - 明智的注释进行了强烈监督,这是手动获取的乏味。我们研究了自我训练边缘检测问题,利用了未开发的大型未标记图像数据集。我们设计具有多层正规化和自学的自我监督框架。特别地,我们强加了一个一致性正则化,该正则化强制执行来自多个层中的每一个的输出,以对输入图像及其扰动的对应物一致。我们采用L0平滑作为“扰动”,以鼓励在自我监督学习集群假设之后展示展示突出边界的边缘预测。同时,通过伪标签进行多层监督,网络训练,该伪标签与罐头边缘初始化,然后通过网络迭代地改进,因为培训进行了。正规化和自我教学共同实现了精确和召回的良好平衡,导致对监督方法的显着提升,在目标数据集中轻质细化。此外,我们的方法展示了强大的交叉数据集普遍性。例如,与现有的方法相比,在看不见的数据集上测试时,OCS的ODS提高了4.8%和5.8%。
translated by 谷歌翻译
由于存储器和计算资源有限,部署在移动设备上的卷积神经网络(CNNS)是困难的。我们的目标是通过利用特征图中的冗余来设计包括CPU和GPU的异构设备的高效神经网络,这很少在神经结构设计中进行了研究。对于类似CPU的设备,我们提出了一种新颖的CPU高效的Ghost(C-Ghost)模块,以生成从廉价操作的更多特征映射。基于一组内在的特征映射,我们使用廉价的成本应用一系列线性变换,以生成许多幽灵特征图,可以完全揭示内在特征的信息。所提出的C-Ghost模块可以作为即插即用组件,以升级现有的卷积神经网络。 C-Ghost瓶颈旨在堆叠C-Ghost模块,然后可以轻松建立轻量级的C-Ghostnet。我们进一步考虑GPU设备的有效网络。在建筑阶段的情况下,不涉及太多的GPU效率(例如,深度明智的卷积),我们建议利用阶段明智的特征冗余来制定GPU高效的幽灵(G-GHOST)阶段结构。舞台中的特征被分成两个部分,其中使用具有较少输出通道的原始块处理第一部分,用于生成内在特征,另一个通过利用阶段明智的冗余来生成廉价的操作。在基准测试上进行的实验证明了所提出的C-Ghost模块和G-Ghost阶段的有效性。 C-Ghostnet和G-Ghostnet分别可以分别实现CPU和GPU的准确性和延迟的最佳权衡。代码可在https://github.com/huawei-noah/cv-backbones获得。
translated by 谷歌翻译
从非结构化的3D点云学习密集点语义,虽然是一个逼真的问题,但在文献中探讨了逼真的问题。虽然现有的弱监督方法可以仅具有小数点的点级注释来有效地学习语义,但我们发现香草边界箱级注释也是大规模3D点云的语义分割信息。在本文中,我们介绍了一个神经结构,称为Box2Seg,以了解3D点云的点级语义,具有边界盒级监控。我们方法的关键是通过探索每个边界框内和外部的几何和拓扑结构来生成准确的伪标签。具体地,利用基于注意的自我训练(AST)技术和点类激活映射(PCAM)来估计伪标签。通过伪标签进行进一步培训并精制网络。在两个大型基准测试中的实验,包括S3DIS和Scannet,证明了该方法的竞争性能。特别是,所提出的网络可以培训,甚至是均匀的空缺边界箱级注释和子环级标签。
translated by 谷歌翻译
弱监督学习可以帮助本地特征方法来克服以密集标记的对应关系获取大规模数据集的障碍。然而,由于弱监管无法区分检测和描述步骤造成的损失,因此直接在联合描述 - 然后检测管道内进行弱监督的学习,其性能受到限制。在本文中,我们提出了一种针对弱监督当地特征学习量身定制的解耦描述的管道。在我们的管道内,检测步骤与描述步骤分离并推迟直到学习判别和鲁棒描述符。此外,我们介绍了一条线到窗口搜索策略,以明确地使用相机姿势信息以获得更好的描述符学习。广泛的实验表明,我们的方法,即POSFEAT(相机姿势监督特征),以前完全和弱监督的方法优异,在各种下游任务上实现了最先进的性能。
translated by 谷歌翻译
域适应(DA)最近在医学影像社区提出了强烈的兴趣。虽然已经提出了大量DA技术进行了用于图像分割,但大多数这些技术已经在私有数据集或小公共可用数据集上验证。此外,这些数据集主要解决了单级问题。为了解决这些限制,与第24届医学图像计算和计算机辅助干预(Miccai 2021)结合第24届国际会议组织交叉模态域适应(Crossmoda)挑战。 Crossmoda是无监督跨型号DA的第一个大型和多级基准。挑战的目标是分割参与前庭施瓦新瘤(VS)的后续和治疗规划的两个关键脑结构:VS和Cochleas。目前,使用对比度增强的T1(CET1)MRI进行VS患者的诊断和监测。然而,使用诸如高分辨率T2(HRT2)MRI的非对比度序列越来越感兴趣。因此,我们创建了一个无人监督的跨模型分段基准。训练集提供注释CET1(n = 105)和未配对的非注释的HRT2(n = 105)。目的是在测试集中提供的HRT2上自动对HRT2进行单侧VS和双侧耳蜗分割(n = 137)。共有16支球队提交了评估阶段的算法。顶级履行团队达成的表现水平非常高(最佳中位数骰子 - vs:88.4%; Cochleas:85.7%)并接近完全监督(中位数骰子 - vs:92.5%;耳蜗:87.7%)。所有顶级执行方法都使用图像到图像转换方法将源域图像转换为伪目标域图像。然后使用这些生成的图像和为源图像提供的手动注释进行培训分割网络。
translated by 谷歌翻译
本文涉及一种特殊类型的Lyapunov功能,即Zubov方程的解决方案。这种功能可用于表征常微分方程的系统的吸引领域。我们派生并证明了Zubov等式的一体形式解决方案。对于数值计算,我们开发了两个数据驱动方法。一个基于差分方程的增强系统的集成;另一个是基于深度学习。前者对于具有相对低的状态空间尺寸的系统是有效的,并且后者是为高维问题开发的。深度学习方法应用于新英格兰10发电机电力系统模型。我们证明了电力系统的Lyapunov功能存在神经网络近似,使得近似误差是发电机数量的立方多项式。证明了作为n的函数的误差收敛速率,是神经元数量的函数。
translated by 谷歌翻译
作为沉浸式多媒体服务的重要申请形式,自由视视频(FVV)使用户能够通过强烈的互动来实现沉重的沉浸体验。然而,虚拟视图合成算法的计算复杂性对FVV系统的实时性能构成了重大挑战。此外,用户交互的个性使得难以为具有传统架构的系统同时为多个用户提供服务。在本文中,我们将基于CNN的视图插值算法进行了新颖,实时地合成密集的虚拟视图。基于此,我们还构建了具有多用户导向的流策略的端到端的现场自由视系统。我们的系统可以使用单个Edge服务器同时为多个用户提供服务,而无需在客户端上带来大视图综合负载。我们分析整个系统,并表明我们的方法在视觉质量和延迟方面使用户成为一个令人愉快的沉浸体验。
translated by 谷歌翻译
现实的3D室内场景数据集在计算机视觉,场景理解,自主导航和3D重建中启用了最近的最近进展。但是,现有数据集的规模,多样性和可定制性有限,并且扫描和注释更多的耗时和昂贵。幸运的是,组合者在我们方面:现有3D场景数据集有足够的个别房间,如果有一种方法可以将它们重新组合成新的布局。在本文中,我们提出了从现有3D房间生成新型3D平面图的任务。我们确定了这个问题的三个子任务:生成2D布局,检索兼容3D房间,以及3D房间的变形,以适应布局。然后,我们讨论解决问题的不同策略,设计两个代表性管道:一个使用可用的2D楼层计划,以指导3D房间的选择和变形;另一个学习检索一组兼容的3D房间,并将它们与新颖的布局相结合。我们设计一组指标,可评估所生成的结果与三个子任务中的每一个,并显示不同的方法在这些子任务上交易性能。最后,我们调查从生成的3D场景中受益的下游任务,并讨论选择最适合这些任务的需求的方法。
translated by 谷歌翻译
越来越多的内容和机构努力使用外部数据来提高AI服务的性能。为了解决数据隐私和安全问题,联合学习吸引了学术界和工业的越来越多的关注,以安全地构建跨多个隔离数据提供商的AI模型。在本文中,我们研究了在现实世界应用中扩展广泛使用的XGBoost模型的效率问题,以垂直联合学习设置。最先进的垂直联合XGBoost框架需要大量的加密操作和密文传输,这使得模型培训比在本地培训XGBoost模型的效率更少。为了弥合这一差距,我们提出了一种新型批量均匀加密方法,以降低加密相关的计算和传输成本。这是通过将一阶导数和二阶导数编码成单个号码以进行加密,密文传输和同型添加操作来实现。可以从编码值的总和同时解码多个一阶导数和二阶导数的总和。我们在批量联合学习的Batchcrypt工作中受到了批量思想,并设计了一种新的批处理方法来解决允许相当数量的负数的限制。所提出的批处理方法的编码过程由四个步骤组成,包括转换,截断,量化和批量,而解码过程包括去量化和移位。通过理论分析和广泛的数值实验证明了我们的方法的优点。
translated by 谷歌翻译
与传统的卷积神经网络(CNN)和视觉变压器不同,多层默认(MLP)是一种新的视觉模型,具有极其简单的架构,其仅由完全连接的层堆叠。 Vision MLP的输入图像通常被分成多个令牌(补丁),而现有的MLP模型直接用固定权重聚合它们,忽略来自不同图像的令牌的变化语义信息。为了动态聚合令牌,我们建议将每个令牌代表为具有两个部分,幅度和相位的波函数。幅度是原始特征,并且相位项是根据输入图像的语义内容改变的复值。介绍相位项可以动态调制MLP中令牌和固定权重之间的关系。基于波浪状令牌表示,我们建立了一种用于视觉任务的新型波-MLP架构。广泛的实验表明,所提出的波-MLP优于各种视觉任务的最先进的MLP架构,例如图像分类,对象检测和语义分割。
translated by 谷歌翻译