在无监督的域适应性(UDA)中,直接从源到目标域的适应通常会遭受明显的差异,并导致对齐不足。因此,许多UDA的作品试图通过各种中间空间逐渐和轻柔地消失域间隙,这些空间被称为域桥接(DB)。但是,对于诸如域自适应语义分割(DASS)之类的密集预测任务,现有的解决方案主要依赖于粗糙的样式转移以及如何优雅地桥接域的优雅桥梁。在这项工作中,我们诉诸于数据混合以建立用于DASS的经过经过经过经过讨论的域桥接(DDB),通过该域的源和目标域的联合分布与中间空间中的每个分布进行对齐并与每个分布。 DDB的核心是双路径域桥接步骤,用于使用粗糙和精细的数据混合技术生成两个中间域,以及一个跨路径知识蒸馏步骤,用于对两个互补模型进行对生成的中间样品进行培训的互补模型作为“老师”以多教老师的蒸馏方式发展出色的“学生”。这两个优化步骤以交替的方式工作,并相互加强以具有强大的适应能力引起DDB。对具有不同设置的自适应分割任务进行的广泛实验表明,我们的DDB显着优于最先进的方法。代码可从https://github.com/xiaoachen98/ddb.git获得。
translated by 谷歌翻译
现有的最佳3D对象检测器通常依赖于多模式融合策略。但是,由于忽略了特定于模式的有用信息,因此从根本上限制了该设计,并最终阻碍了模型性能。为了解决这一局限性,在这项工作中,我们介绍了一种新型的模式相互作用策略,在该策略中,在整个过程中学习和维护单个单模式表示,以使其在物体检测过程中被利用其独特特征。为了实现这一建议的策略,我们设计了一个深层互动体系结构,其特征是多模式代表性交互编码器和多模式预测交互解码器。大规模Nuscenes数据集的实验表明,我们所提出的方法经常超过所有先前的艺术。至关重要的是,我们的方法在竞争激烈的Nuscenes对象检测排行榜上排名第一。
translated by 谷歌翻译
本文研究了如何实现更好,更有效的学习学习,以解决在有挑战性的多对象方案下应对半监督视频对象细分。最先进的方法学会用单个正对象解码特征,因此必须在多对象方案下分别匹配和分割每个目标,从而多次消耗计算资源。为了解决问题,我们提出了一个与变压器(AOT)方法的关联对象,以共同且协作匹配和解码多个对象。详细说明,AOT采用识别机制将多个目标关联到相同的高维嵌入空间中。因此,我们可以同时处理多个对象的匹配和分割解码,就像处理单个对象一样有效地解码。为了充分模型多对象关联,设计了长期的短期变压器(LSTT)来构建层次匹配和传播。基于AOT,我们进一步提出了一个更灵活,更健壮的框架,将对象与可扩展的变压器(AOST)相关联,其中LSTT的可扩展版本旨在实现准确性效率折衷的运行时间适应。此外,AOST引入了更好的层次方式,以使识别和视力嵌入。我们对多对象和单对象基准进行了广泛的实验,以检查AOT系列框架。与最先进的竞争对手相比,我们的方法可以保持运行时效率的时间和卓越的性能。值得注意的是,我们在三个受欢迎的基准测试(即YouTube-VOS(86.5%),Davis 2017 Val/Test/Test(87.0%/84.7%)和Davis 2016(93.0%)(93.0%)上,我们实现了新的最先进性能。项目页面:https://github.com/z-x-yang/aot。
translated by 谷歌翻译
在本文中,我们使用统计方法再现核心克莱伯特空间(RKHS)来研究与集体行为的学习动态特性问题。具体地,我们提供了一个框架,通过计算RKHS中的聚合测量之间的最大平均差异(MMD)来识别和群集多个集群系统,而无需任何先验知识的集合系统动态。然后,利用新提出的聚合马尔可夫参数的新提出的概念的梯度流程,我们介绍了系统框架,以识别和识别使用它们的线性近似的集合系统。最后,我们证明,使用其聚合测量,可以将所提出的方法扩展到RKH中的群集多个未知组合。数值实验表明,我们的方法是具有不同类型的系统动态的合奏是可靠和强大的。
translated by 谷歌翻译
储层计算网络(RCNS)已成功地作为学习和复杂决策任务的工具。尽管他们的效率和低培训成本,RCN的实际应用严重依赖于实证设计。在本文中,我们使用线性动力系统的实现理论开发一种设计RCN的算法。特别是,我们介绍了$ \ Alpha $ -stable实现的概念,并提供了一种有效的方法来修剪线性RCN的大小而不会恶化训练精度。此外,基于可控性和可观察性矩阵的概念,我们导出了线性RCN中隐藏节点数量的不可缩小的必要条件。利用线性RCN设计,我们提供了一种实现具有非线性激活功能的rcns的易操作步骤。最后,我们在预测时延系统和混沌系统上呈现数值实验,以验证提出的RCN设计方法并证明它们的功效。
translated by 谷歌翻译
最近,通过对比视觉 - 语言预训练(CLIP)的零射击和少量学习已经在2D视觉识别上显示了鼓舞人心的性能,从而了解在开放词汇设置中将图像与其相应的文本匹配。然而,它仍然在探索中,是否通过2D中的大规模图像文本对预先训练的剪辑可以推广到3D识别。在本文中,我们通过提出引人点来识别这种设置是可行的,这在剪辑编码点云和3D类别文本之间进行对准。具体地,我们通过将点云投射到多视图深度映射而不呈现,并聚合视图零拍摄预测以实现从2D到3D的知识转移。首先,我们设计了一个视图间适配器,以更好地提取全局特征,并自适应地融合从3D到2D预培训的剪辑中学到的几次拍摄知识。只需在几次拍摄设置中微调轻量级适配器,可以在很大程度上提高要素的性能。此外,我们遵守CONTCLIP和古典3D监督网络之间的互补财产。通过简单的合奏,PointClip提高了基线的性能,甚至超越了最先进的模型。因此,PointClip是在低资源成本和数据制度下通过剪辑的有效3D点云理解的有希望的替代方案。我们在广泛采用的ModelNet10,ModelNet40和挑战ScanObjectnn上进行彻底的实验,以证明Pointclip的有效性。代码在https://github.com/zrrskywalker/pointclip发布。
translated by 谷歌翻译
通过不懈的研究增强了StyleGAN的语义可控性。尽管现有的弱监督方法在沿一个属性操纵样式代码方面很好地奏效,但操纵多个属性的准确性被忽略了。多属性表示很容易在stylegan潜在空间中纠缠,而顺序编辑会导致错误积累。为了解决这些局限性,我们设计了一个动态样式操纵网络(Dystyle),其结构和参数因输入样本而异,以执行非线性和自适应操纵潜在代码,以进行灵活和精确的属性控制。为了有效且稳定地优化障碍网络,我们提出了动态的多属性对比度学习(DMACL)方法:包括动态的多重构造对比度和动态多属性对比损失,同时将各种属性从生成中删除模型的图像和潜在空间。结果,我们的方法表明了沿多个数字和二进制属性的细粒度分离的编辑。与现有样式操纵方法的定性和定量比较验证了我们方法在多属性控制的准确性和身份保存方面的优越性,而不会损害光真相。
translated by 谷歌翻译
虽然可分辨率的架构搜索(飞镖)已成为神经结构中的主流范例(NAS),因为其简单和效率,最近的作品发现,搜索架构的性能几乎可以随着飞镖的优化程序而增加,以及最终的大小由飞镖获得几乎无法表明运营的重要性。上述观察表明,飞镖中的监督信号可能是架构搜索的穷人或不可靠的指标,鼓励有趣和有趣的方向:我们可以衡量不可分辨率范式下的任何培训的运作重要性吗?我们通过在初始化问题的网络修剪中定制NAS提供肯定的答案。随着最近建议的突触突触效力标准在初始化的网络修剪中,我们寻求在没有任何培训的情况下将候选人行动中的候选人行动的重要性进行评分,并提出了一种名为“免费可分辨的架构搜索}(Freedarts)的小说框架” 。我们表明,没有任何培训,具有不同代理度量的自由路由器可以在不同的搜索空间中优于大多数NAS基线。更重要的是,Freedarts是非常内存的高效和计算效率,因为它放弃了架构搜索阶段的培训,使得能够在更灵活的空间上执行架构搜索并消除架构搜索和评估之间的深度间隙。我们希望我们的工作激励从初始化修剪的角度来激发解决NAS的尝试。
translated by 谷歌翻译
单帧红外小目标(SIRST)检测旨在将小目标与混乱背景区分开。随着深度学习的发展,基于CNN的方法由于其强大的建模能力而在通用对象检测中产生了有希望的结果。但是,现有的基于CNN的方法不能直接应用于红外小目标,因为其网络中的汇总层可能导致深层中的目标损失。为了解决这个问题,我们在本文中提出了一个密集的嵌套注意网络(DNANET)。具体而言,我们设计了一个密集的嵌套交互模块(DNIM),以实现高级和低级特征之间的渐进互动。随着DNIM中的重复相互作用,可以保持深层中的红外小目标。基于DNIM,我们进一步提出了一个级联的通道和空间注意模块(CSAM),以适应增强多级特征。借助我们的DNANET,可以通过重复的融合和增强来充分整合和充分利用小型目标的上下文信息。此外,我们开发了一个红外的小目标数据集(即nudt-sirst),并提出了一组评估指标来进行全面的绩效评估。对公众和我们自我开发的数据集进行的实验证明了我们方法的有效性。与其他最先进的方法相比,我们的方法在检测概率(PD),假警报率(FA)和联合交集(IOU)方面取得了更好的性能。
translated by 谷歌翻译
In recent years, mobile devices are equipped with increasingly advanced sensing and computing capabilities. Coupled with advancements in Deep Learning (DL), this opens up countless possibilities for meaningful applications, e.g., for medical purposes and in vehicular networks. Traditional cloudbased Machine Learning (ML) approaches require the data to be centralized in a cloud server or data center. However, this results in critical issues related to unacceptable latency and communication inefficiency. To this end, Mobile Edge Computing (MEC) has been proposed to bring intelligence closer to the edge, where data is produced. However, conventional enabling technologies for ML at mobile edge networks still require personal data to be shared with external parties, e.g., edge servers. Recently, in light of increasingly stringent data privacy legislations and growing privacy concerns, the concept of Federated Learning (FL) has been introduced. In FL, end devices use their local data to train an ML model required by the server. The end devices then send the model updates rather than raw data to the server for aggregation. FL can serve as an enabling technology in mobile edge networks since it enables the collaborative training of an ML model and also enables DL for mobile edge network optimization. However, in a large-scale and complex mobile edge network, heterogeneous devices with varying constraints are involved. This raises challenges of communication costs, resource allocation, and privacy and security in the implementation of FL at scale. In this survey, we begin with an introduction to the background and fundamentals of FL. Then, we highlight the aforementioned challenges of FL implementation and review existing solutions. Furthermore, we present the applications of FL for mobile edge network optimization. Finally, we discuss the important challenges and future research directions in FL.
translated by 谷歌翻译