We study the composition style in deep image matting, a notion that characterizes a data generation flow on how to exploit limited foregrounds and random backgrounds to form a training dataset. Prior art executes this flow in a completely random manner by simply going through the foreground pool or by optionally combining two foregrounds before foreground-background composition. In this work, we first show that naive foreground combination can be problematic and therefore derive an alternative formulation to reasonably combine foregrounds. Our second contribution is an observation that matting performance can benefit from a certain occurrence frequency of combined foregrounds and their associated source foregrounds during training. Inspired by this, we introduce a novel composition style that binds the source and combined foregrounds in a definite triplet. In addition, we also find that different orders of foreground combination lead to different foreground patterns, which further inspires a quadruplet-based composition style. Results under controlled experiments on four matting baselines show that our composition styles outperform existing ones and invite consistent performance improvement on both composited and real-world datasets. Code is available at: https://github.com/coconuthust/composition_styles
translated by 谷歌翻译
Large pretrained language models have shown surprising In-Context Learning (ICL) ability. With a few demonstration input-label pairs, they can predict the label for an unseen input without additional parameter updates. Despite the great success in performance, the working mechanism of ICL still remains an open problem. In order to better understand how ICL works, this paper explains language models as meta-optimizers and understands ICL as a kind of implicit finetuning. Theoretically, we figure out that the Transformer attention has a dual form of gradient descent based optimization. On top of it, we understand ICL as follows: GPT first produces meta-gradients according to the demonstration examples, and then these meta-gradients are applied to the original GPT to build an ICL model. Experimentally, we comprehensively compare the behavior of ICL and explicit finetuning based on real tasks to provide empirical evidence that supports our understanding. The results prove that ICL behaves similarly to explicit finetuning at the prediction level, the representation level, and the attention behavior level. Further, inspired by our understanding of meta-optimization, we design a momentum-based attention by analogy with the momentum-based gradient descent algorithm. Its consistently better performance over vanilla attention supports our understanding again from another aspect, and more importantly, it shows the potential to utilize our understanding for future model designing.
translated by 谷歌翻译
In this paper, we allocate IoT devices as resources for smart services with time-constrained resource requirements. The allocation method named as BRAD can work under multiple resource scenarios with diverse resource richnesses, availabilities and costs, such as the intelligent healthcare system deployed by Harbin Institute of Technology (HIT-IHC). The allocation aims for bimetric-balancing under the multi-scenario case, i.e., the profit and cost associated with service satisfaction are jointly optimised and balanced wisely. Besides, we abstract IoT devices as digital objects (DO) to make them easier to interact with during resource allocation. Considering that the problem is NP-Hard and the optimisation objective is not differentiable, we utilise Grey Wolf Optimisation (GWO) algorithm as the model optimiser. Specifically, we tackle the deficiencies of GWO and significantly improve its performance by introducing three new mechanisms to form the BRAD-GWA algorithm. Comprehensive experiments are conducted on realistic HIT-IHC IoT testbeds and several algorithms are compared, including the allocation method originally used by HIT-IHC system to verify the effectiveness of the BRAD-GWA. The BRAD-GWA achieves a 3.14 times and 29.6% objective reduction compared with the HIT-IHC and the original GWO algorithm, respectively.
translated by 谷歌翻译
在鸟眼中学习强大的表现(BEV),以进行感知任务,这是趋势和吸引行业和学术界的广泛关注。大多数自动驾驶算法的常规方法在正面或透视视图中执行检测,细分,跟踪等。随着传感器配置变得越来越复杂,从不同的传感器中集成了多源信息,并在统一视图中代表功能至关重要。 BEV感知继承了几个优势,因为代表BEV中的周围场景是直观和融合友好的。对于BEV中的代表对象,对于随后的模块,如计划和/或控制是最可取的。 BEV感知的核心问题在于(a)如何通过从透视视图到BEV来通过视图转换来重建丢失的3D信息; (b)如何在BEV网格中获取地面真理注释; (c)如何制定管道以合并来自不同来源和视图的特征; (d)如何适应和概括算法作为传感器配置在不同情况下各不相同。在这项调查中,我们回顾了有关BEV感知的最新工作,并对不同解决方案进行了深入的分析。此外,还描述了该行业的BEV方法的几种系统设计。此外,我们推出了一套完整的实用指南,以提高BEV感知任务的性能,包括相机,激光雷达和融合输入。最后,我们指出了该领域的未来研究指示。我们希望该报告能阐明社区,并鼓励对BEV感知的更多研究。我们保留一个活跃的存储库来收集最新的工作,并在https://github.com/openperceptionx/bevperception-survey-recipe上提供一包技巧的工具箱。
translated by 谷歌翻译
无人驾驶汽车(UAV)具有各种优势,但是它们的实际应用受其能源有限的影响。因此,管理其功耗很重要,并且建立相应的功耗模型也很重要。但是,大多数现有作品要么为固定翼无人机和单权无人机建立理论功耗模型,要么为无需严格的数学推导而为多旋转无人机提供启发式功耗模型。本文旨在为多旋转无人机建立理论功耗模型。具体而言,通过利用单旋风无人机与多机无人机之间的关系,得出了三个飞行状态的多旋转无人机的封闭形式消耗模型,即远南飞行,垂直上升和垂直下降。功耗条款。在此基础上,在三维(3-D)方案中,无人机的通用飞行功耗模型。通过使用DJI M210和DJI移动SDK在实际场景中制作的移动应用程序进行广泛的实验,并确认这些模型的正确性和有效性;此外,进行模拟以进一步研究转子数量对无人机的功耗的影响。拟议的功耗模型不仅揭示了多旋转无人机的功耗如何受到各种因素的影响,而且还为引入其他新型应用程序铺平了道路。
translated by 谷歌翻译
具有终身学习能力(LL)能力的质量检查模型对于实用的质量检查应用很重要,据报道,基于架构的LL方法是这些模型的有效实现。但是,将以前的方法扩展到质量检查任务是不平凡的,因为它们要么需要在测试阶段访问任务身份,要么不会从看不见的任务中明确对样本进行模拟。在本文中,我们提出了Diana:一种基于动态体系结构的终生质量检查模型,该模型试图通过迅速增强的语言模型来学习一系列QA任务。戴安娜(Diana)使用四种类型的分层组织提示来捕获来自不同粒度的质量检查知识。具体而言,我们专门介绍任务级别的提示来捕获特定任务的知识,以保留高LL性能并维护实例级别的提示,以学习跨不同输入样本共享的知识,以提高模型的概括性能。此外,我们专用于单独的提示来明确建模未看到的任务,并引入一组及时的密钥向量,以促进任务之间的知识共享。广泛的实验表明,戴安娜(Diana)的表现优于最先进的终身质量检查模型,尤其是在处理看不见的任务时。
translated by 谷歌翻译
过去,图像检索是用于跨视图地理位置和无人机视觉本地化任务的主流解决方案。简而言之,图像检索的方式是通过过渡角度获得最终所需的信息,例如GPS。但是,图像检索的方式并非完全端到端。并且有一些多余的操作,例如需要提前准备功能库以及画廊构造的抽样间隔问题,这使得很难实施大规模应用程序。在本文中,我们提出了一个端到端定位方案,使用图像(FPI)查找点,该方案旨在通过源A的图像(无人机 - - 看法)。为了验证我们的框架的可行性,我们构建了一个新的数据集(UL14),该数据集旨在解决无人机视觉自我定位任务。同时,我们还建立了一个基于变压器的基线以实现端到端培训。另外,先前的评估方法不再适用于FPI框架。因此,提出了米级准确性(MA)和相对距离评分(RDS)来评估无人机定位的准确性。同时,我们初步比较了FPI和图像检索方法,而FPI的结构在速度和效率方面都可以提高性能。特别是,由于不同观点与剧烈的空间量表转换之间的巨大差异,FPI的任务仍然是巨大的挑战。
translated by 谷歌翻译
随着智能设备产生的数据快速增长以及物联网(IoT)时代的处理需求的指数激增,资源丰富的云中心已被用来应对这些挑战。为了减轻云中心的负担,边缘云计算卸载成为一个有前途的解决方案,因为通过将计算任务从云到边缘设备缩小计算任务可以改善性能和服务质量(QOS),从而缩短了数据源和计算之间的接近度。已经提出了几种Edge-Cloud计算卸载的优化模型,以考虑计算成本和异质通信成本。但是,没有共同考虑几个重要因素,例如任务的异质性,节点之间的负载平衡以及计算任务所产生的利润,这导致了本文提出的PECCO的利润和面向成本的计算。考虑到该模型本质上很难并且优化目标是无可分析的,我们提出了改进的蛾式优化器PECCO-MFI,该pecco-MFI解决了原始的moth-flame优化器的某些缺陷,并将其集成在边缘环境下。在优化边缘云环境下提议的任务卸载模型时,进行了全面的实验,以验证所提出的方法的出色性能。
translated by 谷歌翻译
商业深度传感器通常会产生嘈杂和缺失的深度,尤其是在镜面和透明的对象上,这对下游深度或基于点云的任务构成了关键问题。为了减轻此问题,我们提出了一个强大的RGBD融合网络Swindrnet,以进行深度修复。我们进一步提出了域随机增强深度模拟(DREDS)方法,以使用基于物理的渲染模拟主动的立体声深度系统,并生成一个大规模合成数据集,该数据集包含130k Photorealistic RGB图像以及其模拟深度带有现实主义的传感器。为了评估深度恢复方法,我们还策划了一个现实世界中的数据集,即STD,该数据集捕获了30个混乱的场景,这些场景由50个对象组成,具有不同的材料,从透明,透明,弥漫性。实验表明,提议的DREDS数据集桥接了SIM到实地域间隙,因此,经过训练,我们的Swindrnet可以无缝地概括到其他真实的深度数据集,例如。 ClearGrasp,并以实时速度优于深度恢复的竞争方法。我们进一步表明,我们的深度恢复有效地提高了下游任务的性能,包括类别级别的姿势估计和掌握任务。我们的数据和代码可从https://github.com/pku-epic/dreds获得
translated by 谷歌翻译
最近,许多半监督的对象检测(SSOD)方法采用教师学生框架并取得了最新的结果。但是,教师网络与学生网络紧密相结合,因为教师是学生的指数移动平均值(EMA),这会导致表现瓶颈。为了解决耦合问题,我们为SSOD提出了一个周期自我训练(CST)框架,该框架由两个老师T1和T2,两个学生S1和S2组成。基于这些网络,构建了一个周期自我训练机制​​,即S1 $ {\ rightarrow} $ t1 $ {\ rightArow} $ s2 $ {\ rightArrow} $ t2 $ {\ rightArrow} $ s1。对于S $ {\ Rightarrow} $ T,我们还利用学生的EMA权重来更新老师。对于t $ {\ rightarrow} $ s,而不是直接为其学生S1(S2)提供监督,而是老师T1(T2)为学生S2(S1)生成伪标记,从而松散耦合效果。此外,由于EMA的财产,老师最有可能积累学生的偏见,并使错误变得不可逆转。为了减轻问题,我们还提出了分配一致性重新加权策略,在该策略中,根据教师T1和T2的分配一致性,将伪标记重新加权。通过该策略,可以使用嘈杂的伪标签对两个学生S2和S1进行训练,以避免确认偏见。广泛的实验证明了CST的优势,通过将AP比基线优于最先进的方法提高了2.1%的绝对AP改进,并具有稀缺的标记数据,而胜过了2.1%的绝对AP。
translated by 谷歌翻译