One of the key challenges in deploying RL to real-world applications is to adapt to variations of unknown environment contexts, such as changing terrains in robotic tasks and fluctuated bandwidth in congestion control. Existing works on adaptation to unknown environment contexts either assume the contexts are the same for the whole episode or assume the context variables are Markovian. However, in many real-world applications, the environment context usually stays stable for a stochastic period and then changes in an abrupt and unpredictable manner within an episode, resulting in a segment structure, which existing works fail to address. To leverage the segment structure of piecewise stable context in real-world applications, in this paper, we propose a \textit{\textbf{Se}gmented \textbf{C}ontext \textbf{B}elief \textbf{A}ugmented \textbf{D}eep~(SeCBAD)} RL method. Our method can jointly infer the belief distribution over latent context with the posterior over segment length and perform more accurate belief context inference with observed data within the current context segment. The inferred belief context can be leveraged to augment the state, leading to a policy that can adapt to abrupt variations in context. We demonstrate empirically that SeCBAD can infer context segment length accurately and outperform existing methods on a toy grid world environment and Mujuco tasks with piecewise-stable context.
translated by 谷歌翻译
肖像照片修饰是一种照片修饰任务,强调人类区域优先和组级一致性。基于查找表的方法通过学习图像自适应权重来实现三维查找表(3D LUT)并导通像素到像素颜色变换来实现对润转性能有前途的矫正性能。但是,此范例忽略了本地上下文提示,并且当它们表现出相同的原始RGB值时,将相同的转换应用于纵向像素和背景像素。相比之下,专家通常进行不同的操作来调整肖像区域和背景区域的色温和音调。这激励我们建模本地上下文提示,明确改善修饰质量。首先,我们考虑一种图像补丁并预测像素自适应查找表权重,以精确地润饰中心像素。其次,由于相邻像素对中心像素表现出不同的亲和力,我们估计当地注意掩模以调制相邻像素的影响。第三,通过应用监督,可以进一步提高本地注意掩模的质量,该监督基于由地面肖像掩模计算的亲和图。对于组级一致性,我们建议直接限制实验室空间中平均颜色组件的方差。 PPR10K数据集的广泛实验验证了我们方法的有效性,例如,在高分辨率照片上,PSNR度量超过0.5的收益,而组级一致性度量获得至少2.1减少。
translated by 谷歌翻译
Privacy protection and nonconvexity are two challenging problems in decentralized optimization and learning involving sensitive data. Despite some recent advances addressing each of the two problems separately, no results have been reported that have theoretical guarantees on both privacy protection and saddle/maximum avoidance in decentralized nonconvex optimization. We propose a new algorithm for decentralized nonconvex optimization that can enable both rigorous differential privacy and saddle/maximum avoiding performance. The new algorithm allows the incorporation of persistent additive noise to enable rigorous differential privacy for data samples, gradients, and intermediate optimization variables without losing provable convergence, and thus circumventing the dilemma of trading accuracy for privacy in differential privacy design. More interestingly, the algorithm is theoretically proven to be able to efficiently { guarantee accuracy by avoiding} convergence to local maxima and saddle points, which has not been reported before in the literature on decentralized nonconvex optimization. The algorithm is efficient in both communication (it only shares one variable in each iteration) and computation (it is encryption-free), and hence is promising for large-scale nonconvex optimization and learning involving high-dimensional optimization parameters. Numerical experiments for both a decentralized estimation problem and an Independent Component Analysis (ICA) problem confirm the effectiveness of the proposed approach.
translated by 谷歌翻译
Open world object detection aims at detecting objects that are absent in the object classes of the training data as unknown objects without explicit supervision. Furthermore, the exact classes of the unknown objects must be identified without catastrophic forgetting of the previous known classes when the corresponding annotations of unknown objects are given incrementally. In this paper, we propose a two-stage training approach named Open World DETR for open world object detection based on Deformable DETR. In the first stage, we pre-train a model on the current annotated data to detect objects from the current known classes, and concurrently train an additional binary classifier to classify predictions into foreground or background classes. This helps the model to build an unbiased feature representations that can facilitate the detection of unknown classes in subsequent process. In the second stage, we fine-tune the class-specific components of the model with a multi-view self-labeling strategy and a consistency constraint. Furthermore, we alleviate catastrophic forgetting when the annotations of the unknown classes becomes available incrementally by using knowledge distillation and exemplar replay. Experimental results on PASCAL VOC and MS-COCO show that our proposed method outperforms other state-of-the-art open world object detection methods by a large margin.
translated by 谷歌翻译
多对象跟踪(MOT)是最基本的计算机视觉任务之一,它有助于各种视频分析应用程序。尽管最近取得了有希望的进展,但当前的MOT研究仍仅限于输入流的固定采样帧速率。实际上,我们从经验上发现,当输入帧速率变化时,所有最新最新跟踪器的准确性都会急剧下降。对于更智能的跟踪解决方案,我们将研究工作的注意力转移到了帧速率不可知MOT(FRAMOT)的问题上。在本文中,我们建议使用定期培训计划(FAPS)的帧速率不可知的MOT框架,以首次解决FRAMOT问题。具体而言,我们提出了一个帧速率不可知协会模块(FAAM),该模块(FAAM)渗透并编码帧速率信息,以帮助跨多帧速率输入的身份匹配,从而提高了学习模型在处理FRAMOT中复杂的运动体验关系方面的能力。此外,FRAMOT中训练和推理之间的关联差距扩大,因为训练中未包含的那些后处理步骤在较低的帧速率方案中产生了更大的影响。为了解决这个问题,我们建议定期培训计划(PTS),以通过跟踪模式匹配和融合来反映培训中的所有后处理步骤。除了提出的方法外,我们首次尝试以两种不同的模式(即已知的帧速率和未知帧速率)建立这项新任务的评估方法,旨在处理更复杂的情况。在具有挑战性的MOT数据集(FRAMOT版本)上进行的定量实验清楚地表明,所提出的方法可以更好地处理不同的帧速率,从而改善对复杂情况的鲁棒性。
translated by 谷歌翻译
神经网络的通用近似特性(UAP)对于深度学习至关重要,众所周知,广泛的神经网络是$ l^p $ norm和连续/统一规范中连续功能的通用近似概要。但是,确切的最小宽度,$ w _ {\ min} $,尚未对UAP进行彻底研究。最近,使用解码器模式编码器方案,\ citet {park2021mimine}发现$ w _ {\ min} = \ max(d_x+1,d_y)$ for $ l^p $ up of relu Networks和the $ c $ - relu+step网络,其中$ d_x,d_y $分别是输入和输出尺寸。在本文中,我们考虑具有任意激活功能的神经网络。我们证明,紧凑型域上功能的$ c $ uap和$ l^p $ -uap共享最小宽度的通用下限;也就是说,$ w^*_ {\ min} = \ max(d_x,d_y)$。特别是,只要输入或输出尺寸大于一个,就可以通过泄漏的relu网络来实现临界宽度,$ w^*_ {\ min} $,可以通过泄漏的relu网络来实现。我们的构建基于神经普通微分方程的近似能力以及通过神经网络近似流量图的能力。还讨论了非单极管或不连续的激活函数情况和一维情况。
translated by 谷歌翻译
深度学习已在数据科学和自然科学领域进行了重要应用。一些研究将深层神经网络与动态系统联系起来,但网络结构仅限于残留网络。众所周知,残留网络可以被视为动态系统的数值离散化。在本文中,我们回到了经典的网络结构,并证明香草馈电网络也可能是动态系统的数值离散化,其中网络的宽度等于输入和输出的维度。我们的证明是基于泄漏 - RELU函数的属性和求解微分方程的分裂方法的数值技术。我们的结果可以为理解前馈神经网络的近似特性提供新的观点。
translated by 谷歌翻译
RGB热点对象检测(SOD)结合了两个光谱,以分段图像中的视觉明显区域。大多数现有方法都使用边界图来学习锋利的边界。这些方法忽略了孤立的边界像素与其他自信像素之间的相互作用,从而导致了次优性能。为了解决这个问题,我们为基于SWIN Transformer的RGB-T SOD提出了一个职位感知关系学习网络(PRLNET)。 PRLNET探索像素之间的距离和方向关系,以增强阶层内的紧凑性和类间的分离,从而产生具有清晰边界和均匀区域的显着对象掩模。具体而言,我们开发了一个新颖的签名距离辅助模块(SDMAM)来改善编码器特征表示,该模块考虑了边界邻域中不同像素的距离关系。然后,我们使用定向字段(FRDF)设计一种功能改进方法,该方法通过利用明显对象内部的功能来纠正边界邻域的特征。 FRDF利用对象像素之间的方向信息有效地增强了显着区域的阶层紧凑性。此外,我们构成了一个纯变压器编码器 - 模块网络,以增强RGB-T SOD的多光谱特征表示。最后,我们对三个公共基准数据集进行了定量和定性实验。结果表明,我们所提出的方法的表现优于最新方法。
translated by 谷歌翻译
域的概括(DG)旨在在几个源域上学习一个模型,希望该模型能够很好地推广到看不见的目标域。域之间的分布移位包含协变量和条件偏移,模型都必须能够处理以获得更好的推广性。在本文中,提出了一种新颖的DG方法来处理通过视觉对齐和不确定性引导信仰集合(VAUE)的分布转移。具体而言,对于协变性移位,视觉对齐模块的设计旨在使图像样式的分布与常见的经验高斯分布对齐,以便可以在视觉空间中消除协变量移位。对于有条件的转变,我们基于主观逻辑和Dempster-Shafer理论采用了不确定性引导的信念集成策略。给定测试样品的条件分布是通过源域的动态组合估计的。进行了全面的实验,以证明在四个广泛使用的数据集上,即办公室,VLCS,TerrainCognita和PACS上提出的方法的出色性能。
translated by 谷歌翻译
语义本地化(SELO)是指使用语义信息(例如文本)在大规模遥感(RS)图像中获得最相关位置的任务。作为基于跨模式检索的新兴任务,Selo仅使用字幕级注释来实现语义级检索,这表明了其在统一下游任务方面的巨大潜力。尽管Selo已连续执行,但目前没有系统地探索并分析了这一紧急方向。在本文中,我们彻底研究了这一领域,并根据指标和测试数据提供了完整的基准,以推进SELO任务。首先,基于此任务的特征,我们提出了多个判别评估指标来量化SELO任务的性能。设计的显着面积比例,注意力转移距离和离散的注意距离可用于评估从像素级别和区域级别中产生的SELO图。接下来,为了为SELO任务提供标准评估数据,我们为多样化的,多语义的,多目标语义定位测试集(AIR-SLT)贡献。 AIR-SLT由22个大型RS图像和59个具有不同语义的测试用例组成,旨在为检索模型提供全面的评估。最后,我们详细分析了RS跨模式检索模型的SELO性能,探索不同变量对此任务的影响,并为SELO任务提供了完整的基准测试。我们还建立了一个新的范式来引用RS表达理解,并通过将其与检测和道路提取等任务相结合,证明了Selo在语义中的巨大优势。拟议的评估指标,语义本地化测试集和相应的脚本已在github.com/xiaoyuan1996/semanticlocalizationmetrics上访问。
translated by 谷歌翻译