现实世界数据通常遵循长尾分布,这使得现有分类算法的性能较大。关键问题是尾类别中的样本未能描绘其级别的多种多样性。人类可以想象在新的姿势,场景和观看角度的样本,即使是第一次看到此类别也是如此。灵感来自于此,我们提出了一种新的基于推理的隐式语义数据增强方法,可以从其他类借用转换方向。由于每个类别的协方差矩阵表示特征转换方向,因此我们可以从类似类别中采样新的方向以产生绝对不同的实例。具体地,首先采用长尾分布式数据来训练骨干和分类器。然后,估计每个类别的协方差矩阵,构建知识图形以存储任何两个类别的关系。最后,通过从知识图中的所有类似类别传播信息,自适应地增强尾样本。 CiFar-100-LT,想象 - LT和Inattations 2018上的实验结果表明了我们所提出的方法的有效性与最先进的方法相比。
translated by 谷歌翻译
近年来,场景文本检测和识别的研究重点已转移到任意形状文本,文本形状表示是一个基本问题。理想的表示应紧凑,完整,高效和可重复使用,以便我们认为后续认可。但是,以前的表示在一个或多个方面存在缺陷。薄板间隙(TPS)转换在场景文本识别方面取得了巨大成功。受到这一点的启发,我们逆转了它的用法,并精致地将TPS视为任意形状文本表示的精美表示。 TPS表示是紧凑,完整和有效的。使用预测的TPS参数,可以将检测到的文本区域直接纠正到近冬季的参数,以帮助后续识别。为了进一步利用TPS表示的潜力,提出了边界对准损失。基于这些设计,我们实现了文本检测器tpsnet,可以方便地将其扩展到文本次数。对几个公共基准的广泛评估和消融表明,提出的文本表示和斑点方法的有效性和优势。特别是,TPSNET在ART数据集上实现了4.4 \%(78.4 \%vs. 74.0 \%)的检测F量改进,并且在5.0 \%(78.5 \%vs. 73.55)上进行了端到端的斑点f-Measure改进。 \%)在总文本上,这是没有铃铛和口哨的大边缘。
translated by 谷歌翻译
LIDAR点云通常通过连续旋转LIDAR传感器扫描,捕获周围环境的精确几何形状,并且对于许多自主检测和导航任务至关重要。尽管已经开发了许多3D深度体系结构,但是在分析和理解点云数据中,有效收集和大量点云的注释仍然是一个主要挑战。本文介绍了Polarmix,这是一种简单且通用的点云增强技术,但可以在不同的感知任务和场景中有效地减轻数据约束。 Polarmix通过两种跨扫描扩展策略来富含点云分布,并保留点云保真度,这些杂志沿扫描方向切割,编辑和混合点云。第一个是场景级交换,它交换了两个LiDAR扫描的点云扇区,这些扫描沿方位角轴切割。第二个是实例级旋转和粘贴,它是从一个激光雷达扫描中进行的点点实例,用多个角度旋转它们(以创建多个副本),然后将旋转点实例粘贴到其他扫描中。广泛的实验表明,Polarmix在不同的感知任务和场景中始终如一地达到卓越的性能。此外,它可以用作各种3D深度体系结构的插件,并且对于无监督的域适应性也很好。
translated by 谷歌翻译
在大量标记培训数据的监督下,视频语义细分取得了巨大进展。但是,域自适应视频分割,可以通过从标记的源域对未标记的目标域进行调整来减轻数据标记约束,这很大程度上被忽略了。我们设计了时间伪监督(TPS),这是一种简单有效的方法,探讨了从未标记的目标视频学习有效表示的一致性培训的想法。与在空间空间中建立一致性的传统一致性训练不同,我们通过在增强视频框架之间执行模型一致性来探索时空空间中的一致性训练,这有助于从更多样化的目标数据中学习。具体来说,我们设计了跨框架伪标签,以从以前的视频帧中提供伪监督,同时从增强的当前视频帧中学习。跨框架伪标签鼓励网络产生高确定性预测,从而有效地通过跨框架增强来促进一致性训练。对多个公共数据集进行的广泛实验表明,与最先进的ART相比,TPS更容易实现,更稳定,并且可以实现卓越的视频细分精度。
translated by 谷歌翻译
有条件的价值 - 风险(CVAR)精确地表征了稀有,灾难性事件可以在决策中施加的影响。这些表征对于正常决策和焦虑症(如焦虑症)的精神病条件都很重要 - 特别是对于最终可能导致灾难的决定序列。Cvar,如其他良好的风险措施,在这些序列中以复杂的方式化合物 - 并且我们最近正式地形成了三种结构不同的形式,其中风险平均或乘法。不幸的是,现有的认知任务未能辨别这些方法;在这里,我们提供了突出其独特特征的示例,并使正式的链接到时间折扣,这两种方法是一致的。这些例子可以将未来的实验与更广泛的实验进行了成绩,表征风险态度,特别是对于更长的地平线问题和精神病理学人群。
translated by 谷歌翻译
分类加强学习(RL) - 其中代理人了解其行动的所有可能的长期后果,而不仅仅是预期的价值 - 最近的兴趣。分配视图的最重要可接受性之一是在结果不完全确定的情况下促进现代,测量的,风险的风险。相比之下,在风险下决策的心理和神经科学调查利用了各种更令人尊敬的理论模型,例如缺乏公理理想的性质,例如连贯性。在这里,我们考虑了用于建模人类和动物规划的风险措施,称为有条件的价值 - 风险(CVAR),这量化了最坏情况结果(例如,车辆事故或捕食)。我们首先在连续的情况下采用传统的分布方法,在序列环境中,在众所周知的两步任务中重新分析人类决策者的选择,揭示了在粘性和坚持下潜伏的大量风险厌恶。然后,我们考虑风险敏感性的进一步关键特性,即时间一致性,显示出这种形式的CVAR的替代品,享受这种理想的特征。我们使用模拟来检查各种形式的设置,其中各种形式因对人类和动物规划和行为而产生影响的方式。
translated by 谷歌翻译
用于神经形态计算的生物学启发的尖峰神经元是具有动态状态变量的非线性滤波器 - 与深度学习中使用的无状态神经元模型非常不同。 Notel Intel的神经形态研究处理器Loihi 2的下一个版本支持各种具有完全可编程动态的最有状态尖峰神经元模型。在这里,我们展示了先进的尖峰神经元模型,可用于有效地处理仿真Loihi 2硬件的仿真实验中的流数据。在一个示例中,共振和火(RF)神经元用于计算短时间傅里叶变换(STFT),其具有类似的计算复杂度,但是输出带宽的47倍而不是传统的STFT。在另一个例子中,我们描述了一种使用时间率RF神经元的光学流量估计算法,其需要比传统的基于DNN的解决方案超过90倍。我们还展示了有前途的初步结果,使用BackPropagation培训RF神经元进行音频分类任务。最后,我们表明,跳跃的血管谐振器 - RF神经元的变体 - 重复耳蜗的新特性,并激励一种有效的基于尖峰的谱图编码器。
translated by 谷歌翻译
无监督的域适配旨在对齐标记的源域和未标记的目标域,但需要访问源数据,这些源数据通常会提高数据隐私,数据便携性和数据传输效率。我们研究无监督的模型适应(UMA),或者在没有源数据的情况下称为无监督域适应,旨在使源训练模型适应目标分布而不访问源数据的替代设置。为此,我们设计了一种创新的历史对比学习(HCL)技术,利用历史来源假设来弥补UMA中的源数据。 HCL从两个角度来解决UMA挑战。首先,它介绍了通过由当前适应的模型和历史模型产生的嵌入来对目标样本学习的历史对比实例歧视(HCID)。通过历史模型,HCID鼓励UMA学习案例鉴别的目标表示,同时保留源假设。其次,它介绍了伪标签目标样本的历史对比类别歧视(HCCD)以学习类别鉴别的目标表示。具体而言,HCCD根据当前和历史模型的预测一致重新重量伪标签。广泛的实验表明,HCL优于各种视觉任务和设置始终如一地呈现和最先进的方法。
translated by 谷歌翻译
已广泛研究从合成综合数据转移到实际数据,以减轻各种计算机视觉任务(如语义分割)中的数据注释约束。然而,由于缺乏大规模合成数据集和有效的转移方法,该研究专注于2D图像及其在3D点云分割的同行落后滞后。我们通过收集Synlidar来解决这个问题,这是一个大规模合成的LIDAR数据集,其中包含具有精确的几何形状和综合语义类的Point-Wise带注释点云。 Synlidar从​​具有丰富的场景和布局的多个虚拟环境中收集,该布局由超过190亿点的32个语义课程组成。此外,我们设计PCT,一种新型点云转换器,有效地减轻了合成和实点云之间的差距。具体地,我们将合成与实际间隙分解成外观部件和稀疏性分量,并单独处理它们,这会大大改善点云转换。我们在三次转移学习设置中进行了广泛的实验,包括数据增强,半监督域适应和无监督域适应。广泛的实验表明,Synlidar提供了用于研究3D转移的高质量数据源,所提出的PCT在三个设置上一致地实现了优越的点云平移。 Synlidar项目页面:\ url {https://github.com/xiaoaoran/synlidar}
translated by 谷歌翻译
A recent study has shown a phenomenon called neural collapse in that the within-class means of features and the classifier weight vectors converge to the vertices of a simplex equiangular tight frame at the terminal phase of training for classification. In this paper, we explore the corresponding structures of the last-layer feature centers and classifiers in semantic segmentation. Based on our empirical and theoretical analysis, we point out that semantic segmentation naturally brings contextual correlation and imbalanced distribution among classes, which breaks the equiangular and maximally separated structure of neural collapse for both feature centers and classifiers. However, such a symmetric structure is beneficial to discrimination for the minor classes. To preserve these advantages, we introduce a regularizer on feature centers to encourage the network to learn features closer to the appealing structure in imbalanced semantic segmentation. Experimental results show that our method can bring significant improvements on both 2D and 3D semantic segmentation benchmarks. Moreover, our method ranks 1st and sets a new record (+6.8% mIoU) on the ScanNet200 test leaderboard. Code will be available at https://github.com/dvlab-research/Imbalanced-Learning.
translated by 谷歌翻译