A recent study has shown a phenomenon called neural collapse in that the within-class means of features and the classifier weight vectors converge to the vertices of a simplex equiangular tight frame at the terminal phase of training for classification. In this paper, we explore the corresponding structures of the last-layer feature centers and classifiers in semantic segmentation. Based on our empirical and theoretical analysis, we point out that semantic segmentation naturally brings contextual correlation and imbalanced distribution among classes, which breaks the equiangular and maximally separated structure of neural collapse for both feature centers and classifiers. However, such a symmetric structure is beneficial to discrimination for the minor classes. To preserve these advantages, we introduce a regularizer on feature centers to encourage the network to learn features closer to the appealing structure in imbalanced semantic segmentation. Experimental results show that our method can bring significant improvements on both 2D and 3D semantic segmentation benchmarks. Moreover, our method ranks 1st and sets a new record (+6.8% mIoU) on the ScanNet200 test leaderboard. Code will be available at https://github.com/dvlab-research/Imbalanced-Learning.
translated by 谷歌翻译
Data valuation, especially quantifying data value in algorithmic prediction and decision-making, is a fundamental problem in data trading scenarios. The most widely used method is to define the data Shapley and approximate it by means of the permutation sampling algorithm. To make up for the large estimation variance of the permutation sampling that hinders the development of the data marketplace, we propose a more robust data valuation method using stratified sampling, named variance reduced data Shapley (VRDS for short). We theoretically show how to stratify, how many samples are taken at each stratum, and the sample complexity analysis of VRDS. Finally, the effectiveness of VRDS is illustrated in different types of datasets and data removal applications.
translated by 谷歌翻译
本文提出了针对四方的通用自适应控制器,可以将其部署为零射击到具有截然不同的质量,手臂长度和运动常数的四轮驱动器,并且还显示出对运行时未知干扰的快速适应。核心算法的想法是学习一个单一的策略,该策略不仅可以在测试时间在线适应无人机的干扰,还可以在同一框架中适用于机器人动力学和硬件。我们通过训练神经网络来估计机器人和环境参数的潜在表示,该参数用于调节控制器的行为,也表示为神经网络。我们专门训练两个网络进行模拟,目的是将四轮驱动器飞往目标位置并避免撞击地面。我们直接在模拟中训练了相同的控制器,而没有对两个四肢旋转器进行任何修改,其中质量,惯性差异差异,最大电动机速度最大为4次。此外,我们显示了四肢和惯性的突然和大型干扰(最高35.7%)的快速适应。我们在模拟和物理世界中进行了广泛的评估,在该评估中,我们的表现优于最先进的基于学习的自适应控制器和专门针对每个平台的传统PID控制器。视频结果可以在https://dz298.github.io/universal-drone-controller/上找到。
translated by 谷歌翻译
创伤性脑损伤(TBI)患者的脑网络分析对于其意识水平评估和预后评估至关重要,这需要分割某些意识相关的大脑区域。但是,由于很难收集TBI患者的手动注释的MR扫描,因此很难构建TBI分割模型。数据增强技术可用于缓解数据稀缺问题。但是,常规数据增强策略(例如空间和强度转化)无法模仿创伤性大脑中的变形和病变,这限制了后续分割任务的性能。为了解决这些问题,我们提出了一种名为TBIGA的新型医学图像授课模型,以通过配对的脑标签图合成TBI MR扫描。我们的TBIGAN方法的主要优势在于,它可以同时生成TBI图像和相应的标签映射,这在以前的医学图像的先前涂上方法中尚未实现。我们首先按照粗到细节的方式在边缘信息的指导下生成成分的图像,然后将合成强度图像用作标签上填充的先验。此外,我们引入了基于注册的模板增强管道,以增加合成图像对的多样性并增强数据增强能力。实验结果表明,提出的TBIGAN方法可以产生具有高质量和有效标签图的足够合成的TBI图像,这可以大大改善与替代方案相比的2D和3D创伤性脑部分割性能。
translated by 谷歌翻译
面价/唤醒,表达和动作单元是面部情感分析中的相关任务。但是,由于各种收集的条件,这些任务仅在野外的性能有限。野外情感行为分析的第四次竞争(ABAW)提供了价值/唤醒,表达和动作单元标签的图像。在本文中,我们介绍了多任务学习框架,以增强野外三个相关任务的性能。功能共享和标签融合用于利用它们的关系。我们对提供的培训和验证数据进行实验。
translated by 谷歌翻译
从合成图像中学习由于标记真实图像的困难而在面部表达识别任务中起着重要作用,并且由于合成图像和真实图像之间存在差距而具有挑战性。第四次情感行为分析在野外竞争增加了挑战,并提供了Aff-Wild2数据集生成的合成图像。在本文中,我们提出了一种手工辅助表达识别方法,以减少合成数据和真实数据之间的差距。我们的方法由两个部分组成:表达识别模块和手部预测模块。表达识别模块提取表达信息,并预测模块预测图像是否包含手。决策模式用于结合两个模块的结果,并使用后延伸来改善结果。F1分数用于验证我们方法的有效性。
translated by 谷歌翻译
本文介绍了Cerberus机器人系统系统,该系统赢得了DARPA Subterranean挑战最终活动。出席机器人自主权。由于其几何复杂性,降解的感知条件以及缺乏GPS支持,严峻的导航条件和拒绝通信,地下设置使自动操作变得特别要求。为了应对这一挑战,我们开发了Cerberus系统,该系统利用了腿部和飞行机器人的协同作用,再加上可靠的控制,尤其是为了克服危险的地形,多模式和多机器人感知,以在传感器退化,以及在传感器退化的条件下进行映射以及映射通过统一的探索路径计划和本地运动计划,反映机器人特定限制的弹性自主权。 Cerberus基于其探索各种地下环境及其高级指挥和控制的能力,表现出有效的探索,对感兴趣的对象的可靠检测以及准确的映射。在本文中,我们报告了DARPA地下挑战赛的初步奔跑和最终奖项的结果,并讨论了为社区带来利益的教训所面临的亮点和挑战。
translated by 谷歌翻译
视觉惯性进程(VIO)被广泛用于多次计算机的状态估计,但在很少的视觉特征或过度攻击性飞行中的环境中起作用可能很差。在这项工作中,我们建议使用任何基于功能的VIO算法使用的多杆避免感知碰撞轨迹轨迹计划器。我们的方法能够以快速的速度飞行车辆到达目标位置,从而避免在未知的固定环境中遇到障碍,同时达到良好的VIO状态估计精度。拟议的规划师样本了一组最小的混蛋轨迹,并发现其中无冲突的轨迹,然后根据其目标和感知质量对其进行评估。特征及其位置的运动模糊都是为了感知质量。我们对功能运动模糊的新颖考虑使轨迹在具有不同光级别的环境下的侵略性自动适应。评估中的最佳轨迹是由车辆跟踪的,当从相机中收到新图像时,将以退缩的方式更新。仅对VIO做出了通用假设,因此计划器可以与各种现有系统一起使用。提出的方法可以在船上的小型嵌入式计算机上实时运行。我们通过在室内和室外环境中进行实验验证了我们提出的方法的有效性。与感知不可或缺的策划者相比,提议的计划者在摄像机的视野中保留了更多功能,并使飞行变得不那么侵略性,从而使VIO更加准确。它还减少了VIO失败,这是对感知态度计划者的发生,但并非针对拟议的计划者。还验证了拟议的规划师飞越密集障碍的能力。可以在https://youtu.be/qo3lzirpwtq上找到实验视频。
translated by 谷歌翻译
标识识别的挑战之一在于形式的多样性,例如符号,文本或两者的组合;此外,徽标在设计中往往非常简洁,而外观类似,表明学习歧视性表示的难度。为了调查徽标的品种和表示,我们介绍了Makeup216,这是来自现实世界的化妆领域的最大和最复杂的Logo数据集。它包括216个标志和157个品牌,包括10,019个图像和37,018个注释的徽标对象。此外,我们发现纯粹徽标周围的边缘背景可以提供重要的上下文信息,并提出了对抗主题的普发提徒注意力表示框架(AAR),分别参加徽标主体和辅助边缘背景,这可以组合以获得更好的表示。我们所提出的框架在Makeup216和另一个大型开放标识数据集中实现了竞争结果,可以为徽标识别提供新的思考。 MakeUp216的数据集及建议框架的代码即将发布。
translated by 谷歌翻译
作为一种预测模型的评分系统具有可解释性和透明度的显着优势,并有助于快速决策。因此,评分系统已广泛用于各种行业,如医疗保健和刑事司法。然而,这些模型中的公平问题长期以来一直受到批评,并且使用大数据和机器学习算法在评分系统的构建中提高了这个问题。在本文中,我们提出了一般框架来创建公平知识,数据驱动评分系统。首先,我们开发一个社会福利功能,融入了效率和群体公平。然后,我们将社会福利最大化问题转换为机器学习中的风险最小化任务,并在混合整数编程的帮助下导出了公平感知评分系统。最后,导出了几种理论界限用于提供参数选择建议。我们拟议的框架提供了适当的解决方案,以解决进程中的分组公平问题。它使政策制定者能够设置和定制其所需的公平要求以及其他特定于应用程序的约束。我们用几个经验数据集测试所提出的算法。实验证据支持拟议的评分制度在实现利益攸关方的最佳福利以及平衡可解释性,公平性和效率的需求方面的有效性。
translated by 谷歌翻译