标识识别的挑战之一在于形式的多样性,例如符号,文本或两者的组合;此外,徽标在设计中往往非常简洁,而外观类似,表明学习歧视性表示的难度。为了调查徽标的品种和表示,我们介绍了Makeup216,这是来自现实世界的化妆领域的最大和最复杂的Logo数据集。它包括216个标志和157个品牌,包括10,019个图像和37,018个注释的徽标对象。此外,我们发现纯粹徽标周围的边缘背景可以提供重要的上下文信息,并提出了对抗主题的普发提徒注意力表示框架(AAR),分别参加徽标主体和辅助边缘背景,这可以组合以获得更好的表示。我们所提出的框架在Makeup216和另一个大型开放标识数据集中实现了竞争结果,可以为徽标识别提供新的思考。 MakeUp216的数据集及建议框架的代码即将发布。
translated by 谷歌翻译
Various depth estimation models are now widely used on many mobile and IoT devices for image segmentation, bokeh effect rendering, object tracking and many other mobile tasks. Thus, it is very crucial to have efficient and accurate depth estimation models that can run fast on low-power mobile chipsets. In this Mobile AI challenge, the target was to develop deep learning-based single image depth estimation solutions that can show a real-time performance on IoT platforms and smartphones. For this, the participants used a large-scale RGB-to-depth dataset that was collected with the ZED stereo camera capable to generated depth maps for objects located at up to 50 meters. The runtime of all models was evaluated on the Raspberry Pi 4 platform, where the developed solutions were able to generate VGA resolution depth maps at up to 27 FPS while achieving high fidelity results. All models developed in the challenge are also compatible with any Android or Linux-based mobile devices, their detailed description is provided in this paper.
translated by 谷歌翻译
来自计算机断层扫描血管造影(CTA)的肾脏结构分割对于许多计算机辅助的肾脏癌治疗应用至关重要。肾脏解析〜(KIPA 2022)挑战旨在建立细粒度的多结构数据集并改善多个肾脏结构的分割。最近,U-NET主导了医疗图像分割。在KIPA挑战中,我们评估了几个U-NET变体,并选择了最终提交的最佳模型。
translated by 谷歌翻译
单眼深度估计是计算机视觉社区的重要任务。尽管巨大的成功方法取得了出色的结果,但其中大多数在计算上都是昂贵的,并且不适用于实时推论。在本文中,我们旨在解决单眼深度估计的更实际的应用,该解决方案不仅应考虑精度,而且还应考虑移动设备上的推论时间。为此,我们首先开发了一个基于端到端学习的模型,其重量大小(1.4MB)和短的推理时间(Raspberry Pi 4上的27fps)。然后,我们提出了一种简单而有效的数据增强策略,称为R2 CROP,以提高模型性能。此外,我们观察到,只有一个单一损失术语训练的简单轻巧模型将遭受性能瓶颈的影响。为了减轻此问题,我们采用多个损失条款,在培训阶段提供足够的限制。此外,采用简单的动态重量重量策略,我们可以避免耗时的超参数选择损失项。最后,我们采用结构感知的蒸馏以进一步提高模型性能。值得注意的是,我们的解决方案在MAI&AIM2022单眼估计挑战中排名第二,Si-RMSE为0.311,RMSE为3.79,推理时间为37 $ ms $,在Raspberry Pi上进行了测试4.值得注意的是,我们提供了,我们提供了。挑战最快的解决方案。代码和模型将以\ url {https://github.com/zhyever/litedepth}发布。
translated by 谷歌翻译
极化是横向波的独特特征,由Stokes参数表示。极化状态的分析可以揭示有关来源的宝贵信息。在本文中,我们提出了一个可分离的低级别四元素线性混合模型对极化信号:我们假设源因子矩阵的每一列等于极化数据矩阵的一列,并将相应的问题称为可分离的Quaternion矩阵分解(SQMF)。我们讨论了SQMF可以分解的矩阵的一些属性。为了确定季节空间中的源因子矩阵,我们提出了一种受连续投影算法启发的称为Quaternion连续投影算法(QSPA)的启发式算法。为了确保QSPA的有效性,为Quaternion矩阵提出了一个新的归一化操作员。我们使用块坐标下降算法来计算实际数字空间中的非负因子激活矩阵。我们在极化图像表示和光偏光成像的应用中测试我们的方法,以验证其有效性。
translated by 谷歌翻译
现有的基于密钥帧的运动合成主要集中于循环动作或短期运动的产生,例如步行,跑步和近距离姿势之间的过渡。但是,这些方法将在处理复杂和即兴运动时,例如舞蹈表演和武术时会大大降低合成运动的自然性和多样性。此外,当前的研究缺乏对生成的运动的细粒度控制,这对于智能的人类计算机互动和动画创作至关重要。在本文中,我们提出了一个基于多个约束的新型基于关键的运动生成网络,该网络可以通过学习的知识来实现​​多样化的舞蹈综合。具体而言,该算法主要基于复发性神经网络(RNN)和变压器体系结构制定。我们网络的骨干是由两个长期记忆(LSTM)单元组成的层次RNN模块,其中第一个LSTM用于将历史框架的姿势信息嵌入潜在空间中,第二个LSTM用于使用第二个LSTM,并且使用了第二个LSTM。预测下一帧的人类姿势。此外,我们的框架包含两个基于变压器的控制器,这些控制器分别用于建模根轨迹和速度因子的约束,以更好地利用框架的时间上下文并实现细粒度的运动控制。我们在包含各种现代舞蹈的舞蹈数据集上验证了拟议的方法。三个定量分析的结果验证了我们算法的优势。视频和定性实验结果表明,我们算法产生的复杂运动序列即使是长期合成,也可以在关键帧之间实现多种和平滑的运动过渡。
translated by 谷歌翻译
深度神经网络的成功在很大程度上取决于大量高质量注释的数据的可用性,但是这些数据很难或昂贵。由此产生的标签可能是类别不平衡,嘈杂或人类偏见。从不完美注释的数据集中学习无偏分类模型是一项挑战,我们通常会遭受过度拟合或不足的折磨。在这项工作中,我们彻底研究了流行的软马克斯损失和基于保证金的损失,并提供了一种可行的方法来加强通过最大化最小样本余量来限制的概括误差。我们为此目的进一步得出了最佳条件,该条件指示了类原型应锚定的方式。通过理论分析的激励,我们提出了一种简单但有效的方法,即原型锚定学习(PAL),可以轻松地将其纳入各种基于学习的分类方案中以处理不完美的注释。我们通过对合成和现实世界数据集进行广泛的实验来验证PAL对班级不平衡学习和降低噪声学习的有效性。
translated by 谷歌翻译
基于深度学习的分类中特征表示的主要挑战之一是设计表现出强大歧视力的适当损失功能。经典的SoftMax损失并不能明确鼓励对特征的歧视性学习。研究的一个流行方向是将边缘纳入良好的损失中,以实施额外的课内紧凑性和阶层间的可分离性,但是,这是通过启发式手段而不是严格的数学原则来开发的。在这项工作中,我们试图通过将原则优化目标提出为最大的利润率来解决这一限制。具体而言,我们首先将类别的边缘定义为级别间的可分离性的度量,而样品边缘是级别的紧凑性的度量。因此,为了鼓励特征的歧视性表示,损失函数应促进类和样品的最大可能边缘。此外,我们得出了广义的保证金软损失,以得出现有基于边缘的损失的一般结论。这个原则性的框架不仅提供了新的观点来理解和解释现有的基于保证金的损失,而且还提供了新的见解,可以指导新工具的设计,包括样本保证金正则化和最大的平衡案例的最大保证金损失,和零中心的正则化案例。实验结果证明了我们的策略对各种任务的有效性,包括视觉分类,分类不平衡,重新识别和面部验证。
translated by 谷歌翻译
Data augmentation (DA) is a widely used technique for enhancing the training of deep neural networks. Recent DA techniques which achieve state-of-the-art performance always meet the need for diversity in augmented training samples. However, an augmentation strategy that has a high diversity usually introduces out-of-distribution (OOD) augmented samples and these samples consequently impair the performance. To alleviate this issue, we propose ReSmooth, a framework that firstly detects OOD samples in augmented samples and then leverages them. To be specific, we first use a Gaussian mixture model to fit the loss distribution of both the original and augmented samples and accordingly split these samples into in-distribution (ID) samples and OOD samples. Then we start a new training where ID and OOD samples are incorporated with different smooth labels. By treating ID samples and OOD samples unequally, we can make better use of the diverse augmented data. Further, we incorporate our ReSmooth framework with negative data augmentation strategies. By properly handling their intentionally created OOD samples, the classification performance of negative data augmentations is largely ameliorated. Experiments on several classification benchmarks show that ReSmooth can be easily extended to existing augmentation strategies (such as RandAugment, rotate, and jigsaw) and improve on them. Our code is available at https://github.com/Chenyang4/ReSmooth.
translated by 谷歌翻译
通过新兴的大规模自动驾驶数据集和深度学习技术的快速发展,单眼3D对象检测(MONO3D)取得了巨大的改进。但是,由于严重的域间隙(例如,视野(FOV),像素大小和数据集中的对象大小)引起的,MONO3D检测器的泛化难度,导致对看不见的域的性能急剧下降。为了解决这些问题,我们将位置不变的变换和多尺度训练与像素大小的深度策略相结合,以构建有效的统一摄像机将军(CGP)。它充分考虑了不同摄像机捕获的图像的FOV和像素大小的差异。此外,当通过详尽的系统研究交叉描述时,我们进一步研究了定量指标的障碍。我们发现预测的大小偏见会导致巨大的失败。因此,我们提出了2d-3d几何符合对象缩放策略(GCO),以通过实例级级增强来弥合差距。我们称为DGMono3D的方法在所有评估的数据集上都能达到出色的性能,并且即使没有在目标域上使用数据,也超过了无监督域的适应方案。
translated by 谷歌翻译