Recently, the success of pre-training in text domain has been fully extended to vision, audio, and cross-modal scenarios. The proposed pre-training models of different modalities are showing a rising trend of homogeneity in their model structures, which brings the opportunity to implement different pre-training models within a uniform framework. In this paper, we present TencentPretrain, a toolkit supporting pre-training models of different modalities. The core feature of TencentPretrain is the modular design. The toolkit uniformly divides pre-training models into 5 components: embedding, encoder, target embedding, decoder, and target. As almost all of common modules are provided in each component, users can choose the desired modules from different components to build a complete pre-training model. The modular design enables users to efficiently reproduce existing pre-training models or build brand-new one. We test the toolkit on text, vision, and audio benchmarks and show that it can match the performance of the original implementations.
translated by 谷歌翻译
In this paper, we propose a novel 3D graph convolution based pipeline for category-level 6D pose and size estimation from monocular RGB-D images. The proposed method leverages an efficient 3D data augmentation and a novel vector-based decoupled rotation representation. Specifically, we first design an orientation-aware autoencoder with 3D graph convolution for latent feature learning. The learned latent feature is insensitive to point shift and size thanks to the shift and scale-invariance properties of the 3D graph convolution. Then, to efficiently decode the rotation information from the latent feature, we design a novel flexible vector-based decomposable rotation representation that employs two decoders to complementarily access the rotation information. The proposed rotation representation has two major advantages: 1) decoupled characteristic that makes the rotation estimation easier; 2) flexible length and rotated angle of the vectors allow us to find a more suitable vector representation for specific pose estimation task. Finally, we propose a 3D deformation mechanism to increase the generalization ability of the pipeline. Extensive experiments show that the proposed pipeline achieves state-of-the-art performance on category-level tasks. Further, the experiments demonstrate that the proposed rotation representation is more suitable for the pose estimation tasks than other rotation representations.
translated by 谷歌翻译
Recent mainstream weakly-supervised semantic segmentation (WSSS) approaches mainly relies on image-level classification learning, which has limited representation capacity. In this paper, we propose a novel semantic learning based framework, named SLAMs (Semantic Learning based Activation Map), for WSSS.
translated by 谷歌翻译
科学文献是高质量的语料库,支持大量自然语言处理(NLP)研究。但是,现有数据集围绕英语,这限制了中国科学NLP的发展。在这项工作中,我们提出了CSL,这是一个大规模的中国科学文献数据集,其中包含396K论文的标题,摘要,关键字和学术领域。据我们所知,CSL是中文中的第一个科学文档数据集。 CSL可以用作中国语料库。同样,该半结构化数据是一种自然注释,可以构成许多监督的NLP任务。基于CSL,我们提出了一个基准,以评估跨科学领域任务的模型的性能,即摘要,关键字生成和文本分类。我们分析了现有文本到文本模型在评估任务上的行为,并揭示了中国科学NLP任务的挑战,该任务为未来的研究提供了宝贵的参考。数据和代码可在https://github.com/ydli-ai/csl上找到
translated by 谷歌翻译
胸部X射线(CXR)中准确的异常定位可以使各种胸部疾病的临床诊断受益。但是,病变水平的注释只能由经验丰富的放射科医生进行,这是乏味且耗时的,因此很难获得。这种情况导致难以开发CXR的完全监督异常定位系统。在这方面,我们建议通过一个弱半监督的策略来训练CXR异常本地化框架,称为“超越阶级”(PBC),该策略(PBC)使用了少数带有病变级别边界框的完全注释的CXR,并通过广泛的弱化的样品和大量的带有注释的样品。点。这样的点注释设置可以通过边缘注释成本提供弱实例级信息,以实现异常定位。尤其是,我们的PBC背后的核心思想是学习从点注释到边界框的强大而准确的映射,以根据注释点的差异。为此,提出了一个正则化项,即多点的一致性,它驱动模型从相同异常内的不同点注释中生成一致的边界框。此外,还提出了一种被称为对称的一致性的自学,也提出了从弱注释的数据中深入利用有用的信息来实现异常定位。 RSNA和VINDR-CXR数据集的实验结果证明了该方法的有效性。当使用少于20%的盒子级标签进行训练时,与当前的最新方法相比,我们的PBC可以在MAP中提高〜5的改进(即点DETR)。代码可从https://github.com/haozheliu-st/point-beyond-class获得。
translated by 谷歌翻译
传统的像素图像攻击算法对防御算法的鲁棒性不佳,即应用防御算法时的攻击强度急剧下降。尽管生成对抗网络(GAN)可以通过综合更有意义的纹理模式来部分解决此问题,但主要限制是现有生成器只能生成特定比例的图像。在本文中,我们提出了一种基于无规模的攻击算法,该算法将全球具有语义上有意义的对抗模式综合到具有任意尺度的图像。我们的生成攻击方法始终优于各种攻击设置上的最新方法,即所提出的方法在很大程度上降低了各种图像分类,对象检测和实例分段算法在不同的高级防御方法下的性能。
translated by 谷歌翻译
由于癌症样品收集和注释的难度,宫颈癌数据集通常表现出长尾数据分布。当训练检测器以检测WSI(整个切片图像)中的癌细胞时,从TCT(ThinPrep细胞学测试)样品捕获的样品时,头部类别(例如正常细胞和炎性细胞)通常比尾巴类别数量更大。 (例如癌细胞)。对象检测中的大多数现有最新的长尾学习方法将重点放在类别分布统计上,以解决长尾方案中的问题,而无需考虑每个样本的“硬度”。为了解决这个问题,在这项工作中,我们提出了一个Grad-libra损失,该损失利用梯度动态校准每个样品的硬度程度,以使不同类别的硬度度重新平衡正面和负样品的梯度。因此,我们的损失可以帮助探测器更加重视头部和尾部类别中的这些硬样品。在长尾的TCT WSI图像数据集上进行了广泛的实验表明,主流检测器,例如对使用我们建议的梯度损失训练的训练,重新点,FCO,ATSS,YOLOF等的地图比使用跨透明分类损失训练的地图要高得多(7.8%)。
translated by 谷歌翻译
我们可以构建一个可解释的面部识别网络,能够学习基于面部的功能,例如眼睛,鼻子,嘴巴等,而无需任何手动注释或添加数据集?在本文中,我们提出了一个通用的可解释的通道损失(ECLOSS)来构建可解释的面部识别网络。经过Ecloss训练的可解释网络可以轻松地学习目标卷积层上基于面部的表示,单个通道可以检测到某个面部部分。我们对数十个数据集的实验表明,Ecloss实现了卓越的解释性指标,同时提高了面部验证的性能而无需面部对齐。此外,我们的可视化结果还说明了拟议的Ecloss的有效性。
translated by 谷歌翻译
由于卷积在提取物体的局部上下文中,在过去十年中,对象检测在过去十年中取得了重大进展。但是,对象的尺度是多样的,当前卷积只能处理单尺度输入。因此,传统卷积具有固定接收场在处理这种规模差异问题方面的能力受到限制。多尺度功能表示已被证明是缓解规模差异问题的有效方法。最近的研究主要与某些量表或各个尺度的总体特征采用部分联系,并专注于整个量表的全球信息。但是,跨空间和深度维度的信息被忽略了。受此启发,我们提出了多尺度卷积(MSCONV)来解决此问题。同时考虑到量表,空间和深度信息,MSCONV能够更全面地处理多尺度输入。 MSCONV是有效的,并且在计算上是有效的,只有少量计算成本增加。对于大多数单阶段对象探测器,在检测头中用MSCONV代替传统的卷积可以带来AP的2.5 \%改进(在Coco 2017数据集上),只有3 \%的拖鞋增加了。 MSCONV对于两阶段对象探测器也具有灵活性和有效性。当扩展到主流两阶段对象检测器时,MSCONV的AP可以提高3.0 \%。我们在单尺度测试下的最佳模型在Coco 2017上实现了48.9 \%AP,\ textit {test-dev} Split,它超过了许多最新方法。
translated by 谷歌翻译
锥体网络是多尺度对象检测的标准方法。当前对特征金字塔网络的研究通常采用层连接来从特征层次结构的某些级别收集特征,并且不考虑它们之间的显着差异。我们提出了一个更好的特征金字塔网络的体系结构,称为选择性多尺度学习(SMSL),以解决此问题。SMSL高效且泛滥,可以将其集成到单阶段和两阶段检测器中以提高检测性能,几乎没有额外的推理成本。视网膜与SMSL的结合获得了可可数据集的AP(从39.1 \%到40.9 \%)的1.8 \%改进。与SMSL集成时,两阶段探测器的AP可以提高1.0 \%。
translated by 谷歌翻译