不平衡的数据对基于深度学习的分类模型构成挑战。解决不平衡数据的最广泛使用的方法之一是重新加权,其中训练样本与损失功能的不同权重相关。大多数现有的重新加权方法都将示例权重视为可学习的参数,并优化了元集中的权重,因此需要昂贵的双重优化。在本文中,我们从分布的角度提出了一种基于最佳运输(OT)的新型重新加权方法。具体而言,我们将训练集视为其样品上的不平衡分布,该分布由OT运输到从元集中获得的平衡分布。训练样品的权重是分布不平衡的概率质量,并通过最大程度地减少两个分布之间的ot距离来学习。与现有方法相比,我们提出的一种方法可以脱离每次迭代时的体重学习对相关分类器的依赖性。图像,文本和点云数据集的实验表明,我们提出的重新加权方法具有出色的性能,在许多情况下实现了最新的结果,并提供了一种有希望的工具来解决不平衡的分类问题。
translated by 谷歌翻译
本研究通过基于稀疏的张量处理(STP)的Voxelized PCG的多尺度表示,通过稀疏的张解器处理(STP)进行了一种统一点云几何形状(PCG)压缩方法。应用STP显着降低了复杂性,因为它只执行以最可能的积极占用体素(MP-POV)为中心的卷曲。并且多尺度代表有助于我们逐步压缩规模明智的MP-POV。总压缩效率高度取决于每个MP-POV的占用概率的近似精度。因此,我们设计基于稀疏的卷积的神经网络(Sparsecnn),包括稀疏卷曲和体素重新采样以广泛利用前沿。然后,我们开发基于SPARSECNN的占用概率近似(SOPA)模型,以估计在单阶段的方式中仅在逐步使用自回归邻居之前或以多阶段使用的横级或以多级的方式估计占用概率。此外,我们还建议基于SPARSECNN的本地邻居嵌入(SLNE),以表征当地空间变化作为改进SOPA的特征属性。我们的统一方法显示了在与MPEG G-PCC相比的各种数据集中,包括致密PCG(8iVFB,OWLII)和稀疏LIDAR PCG(KITTI,FORD)的各种数据集中的无损压缩模式中的最先进的性能和其他基于学习的压缩方案。此外,所提出的方法由于跨越所有尺度的模型共享而引起的轻量级复杂性,并且由于模型共享。我们使所有材料可在HTTPS://github.com/njuvision/sparsepcgc上公开访问可重复的研究。
translated by 谷歌翻译
人工智能(AI)为简化Covid-19诊断提供了有前景的替代。然而,涉及周围的安全和可信度的担忧阻碍了大规模代表性的医学数据,对临床实践中训练广泛的模型造成了相当大的挑战。为了解决这个问题,我们启动了统一的CT-Covid AI诊断计划(UCADI),其中AI模型可以在没有数据共享的联合学习框架(FL)下在每个主机机构下分发和独立地在没有数据共享的情况下在每个主机机构上执行。在这里,我们认为我们的FL模型通过大的产量(中国测试敏感性/特异性:0.973 / 0.951,英国:0.730 / 0.942),与专业放射科医师的面板实现可比性表现。我们进一步评估了持有的模型(从另外两家医院收集,留出FL)和异构(用造影材料获取)数据,提供了模型所做的决策的视觉解释,并分析了模型之间的权衡联邦培训过程中的性能和沟通成本。我们的研究基于来自位于中国和英国的23家医院的3,336名患者的9,573次胸部计算断层扫描扫描(CTS)。统称,我们的工作提出了利用联邦学习的潜在保留了数字健康的前景。
translated by 谷歌翻译
双峰掌纹识别同时利用掌纹和棕榈静脉图像,通过多模型信息融合来实现高精度,并具有强烈​​的防伪性能。在识别管道中,掌心的检测和感兴趣区域(ROI)的对准是用于准确匹配的两个关键步骤。大多数现有方法通过关键点检测算法本地化Palm RoI,但是关键点检测任务的内在困难使结果不令人满意。此外,图像级的ROI对齐和融合算法没有完全调查。桥梁桥梁,在本文中,我们提出了专注于ROI本地化,对齐和双峰图像Fusion.bpfnet的双峰掌纹融合网络(BPFNET).bpfnet是一个包含两个子网的端到端框架:检测网络基于边界框预测直接回归PalmPrint ROIS,并通过翻译估计进行对准。在下游,双模融合网络实现双峰ROI图像融合利用新颖的提出的跨模型选择方案。为了显示BPFNET的有效性,我们对大规模无尺寸的掌纹数据集CUHKSZ-V1和同济进行实验,并且该方法实现了最先进的表演。
translated by 谷歌翻译
基于CNN的方法已经实现了医学图像分割的令人印象深刻的结果,但由于卷积操作的内在局部,它们未能捕获远程依赖性。基于变压器的方法最近在愿景任务中流行,因为它们的远程依赖性和有希望的性能。但是,它缺乏建模本地背景。本文以医学图像分割为例,我们呈现了MissFormer,一种有效和强大的医学图像分割变压器。 MissFormer是具有两个吸引人设计的分层编码器 - 解码器网络:1)通过所提出的增强型变压器块重新设计前馈网络,该熵增强了远程依赖性并补充本地上下文,使得该特征更加辨别。 2)我们提出了增强的变压器上下文网桥,与以前的模拟全局信息的方法不同,所提出的上下文网桥与增强变压器块提取了由我们的层级变压器编码器产生的多尺度特征的远程依赖性和本地语境。由这两个设计驱动,MissFormer显示了捕获更多辨别性依赖性和在医学图像分割中的识别依赖性和上下文的牢固能力。多器官和心脏分割任务的实验表明了我们的错过更优越性,有效性和稳健性,训练了从划伤的痕迹甚至高于想象的最先进方法。核心设计可以推广到其他视觉分段任务。代码已在GitHub上发布:https://github.com/zhifangdeng/missformer
translated by 谷歌翻译
随着对手工卫生的需求不断增长和使用的便利性,掌上识别最近具有淡淡的发展,为人识别提供了有效的解决方案。尽管已经致力于该地区的许多努力,但仍然不确定无接触棕榈污染的辨别能力,特别是对于大规模数据集。为了解决问题,在本文中,我们构建了一个大型无尺寸的棕榈纹数据集,其中包含了来自1167人的2334个棕榈手机。为了我们的最佳知识,它是有史以来最大的非接触式手掌形象基准,而是关于个人和棕榈树的数量收集。此外,我们提出了一个名为3DCPN(3D卷积棕榈识别网络)的无棕榈识别的新型深度学习框架,它利用3D卷积来动态地集成多个Gabor功能。在3DCPN中,嵌入到第一层中的新颖变体以增强曲线特征提取。通过精心设计的集合方案,然后将低级别的3D功能卷积以提取高级功能。最后在顶部,我们设置了基于地区的损失功能,以加强全局和本地描述符的辨别能力。为了展示我们方法的优越性,在我们的数据集和其他流行数据库同济和IITD上进行了广泛的实验,其中结果显示了所提出的3DCPN实现最先进的或可比性的性能。
translated by 谷歌翻译
我们介绍了遮阳板,一个新的像素注释的新数据集和一个基准套件,用于在以自我为中心的视频中分割手和活动对象。遮阳板注释Epic-kitchens的视频,其中带有当前视频分割数据集中未遇到的新挑战。具体而言,我们需要确保像素级注释作为对象经历变革性相互作用的短期和长期一致性,例如洋葱被剥皮,切成丁和煮熟 - 我们旨在获得果皮,洋葱块,斩波板,刀,锅以及表演手的准确像素级注释。遮阳板引入了一条注释管道,以零件为ai驱动,以进行可伸缩性和质量。总共,我们公开发布257个对象类的272K手册语义面具,990万个插值密集口罩,67K手动关系,涵盖36小时的179个未修剪视频。除了注释外,我们还引入了视频对象细分,互动理解和长期推理方面的三个挑战。有关数据,代码和排行榜:http://epic-kitchens.github.io/visor
translated by 谷歌翻译
为基于几何的点云压缩(G-PCC)标准开发了基于学习的自适应环滤波器,以减少属性压缩工件。提出的方法首先生成多个最可行的样品偏移(MPSO)作为潜在的压缩失真近似值,然后线性权重以减轻伪影。因此,我们将过滤后的重建驱动尽可能靠近未压缩的PCA。为此,我们设计了一个由两个连续的处理阶段组成的压缩工件还原网络(CARNET):MPSOS推导和MPSOS组合。 MPSOS派生使用两个流网络来模拟来自直接空间嵌入和频率依赖性嵌入的局部邻域变化,在该嵌入中,稀疏的卷积被利用可从细微和不规则分布的点中最佳汇总信息。 MPSOS组合由最小平方误量学指导,以进一步捕获输入PCAS的内容动力学,从而得出加权系数。 Carnet作为GPCC的环内过滤工具实现,其中这些线性加权系数被封装在比特斯流中,并以忽略不计的比特率开销。实验结果表明,对最新的GPCC的主观和客观性都显着改善。
translated by 谷歌翻译
情感双对提取(ECPE)是情感原因分析中的一项新任务,它从情感文档中提取潜在的情感因子对。最近的研究使用端到端方法来应对ECPE任务。但是,这些方法要么患有标签稀疏问题,要么无法模拟情绪与原因之间的复杂关系。此外,他们都不考虑条款的明确语义信息。为此,我们将ECPE任务转换为文档级机器阅读理解(MRC)任务,并提出了具有重新INK机制(MM-R)的多转移MRC框架。我们的框架可以模拟情绪和原因之间的复杂关系,同时避免产生配对矩阵(标签稀疏问题的主要原因)。此外,多转弯结构可以融合情绪和原因之间的明确语义信息流。关于基准情绪的广泛实验导致语料库证明了我们提出的框架的有效性,该框架的表现优于现有的最新方法。
translated by 谷歌翻译
食源性疾病是一个严重但可以预防的公共卫生问题 - 延迟发现相关的暴发导致生产力损失,昂贵的召回,公共安全危害甚至生命丧失。尽管社交媒体是识别未报告的食源性疾病的有前途的来源,但缺乏标记的数据集来开发有效的爆发检测模型。为了加快基于机器学习的疫苗爆发检测模型的开发,我们提出了推文-FID(Tweet-Foodborne疾病检测),这是第一个用于多种食源性疾病事件检测任务的公开注释的数据集。从Twitter收集的Tweet-FID带有三个方面:Tweet类,实体类型和老虎机类型,并带有专家以及众包工人生产的标签。我们介绍了利用这三个方面的几个域任务:文本相关性分类(TRC),实体提及检测(EMD)和插槽填充(SF)。我们描述了用于支持这些任务模型开发的数据集设计,创建和标签的端到端方法。提供了这些任务的全面结果,以利用Tweet-FID数据集上的最新单项和多任务深度学习方法。该数据集为未来的Foodborne爆发检测提供了机会。
translated by 谷歌翻译