心肌活力的评估对于患有心肌梗塞的患者的诊断和治疗管理是必不可少的,并且心肌病理学的分类是本评估的关键。这项工作定义了医学图像分析的新任务,即进行心肌病理分割(MYOPS)结合三个序列的心脏磁共振(CMR)图像,该图像首次与Mycai 2020一起在Myops挑战中提出的。挑战提供了45个配对和预对准的CMR图像,允许算法将互补信息与三个CMR序列组合到病理分割。在本文中,我们提供了挑战的详细信息,从十五个参与者的作品调查,并根据五个方面解释他们的方法,即预处理,数据增强,学习策略,模型架构和后处理。此外,我们对不同因素的结果分析了结果,以检查关键障碍和探索解决方案的潜力,以及为未来的研究提供基准。我们得出结论,虽然报告了有前途的结果,但研究仍处于早期阶段,在成功应用于诊所之前需要更深入的探索。请注意,MyOPS数据和评估工具继续通过其主页(www.sdspeople.fudan.edu.cn/zhuangxiahai/0/myops20 /)注册注册。
translated by 谷歌翻译
近年来,评估视频的行动质量引起了计算机视觉群落和人机互动中的不断关注。大多数现有方法通常通过直接从动作识别任务迁移模型来解决这个问题,这忽略了特征映射内的内在差异,例如前景和背景信息。为了解决这个问题,我们提出了一种用于行动质量评估(AQA)的管自我关注网络(TSA网)。具体地,我们将单个对象跟踪器引入AQA并提出了管自我关注模块(TSA),可以通过采用稀疏特征交互有效地产生丰富的时空上下文信息。 TSA模块嵌入在现有的视频网络中以形成TSA-Net。总体而言,我们的TSA-网具有以下优点:1)高计算效率,2)灵活性高,3)最先进的性能。在包括AQA-7和MTL-AQA的流行动作质量评估数据集上进行了广泛的实验。此外,提出了一个名为Fint识别的数据集(FR-FS),以探索花样滑冰场景中的基本动作评估。
translated by 谷歌翻译
新的纳米级技术的出现对辐射环境中的可靠电子系统造成了重大挑战。少数种类的辐射等全电离剂量(TID)效应通常导致在这种纳米级电子设备上的永久性损坏,以及当前最先进的技术,以使用昂贵的辐射硬化装置。本文重点介绍了一种新颖且不同的方法:在消费者电子级现场可编程门阵列(FPGA)上使用机器学习算法来解决TID效果并在停止工作之前监控它们替换。这种情况有一个研究挑战,以期待电路板因TID效应而导致总失效。我们观察到γ辐射下FPGA板的内部测量,并使用了三种不同的异常检测机学习(ML)算法来检测伽马辐射环境中的传感器测量中的异常。统计结果表明伽马辐射曝光水平与板测量之间的高度显着关系。此外,我们的异常检测结果表明,具有径向基函数内核的单级支持向量机的平均召回得分为0.95。此外,在电路板停止工作之前,可以检测到所有异常。
translated by 谷歌翻译
可扩展的编码,可以适应通道带宽变化,在当今复杂的网络环境中表现良好。然而,现有的可扩展压缩方法面临两个挑战:降低压缩性能和可扩展性不足。在本文中,我们提出了第一所学习的细粒度可扩展图像压缩模型(DeepFGS)来克服上述两个缺点。具体地,我们介绍一个特征分离骨干,将图像信息划分为基本和可伸缩的功能,然后通过信息重新排列策略通过通道重新分配特征通道。以这种方式,我们可以通过一次通过编码来生成连续可扩展的比特流。此外,我们重复使用解码器以降低DeepFGS的参数和计算复杂性。实验表明,我们的DeePFGS优于PSNR和MS-SSIM度量中的所有基于学习的可伸缩图像压缩模型和传统可伸缩图像编解码器。据我们所知,我们的DeePFGS是对学习的细粒度可扩展编码的首次探索,与基于学习的方法相比,实现了最优质的可扩展性。
translated by 谷歌翻译
虽然深度神经网络的最近进步使得可以呈现高质量的图像,产生照片 - 现实和个性化的谈话头部仍然具有挑战性。通过给定音频,解决此任务的关键是同步唇部运动,同时生成头部移动和眼睛闪烁等个性化属性。在这项工作中,我们观察到输入音频与唇部运动高度相关,而与其他个性化属性的较少相关(例如,头部运动)。受此启发,我们提出了一种基于神经辐射场的新颖框架,以追求高保真和个性化的谈话。具体地,神经辐射场将唇部运动特征和个性化属性作为两个解除态条件采用,其中从音频输入直接预测唇部移动以实现唇部同步的生成。同时,从概率模型采样个性化属性,我们设计了从高斯过程中采样的基于变压器的变差自动码器,以学习合理的和自然的头部姿势和眼睛闪烁。在几个基准上的实验表明,我们的方法比最先进的方法达到了更好的结果。
translated by 谷歌翻译
运动向量(MV)的局部最优性是视频编码中的内在属性,并且对MV的任何修改都将不可避免地破坏这种最优性,使其成为MV域中的隐写术的敏感指标。因此,局部最优态通常用于设计落体特征,并且局部最优性的估计已成为视频隐星分析的首要任务。然而,现有工程中的局部最优性通常是不准确的或使用不合理的假设估计,限制其在塞巴巴分析中的能力。在本文中,我们建议以更合理和更全面的方式估计当地最优性,并在两个方面概括了局部最优性的概念。首先,通过MV和预测的运动矢量(PMV)共同确定以速率失真感测量测量的局部最优,并且PMV的可变性将影响局部最优性的估计。因此,我们将本地最优性概括为动态估计。其次,PMV是MV的特殊情况,并且还可以反映MVS中的嵌入痕迹。因此,我们将本地最优性从MV域概括到PMV域。根据本地最优性的两个概括,我们构建了新型的落物特征,并提出了特征对称规则来减少特征维度。在三个数据库中进行的广泛实验展示了所提出的特征的有效性,这在各种条件下实现了最先进的精度和鲁棒性,包括覆盖源失配,视频预测方法,视频编解码器和视频分辨率。
translated by 谷歌翻译
人类运动预测是许多计算机视觉应用领域中的重要且挑战性的任务。最近的工作专注于利用经常性神经网络(RNN)的定时处理能力,实现短期预测的光滑且可靠的结果。但是,正如以前的工作所证明的那样,RNNS遭受错误累积,导致结果不可靠。在本文中,我们提出了一种简单的前馈深神经网络,用于运动预测,这考虑了人体关节之间的时间平滑度和空间依赖性。我们设计了一个多尺度的时空图卷积网络(GCNS),以隐式地建立人类运动过程中的时空依赖,其中在训练期间动态融合的不同尺度。整个模型适用于所有操作,然后遵循编码器解码器的框架。编码器由时间GCN组成,用于捕获帧和半自主学习空间GCN之间的运动特征,以提取关节轨迹之间的空间结构。解码器使用时间卷积网络(TCN)来维持其广泛的能力。广泛的实验表明,我们的方法优于人类3.6M和CMU Mocap的数据集上的SOTA方法,同时只需要更大的参数。代码将在https://github.com/yzg9353/dmsgcn上获得。
translated by 谷歌翻译
这项工作介绍了一个简单的视觉变压器设计,作为对象本地化和实例分段任务的强大基线。变压器最近在图像分类任务中展示了竞争性能。为了采用对象检测和密集的预测任务,许多作品从卷积网络和高度定制的Vit架构继承了多级设计。在这种设计背后,目标是在计算成本和多尺度全球背景的有效聚合之间进行更好的权衡。然而,现有的作品采用多级架构设计作为黑匣子解决方案,无清楚地了解其真正的益处。在本文中,我们全面研究了三个架构设计选择对vit - 空间减少,加倍的频道和多尺度特征 - 并证明了vanilla vit架构可以在没有手动的多尺度特征的情况下实现这一目标,保持原始的Vit设计哲学。我们进一步完成了缩放规则,以优化模型的准确性和计算成本/型号大小的权衡。通过在整个编码器块中利用恒定的特征分辨率和隐藏大小,我们提出了一种称为通用视觉变压器(UVIT)的简单而紧凑的VIT架构,可实现COCO对象检测和实例分段任务的强劲性能。
translated by 谷歌翻译
最近,自我监督的学习技术已经应用于计算单眼视频的深度和自我运动,实现了自动驾驶场景中的显着性能。一种广泛采用的深度和自我运动自我监督学习的假设是图像亮度在附近框架内保持恒定。遗憾的是,内窥镜场景不符合这种假设,因为在数据收集期间的照明变化,非灯泡反射和孤立性引起的严重亮度波动,并且这些亮度波动不可避免地恶化深度和自我运动估计精度。在这项工作中,我们介绍了一个新颖的概念,称为外观流动,以解决亮度不一致问题。外观流程考虑了亮度图案中的任何变型,使我们能够开发广义动态图像约束。此外,我们建立一个统一的自我监督框架,以在内窥镜场景中同时估计单眼深度和自我运动,该内窥镜场景包括结构模块,运动模块,外观模块和对应模块,以准确地重建外观并校准图像亮度。广泛的实验是在害怕的数据集和内酷数据集上进行的,拟议的统一框架超过了大幅度的其他自我监控方法。为了验证我们在不同患者和相机上的框架的泛化能力,我们训练我们的模型害怕,但在没有任何微调的情况下测试它在Serv-CT和Hamlyn数据集上,并且卓越的结果揭示了其强大的泛化能力。代码将可用:\ url {https://github.com/shuweishao/af-sfmlearner}。
translated by 谷歌翻译
现有的在线多标签分类工作无法处理在线标签阈值问题,并缺乏对其在线算法的遗憾分析。本文提出了一种用于在线多标签分类的自适应标签阈值算法的新框架,旨在克服现有方法的缺点。我们的框架的关键特征是,何种评分和阈值模型都包含在线多标签分类器的重要组成部分,并纳入一个在线优化问题。此外,为了建立评分和阈值模型之间的关系,导出了一种新的多标签分类损失函数,该丢失函数是多个标签分类器可以区分传入实例的相关标签和无关的程度。基于这种新的框架和损失功能,我们介绍了一阶线性算法和二阶算法,均享受封闭式更新,但依赖于更新多标签分类器的不同技术。证明这两种算法都达到了子线性遗憾。使用Mercer Kernels,我们的一阶算法已经扩展到处理非线性多标签预测任务。实验表明我们的线性和非线性算法的优势,就各种多标签性能指标而言。
translated by 谷歌翻译