Compressed videos often exhibit visually annoying artifacts, known as Perceivable Encoding Artifacts (PEAs), which dramatically degrade video visual quality. Subjective and objective measures capable of identifying and quantifying various types of PEAs are critical in improving visual quality. In this paper, we investigate the influence of four spatial PEAs (i.e. blurring, blocking, bleeding, and ringing) and two temporal PEAs (i.e. flickering and floating) on video quality. For spatial artifacts, we propose a visual saliency model with a low computational cost and higher consistency with human visual perception. In terms of temporal artifacts, self-attention based TimeSFormer is improved to detect temporal artifacts. Based on the six types of PEAs, a quality metric called Saliency-Aware Spatio-Temporal Artifacts Measurement (SSTAM) is proposed. Experimental results demonstrate that the proposed method outperforms state-of-the-art metrics. We believe that SSTAM will be beneficial for optimizing video coding techniques.
translated by 谷歌翻译
Pre-trained models have achieved remarkable success in natural language processing (NLP). However, existing pre-training methods underutilize the benefits of language understanding for generation. Inspired by the idea of Generative Adversarial Networks (GANs), we propose a GAN-style model for encoder-decoder pre-training by introducing an auxiliary discriminator, unifying the ability of language understanding and generation in a single model. Our model, named as GanLM, is trained with two pre-training objectives: replaced token detection and replaced token denoising. Specifically, given masked source sentences, the generator outputs the target distribution and the discriminator predicts whether the target sampled tokens from distribution are incorrect. The target sentence is replaced with misclassified tokens to construct noisy previous context, which is used to generate the gold sentence. In general, both tasks improve the ability of language understanding and generation by selectively using the denoising data. Extensive experiments in language generation benchmarks show that GanLM with the powerful language understanding capability outperforms various strong pre-trained language models (PLMs) and achieves state-of-the-art performance.
translated by 谷歌翻译
Recently, the success of pre-training in text domain has been fully extended to vision, audio, and cross-modal scenarios. The proposed pre-training models of different modalities are showing a rising trend of homogeneity in their model structures, which brings the opportunity to implement different pre-training models within a uniform framework. In this paper, we present TencentPretrain, a toolkit supporting pre-training models of different modalities. The core feature of TencentPretrain is the modular design. The toolkit uniformly divides pre-training models into 5 components: embedding, encoder, target embedding, decoder, and target. As almost all of common modules are provided in each component, users can choose the desired modules from different components to build a complete pre-training model. The modular design enables users to efficiently reproduce existing pre-training models or build brand-new one. We test the toolkit on text, vision, and audio benchmarks and show that it can match the performance of the original implementations.
translated by 谷歌翻译
手眼校准问题是机器人研究中的重要应用问题。基于双重季节矢量的2个标准,我们为手眼校准问题提出了一种新的双季节优化方法。双重四基因优化问题分解为两个四基因优化子问题。第一个四基因优化子问题控制着机器人手的旋转。可以通过特征值分解或单数值分解有效地求解。如果第一个四基金优化子问题的最佳值为零,则系统无噪音,即,存在``Perfect''机器人手动运动,该机器人手动运动完全满足所有测试的旋转。在这种情况下,我们应用正规化技术来求解第二个子问题以最大程度地减少翻译的距离。否则,我们将修补技术应用于第二个四基因优化子问题。然后求解第二个四基因优化子问题是解决了二次约束二次程序。通过这种方式,我们为手眼校准问题的解决方案集提供了完整的描述。这在手眼校准文献中是新的。还提出了数值结果以显示所提出方法的效率。
translated by 谷歌翻译
基于学习的方法有效地促进了图像压缩社区。同时,基于变异的自动编码器(VAE)的可变速率方法最近引起了很多关注,以避免使用一组不同的网络来用于各种压缩率。尽管已经取得了显着的性能,但一旦执行了多个压缩/减压操作,这些方法将很容易损坏,从而导致图像质量将被大幅下降并且会出现强大的伪像。因此,我们试图解决高保真的细度可变速率图像压缩的问题,并提出可逆激活变换(IAT)模块。我们以单个速率可逆神经网络(INN)模型(Qlevel)以数学可逆的方式实施IAT,并将质量级别(QLevel)送入IAT,以产生缩放和偏置张量。 IAT和QLEVEL一起为图像压缩模型提供了罚款可变速率控制的能力,同时更好地保持图像保真度。广泛的实验表明,配备了我们IAT模块的单率图像压缩模型具有实现可变速率控制而无需任何妥协的能力。并且我们的IAT包裹模型通过最新的基于学习的图像压缩方法获得了可比的利率延伸性能。此外,我们的方法的表现优于最新的可变速率图像压缩方法,尤其是在多次重新编码之后。
translated by 谷歌翻译
多模式心脏成像在心血管疾病患者的治疗中起关键作用。它允许互补的解剖学,形态学和功能信息,提高诊断准确性,并提高心血管干预和临床结果的疗效。多模式心脏图像的完全自动化处理和定量分析可能会对临床研究和基于证据的患者管理产生直接影响。但是,这些需要克服重大挑战,包括模式间未对准和寻找最佳方法来整合来自不同模式的信息。本文旨在对心脏病学,计算方法,验证策略,相关临床工作流程和未来观点的多模式成像进行全面综述。对于计算方法,我们对这三个任务(即注册,融合和分割)有利,通常涉及多模式成像数据,\ textit {结合来自不同模式的信息或跨模态传输信息的信息}。该评论强调,多模式性心脏成像数据具有广泛适用性的诊所,例如跨体瓣植入指南,心肌生存能力评估和导管消融疗法及其患者选择。然而,许多挑战仍未解决,例如缺失模态,成像和非成像数据的组合以及统一的分析和不同方式的表示。定义完善的技术如何适合临床工作流程以及它们引入了多少其他相关信息,这也有工作要做。这些问题可能会继续是一个积极的研究领域,并且将来要回答的问题。
translated by 谷歌翻译
在医学图像分割任务中,脑肿瘤分割仍然是一个挑战。随着变压器在各种计算机视觉任务中的应用,变压器块显示了在全球空间中学习长距离依赖性的能力,这是与CNN互补的。在本文中,我们提出了一个新型的基于变压器的生成对抗网络,以自动分割具有多模式MRI的脑肿瘤。我们的架构由一个发电机和一个歧视器组成,这些发电机和歧视器接受了最小游戏进度的培训。发电机基于典型的“ U形”编码器架构,其底层由带有Resnet的变压器块组成。此外,发电机还接受了深度监督技术的培训。我们设计的鉴别器是一个基于CNN的网络,具有多尺度$ L_ {1} $损失,事实证明,这对于医学语义图像分割是有效的。为了验证我们方法的有效性,我们对BRATS2015数据集进行了实验,比以前的最新方法实现了可比或更好的性能。
translated by 谷歌翻译
代码转换是关于在通信过程中处理替代语言。训练端到端(E2E)自动语音识别(ASR)系统用于代码开关是一个充满挑战的问题,因为由于存在多种语言,因此缺乏增加语言上下文混乱的数据加剧的数据。在本文中,我们提出了一种与语言相关的注意机制,以减少基于等价约束理论(EC)的E2E代码转换ASR模型的多语言上下文混乱。语言理论要求在代码转换句子中发生的任何单语片段都必须发生在一个单语句子中。它在单语言数据和代码转换数据之间建立了一个桥梁。通过计算多种语言的各自注意力,我们的方法可以从丰富的单语言数据中有效地传输语言知识。我们在ASRU 2019-English代码转换挑战数据集上评估我们的方法。与基线模型相比,提出的方法可实现11.37%的相对混合错误率降低。
translated by 谷歌翻译
当双臂机器人夹在人类环境中的刚性物体时,环境或协作人类将对操作的物体或机器人手臂施加偶然的扰动,导致夹紧失败,损坏机器人即使伤害了人类。该研究提出了优先化的分层合规性控制,同时处理双臂机器人夹紧中的两种干扰。首先,我们使用分层二次编程(HQP)来解决联合约束下的机器人反向运动学,并优先顺序对象对象对象的干扰遵守情况。其次,我们在与F / T传感器的势头观察者中估计干扰力,并采用导纳控制来实现优异性。最后,我们在14-DOF位置控制双臂机器人Walkerx上进行验证实验,稳定地夹紧刚性物体,同时实现对扰动的依从性。
translated by 谷歌翻译
检测定向对象以及估计其旋转信息是用于分析遥感图像的一个关键步骤。尽管最近提出了许多方法,但大多数人直接学习在仅单独的一个(例如旋转角度)的监督下预测对象方向或仅为几(例如旋转角度)或几(例如若干坐标)地基值。在训练期间采用了关于提议和旋转信息回归的额外约束,在额外约束,在训练期间采用了更准确的对象检测。为此,我们创新地提出了一种通过Naive几何计算以一致的方式同时学习物体的水平提出,面向建议和旋转角度的机制,作为一个额外的稳定约束(参见图1)。提出了一个导向的中心先前引导标签分配策略,以进一步提高建议的质量,产生更好的性能。广泛的实验表明,配备我们的想法的模型显着优于基线,通过大幅度来实现新的最先进的结果,在推理期间没有任何额外的计算负担。我们提出的想法简单直观,可以随时实现。源代码和培训的型号涉及补充文件。
translated by 谷歌翻译