The foundation models have recently shown excellent performance on a variety of downstream tasks in computer vision. However, most existing vision foundation models simply focus on image-level pretraining and adpation, which are limited for dynamic and complex video-level understanding tasks. To fill the gap, we present general video foundation models, InternVideo, by taking advantage of both generative and discriminative self-supervised video learning. Specifically, InternVideo efficiently explores masked video modeling and video-language contrastive learning as the pretraining objectives, and selectively coordinates video representations of these two complementary frameworks in a learnable manner to boost various video applications. Without bells and whistles, InternVideo achieves state-of-the-art performance on 39 video datasets from extensive tasks including video action recognition/detection, video-language alignment, and open-world video applications. Especially, our methods can obtain 91.1% and 77.2% top-1 accuracy on the challenging Kinetics-400 and Something-Something V2 benchmarks, respectively. All of these results effectively show the generality of our InternVideo for video understanding. The code will be released at https://github.com/OpenGVLab/InternVideo .
translated by 谷歌翻译
近年来,压缩图像超分辨率已引起了极大的关注,其中图像被压缩伪像和低分辨率伪影降解。由于复杂的杂化扭曲变形,因此很难通过简单的超分辨率和压缩伪像消除掉的简单合作来恢复扭曲的图像。在本文中,我们向前迈出了一步,提出了层次的SWIN变压器(HST)网络,以恢复低分辨率压缩图像,该图像共同捕获分层特征表示并分别用SWIN Transformer增强每个尺度表示。此外,我们发现具有超分辨率(SR)任务的预处理对于压缩图像超分辨率至关重要。为了探索不同的SR预审查的影响,我们将常用的SR任务(例如,比科比奇和不同的实际超分辨率仿真)作为我们的预处理任务,并揭示了SR在压缩的图像超分辨率中起不可替代的作用。随着HST和预训练的合作,我们的HST在AIM 2022挑战中获得了低质量压缩图像超分辨率轨道的第五名,PSNR为23.51db。广泛的实验和消融研究已经验证了我们提出的方法的有效性。
translated by 谷歌翻译
最近,未经训练的神经网络(UNNS)显示了在随机采样轨迹上对MR图像重建的令人满意的性能,而无需使用其他全面采样训练数据。但是,现有的基于UNN的方法并未完全使用MR图像物理先验,导致某些常见情况(例如部分傅立叶,常规采样等)的性能差,并且缺乏重建准确性的理论保证。为了弥合这一差距,我们使用特殊设计的UNN提出了一种保障的K空间插值方法,该方法使用特殊设计的UNN,该方法由MR图像的三个物理先验(或K空间数据)驱动,包括稀疏,线圈灵敏度平稳性和相位平滑度。我们还证明,所提出的方法保证了插值K空间数据准确性的紧密界限。最后,消融实验表明,所提出的方法比现有传统方法更准确地表征了MR图像的物理先验。此外,在一系列常用的采样轨迹下,实验还表明,所提出的方法始终优于传统的平行成像方法和现有的UNN,甚至超过了最先进的监督训练的K空间深度学习方法案例。
translated by 谷歌翻译
精益燃烧是环境友好的,NOX排放量低,并且在燃烧系统中还提供了更好的燃油效率。但是,接近瘦燃烧会使引擎更容易容易倾斜。精益井喷(LBO)是一种不希望的现象,可能会导致突然的火焰灭绝,从而导致突然失去权力。在设计阶段,对于科学家来说,准确确定最佳的操作限制以避免突然发生LBO的情况非常具有挑战性。因此,至关重要的是,在低NOX排放发动机中开发准确且可计算的框架来在线LBO检测。据我们所知,我们第一次提出了一种深度学习方法来检测燃烧系统中的精益井喷。在这项工作中,我们利用实验室规模的燃烧器收集不同协议的数据。对于每个协议,我们远离LBO,并逐渐朝LBO制度移动,在每个条件下捕获一个准静态时间序列数据集。使用数据集中的一个协议作为参考协议,并在域专家注释的条件下,我们找到了经过培训的深度学习模型的过渡状态指标,以在其他测试协议中检测LBO。我们发现,我们所提出的方法比其他基线模型更准确和计算更快,以检测到LBO的过渡。因此,我们建议使用瘦燃烧引擎中实时性能监视的方法。
translated by 谷歌翻译
近年来,随着新颖的策略和应用,神经网络一直在迅速扩展。然而,尽管不可避免地会针对关键应用程序来解决这些挑战,例如神经网络技术诸如神经网络技术中仍未解决诸如神经网络技术的挑战。已经尝试通过用符号表示来表示和嵌入域知识来克服神经网络计算中的挑战。因此,出现了神经符号学习(Nesyl)概念,其中结合了符号表示的各个方面,并将常识带入神经网络(Nesyl)。在可解释性,推理和解释性至关重要的领域中,例如视频和图像字幕,提问和推理,健康信息学和基因组学,Nesyl表现出了有希望的结果。这篇综述介绍了一项有关最先进的Nesyl方法的全面调查,其原理,机器和深度学习算法的进步,诸如Opthalmology之类的应用以及最重要的是该新兴领域的未来观点。
translated by 谷歌翻译
冠状动脉血管造影(CCTA)易受各种扭曲(例如伪影和噪声)的敏感,这严重损害了心血管疾病的确切诊断。适当的CCTA血管级图像质量评估(CCTA VIQA)算法可用于降低错误诊断的风险。 CCTA VIQA的首要挑战是,冠状动脉的本地部分确定最终质量是很难找到的。为了应对挑战,我们将CCTA VIQA作为多种现实学习(MIL)问题,并利用基于变压器的MIL主链(称为T-MIL),以将沿冠状动脉中心线的多个实例汇总为最终质量。但是,并非所有实例都提供最终质量的信息。有一些质量 - 欧元/负面实例介入确切的质量评估(例如,在实例中仅涵盖背景或冠状动脉的实例是无法识别的)。因此,我们提出了一个基于渐进的增强学习的实例丢弃模块(称为PRID),以逐步删除CCTA VIQA的质量 - 欧尔特尔/否定实例。基于上述两个模块,我们根据端到端优化提出了一个加强的变压器网络(RTN),用于自动CCTA VIQA。广泛的实验结果表明,我们提出的方法实现了现实世界中CCTA数据集的最新性能,超过了以前的MIL方法。
translated by 谷歌翻译
最近的工作阐明了说话者识别系统(SRSS)针对对抗性攻击的脆弱性,从而在部署SRSS时引起了严重的安全问题。但是,他们仅考虑了一些设置(例如,来源和目标扬声器的某些组合),仅在现实世界攻击方案中留下了许多有趣而重要的环境。在这项工作中,我们介绍了AS2T,这是该域中的第一次攻击,该域涵盖了所有设置,因此,对手可以使用任意源和目标扬声器来制作对抗性声音,并执行三个主要识别任务中的任何一种。由于现有的损失功能都不能应用于所有设置,因此我们探索了每种设置的许多候选损失功能,包括现有和新设计的损失功能。我们彻底评估了它们的功效,并发现某些现有的损失功能是次优的。然后,为了提高AS2T对实用的无线攻击的鲁棒性,我们研究了可能发生的扭曲发生在空中传输中,利用具有不同参数的不同转换功能来对这些扭曲进行建模,并将其整合到生成中对手的声音。我们的模拟无线评估验证了解决方案在产生强大的对抗声音方面的有效性,这些声音在各种硬件设备和各种声音环境下保持有效,具有不同的混响,环境噪声和噪声水平。最后,我们利用AS2T来执行迄今为止最大的评估,以了解14个不同SRSS之间的可转移性。可传递性分析提供了许多有趣且有用的见解,这些见解挑战了图像域中先前作品中得出的几个发现和结论。我们的研究还阐明了说话者识别域中对抗攻击的未来方向。
translated by 谷歌翻译
We propose Distribution Embedding Networks (DEN) for classification with small data. In the same spirit of meta-learning, DEN learns from a diverse set of training tasks with the goal to generalize to unseen target tasks. Unlike existing approaches which require the inputs of training and target tasks to have the same dimension with possibly similar distributions, DEN allows training and target tasks to live in heterogeneous input spaces. This is especially useful for tabular-data tasks where labeled data from related tasks are scarce. DEN uses a three-block architecture: a covariate transformation block followed by a distribution embedding block and then a classification block. We provide theoretical insights to show that this architecture allows the embedding and classification blocks to be fixed after pre-training on a diverse set of tasks; only the covariate transformation block with relatively few parameters needs to be fine-tuned for each new task. To facilitate training, we also propose an approach to synthesize binary classification tasks, and demonstrate that DEN outperforms existing methods in a number of synthetic and real tasks in numerical studies.
translated by 谷歌翻译
许多支付平台持有大规模的营销活动,为鼓励用户通过他们的申请进行奖励。为了最大限度地提高投资回报,在两阶段程序中通常会解决激励拨款。在训练响应估计模型以估计用户的移动支付概率(MPP)之后,应用线性编程过程来获得最佳激励分配。然而,由先前偏置分配策略生成的训练集中的大量偏置数据导致偏置估计。此偏差劣化响应模型的性能并误导线性编程过程,显着降低了所产生的分配策略的性能。为了克服这种障碍,我们提出了偏置校正对抗性网络。我们的方法利用了在全随机分配策略下获得的一小集非偏见数据来培训一个无偏的模型,然后使用它来减少对抗性学习的偏差。离线和在线实验结果表明,我们的方法优于最先进的方法,并显着提高了现实世界营销活动中所产生的分配政策的绩效。
translated by 谷歌翻译
最近,模型驱动的深度学习通过用网络模块替换符号器的一阶信息(即(子)梯度或近端运算符)来拓展到级联网络中的一定迭代算法,该算法呈现出更可说明的与常见的数据驱动网络相比,可以预测。相反,理论上,不一定存在这样的功能常规程序,其一级信息与替换的网络模块匹配,这意味着网络输出可能不被原始正则化模型覆盖。此外,到目前为止,在现实假设下,也没有保证展开网络的全球收敛性和鲁棒性(规律性)。为了弥合这一差距,本文建议在展开网络上提出保障方法。具体而言,专注于加速MRI,我们展开了一个零阶算法,网络模块代表常规器本身,使得网络输出可以仍然被正则化模型覆盖。此外,受到深度均衡模型的理想的启发,在反向化之前,我们执行了展开的迭代网络,以收敛到一个固定点,以确保收敛。如果测量数据包含噪声,我们证明了所提出的网络对嘈杂干扰具有强大。最后,数值实验表明,所提出的网络始终如一地优于最先进的MRI重建方法,包括传统的正规化方法和其他深度学习方法。
translated by 谷歌翻译