众所周知,SNS提供商可以进行上传视频/图像的重新压缩和调整,但是大多数用于检测篡改视频/图像的常规方法对此类操作不够强大。此外,视频是在时间上操作的,例如插入新框架和框架的排列,通过使用常规方法很难检测到其中的操作。因此,在本文中,我们提出了一种新颖的方法,该方法具有强大的散列算法,即使在对视频进行调整和压缩时,也可以检测到时间操作的视频。
translated by 谷歌翻译
传统的假视频检测方法输出篡改图像的可能性值或可疑掩码。但是,这种无法解释的结果不能用作令人信服的证据。因此,更好地追溯虚假视频来源。传统的散列方法用于检索语义 - 相似的图像,这不能区分图像的细微差别。具体地,与传统视频检索相比,源跟踪。从类似的源视频中找到真实的挑战是一项挑战。我们设计了一种新的损失哈希多粒损失,解决了人们的视频非常相似的问题:与不同角度相同的场景,与同一个人的类似场景。我们提出了基于视觉变压器的模型,名为视频跟踪和篡改本地化(VTL)。在第一阶段,我们通过Vithash(VTL-T)训练哈希中心。然后,将假视频输入到Vithash,该vithash输出散列码。哈希码用于从哈希中心检索源视频。在第二阶段,源视频和假视频被输入到生成器(VTL-L)。然后,掩盖可疑区域以提供辅助信息。此外,我们构建了两个数据集:DFTL和Davis2016-TL。对DFTL的实验明显展示了我们在类似视频的追踪中框架的优势。特别地,VTL还通过在Davis2016-TL上实现了与最先进的方法的相当性能。我们的源代码和数据集已在github上发布:\ url {https:/github.com/lajlksdf/vtl}。
translated by 谷歌翻译
近年来,随着面部编辑和发电的迅速发展,越来越多的虚假视频正在社交媒体上流传,这引起了极端公众的关注。基于频域的现有面部伪造方法发现,与真实图像相比,GAN锻造图像在频谱中具有明显的网格视觉伪像。但是对于综合视频,这些方法仅局限于单个帧,几乎不关注不同框架之间最歧视的部分和时间频率线索。为了充分利用视频序列中丰富的信息,本文对空间和时间频域进行了视频伪造检测,并提出了一个离散的基于余弦转换的伪造线索增强网络(FCAN-DCT),以实现更全面的时空功能表示。 FCAN-DCT由一个骨干网络和两个分支组成:紧凑特征提取(CFE)模块和频率时间注意(FTA)模块。我们对两个可见光(VIS)数据集Wilddeepfake和Celeb-DF(V2)进行了彻底的实验评估,以及我们的自我构建的视频伪造数据集DeepFakenir,这是第一个近境模式的视频伪造数据集。实验结果证明了我们方法在VIS和NIR场景中检测伪造视频的有效性。
translated by 谷歌翻译
In recent years, display intensity and contrast have increased considerably. Many displays support high dynamic range (HDR) and 10-bit color depth. Since high bit-depth is an emerging technology, video content is still largely shot and transmitted with a bit depth of 8 bits or less per color component. Insufficient bit-depths produce distortions called false contours or banding, and they are visible on high contrast screens. To deal with such distortions, researchers have proposed algorithms for bit-depth enhancement (dequantization). Such techniques convert videos with low bit-depth (LBD) to videos with high bit-depth (HBD). The quality of converted LBD video, however, is usually lower than that of the original HBD video, and many consumers prefer to keep the original HBD versions. In this paper, we propose an algorithm to determine whether a video has undergone conversion before compression. This problem is complex; it involves detecting outcomes of different dequantization algorithms in the presence of compression that strongly affects the least-significant bits (LSBs) in the video frames. Our algorithm can detect bit-depth enhancement and demonstrates good generalization capability, as it is able to determine whether a video has undergone processing by dequantization algorithms absent from the training dataset.
translated by 谷歌翻译
视频容易篡改攻击,从而改变含义并欺骗观众。以前的视频伪造检测方案找到了微小的线索来定位篡改区域。但是,攻击者可以通过使用视频压缩或模糊破坏此类线索来成功逃避监督。本文提出了一个视频水印网络,用于篡改本地化。我们共同训练一个基于3D-UNET的水印嵌入网络和一个预测篡改面罩的解码器。水印嵌入产生的扰动几乎是无法察觉的。考虑到没有现成的可区分的视频编解码器模拟器,我们建议通过结合其他典型攻击的模拟结果来模仿视频压缩,例如JPEG压缩和模糊,作为近似值。实验结果表明,我们的方法生成具有良好不可识别的水印视频,并且在攻击版本中可以稳健,准确地定位篡改区域。
translated by 谷歌翻译
光保护综合技术的快速进展达到了真实和操纵图像之间的边界开始模糊的临界点。最近,一个由Mega-Scale Deep Face Forgery DataSet,由290万个图像组成和221,247个视频的伪造网络已被释放。它是迄今为止的数据规模,操纵(7个图像级别方法,8个视频级别方法),扰动(36个独立和更混合的扰动)和注释(630万个分类标签,290万操纵区域注释和221,247个时间伪造段标签)。本文报告了Forgerynet-Face Forgery Analysis挑战2021的方法和结果,它采用了伪造的基准。模型评估在私人测试集上执行离线。共有186名参加比赛的参与者,11名队伍提交了有效的提交。我们将分析排名排名的解决方案,并展示一些关于未来工作方向的讨论。
translated by 谷歌翻译
超声检查中的乳腺病变检测对于乳腺癌诊断至关重要。现有方法主要依赖于单独的2D超声图像或组合未标记的视频和标记为2D图像以训练模型以进行乳腺病变检测。在本文中,我们首先收集并注释一个超声视频数据集(188个视频),以进行乳腺病变检测。此外,我们通过汇总视频级别的病变分类功能和剪辑级的时间功能来解决超声视频中乳房病变检测的解决剪辑级和视频级特征聚合网络(CVA-NET)。剪辑级的时间功能特征编码有序视频框架的本地时间信息和洗牌视频帧的全局时间信息。在我们的CVA-NET中,设计了一个Inter-Video融合模块,以融合原始视频框架的本地功能以及从洗牌视频帧中的全局功能,并设计了一个内部视频融合模块,以学习相邻视频框架之间的时间信息。此外,我们学习视频水平功能,以将原始视频的乳房病变分类为良性或恶性病变,以进一步增强超声视频中最终的乳房病变检测性能。我们注释数据集的实验结果表明,我们的CVA-NET显然优于最先进的方法。相应的代码和数据集可在\ url {https://github.com/jhl-det/cva-net}上公开获得。
translated by 谷歌翻译
作为内容编辑成熟的工具,以及基于人工智能(AI)综合媒体增长的算法,在线媒体上的操纵内容的存在正在增加。这种现象导致错误信息的传播,从而更需要区分“真实”和“操纵”内容。为此,我们介绍了Videosham,该数据集由826个视频(413个真实和413个操纵)组成。许多现有的DeepFake数据集专注于两种类型的面部操作 - 与另一个受试者的面部交换或更改现有面部。另一方面,Videosham包含更多样化的,上下文丰富的和以人为本的高分辨率视频,使用6种不同的空间和时间攻击组合来操纵。我们的分析表明,最新的操纵检测算法仅适用于一些特定的攻击,并且在Videosham上不能很好地扩展。我们在亚马逊机械土耳其人上进行了一项用户研究,其中1200名参与者可以区分Videosham中的真实视频和操纵视频。最后,我们更深入地研究了人类和sota-Algorithms表演的优势和劣势,以识别需要用更好的AI算法填补的差距。
translated by 谷歌翻译
卫星摄像机可以为大型区域提供连续观察,这对于许多遥感应用很重要。然而,由于对象的外观信息不足和缺乏高质量数据集,在卫星视频中实现移动对象检测和跟踪仍然具有挑战性。在本文中,我们首先构建一个具有丰富注释的大型卫星视频数据集,用于移动对象检测和跟踪的任务。该数据集由Jilin-1卫星星座收集,并由47个高质量视频组成,对象检测有1,646,038兴趣的情况和用于对象跟踪的3,711个轨迹。然后,我们引入运动建模基线,以提高检测速率并基于累积多帧差异和鲁棒矩阵完成来减少误报。最后,我们建立了第一个用于在卫星视频中移动对象检测和跟踪的公共基准,并广泛地评估在我们数据集上几种代表方法的性能。还提供了综合实验分析和富有魅力的结论。数据集可在https://github.com/qingyonghu/viso提供。
translated by 谷歌翻译
Fake videos represent an important misinformation threat. While existing forensic networks have demonstrated strong performance on image forgeries, recent results reported on the Adobe VideoSham dataset show that these networks fail to identify fake content in videos. In this paper, we propose a new network that is able to detect and localize a wide variety of video forgeries and manipulations. To overcome challenges that existing networks face when analyzing videos, our network utilizes both forensic embeddings to capture traces left by manipulation, context embeddings to exploit forensic traces' conditional dependencies upon local scene content, and spatial attention provided by a deep, transformer-based attention mechanism. We create several new video forgery datasets and use these, along with publicly available data, to experimentally evaluate our network's performance. These results show that our proposed network is able to identify a diverse set of video forgeries, including those not encountered during training. Furthermore, our results reinforce recent findings that image forensic networks largely fail to identify fake content in videos.
translated by 谷歌翻译
随着生成模型的快速发展,基于AI的面部操纵技术,称为DeepFakes,已经变得越来越真实。这种脸部伪造的方法可以攻击任何目标,这对个人隐私和财产安全构成了新的威胁。此外,滥用合成视频在许多领域都显示出潜在的危险,例如身份骚扰,色情和新闻谣言。受到生理信号中的空间相干性和时间一致性在所生物的内容中被破坏的事实,我们试图找到可以区分真实视频和合成视频的不一致模式,从面部像素的变化是与生理信息高度相关的。我们的方法首先将多个高斯级别的eulerian视频放大倍数(EVM)应用于原始视频,以扩大面部血容量的变化引起的生理变化,然后将原始视频和放大的视频转换为多尺度欧拉宽度的空间 - 时间地图(MemstMap),其可以代表不同八度的时变的生理增强序列。然后,这些地图以列为单位重新装入帧修补程序,并发送到视觉变压器以学习帧级别的时空描述符。最后,我们整理了嵌入功能并输出判断视频是真实还是假的概率。我们在面部框架++和DeepFake检测数据集上验证了我们的方法。结果表明,我们的模型在伪造检测中实现了出色的性能,并在交叉数据域中显示出出色的泛化能力。
translated by 谷歌翻译
视频综合孔径雷达(视频 - 萨尔)图像之间的移动目标阴影总是被低散射背景和混乱的噪音干扰,从而导致移动目标阴影检测跟踪性能不良。为了解决这个问题,这封信提出了一个名为SBN-3D-SD的暗影 - 背景3D空间隔离方法,以提高阴影显着性,以提高视频 - 萨尔移动目标影像阴影检测跟踪性能。
translated by 谷歌翻译
Neural fields, also known as coordinate-based or implicit neural representations, have shown a remarkable capability of representing, generating, and manipulating various forms of signals. For video representations, however, mapping pixel-wise coordinates to RGB colors has shown relatively low compression performance and slow convergence and inference speed. Frame-wise video representation, which maps a temporal coordinate to its entire frame, has recently emerged as an alternative method to represent videos, improving compression rates and encoding speed. While promising, it has still failed to reach the performance of state-of-the-art video compression algorithms. In this work, we propose FFNeRV, a novel method for incorporating flow information into frame-wise representations to exploit the temporal redundancy across the frames in videos inspired by the standard video codecs. Furthermore, we introduce a fully convolutional architecture, enabled by one-dimensional temporal grids, improving the continuity of spatial features. Experimental results show that FFNeRV yields the best performance for video compression and frame interpolation among the methods using frame-wise representations or neural fields. To reduce the model size even further, we devise a more compact convolutional architecture using the group and pointwise convolutions. With model compression techniques, including quantization-aware training and entropy coding, FFNeRV outperforms widely-used standard video codecs (H.264 and HEVC) and performs on par with state-of-the-art video compression algorithms.
translated by 谷歌翻译
每年,AEDESAEGYPTI蚊子都感染了数百万人,如登录,ZIKA,Chikungunya和城市黄热病等疾病。战斗这些疾病的主要形式是通过寻找和消除潜在的蚊虫养殖场来避免蚊子繁殖。在这项工作中,我们介绍了一个全面的空中视频数据集,获得了无人驾驶飞行器,含有可能的蚊帐。使用识别所有感兴趣对象的边界框手动注释视频数据集的所有帧。该数据集被用于开发基于深度卷积网络的这些对象的自动检测系统。我们提出了通过在可以注册检测到的对象的时空检测管道的对象检测流水线中的融合来利用视频中包含的时间信息,这些时间是可以注册检测到的对象的,最大限度地减少最伪正和假阴性的出现。此外,我们通过实验表明使用视频比仅使用框架对马赛克组成马赛克更有利。使用Reset-50-FPN作为骨干,我们可以分别实现0.65和0.77的F $ _1 $ -70分别对“轮胎”和“水箱”的对象级别检测,说明了正确定位潜在蚊子的系统能力育种对象。
translated by 谷歌翻译
本文介绍了一个名为DTVNet的新型端到端动态时间流逝视频生成框架,以从归一化运动向量上的单个景观图像生成多样化的延期视频。所提出的DTVNET由两个子模块组成:\ EMPH {光学流编码器}(OFE)和\ EMPH {动态视频生成器}(DVG)。 OFE将一系列光学流程图映射到编码所生成视频的运动信息的\ Emph {归一化运动向量}。 DVG包含来自运动矢量和单个景观图像的运动和内容流。此外,它包含一个编码器,用于学习共享内容特征和解码器,以构造具有相应运动的视频帧。具体地,\ EMPH {运动流}介绍多个\ EMPH {自适应实例归一化}(Adain)层,以集成用于控制对象运动的多级运动信息。在测试阶段,基于仅一个输入图像,可以产生具有相同内容但具有相同运动信息但各种运动信息的视频。此外,我们提出了一个高分辨率的景区时间流逝视频数据集,命名为快速天空时间,以评估不同的方法,可以被视为高质量景观图像和视频生成任务的新基准。我们进一步对天空延时,海滩和快速天空数据集进行实验。结果证明了我们对最先进的方法产生高质量和各种动态视频的方法的优越性。
translated by 谷歌翻译
Deep learning has enabled realistic face manipulation (i.e., deepfake), which poses significant concerns over the integrity of the media in circulation. Most existing deep learning techniques for deepfake detection can achieve promising performance in the intra-dataset evaluation setting (i.e., training and testing on the same dataset), but are unable to perform satisfactorily in the inter-dataset evaluation setting (i.e., training on one dataset and testing on another). Most of the previous methods use the backbone network to extract global features for making predictions and only employ binary supervision (i.e., indicating whether the training instances are fake or authentic) to train the network. Classification merely based on the learning of global features leads often leads to weak generalizability to unseen manipulation methods. In addition, the reconstruction task can improve the learned representations. In this paper, we introduce a novel approach for deepfake detection, which considers the reconstruction and classification tasks simultaneously to address these problems. This method shares the information learned by one task with the other, which focuses on a different aspect other existing works rarely consider and hence boosts the overall performance. In particular, we design a two-branch Convolutional AutoEncoder (CAE), in which the Convolutional Encoder used to compress the feature map into the latent representation is shared by both branches. Then the latent representation of the input data is fed to a simple classifier and the unsupervised reconstruction component simultaneously. Our network is trained end-to-end. Experiments demonstrate that our method achieves state-of-the-art performance on three commonly-used datasets, particularly in the cross-dataset evaluation setting.
translated by 谷歌翻译
本文介绍了我们关于使用时间图像进行深泡探测的结果和发现。我们通过使用这些面部地标上的像素值构造图像(称为时间图像),模拟了在给定视频跨帧的468个面部标志物横跨给定视频框架中的临时关系。CNN能够识别给定图像的像素之间存在的空间关系。研究了10种不同的成像网模型。
translated by 谷歌翻译
在这项工作中,我们呈现了DCC(更深层兼容的压缩),用于实时无人机的辅助边缘辅助视频分析的一个启用技术,内置于现有编解码器之上。DCC解决了一个重要的技术问题,以将流动的视频从无人机压缩到边缘,而不会严格地在边缘执行的视频分析任务的准确性和及时性。DCC通过流式视频中的每一位对视频分析同样有价值,这是对视频分析的同样有价值,这在传统的分析透视技术编解码器技术上打开了新的压缩室。我们利用特定的无人机的上下文和中级提示,从物体检测中追求保留分析质量所需的自适应保真度。我们在一个展示车辆检测应用中有原型DCC,并验证了其代表方案的效率。DCC通过基线方法减少9.5倍,在最先进的检测精度上,19-683%的速度减少了9.5倍。
translated by 谷歌翻译
通过各种面部操作技术产生,由于安全问题,面部伪造检测引起了不断的关注。以前的作品总是根据交叉熵损失将面部伪造检测作为分类问题,这强调了类别级别差异,而不是真实和假面之间的基本差异,限制了看不见的域中的模型概括。为了解决这个问题,我们提出了一种新颖的面部伪造检测框架,名为双重对比学习(DCL),其特殊地构建了正负配对数据,并在不同粒度下进行了设计的对比学习,以学习广义特征表示。具体地,结合硬样品选择策略,首先提出通过特别构造实例对来促进与之相关的鉴别特征学习的任务相关的对比学习策略。此外,为了进一步探索基本的差异,引入内部内部对比学习(INL-ICL),以通过构建内部实例构建局部区域对来关注伪造的面中普遍存在的局部内容不一致。在若干数据集上的广泛实验和可视化证明了我们对最先进的竞争对手的方法的概括。
translated by 谷歌翻译
在本文中,我们解决了大型数据集中的高性能和基于计算有效的基于内容的视频检索问题。当前方法通常提出:(i)采用时空表示和相似性计算的细粒度方法,以高计算成本以高性能获得高性能,或(ii)代表/索引视频作为全球向量的粗粒粒度方法,其中时空 - 时间结构丢失,提供较低的性能,但计算成本也很低。在这项工作中,我们提出了一个知识蒸馏框架,称为Distill-Select(DNS),该框架从表现良好的细颗粒教师网络开始学习:a)具有不同检索性能和计算效率折衷和计算效率的学生网络b)在测试时间迅速将样本引导到合适的学生以保持高检索性能和高计算效率的选择网络。我们培训几个具有不同架构的学生,并得出不同的性能和效率的不同权衡,即速度和存储要求,包括使用二进制表示的精细颗粒学生。重要的是,提出的计划允许在大型,未标记的数据集中进行知识蒸馏 - 这导致了好学生。我们在三个不同的视频检索任务上评估了五个公共数据集的DNS,并证明a)我们的学生在几种情况下达到最先进的性能,b)b)DNS框架在检索性能,计算中提供了极好的权衡速度和存储空间。在特定的配置中,所提出的方法可以通过老师获得相似的地图,但要快20倍,需要减少240倍的存储空间。收集到的数据集和实施已公开可用:https://github.com/mever-team/distill-and-select。
translated by 谷歌翻译