在本文中,我们提出了一个围绕一个名为事件分解重新编译网络(EDRNET)的新架构围绕着围绕的框架,以在监督和弱监管的设置中解决视听事件(AVE)定位问题。现实世界中的Aves展示了共同的解开模式(被称为事件进度检查点(EPC)),人类可以通过听觉和视觉感官的合作来察觉。与尝试识别整个事件序列的早期方法不同,使用堆叠的时间卷积来识别整个事件序列,EDRNET模型EPC和EPC间关系。基于EPC表示属于事件类别的秘密,我们介绍了基于国家机器的视频融合,这是一种使用不同的EPC模板序列混合源视频的新型增强技术。此外,我们设计了一个名为陆地海洋损失的新损失功能,以缩小连续前景和背景表示。最后,为了减轻在弱监管期间令人困惑的事件的问题,我们提出了一种称为袋子的预测稳定方法,以实例标签校正。 AVE DataSet上的实验表明,我们的集体框架通过相当大的余量优于最先进的。
translated by 谷歌翻译
在视觉和声音内利用时间同步和关联是朝向探测物体的强大定位的重要一步。为此,我们提出了一个节省空间内存网络,用于探测视频中的对象本地化。它可以同时通过音频和视觉方式的单模和跨模型表示来同时学习时空关注。我们在定量和定性地展示和分析了在本地化视听物体中结合时空学习的有效性。我们展示了我们的方法通过各种复杂的视听场景概括,最近最先进的方法概括。
translated by 谷歌翻译
人类通过不同的渠道表达感受或情绪。以语言为例,它在不同的视觉声学上下文下需要不同的情绪。为了精确了解人类意图,并减少歧义和讽刺引起的误解,我们应该考虑多式联路信号,包括文本,视觉和声学信号。至关重要的挑战是融合不同的特征模式以进行情绪分析。为了有效地融合不同的方式携带的信息,更好地预测情绪,我们设计了一种基于新的多主题的融合网络,这是由任何两个对方式之间的相互作用不同的观察来启发,它们是不同的,并且它们不同样有助于最终的情绪预测。通过分配具有合理关注和利用残余结构的声学 - 视觉,声学 - 文本和视觉文本特征,我们参加了重要的特征。我们对四个公共多模式数据集进行了广泛的实验,包括中文和三种英文中的一个。结果表明,我们的方法优于现有的方法,并可以解释双模相互作用在多种模式中的贡献。
translated by 谷歌翻译
大多数现有的RGB-D突出物体检测方法利用卷积操作并构建复杂的交织融合结构来实现跨模型信息集成。卷积操作的固有局部连接将基于卷积的方法的性能进行了限制到天花板的性能。在这项工作中,我们从全球信息对齐和转换的角度重新思考此任务。具体地,所提出的方法(Transcmd)级联几个跨模型集成单元来构造基于自上而下的变换器的信息传播路径(TIPP)。 Transcmd将多尺度和多模态特征集成作为序列到序列上下文传播和内置于变压器上的更新过程。此外,考虑到二次复杂性W.R.T.输入令牌的数量,我们设计了具有可接受的计算成本的修补程序令牌重新嵌入策略(Ptre)。七个RGB-D SOD基准数据集上的实验结果表明,在配备TIPP时,简单的两流编码器 - 解码器框架可以超越最先进的基于CNN的方法。
translated by 谷歌翻译
对媒体描绘的客观理解,例如在电影和电视中被听到并在屏幕上听到并在屏幕上看到和看过的包容性描写,要求机器自动辨别谁,何时,如何以及某人正在谈论的人,而不是。可以从媒体内容中存在的丰富的多模式信息自动侦听扬声器活动。然而,由于媒体内容中的众多种类和上下文可变性以及缺乏标记数据,这是一个具有挑战性的问题。在这项工作中,我们提出了一种用于学习视觉表示的跨模型神经网络,其具有与视觉帧中扬声器的空间位置有关的隐式信息。避免对视觉帧中的活动扬声器进行手动注释,获取非常昂贵的是,我们为在电影内容中定位有源扬声器的任务提供弱监督系统。我们使用学习的跨模型视觉表示,并从充当语音活动的电影字幕提供弱监督,从而需要没有手动注释。我们评估所提出的系统在AVA主动扬声器数据集上的性能,并展示与完全监督系统相比,跨模型嵌入式的跨模型嵌入式的有效性。我们还展示了语音活动检测任务在视听框架中的最先进的性能,尤其是当语音伴随着噪声和音乐时。
translated by 谷歌翻译
我们介绍了空间本地化叙述中的视频中的任务。我们的方法的关键是能够学会在与随附的叙述的视频中的大型视频中对自我监督进行空间地定位与自我监督的互动。为实现这一目标,我们提出了一种多层跨模型关注网络,可以在培训期间有效优化对比损失。我们介绍了一种分割的策略,可以通过视觉和自然语言方式计算和中间模态注意力之间的交替,这允许通过直接对比两种方式的表示来实现有效的培训。我们展示了我们对HOWTO100M教学数据集的自我训练的方法的有效性,并在YouCook2 DataSet中的本地化描述交互的新收集数据集上进行评估。我们展示了我们的方法优于替代基准,包括浅薄的共同关注和完全跨越的关注。我们还将我们的方法应用于在Flickr30k上的弱监管下的图像中的接地短语,并显示堆叠多个注意层是有效的,并且当与对区域丢失相结合时,在召回召回和指向时达到最先进的艺术状态手准确性。
translated by 谷歌翻译
基于音频视频的多模式情绪识别由于其强大的性能引起了很多人。大多数现有方法都侧重于提出不同的跨模态融合策略。然而,这些策略在不同模式的特征中引入了冗余,而无需完全考虑模态信息之间的互补特性,并且这些方法不保证在跨跨和间间交互期间的原始语义信息的非损失。在本文中,我们提出了一种基于自我关注和残余结构(CFN-SR)的新型跨模型融合网络,用于多式联情绪识别。首先,我们对音频和视频模型执行表示学习,以通过有效的ResNext和1D CNN获得两个模态的语义特征。其次,我们将两个模态的特征分别馈送到跨模块块中,以确保通过自我关注机制和残余结构来确保信息的有效互补性和完整性。最后,我们通过用原始表示拼接获得的融合表示来获得情绪的产出。为了验证所提出的方法的有效性,我们对Ravdess数据集进行实验。实验结果表明,拟议的CFN-SR实现了最先进的,并以26.30M参数获得75.76%的精度。我们的代码可在https://github.com/skeletonnn/cfn-sr获得。
translated by 谷歌翻译
学习模当融合的表示和处理未对准的多模式序列在多式联情绪识别中是有意义的,具有挑战性。现有方法使用定向成对注意力或消息中心到熔丝语言,视觉和音频模态。然而,这些方法在融合特征时介绍信息冗余,并且在不考虑方式的互补性的情况下效率低效。在本文中,我们提出了一种高效的神经网络,以学习与CB变压器(LMR-CBT)的模型融合表示,用于从未对准的多模式序列进行多峰情绪识别。具体地,我们首先为三种方式执行特征提取,以获得序列的局部结构。然后,我们设计具有跨模块块(CB变压器)的新型变压器,其能够实现不同模式的互补学习,主要分为局部时间学习,跨模型特征融合和全球自我关注表示。此外,我们将融合功能与原始特征拼接以对序列的情绪进行分类。最后,我们在三个具有挑战性的数据集,IEMocap,CMU-MOSI和CMU-MOSEI进行词语对齐和未对准的实验。实验结果表明我们在两个设置中提出的方法的优势和效率。与主流方法相比,我们的方法以最小数量的参数达到最先进的。
translated by 谷歌翻译
在Enocentric视频中,行动在快速连续中发生。我们利用了行动的时间背景,并提出了一种学习参加周围行动的方法,以提高识别性能。为了纳入时间上下文,我们提出了一种基于变换器的多模式模型,可将视频和音频作为输入模式摄取,具有显式语言模型,提供动作序列上下文来增强预测。我们在史诗厨房和EGTEA数据集上测试我们的方法,报告最先进的性能。我们的消融展示了利用时间上下文的优势以及将音频输入模态和语言模型结合到Rescore预测。代码和模型在:https://github.com/ekazakos/mtcn。
translated by 谷歌翻译
在我们的日常生活中,视听场景是普遍存在的。对于人类来说是常见的常见地定位不同的探测物体,但是对于在没有类别注释的情况下实现类感知的声音对象本地化的机器非常具有挑战性,即,本地化声音对象并识别其类别。为了解决这个问题,我们提出了一个两阶段的逐步学习框架,以仅使用音频和视觉之间的对应方式本地化和识别复杂的视听方案中的探测对象。首先,我们建议通过单一源案例中通过粗粒化的视听对应来确定声音区域。然后,声音区域中的视觉功能被利用为候选对象表示,以建立类别表示对象字典,用于表达视觉字符提取。我们在鸡尾酒会方案中生成类感知对象本地化映射,并使用视听对应来抑制静音区域来引用此字典。最后,我们使用类别级视听一致性作为达到细粒度音频和探测物体分布对齐的监督。关于现实和综合视频的实验表明,我们的模型在本地化和识别物体方面是优越的,以及滤除静音。我们还将学习的视听网络转移到无监督的对象检测任务中,获得合理的性能。
translated by 谷歌翻译
通用事件边界检测是视频理解中重要但具有挑战性的任务,旨在检测人类自然感知事件界限的时刻。这项任务的主要挑战是察觉各种事件边界的各种时间变化。为此,本文提出了一个有效和最终的学习框架(DDM-Net)。为了解决事件边界的多样性和复杂的语义,我们提出了三个显着的改进。首先,我们构建一个功能银行来存储空间和时间的多级功能,为多个尺度进行差异计算。其次,为了减轻先前方法的时间模型不足,我们呈现密集差异图(DDM)以全面地表征运动模式。最后,我们利用逐步关注多级DDM,共同聚集出外观和运动线索。因此,DDM-Net分别在Kinetics-Gebd和TapCOS基准上实现了14%和8%的显着提高,并且优于Loveu挑战@ CVPR 2021的前1名获胜者解决方案而没有钟声和吹口哨。最先进的结果展示了更丰富的运动表示和更复杂的聚合的有效性,在处理通用事件边界检测的多样性方面。我们的代码将很快推出。
translated by 谷歌翻译
视频时刻检索旨在搜索与给定语言查询最相关的那一刻。然而,该社区中的大多数现有方法通常需要季节边界注释,这昂贵且耗时地标记。因此,最近仅通过使用粗略视频级标签来提出弱监督的方法。尽管有效,但这些方法通常是独立处理候选人的候选人,同时忽略了不同时间尺度中候选者之间的自然时间依赖性的关键问题。要应对这个问题,我们提出了一种多尺度的2D表示学习方法,用于弱监督视频时刻检索。具体地,我们首先构造每个时间刻度的二维图以捕获候选者之间的时间依赖性。该地图中的两个维度表示这些候选人的开始和结束时间点。然后,我们使用学习卷积神经网络从每个刻度变化的地图中选择Top-K候选。通过新设计的时刻评估模块,我们获得所选候选人的对齐分数。最后,标题和语言查询之间的相似性被用作进一步培训候选者选择器的监督。两个基准数据集Charades-STA和ActivityNet标题的实验表明,我们的方法能够实现最先进的结果。
translated by 谷歌翻译
在本文中,我们考虑了视听同步的问题应用于视频`in-wild'(即,超越语音的一般类)。作为一项新任务,我们识别并策划具有高视听相关性的测试集,即VGG-SOCK SYNC。我们比较了一些专门设计的基于变压器的架构变体,用于模拟任意长度的音频和视觉信号,同时显着降低训练期间的内存要求。我们进一步对策划数据集进行了深入的分析,并定义了开放域视听同步的评估度量。我们在标准唇读语音基准测试中应用我们的方法,LRS2和LRS3,在各个方面的消融。最后,我们在新的VGG-SOCKC SYNC视频数据集中设置了与超过160个不同类别的通用视听同步的第一个基准。在所有情况下,我们所提出的模型通过显着的保证金优于以前的最先进。
translated by 谷歌翻译
来自视频数据的多模态学习最近看过,因为它允许在没有人为注释的情况下培训语义有意义的嵌入,从而使得零射击检索和分类等任务。在这项工作中,我们提出了一种多模态,模态无政府主义融合变压器方法,它学会在多个模态之间交换信息,例如视频,音频和文本,并将它们集成到加入的多模态表示中,以获取聚合的嵌入多模态时间信息。我们建议培训系统的组合丢失,单个模态以及成对的方式,明确地留出任何附加组件,如位置或模态编码。在测试时间时,产生的模型可以处理和融合任意数量的输入模态。此外,变压器的隐式属性允许处理不同长度的输入。为了评估所提出的方法,我们在大规模HOWASET上培训模型,并评估四个具有挑战性的基准数据集上产生的嵌入空间获得最先进的视频检索和零射击视频动作定位。
translated by 谷歌翻译
舞蹈挑战现在是Tiktok这样的视频社区中的病毒性。一旦挑战变得流行,就会在几天内上传成千上万的短型视频。因此,来自舞蹈挑战的病毒预测具有很大的商业价值,具有广泛的应用,例如智能推荐和普及促销。本文提出了一种集成骨骼,整体外观,面部和景区提示的新型多模态框架,以综合舞蹈病毒预测。为了模拟身体运动,我们提出了一种层次地改进了时空骨架图的金字塔骨架图卷积网络(PSGCN)。同时,我们介绍了一个关系时间卷积网络(RTCN),以利用非局部时间关系利用外观动态。最终提出了一种细心的融合方法,以自适应地从不同方式汇总预测。为了验证我们的方法,我们介绍了一个大规模的病毒舞蹈视频(VDV)数据集,其中包含超过4,000个病毒舞蹈挑战的舞蹈剪辑。 VDV数据集的广泛实验证明了我们模型的功效。对VDV数据集的广泛实验良好地证明了我们方法的有效性。此外,我们表明,可以从我们的模型中派生类似多维推荐和动作反馈等的短视频应用。
translated by 谷歌翻译
RGB-D图像上的突出对象检测(SOD)是计算机视觉中的主动问题。 RGB-D SOD问题的主要挑战是1)提取RGB的准确特征和杂物背景或图像质量差的深度图像数据,2)探索RGB和深度图像数据之间的互补信息。为了解决这些挑战,我们提出了一种用于RGB-D SOD的新型互变融合网络(MTFNET)。 MTFNET包含两个主要模块,$ i. $,焦点特征提取器(FFE)和相互变压器融合(MTF)。 FFE旨在通过引入新的像素级焦点正则化来引导CNN特征提取器来提取RGB和深度图像的更准确的CNN特征。 MTF旨在深入利用RGB与粗略和精细尺度之间的多模态交互。 MTF的主要好处是它同时对模态和模态的学习进行了学习,因此可以更直接且充分地实现不同方式的通信。六个公共基准的综合实验结果展示了我们提出的MTFNET的优越性。
translated by 谷歌翻译
本文介绍了一种基于纯变压器的方法,称为视频动作识别的多模态视频变压器(MM-VIT)。与仅利用解码的RGB帧的其他方案不同,MM-VIT专门在压缩视频域中进行操作,并利用所有容易获得的模式,即I帧,运动向量,残差和音频波形。为了处理从多种方式提取的大量时空令牌,我们开发了几种可扩展的模型变体,它们将自我关注分解在空间,时间和模态尺寸上。此外,为了进一步探索丰富的模态互动及其效果,我们开发并比较了可以无缝集成到变压器构建块中的三种不同的交叉模态注意力机制。关于三个公共行动识别基准的广泛实验(UCF-101,某事-V2,Kinetics-600)证明了MM-VIT以效率和准确性的最先进的视频变压器,并且表现更好或同样地表现出对于具有计算重型光学流的最先进的CNN对应物。
translated by 谷歌翻译
文本和视频之间交叉模态检索的任务旨在了解视觉和语言之间的对应关系。现有研究遵循基于文本和视频嵌入的测量文本视频相似度的趋势。在常见的做法中,通过将视频帧馈送到用于全球视觉特征提取的视频帧或仅通过使用图形卷积网络使用本地细粒度的框架区域来实现简单的语义关系来构造视频表示。然而,这些视频表示在学习视频表示中的视觉组件之间没有充分利用时空关系,从而无法区分具有相同视觉组件但具有不同关系的视频。为了解决这个问题,我们提出了一种视觉时空关系增强的网络(VSR-Net),这是一种新的跨模型检索框架,其考虑组件之间的空间视觉关系,以增强桥接文本 - 视频模型中的全局视频表示。具体地,使用多层时空变压器来编码视觉时空关系,以学习视觉关系特征。我们将全局视觉和细粒度的关系功能与两个嵌入空格上的文本功能对齐,用于交叉模态文本 - 视频检索。在MSR-VTT和MSVD数据集中进行了广泛的实验。结果表明了我们提出的模型的有效性。我们将发布促进未来研究的代码。
translated by 谷歌翻译
人类自然有效地在复杂的场景中找到突出区域。通过这种观察的动机,引入了计算机视觉中的注意力机制,目的是模仿人类视觉系统的这一方面。这种注意机制可以基于输入图像的特征被视为动态权重调整过程。注意机制在许多视觉任务中取得了巨大的成功,包括图像分类,对象检测,语义分割,视频理解,图像生成,3D视觉,多模态任务和自我监督的学习。在本调查中,我们对计算机愿景中的各种关注机制进行了全面的审查,并根据渠道注意,空间关注,暂时关注和分支注意力进行分类。相关的存储库https://github.com/menghaoguo/awesome-vision-tions致力于收集相关的工作。我们还建议了未来的注意机制研究方向。
translated by 谷歌翻译
编码器 - 解码器模型已广泛用于RGBD语义分割,并且大多数通过双流网络设计。通常,共同推理RGBD的颜色和几何信息是有益的对语义分割。然而,大多数现有方法都无法全面地利用编码器和解码器中的多模式信息。在本文中,我们提出了一种用于RGBD语义细分的新型关注的双重监督解码器。在编码器中,我们设计一个简单但有效的关注的多模式融合模块,以提取和保险丝深度多级成对的互补信息。要了解更强大的深度表示和丰富的多模态信息,我们介绍了一个双分支解码器,以有效利用不同任务的相关性和互补线。在Nyudv2和Sun-RGBD数据集上的广泛实验表明,我们的方法达到了最先进的方法的卓越性能。
translated by 谷歌翻译