几次动作识别中面临的主要挑战是培训视频数据不足。为了解决此问题,该领域中的当前方法主要集中于在功能级别上设计算法,而对处理输入视频数据的关注很少。此外,现有的框架采样策略可能会省略时间和空间维度的关键行动信息,从而进一步影响视频利用效率。在本文中,我们提出了一个新颖的视频框架采样器,以进行几次动作识别以解决此问题,其中特定于任务的空间框架采样是通过时间选择器(TS)和空间放大器(SA)实现的。具体而言,我们的采样器首先以较小的计算成本扫描整个视频,以获得对视频帧的全球感知。 TS在选择最显着,随后的贡献的顶级框架方面发挥了作用。 SA通过使用显着图的指导来扩大关键区域来强调每个框架的歧视性信息。我们进一步采用任务自适应学习,根据手头的情节任务动态调整采样策略。 TS和SA的实现均可以端到端的优化为基础,从而通过大多数少数发动的动作识别方法促进了我们所提出的采样器的无缝集成。广泛的实验表明,在包括长期视频在内的各种基准测试中的表演都有显着提高。
translated by 谷歌翻译
Vision-Language预培训是一个新兴和快速发展的研究主题,将多模态知识从丰富的资源预训练任务转移到有限资源下游任务。与主要学习单个通用编码器的现有作品不同,我们提出了一种可训练的通用编码器 - 解码器网络(UNI-EDEN),以促进视觉语言感知(例如,视觉问题应答)和生成(例如,图像标题)。 UNI-EDEN是一种基于双流变换器的结构,由三个模块组成:对象和句子编码器,其单独了解每个模态的表示,以及通过模态交互能够实现多模态推理和句子的句子解码器。考虑到每个图像的语言表示可以跨越该层次结构的不同粒度,包括从简单到全面,个人标签,短语和自然句子,我们通过多粒愿景语言代理任务预先列车UNI-EDEN:屏蔽对象分类(MOC),蒙版区域短语生成(MRPG),图像句匹配(ISM)和屏蔽句生成(MSG)。以这种方式,UNI-EDEN赋予了多模态表示提取和语言建模的功率。广泛的实验证明了通过微调到四个视觉语言感知和发电下游任务来展示Uni-Eden的概括性。
translated by 谷歌翻译
在我们的日常生活中,视听场景是普遍存在的。对于人类来说是常见的常见地定位不同的探测物体,但是对于在没有类别注释的情况下实现类感知的声音对象本地化的机器非常具有挑战性,即,本地化声音对象并识别其类别。为了解决这个问题,我们提出了一个两阶段的逐步学习框架,以仅使用音频和视觉之间的对应方式本地化和识别复杂的视听方案中的探测对象。首先,我们建议通过单一源案例中通过粗粒化的视听对应来确定声音区域。然后,声音区域中的视觉功能被利用为候选对象表示,以建立类别表示对象字典,用于表达视觉字符提取。我们在鸡尾酒会方案中生成类感知对象本地化映射,并使用视听对应来抑制静音区域来引用此字典。最后,我们使用类别级视听一致性作为达到细粒度音频和探测物体分布对齐的监督。关于现实和综合视频的实验表明,我们的模型在本地化和识别物体方面是优越的,以及滤除静音。我们还将学习的视听网络转移到无监督的对象检测任务中,获得合理的性能。
translated by 谷歌翻译
现代视频对象分割(VOS)算法以顺序处理顺序实现了显着高的性能,而目前目前普遍的管道仍然表现出一些显而易见的不足,如累积误差,未知的鲁棒性或缺乏适当的解释工具。在本文中,我们将半监控视频对象分割问题放入循环工作流程中,并通过半监控VOS系统的固有循环属性来找到上面的缺陷。首先,循环机制包含在标准顺序流程中的循环机制可以产生更一致的像素 - 方识的表示。依赖于起始帧中的准确参考掩码,我们表明可以减轻错误传播问题。接下来,自然地将离线循环管道扩展到在线方式的简单梯度校正模块,可以突出显示结果的高频率和详细部分,以进一步提高分割质量,同时保持可行的计算成本。同时,这种校正可以保护网络免受干扰信号产生的严重性能下降。最后,我们基于梯度校正过程开发周期有效的接收领域(周期ERF),以提供新的视角,分析特定于对象的感兴趣区域。我们对Davis16,Davis17和Youtube-Vos有挑战性的基准进行全面的比较和详细分析,表明循环机制有助于提高分割质量,提高VOS系统的稳健性,并进一步提供不同VOS算法的定性比较和解释工作。该项目的代码可以在https://github.com/lyxok1/stm-trings找到
translated by 谷歌翻译
很少有动作识别旨在仅使用几个样本(支持)识别新颖的动作类(查询)。当前的大多数方法遵循公制学习范式,该范式学会比较视频之间的相似性。最近,已经观察到,直接测量这种相似性并不理想,因为不同的动作实例可能显示出独特的时间分布,从而导致查询和支持视频中严重的未对准问题。在本文中,我们从两个不同的方面释放了这个问题 - 行动持续时间的错位和动作演化错位。我们通过两阶段的动作对准网络(TA2N)顺序解决它们。第一阶段通过学习暂时的仿射变换来定位动作,该变换扭曲了每个视频功能的动作持续时间,同时否定了动作 - 欧元的功能(例如背景)。接下来,第二阶段协调查询功能通过执行时间重排和空间抵消预测来匹配支撑的时空动作演变。基准数据集上的广泛实验显示了该方法在实现最新性能方面的潜力,以获得几次动作识别。
translated by 谷歌翻译
We propose an efficient and unified framework, namely ThiNet, to simultaneously accelerate and compress CNN models in both training and inference stages. We focus on the filter level pruning, i.e., the whole filter would be discarded if it is less important. Our method does not change the original network structure, thus it can be perfectly supported by any off-the-shelf deep learning libraries. We formally establish filter pruning as an optimization problem, and reveal that we need to prune filters based on statistics information computed from its next layer, not the current layer, which differentiates ThiNet from existing methods. Experimental results demonstrate the effectiveness of this strategy, which has advanced the state-of-the-art. We also show the performance of ThiNet on ILSVRC-12 benchmark. ThiNet achieves 3.31× FLOPs reduction and 16.63× compression on VGG-16, with only 0.52% top-5 accuracy drop. Similar experiments with ResNet-50 reveal that even for a compact network, ThiNet can also reduce more than half of the parameters and FLOPs, at the cost of roughly 1% top-5 accuracy drop. Moreover, the original VGG-16 model can be further pruned into a very small model with only 5.05MB model size, preserving AlexNet level accuracy but showing much stronger generalization ability.
translated by 谷歌翻译
本文介绍了对聪明差异的检查,并以三个机会的层次进行了检查。当结果在波动的载荷下方时,将差异速度和力解释为三个结果的主要差异,但是当暴露于接近载荷时,将其等效的运动和力与其结果相等。确定的运动学和元素在三种不同的负担案件下进行了假设研究。此外,三个负担案件的移动也被重新创建并集中在其当前和潜在应用以及其当前和潜在应用的好处。
translated by 谷歌翻译
设计一个管道内的攀岩机器人,该机器人操纵锋利的齿轮以研究复杂的线关系。探索管道曲线时,传统的滚动/发生管道攀爬机器人往往会滑动。提议的变速箱连接到标准双输出变速箱的最远地面平面。仪器有助于实现一个非常明确的减速序列,在该序列中,机器人在向前移动时滑动和拉动。该仪器考虑了线路关系中每个轨道上施加的力,并有意修改机器人的轨道速度,从而解锁了微调的钥匙。这使得3个输出传输需要大量时间。机器人在具有各种轴承和防滑管道弯曲的管网上的挠度证明了所提出的结构的完整性。
translated by 谷歌翻译
管道内的攀岩机器人的蓝图,该机器人可与尖锐的传输一起研究复杂的线关系。探索管道转弯时,标准的轮式攀爬机器人往往会滑动。仪器有助于实现非常独特的延迟序列,在该顺序中,机器人随着进展而滑动和拖动。提议的变速箱连接了标准两输出变速器的最远地面平面。这为3个输出传输打开了大量时间。该仪器考虑了线路中每个轨道上施加的力,以专门改变机器人的轨道速度,从而解锁了良好控制的钥匙。机器人在具有不同轴承和防滑管道弯曲的管网上的挠度证明了所提出的结构的完整性。
translated by 谷歌翻译
由于学习难度对于机器学习至关重要(例如,基于难度的加权学习策略),以前的文献提出了许多学习难度措施。但是,迄今为止尚无针对学习难度的全面调查,导致几乎所有现有的措施都在没有严格的理论基础的情况下进行了启发性定义。此外,即使在许多研究中至关重要,也没有正式的简单和硬样品定义。这项研究试图进行一项试验理论研究,以实现样本的学习难度。首先,根据概述误差的偏见变化权衡理论提出了学习难度的理论定义。基于拟议的定义建立了简单和硬样品的理论定义。从正式定义中给出了一种实用的学习难度测量方法。其次,探索了学习难度的加权策略的属性。随后,可以根据探索的属性来很好地解释机器学习中的几种经典加权方法。第三,评估提出的措施以验证其合理性和优越性,以几个主要的难度因素。这些实验中的比较表明,所提出的措施在整个实验过程中的其他措施显着优于其他措施。
translated by 谷歌翻译