本报告提出了微型航空车辆(MAV)自主导航的组合最优控制和感知框架在新颖的室内封闭环境中,专门用于车载传感器数据。我们使用模拟器的特权信息来为我们的感知系统生成3D空间中的最佳航点,以便我们学会模仿。培训的基于学习的感知模块又能够单独生成类似障碍避免从传感器数据(RGB + IMU)的航点。我们展示了框架跨IGIBSON模拟环境中的新颖场景的功效。
translated by 谷歌翻译
视频字幕的规范方法决定了用于从离线提取的密集视频特征学习的标题生成模型。这些特征提取器通常在以固定帧速率采样的视频帧上操作,并且通常在图像/视频理解任务上培训,而不适用于视频标题数据。在这项工作中,我们展示了Swinbert,一种用于视频字幕的基于端到端的变换器的模型,它将视频帧贴片直接作为输入,并输出自然语言描述。我们的方法代替利用多个2D / 3D特征提取器,该方法采用视频变压器来编码可适应可变长度的视频输入,而无需专用设计,可以针对不同的帧速率进行专用设计。基于该模型架构,我们表明视频标题可以从更密集地采样的视频帧中受益匪浅,而不是以前的成功,用于视频和语言理解任务的稀疏采样视频帧(例如,视频问题应答)。此外,为了避免连续视频帧中固有的冗余,我们建议通过更好的远程视频序列建模来自适应地学习稀疏的注意掩模并优化任务特定性能改进。通过对5个视频字幕数据集的广泛实验,我们展示了Swinbert通过较大的余量来实现对以前的方法的整体性能改进。此外,学习的稀疏注意力掩模将限制推向新的技术,可以在不同的视频长度和不同的数据集之间传输。
translated by 谷歌翻译
视频语言(VIDL)建模的巨大挑战在于从图像/视频理解模型和下游Vidl数据中提取的固定视频表示之间的断开。最近的研究试图通过端到端培训来减轻这种断开连接。为了使其进行计算可行,先前的作品倾向于“想象”视频输入,即,将一些稀疏的采样帧馈送到2D CNN中,然后是简单的均值汇集或连接以获得整体视频表示。虽然实现了有希望的结果,但这种简单的方法可能会失去对于执行下游VIDL任务至关重要的时间信息。在这项工作中,我们呈现紫罗兰色,全新的视频语言变压器,采用视频变压器,明确地模拟视频输入的时间动态。此外,与以前的研究不同,发现视频输入上的预训练任务(例如,屏蔽帧建模)不是非常有效的,我们设计了一个新的预训练任务,屏蔽了视觉令牌建模(MVM),以获得更好的视频建模。具体地,原始视频帧修补程序将“令牌化”转换为离散的视觉令牌,目标是基于蒙面的贴片恢复原始的视觉令牌。综合分析展示了通过视频变压器和MVM显式时间建模的有效性。因此,紫罗兰在5个视频问题的回答任务和4个文本到视频检索任务中实现了新的最先进的性能。
translated by 谷歌翻译
多元时间序列(MTS)分类在过去十年中获得了重要性,随着多个域中的时间数数据集数量的增加。目前的最先进的MTS分类器是一种重量级的深度学习方法,其仅在大型数据集上优于第二个最佳MTS分类器。此外,这种深入学习方法不能提供忠诚的解释,因为它依赖于后的HOC模型 - 无止性解释性方法,这可能会阻止其在许多应用中的应用。在本文中,我们展示了XCM,可解释的卷积神经网络用于MTS分类。 XCM是一种新的紧凑型卷积神经网络,其直接从输入数据中提取相对于观察变量的信息。因此,XCM架构在大小的数据集中实现了良好的泛化能力,同时通过精确地识别所观察到的变量和时间戳,允许完全利用忠实的后HOC模型特定的解释方法(梯度加权类激活映射)对预测很重要的数据。首先表明XCM在大型公共UEA数据集中优于最先进的MTS分类器。然后,我们说明了XCM如何在合成数据集上调和性能和解释性,并显示XCM对预测的输入数据的区域的区域更精确地识别,与当前的深度学习MTS分类器相比也提供忠诚的解释性。最后,我们介绍了XCM如何优于现实世界应用中最准确的最先进的算法,同时通过提供忠诚和更具信息性的解释来提高可解释性。
translated by 谷歌翻译
视觉和语言导航(VLN)是一种任务,即遵循语言指令以导航到目标位置的语言指令,这依赖于在移动期间与环境的持续交互。最近的基于变压器的VLN方法取得了很大的进步,从视觉观测和语言指令之间的直接连接通过多模式跨关注机制。然而,这些方法通常代表通过使用LSTM解码器或使用手动设计隐藏状态来构建反复变压器的时间上下文作为固定长度矢量。考虑到单个固定长度向量通常不足以捕获长期时间上下文,在本文中,我们通过显式建模时间上下文来引入具有可变长度存储器(MTVM)的多模式变压器,通过模拟时间上下文。具体地,MTVM使代理能够通过直接存储在存储体中的先前激活来跟踪导航轨迹。为了进一步提高性能,我们提出了内存感知的一致性损失,以帮助学习随机屏蔽指令的时间上下文的更好关节表示。我们在流行的R2R和CVDN数据集上评估MTVM,我们的模型在R2R看不见的验证和测试中提高了2%的成功率,并在CVDN测试集上减少了1.6米的目标进程。
translated by 谷歌翻译
Vision-Language(V + L)预先润廓模型通过了解图像和文本之间的对齐来支持多媒体应用程序取得了巨大成功。虽然现有的视觉预押模型主要专注于了解文本中的图像或实体中的对象,但它们通常会忽略事件级别的对齐及其参数结构。 %在这项工作中,我们提出了一种对比的学习框架来强制执行愿景 - 语言预押模型来理解事件和相关参数(参与者)角色。为此,我们利用文本信息提取技术来获得事件结构知识,并利用多个提示函数来通过操纵事件结构来对比难度的负面描述。我们还基于最佳传输来设计事件图对齐损耗以捕获事件参数结构。此外,我们收集了一个大型活动的数据集(106,875张图片),用于预磨平,这提供了更具挑战性的图像检索基准,以评估对复杂冗长的句子的理解。实验表明,我们的零射剪辑事件优于在多媒体事件提取中的参数提取中的最先进的监督模型,从而实现了事件提取中的5±绝对f得分增益,以及显着改进零拍摄设置下的各种下游任务。
translated by 谷歌翻译
近几十年来,Camera-IMU(惯性测量单元)传感器融合已经过度研究。已经提出了具有自校准的运动估计的许多可观察性分析和融合方案。然而,它一直不确定是否在一般运动下观察到相机和IMU内在参数。为了回答这个问题,我们首先证明,对于全球快门Camera-IMU系统,所有内在和外在参数都可以观察到未知的地标。鉴于此,滚动快门(RS)相机的时间偏移和读出时间也证明是可观察到的。接下来,为了验证该分析并解决静止期间结构无轨滤波器的漂移问题,我们开发了一种基于关键帧的滑动窗滤波器(KSWF),用于测量和自校准,它适用于单眼RS摄像机或立体声RS摄像机。虽然关键帧概念广泛用于基于视觉的传感器融合,但对于我们的知识,KSWF是支持自我校准的首先。我们的模拟和实际数据测试验证了,可以使用不同运动的机会主义地标的观察来完全校准相机-IMU系统。实际数据测试确认了先前的典故,即保持状态矢量的地标可以弥补静止漂移,并显示基于关键帧的方案是替代治疗方法。
translated by 谷歌翻译
字感消歧(WSD)是在给定的上下文中确定模糊单词的感觉的任务。以前的WSD方法侧重于受监督和基于知识的方法,但仍有愿意消除歧义的际相互作用模式或规律。我们认为以下原因是找到正确模式背后的主要困难之一:对于特定的背景,一系列模糊词语的预期感官彼此依赖,即选择一个单词的感觉与选择相关联另一个单词的感觉,使WSD成为组合优化问题。在这项工作中,我们通过二次0-1整数编程模型(QIP)方法通过二次0-1整数编程模型(QIP)来实现不同目标单词的感觉之间的相互作用,其最大化由(1)之间的相似性组成的目标函数目标单词的候选感官和语境(感觉字相似度)中的单词,和(2)上下文中所有单词的感官之间的语义交互(相关性)(感觉义相关性)。
translated by 谷歌翻译
已经开发了各种深度学习模型,以从医学图像分段解剖结构,但它们通常在具有不同数据分布的另一个目标域上测试时具有差的性能。最近,已经提出了未经监督的域适应方法来缓解这种所谓的域移位问题,但大多数都是针对具有相对较小域移位的方案设计的,并且在遇到大域间隙时可能会失败。在本文中,我们提出DCDA,一种新的跨模型无监督域适应框架,用于具有大域移位的任务,例如,来自Octa和OCT图像的分段视网膜血管。 DCDA主要包括解开表示样式转移(DRST)模块和协作一致性学习(CCL)模块。 DRST将图像分解成内容组件和样式代码,并执行样式传输和图像重建。 CCL包含两个分段模型,一个用于源域,另一个用于目标域。这两种模型使用标记的数据(与相应的传输图像一起)进行监督学习,并在未标记的数据上执行协作一致性学习。每个模型都侧重于相应的单个域,并旨在产生专用域特定的分段模型。通过对视网膜船分割的广泛实验,我们的框架从Octa到Oct和Oct到Octa的OctA到Octa的骰子分数均达到目标培训的甲骨文,显着优于其他最先进的方法。
translated by 谷歌翻译
今天的网络世界难以多变量。在极端品种中收集的指标需要多变量算法以正确检测异常。然而,基于预测的算法,如被广泛证明的方法,通常在数据集中进行次优或不一致。一个关键的常见问题是他们努力成为一个尺寸适合的,但异常在自然中是独特的。我们提出了一种裁定到这种区别的方法。提出FMUAD - 一种基于预测,多方面,无监督的异常检测框架。FMUAD明确,分别捕获异常类型的签名性状 - 空间变化,时间变化和相关变化 - 与独立模块。然后,模块共同学习最佳特征表示,这是非常灵活和直观的,与类别中的大多数其他模型不同。广泛的实验表明我们的FMUAD框架始终如一地优于其他最先进的预测的异常探测器。
translated by 谷歌翻译