近几十年来,Camera-IMU(惯性测量单元)传感器融合已经过度研究。已经提出了具有自校准的运动估计的许多可观察性分析和融合方案。然而,它一直不确定是否在一般运动下观察到相机和IMU内在参数。为了回答这个问题,我们首先证明,对于全球快门Camera-IMU系统,所有内在和外在参数都可以观察到未知的地标。鉴于此,滚动快门(RS)相机的时间偏移和读出时间也证明是可观察到的。接下来,为了验证该分析并解决静止期间结构无轨滤波器的漂移问题,我们开发了一种基于关键帧的滑动窗滤波器(KSWF),用于测量和自校准,它适用于单眼RS摄像机或立体声RS摄像机。虽然关键帧概念广泛用于基于视觉的传感器融合,但对于我们的知识,KSWF是支持自我校准的首先。我们的模拟和实际数据测试验证了,可以使用不同运动的机会主义地标的观察来完全校准相机-IMU系统。实际数据测试确认了先前的典故,即保持状态矢量的地标可以弥补静止漂移,并显示基于关键帧的方案是替代治疗方法。
translated by 谷歌翻译
视觉和语言导航(VLN)是一种任务,即遵循语言指令以导航到目标位置的语言指令,这依赖于在移动期间与环境的持续交互。最近的基于变压器的VLN方法取得了很大的进步,从视觉观测和语言指令之间的直接连接通过多模式跨关注机制。然而,这些方法通常代表通过使用LSTM解码器或使用手动设计隐藏状态来构建反复变压器的时间上下文作为固定长度矢量。考虑到单个固定长度向量通常不足以捕获长期时间上下文,在本文中,我们通过显式建模时间上下文来引入具有可变长度存储器(MTVM)的多模式变压器,通过模拟时间上下文。具体地,MTVM使代理能够通过直接存储在存储体中的先前激活来跟踪导航轨迹。为了进一步提高性能,我们提出了内存感知的一致性损失,以帮助学习随机屏蔽指令的时间上下文的更好关节表示。我们在流行的R2R和CVDN数据集上评估MTVM,我们的模型在R2R看不见的验证和测试中提高了2%的成功率,并在CVDN测试集上减少了1.6米的目标进程。
translated by 谷歌翻译
Vision-Language(V + L)预先润廓模型通过了解图像和文本之间的对齐来支持多媒体应用程序取得了巨大成功。虽然现有的视觉预押模型主要专注于了解文本中的图像或实体中的对象,但它们通常会忽略事件级别的对齐及其参数结构。 %在这项工作中,我们提出了一种对比的学习框架来强制执行愿景 - 语言预押模型来理解事件和相关参数(参与者)角色。为此,我们利用文本信息提取技术来获得事件结构知识,并利用多个提示函数来通过操纵事件结构来对比难度的负面描述。我们还基于最佳传输来设计事件图对齐损耗以捕获事件参数结构。此外,我们收集了一个大型活动的数据集(106,875张图片),用于预磨平,这提供了更具挑战性的图像检索基准,以评估对复杂冗长的句子的理解。实验表明,我们的零射剪辑事件优于在多媒体事件提取中的参数提取中的最先进的监督模型,从而实现了事件提取中的5±绝对f得分增益,以及显着改进零拍摄设置下的各种下游任务。
translated by 谷歌翻译
字感消歧(WSD)是在给定的上下文中确定模糊单词的感觉的任务。以前的WSD方法侧重于受监督和基于知识的方法,但仍有愿意消除歧义的际相互作用模式或规律。我们认为以下原因是找到正确模式背后的主要困难之一:对于特定的背景,一系列模糊词语的预期感官彼此依赖,即选择一个单词的感觉与选择相关联另一个单词的感觉,使WSD成为组合优化问题。在这项工作中,我们通过二次0-1整数编程模型(QIP)方法通过二次0-1整数编程模型(QIP)来实现不同目标单词的感觉之间的相互作用,其最大化由(1)之间的相似性组成的目标函数目标单词的候选感官和语境(感觉字相似度)中的单词,和(2)上下文中所有单词的感官之间的语义交互(相关性)(感觉义相关性)。
translated by 谷歌翻译
链路预测在知识图中起着重要作用,这是许多人工智能任务的重要资源,但它通常受不完整的限制。在本文中,我们提出了知识图表BERT for Link预测,名为LP-BERT,其中包含两个培训阶段:多任务预训练和知识图微调。预训练策略不仅使用掩码语言模型(MLM)来学习上下文语料库的知识,还引入掩模实体模型(MEM)和掩模关系模型(MRM),其可以通过预测语义来学习三元组的关系信息基于实体和关系元素。结构化三维关系信息可以转换为非结构化语义信息,可以将其与上下文语料库信息一起集成到培训模型中。在微调阶段,灵感来自对比学习,我们在样本批量中进行三样式的负面取样,这大大增加了负采样的比例,同时保持训练时间几乎不变。此外,我们提出了一种基于Triples的逆关系的数据增强方法,以进一步增加样本分集。我们在WN18RR和UMLS数据集上实现最先进的结果,特别是HITS @ 10指示器从WN18RR数据集上的先前最先进的结果提高了5 \%。
translated by 谷歌翻译
已经开发了各种深度学习模型,以从医学图像分段解剖结构,但它们通常在具有不同数据分布的另一个目标域上测试时具有差的性能。最近,已经提出了未经监督的域适应方法来缓解这种所谓的域移位问题,但大多数都是针对具有相对较小域移位的方案设计的,并且在遇到大域间隙时可能会失败。在本文中,我们提出DCDA,一种新的跨模型无监督域适应框架,用于具有大域移位的任务,例如,来自Octa和OCT图像的分段视网膜血管。 DCDA主要包括解开表示样式转移(DRST)模块和协作一致性学习(CCL)模块。 DRST将图像分解成内容组件和样式代码,并执行样式传输和图像重建。 CCL包含两个分段模型,一个用于源域,另一个用于目标域。这两种模型使用标记的数据(与相应的传输图像一起)进行监督学习,并在未标记的数据上执行协作一致性学习。每个模型都侧重于相应的单个域,并旨在产生专用域特定的分段模型。通过对视网膜船分割的广泛实验,我们的框架从Octa到Oct和Oct到Octa的OctA到Octa的骰子分数均达到目标培训的甲骨文,显着优于其他最先进的方法。
translated by 谷歌翻译
今天的网络世界难以多变量。在极端品种中收集的指标需要多变量算法以正确检测异常。然而,基于预测的算法,如被广泛证明的方法,通常在数据集中进行次优或不一致。一个关键的常见问题是他们努力成为一个尺寸适合的,但异常在自然中是独特的。我们提出了一种裁定到这种区别的方法。提出FMUAD - 一种基于预测,多方面,无监督的异常检测框架。FMUAD明确,分别捕获异常类型的签名性状 - 空间变化,时间变化和相关变化 - 与独立模块。然后,模块共同学习最佳特征表示,这是非常灵活和直观的,与类别中的大多数其他模型不同。广泛的实验表明我们的FMUAD框架始终如一地优于其他最先进的预测的异常探测器。
translated by 谷歌翻译
在本文中,我们提出了一个名为OcSampler的框架,以探索一个紧凑而有效的视频表示,其中一个短剪辑以获得高效的视频识别。最近的作品宁愿通过根据其重要性选择一个框架作为顺序决策任务的帧采样,而我们呈现了一个专用的学习实例的视频冷凝策略的新范式,以选择仅在单个视频中表示整个视频的信息帧步。我们的基本动机是高效的视频识别任务在于一次地处理整个序列而不是顺序拾取帧。因此,这些策略在一个步骤中与简单而有效的策略网络一起导出从光加权略微脱脂网络。此外,我们以帧编号预算扩展了所提出的方法,使框架能够以尽可能少的帧的高度置信度产生正确的预测。四个基准测试,即ActivityNet,Mini-Kinetics,FCVID,Mini-Sports1M的实验证明了我们在准确性,理论计算费用,实际推理速度方面对先前方法的效果。我们还在不同分类器,采样框架和搜索空间上评估其泛化电量。特别是,我们在ActivityNet上达到76.9%的地图和21.7 GFLOPS,具有令人印象深刻的吞吐量:123.9个视频/ s在单个Titan XP GPU上。
translated by 谷歌翻译
Vision-Language预培训是一个新兴和快速发展的研究主题,将多模态知识从丰富的资源预训练任务转移到有限资源下游任务。与主要学习单个通用编码器的现有作品不同,我们提出了一种可训练的通用编码器 - 解码器网络(UNI-EDEN),以促进视觉语言感知(例如,视觉问题应答)和生成(例如,图像标题)。 UNI-EDEN是一种基于双流变换器的结构,由三个模块组成:对象和句子编码器,其单独了解每个模态的表示,以及通过模态交互能够实现多模态推理和句子的句子解码器。考虑到每个图像的语言表示可以跨越该层次结构的不同粒度,包括从简单到全面,个人标签,短语和自然句子,我们通过多粒愿景语言代理任务预先列车UNI-EDEN:屏蔽对象分类(MOC),蒙版区域短语生成(MRPG),图像句匹配(ISM)和屏蔽句生成(MSG)。以这种方式,UNI-EDEN赋予了多模态表示提取和语言建模的功率。广泛的实验证明了通过微调到四个视觉语言感知和发电下游任务来展示Uni-Eden的概括性。
translated by 谷歌翻译
不观察到的混淆是观测数据的因果效应估计的主要障碍。仪器变量(IVS)广泛用于存在潜在混淆时的因果效应估计。利用标准IV方法,当给定的IV有效时,可以获得无偏估计,但标准IV的有效性要求是严格和不可能的。已经提出了通过调节一组观察变量(称为条件IV的调节装置)来放松标准IV的要求。然而,用于查找条件IV的调节集的标准需要完整的因果结构知识或指向的非循环图(DAG),其代表观察到和未观察的变量的因果关系。这使得无法发现直接从数据设置的调节。在本文中,通过利用潜在变量的因果推断中的最大祖先图(MAGS),我们提出了一种新型的MAG中的IV,祖先IV,并开发了支持给定祖传的调节装置的数据驱动的发现iv在mag。基于该理论,我们在MAG和观测数据中开发了一种与祖先IV的非偏见因果效应估计的算法。与现有IV方法相比,对合成和实际数据集的广泛实验表明了算法的性能。
translated by 谷歌翻译