近几十年来,Camera-IMU(惯性测量单元)传感器融合已经过度研究。已经提出了具有自校准的运动估计的许多可观察性分析和融合方案。然而,它一直不确定是否在一般运动下观察到相机和IMU内在参数。为了回答这个问题,我们首先证明,对于全球快门Camera-IMU系统,所有内在和外在参数都可以观察到未知的地标。鉴于此,滚动快门(RS)相机的时间偏移和读出时间也证明是可观察到的。接下来,为了验证该分析并解决静止期间结构无轨滤波器的漂移问题,我们开发了一种基于关键帧的滑动窗滤波器(KSWF),用于测量和自校准,它适用于单眼RS摄像机或立体声RS摄像机。虽然关键帧概念广泛用于基于视觉的传感器融合,但对于我们的知识,KSWF是支持自我校准的首先。我们的模拟和实际数据测试验证了,可以使用不同运动的机会主义地标的观察来完全校准相机-IMU系统。实际数据测试确认了先前的典故,即保持状态矢量的地标可以弥补静止漂移,并显示基于关键帧的方案是替代治疗方法。
translated by 谷歌翻译
航空图像中的微小对象检测(TOD)是具有挑战性的,因为一个小物体只包含几个像素。最先进的对象探测器由于缺乏判别特征的监督而无法为微小对象提供令人满意的结果。我们的主要观察结果是,联合度量(IOU)及其扩展的相交对微小物体的位置偏差非常敏感,这在基于锚固的探测器中使用时会大大恶化标签分配的质量。为了解决这个问题,我们提出了一种新的评估度量标准,称为标准化的Wasserstein距离(NWD)和一个新的基于排名的分配(RKA)策略,以进行微小对象检测。提出的NWD-RKA策略可以轻松地嵌入到各种基于锚的探测器中,以取代标准的基于阈值的检测器,从而大大改善了标签分配并为网络培训提供了足够的监督信息。在四个数据集中测试,NWD-RKA可以始终如一地提高微小的对象检测性能。此外,在空中图像(AI-TOD)数据集中观察到显着的嘈杂标签,我们有动力将其重新标记并释放AI-TOD-V2及其相应的基准。在AI-TOD-V2中,丢失的注释和位置错误问题得到了大大减轻,从而促进了更可靠的培训和验证过程。将NWD-RKA嵌入探测器中,检测性能比AI-TOD-V2上的最先进竞争对手提高了4.3个AP点。数据集,代码和更多可视化可在以下网址提供:https://chasel-tsui.g​​ithub.io/ai/ai-tod-v2/
translated by 谷歌翻译
文档级事件提取中有两个主要挑战:1)参数实体分散在不同的句子中,2)事件触发器通常不可用。为了解决这些挑战,最先前的研究主要关注以自回归方式建立参数链,这在培训和推论方面效率低下。与以前的研究相比,我们提出了一种快速轻量级的模型,名为PTPCG。我们设计非自动评级解码算法,以执行修剪的完整图表的事件参数组合提取,这在自动选择的伪触发器的引导下构造。与以前的系统相比,我们的系统实现了资源消耗较低的竞争结果,只需要3.6%的GPU时间(PFS-Days),推断速度快8.5倍。此外,我们的方法显示了具有(或没有)触发器的数据集的卓越兼容性,并且伪触发器可以是注释触发器的补充剂,以进一步改进。
translated by 谷歌翻译
特定于语言的预训练模型已被证明比单语说在单语法评估设置中更准确,阿拉伯语也不例外。但是,我们发现先前发布的阿拉伯伯特模型显着培训。在这本技术报告中,我们展示了Jaber,Junior Arabic Bert,我们的预用语言模型原型专用于阿拉伯语。我们进行实证研究,以系统地评估模型在各种现有阿拉伯语NLU任务中的性能。实验结果表明,Jaber实现了Alue的最先进的表演,这是阿拉伯语了解评估的新基准,以及成熟的内部基准
translated by 谷歌翻译
Muilti-Delicality数据在生物学中普遍存在,特别是我们进入了多OMICS时代,当我们可以测量来自不同方面(OMIC)的相同生物对象(单元)来提供更全面的洞察蜂窝系统。在处理此类多个OMICS数据时,第一步是确定不同模式之间的对应关系。换句话说,我们应该与与相同对象相对应的不同空格匹配数据。这个问题在单细胞多OMICS场景中特别具有挑战性,因为这种数据具有极高的尺寸。其次,匹配的单细胞多OMICS数据是罕见的且难以收集的。此外,由于实验环境的局限性,数据通常非常嘈杂。为了促进单细胞多OMICS研究,我们克服了上述挑战,提出了一种新颖的框架来对齐和集成单细胞RNA-SEQ数据和单细胞ATAC-SEQ数据。我们的方法可以通过在统一空间中有效地将上述数据与来自不同空间的高稀疏性和噪声从不同空间的噪声映射到低维歧管,使下游对准和直接集成。与其他最先进的方法相比,我们的方法在模拟和实际单细胞数据中执行更好。所提出的方法有助于单细胞多OMICS研究。对模拟数据集成的改进是显着的。
translated by 谷歌翻译
深度学习在各种软件工程任务中广泛使用,例如,节目分类和缺陷预测。虽然该技术消除了特征工程所需的过程,但源代码模型的构建显着影响了这些任务的性能。最近的作品主要集中在通过引入从CFG提取的上下文依赖项来补充基于AST的源代码模型。但是,所有这些都关注基本块的表示,这是上下文依赖性的基础。在本文中,我们集成了AST和CFG,并提出了一种嵌入了分层依赖项的新型源代码模型。基于此,我们还设计了一种神经网络,这取决于图表关注机制。特殊地,我们介绍了基本块的句法结构,即其对应的AST,在源代码模型中提供足够的信息并填补间隙。我们在三种实际软件工程任务中评估了该模型,并将其与其他最先进的方法进行了比较。结果表明,我们的模型可以显着提高性能。例如,与最佳性能的基线相比,我们的模型将参数的比例降低了50 \%并实现了对程序分类任务的准确性的4 \%改进。
translated by 谷歌翻译
多模式传感器的融合在自动驾驶和智能机器人中变得越来越流行,因为它可以比任何单个传感器提供更丰富的信息,从而在复杂的环境中增强可靠性。多传感器外部校准是传感器融合的关键因素之一。但是,由于传感器方式的种类以及对校准目标和人工的需求,这种校准很困难。在本文中,我们通过关注立体相机,热摄像机和激光传感器之间的外部转换,展示了一个新的无目标跨模式校准框架。具体而言,立体声和激光器之间的校准是通过最小化登记误差在3D空间中进行的,而通过优化边缘特征的对齐方式来估计其他两个传感器的热外部传感器。我们的方法不需要专门的目标,并且可以在没有人类相互作用的情况下进行一次镜头进行多传感器校准。实验结果表明,校准框架是准确且适用于一般场景的。
translated by 谷歌翻译
已经证明对比学习是有效的,可以减轻医学图像分析中昂贵注释的高需求,这可以捕获图像中的一般图案,并且自然用作各种任务的初始特征提取器。最近的作品主要基于案例明智的歧视,并学习全球歧视特征;然而,他们不能帮助临床医生处理主要由局部相似性分类的微小解剖结构,病变和组织。在这项工作中,我们提出了一般无人监督的框架,以了解来自医学图像的局部歧视特征,以进行模型的初始化。在此事实之后,相同体区域的图像应该共享类似的解剖结构,并且相同结构的像素应该具有类似的语义模式,我们设计神经网络以构建具有相似上下文的像素的局部判别嵌入空间是聚类和异种像素的分散。该网络主要包含两个分支:嵌入分支以生成像素 - WISE Embeddings,以及聚类分支以将相同结构的像素聚集在一起并生成分段。提出了一种区域辨别损失以在互利模式中优化这两个分支,使得通过聚类分支集群聚集在一起的像素共享类似的嵌入式矢量,并且训练模型可以测量像素方面的相似性。当转移到下游任务时,基于我们框架的学习特征提取器显示出更好的泛化能力,这优于来自广泛的最先进的方法,并在彩色眼底和胸部X光中的所有12个下游任务中获胜11。此外,我们利用像素 - 方面的嵌入来测量区域相似度,并提出一种形状引导的跨模块分割框架和中心敏感的单次地标定位算法。
translated by 谷歌翻译
作为谈论脸生成的关键组成部分,唇部运动产生决定了所产生的谈话脸视频的自然度和相干性。前文学主要侧重于语音到唇部生成,而文本到唇(T2L)生成缺乏缺乏。 T2L是一个具有挑战性的任务,现有的端到端工作取决于注意机制和自回归(AR)解码方式。然而,AR解码方式产生在先前生成的帧上的当前唇框,其固有地阻碍推广速度,并且对由于误差传播引起的产生唇框的质量有不利影响。这鼓励了并行T2L代的研究。在这项工作中,我们提出了一种用于快速和高保真文本到唇部生成(Paralip)的平行解码模型。具体地,我们预测编码语言特征的持续时间和模型在编码的语言特征上调节的目标唇框,其持续时间以非自动增加方式。此外,我们纳入了结构相似性指数损失和对抗性学习,以提高产生的唇框的感知质量,并减轻模糊预测问题。在网格和TCD-TIMIT数据集上进行的广泛实验证明了所提出的方法的优越性。视频样本可通过\ URL {https://paralip.github.io/}获得。
translated by 谷歌翻译
量化城市道路网络(URNS)不同部分的拓扑相似之处使我们能够了解城市成长模式。虽然传统统计信息提供有关单个节点的直接邻居或整个网络的特性的有用信息,但是这种度量无法衡量考虑本地间接邻域关系的子网的相似性。在这项研究中,我们提出了一种基于图的机器学习方法来量化子网的空间均匀性。我们将该方法应用于全球30个城市的11,790个城市道路网络,以衡量每个城市和不同城市的道路网络的空间均匀性。我们发现,城市内的空间均匀性与诸如GDP和人口增长的社会经济地位高度相关。此外,通过在不同城市转移模型获得的城市间空间均匀性揭示了欧洲的城市网络结构的城市网络结构间相似性,传递给美国和亚洲的城市。可以利用使用我们的方法揭示的社会经济发展和城市间相似性,以了解和转移城市的洞察力。它还使我们能够解决城市政策挑战,包括在迅速城市化地区的网络规划,并打击区域不平等。
translated by 谷歌翻译