近几十年来,Camera-IMU(惯性测量单元)传感器融合已经过度研究。已经提出了具有自校准的运动估计的许多可观察性分析和融合方案。然而,它一直不确定是否在一般运动下观察到相机和IMU内在参数。为了回答这个问题,我们首先证明,对于全球快门Camera-IMU系统,所有内在和外在参数都可以观察到未知的地标。鉴于此,滚动快门(RS)相机的时间偏移和读出时间也证明是可观察到的。接下来,为了验证该分析并解决静止期间结构无轨滤波器的漂移问题,我们开发了一种基于关键帧的滑动窗滤波器(KSWF),用于测量和自校准,它适用于单眼RS摄像机或立体声RS摄像机。虽然关键帧概念广泛用于基于视觉的传感器融合,但对于我们的知识,KSWF是支持自我校准的首先。我们的模拟和实际数据测试验证了,可以使用不同运动的机会主义地标的观察来完全校准相机-IMU系统。实际数据测试确认了先前的典故,即保持状态矢量的地标可以弥补静止漂移,并显示基于关键帧的方案是替代治疗方法。
translated by 谷歌翻译
眼科医生已经使用眼底图像筛选和诊断眼病。然而,不同的设备和眼科医生对眼底图像的质量产生了大的变化。低质量(LQ)降级的眼底图像在临床筛查中容易导致不确定性,并且通常会增加误诊的风险。因此,真实的眼底图像恢复值得研究。不幸的是,到目前为止,这项任务尚未探索真正的临床基准。在本文中,我们研究了真正的临床眼底图像恢复问题。首先,我们建立一个临床数据集,真实的眼底(RF),包括120个低质量和高质量(HQ)图像对。然后,我们提出了一种新型的变压器的生成对抗网络(RFRMANER)来恢复临床眼底图像的实际降级。我们网络中的关键组件是基于窗口的自我关注块(WSAB),其捕获非本地自我相似性和远程依赖性。为了产生更明显的令人愉悦的结果,介绍了一种基于变压器的鉴别器。在我们的临床基准测试中的广泛实验表明,所提出的rformer显着优于最先进的(SOTA)方法。此外,诸如船舶分割和光盘/杯子检测之类的下游任务的实验表明我们所提出的rformer益处临床眼底图像分析和应用。将发布数据集,代码和模型。
translated by 谷歌翻译
近年来,异构图形神经网络(HGNNS)一直在开花,但每个工作所使用的独特数据处理和评估设置会让他们的进步完全了解。在这项工作中,我们通过使用其官方代码,数据集,设置和超参数来展示12个最近的HGNN的系统再现,揭示了关于HGNN的进展的令人惊讶的结果。我们发现,由于设置不当,简单的均匀GNN,例如GCN和GAT在很大程度上低估了。具有适当输入的GAT通常可以匹配或优于各种场景的所有现有HGNN。为了促进稳健和可重复的HGNN研究,我们构建异构图形基准(HGB),由具有三个任务的11个不同数据集组成。 HGB标准化异构图数据分割,特征处理和性能评估的过程。最后,我们介绍了一个简单但非常强大的基线简单 - HGN - 这显着优于HGB上以前的所有模型 - 以加速未来HGNN的进步。
translated by 谷歌翻译
最近开发的基于矩阵的renyi的熵能够通过在再现内核Hilbert空间中的对称正半明确(PSD)矩阵中的EigensPectrum,而无需估计基础数据分布的情况下,能够测量数据中的信息。这种有趣的属性使得新信息测量在多种统计推理和学习任务中广泛采用。然而,这种数量的计算涉及PSD矩阵$ G $的跟踪运算符,以便为电源$ \ alpha $(即$ tr(g ^ \ alpha)$),具有近O $ o的正常复杂性(n ^ 3 )$,当样品数量(即$ N $)大时,严重妨碍了它的实际用法。在这项工作中,我们向这种新的熵功能呈现计算有效的近似,这可以降低其复杂性,以明显不到$ O(n ^ 2)$。为此,我们首先将随机近似为$ \ tr(\ g ^ \ alpha)$,将跟踪估计转换为矩阵矢量乘法问题。我们扩展了$ \ Alpha $(整数或非整数)的任意值策略。然后,我们建立基于矩阵的renyi的熵和PSD矩阵近似之间的连接,这使我们能够利用群集和阻止$ \ g $的低级结构来进一步降低计算成本。理论上我们提供近似精度保证并说明不同近似的属性。综合性和现实数据的大规模实验评估证实了我们的理论发现,展示了有希望的加速,准确性可忽略不计。
translated by 谷歌翻译
Adder神经网络(Addernets)在图像分类上表现出令人印象深刻的性能,只有加法操作,比使用乘法建立的传统卷积神经网络更节能。与分类相比,对通过Addernets降低现代对象探测器的能耗的强烈需求,例如自主驾驶和面部检测。在本文中,我们提出了对物体检测的addernets的实证研究。我们首先揭示了预先训练的加法器骨架中的批量归一化统计,不应冻结,因为Addernets的相对较大的特征方差。此外,我们在颈部中插入更多的快捷方式连接,并设计一个新的特征融合架构,以避免加法器层的稀疏功能。我们展示了广泛的消融研究,探讨了加法器探测器的几种设计选择。与最先进的比较在Coco和Pascal VOC基准上进行。具体而言,所提出的加法器FCOS在Coco Val集上实现了37.8 \%AP,展示了卷积对应物的相当性能,具有约1.4倍的能量减少。
translated by 谷歌翻译
社区问题应答(CQA)是一个明确的任务,可以在许多方案中使用,例如电子商务和在线用户社区以进行特殊兴趣。在这些社区中,用户可以发布文章,发表评论,提出一个问题并回答它。这些数据形成异构信息来源,其中每个信息源都有自己的特殊结构和背景(附加到文章或相关问题附加的评论)。大多数CQA方法仅包含文章或维基百科,以提取知识并回答用户的问题。然而,这些CQA方法并未完全探索社区中的各种信息源,并且这些多个信息源(MIS)可以向用户的问题提供更多相关知识。因此,我们提出了一个问题感知异构图形变换器,以将MIS纳入用户社区中的MIS,以自动生成答案。为了评估我们所提出的方法,我们在两个数据集中进行实验:$ \ text {msm} ^ {\ text {msm}} $ the benchmark dataset ms-marco和Antqa数据集的修改版本,它是第一个大规模CQA数据集有四种类型的错误。在两个数据集上进行广泛的实验表明,我们的模型在所有指标方面都优越所有基线。
translated by 谷歌翻译
在谈话中的情感认可(ERC)近年来引起了很多关注,以实现广泛应用的必要性。现有的ERC方法主要是单独模拟自我和讲话者上下文,在缺乏它们之间缺乏足够的互动的主要问题。在本文中,我们提出了一种用于ERC(S + Page)的新型扬声器和位置感知图形神经网络模型,其中包含三个阶段,以结合变压器和关系图卷积网络(R-GCN)的优势以获得更好的上下文建模。首先,提出了一种双流的会话变压器以提取每个话语的粗略自我和扬声器上下文特征。然后,构造扬声器和位置感知会话图,并且我们提出了一种称为PAG的增强型R-GCN模型,以优化由相对位置编码引导的粗略特征。最后,从前两个阶段的两个特征都被输入到条件随机场层中以模拟情绪转移。
translated by 谷歌翻译
本文对过去二十年来对自然语言生成(NLG)的研究提供了全面的审查,特别是与数据到文本生成和文本到文本生成深度学习方法有关,以及NLG的新应用技术。该调查旨在(a)给出关于NLG核心任务的最新综合,以及该领域采用的建筑;(b)详细介绍各种NLG任务和数据集,并提请注意NLG评估中的挑战,专注于不同的评估方法及其关系;(c)强调一些未来的强调和相对近期的研究问题,因为NLG和其他人工智能领域的协同作用而增加,例如计算机视觉,文本和计算创造力。
translated by 谷歌翻译
近年来,使用计算机的运动捕捉技术迅速发展。由于其高效率和优异的性能,它取代了许多传统方法,并且广泛用于许多领域。我们的项目是关于街景视频人体运动捕获和分析。该项目的主要目标是在视频中捕获人类运动,并实时使用3D动画(人类)的运动信息。我们应用了一个神经网络进行运动捕获,并在街景场景下的团结中实现。通过分析运动数据,我们将更好地估计街道状况,这对于自动驾驶汽车等其他高科技应用有用。
translated by 谷歌翻译
尽管在广泛的愿景任务中取得了诱人的成功,但变形金刚尚未在高分辨率图像生成建模中作为Convnets的讨论能力。在本文中,我们寻求探索使用纯变压器来构建用于高分辨率图像合成的生成对抗网络。为此,我们认为,当地的关注是在计算效率和建模能力之间取得平衡至关重要。因此,所提出的发电机采用基于风格的架构中的Swin变压器。为了实现更大的接收领域,我们提出了双重关注,同时利用本地和移位窗的上下文,从而提高了发电质量。此外,我们表明提供了在基于窗口的变压器中丢失的绝对位置的知识极大地利益了代理。所提出的STYLESWIN可扩展到高分辨率,粗糙几何和细结构都受益于变压器的强效力。然而,在高分辨率合成期间发生阻塞伪像,因为以块明智的方式执行局部注意力可能会破坏空间一致性。为了解决这一点,我们经验研究了各种解决方案,其中我们发现采用小波鉴别器来检查光谱差异的措施有效地抑制伪影。广泛的实验表明了对现有的基于变压器的GAN的优越性,特别是在高分辨率上,例如高分辨率,例如1024x1024。如果没有复杂的培训策略,则在Celeba-HQ 1024上赢得了STYLEGAN,并且在FFHQ-1024上实现了对PAR的表现,证明了使用变压器进行高分辨率图像生成的承诺。代码和模型将在https://github.com/microsoft/styleswin上使用。
translated by 谷歌翻译