视频异常检测是计算机视觉社区的一项具有挑战性的任务。大多数基于任务的方法都不考虑独特的空间和时间模式的独立性,而两流结构则缺乏对相关性的探索。在本文中,我们提出了时空记忆增强了两个流动自动编码器框架,该框架可以独立学习外观正常和运动正常,并通过对抗性学习探索相关性。具体而言,我们首先设计了两个代理任务来训练两流结构,以隔离地提取外观和运动特征。然后,将原型特征记录在相应的空间和时间内存池中。最后,编码编码网络通过歧视者进行对抗学习,以探索空间和时间模式之间的相关性。实验结果表明,我们的框架优于最先进的方法,在UCSD PED2和CUHK Avenue数据集上,AUC达到98.1%和89.8%。
translated by 谷歌翻译
最近,自我监督的预训练在W.R.T.的各种任务上具有先进的视觉变压器。不同的数据模式,例如图像和3D点云数据。在本文中,我们探讨了基于变压器的3D网格数据分析的学习范式。由于将变压器体系结构应用于新模式通常是非平凡的,因此我们首先将视觉变压器适应3D网格数据处理,即网格变压器。具体而言,我们将网格分为几个非重叠的本地贴片,每个贴片包含相同数量的面部,并使用每个贴片中心点的3D位置形成位置嵌入。受MAE的启发,我们探讨了如何使用基于变压器的结构对3D网格数据进行预训练如何使下游3D网格分析任务受益。我们首先随机掩盖网格的一些补丁,并将损坏的网格馈入网格变形金刚。然后,通过重建蒙版补丁的信息,该网络能够学习网格数据的区分表示。因此,我们命名我们的方法meshmae,可以在网格分析任务(即分类和分割)上产生最先进或可比性的性能。此外,我们还进行了全面的消融研究,以显示我们方法中关键设计的有效性。
translated by 谷歌翻译
深度估计,视觉探测器(VO)和Bird's-eye-view(BEV)场景布局估计提出了三个关键任务,这是驾驶场景感知的三个关键任务,这对于自动驾驶中运动计划和导航至关重要。尽管它们是彼此互补的,但先前的工作通常专注于每个任务,并且很少处理所有三个任务。一种幼稚的方法是以顺序或平行的方式独立实现它们,但是有很多缺点,即1)深度和vo结果遭受了固有的规模歧义问题; 2)BEV布局是从前视图像直接预测的,而无需使用任何与深度相关的信息,尽管深度图包含用于推断场景布局的有用几何线索。在本文中,我们通过提出一个名为jperceiver的新型关节感知框架来解决这些问题,该框架可以同时估算从单眼视频序列中估算尺度感知的深度和vo以及BEV布局。它利用了跨视图几何变换(CGT),以基于精心设计的量表损失来传播从道路布局到深度和VO的绝对尺度。同时,设计了一个跨视图和跨模式转移(CCT)模块,以通过注意机制利用深度线索来用于推理道路和车辆布局。可以以端到端的多任务学习方式对JPERCEIVER进行培训,其中CGT量表损失和CCT模块可以促进任务间知识转移以使每个任务的功能学习受益。关于Argoverse,Nuscenes和Kitti的实验表明,在准确性,模型大小和推理速度方面,JPEREVER在上述所有三个任务上的优越性。代码和模型可在〜\ href {https://github.com/sunnyhelen/jperceiver} {https://github.com/sunnyhelen/jperceiver}中获得。
translated by 谷歌翻译
最近,基于变压器的方法可预测多边形点或偏斜的曲线控制点可以定位文本,在场景文本检测中非常受欢迎。但是,使用的点标签形式意味着人类的阅读顺序,这会影响变压器模型的鲁棒性。至于模型体系结构,以前的方法尚未完全探索解码器中使用的查询的公式。在本文中,我们提出了一个简洁的动态点场景文本检测,称为dptext-detr,它直接将点坐标用作查询,并在解码器层之间动态更新它们。我们指出了一种简单而有效的位置标签形式,以应对原始效果。此外,增强的分解自我发项模块旨在显式地模拟多边形点序列的圆形形状,而不是非本地关注。广泛的实验证明了各种任意形状场景文本基准的训练效率,鲁棒性和最先进的性能。除了探测器之外,我们观察到现有的端到端观察者难以识别类似逆的文本。为了客观地评估他们的绩效并促进未来的研究,我们提出了一个逆文本测试集,其中包含500个手动标记图像。代码和反文本测试集将在https://github.com/ymy-k/dptext-detr上找到。
translated by 谷歌翻译
由于肿瘤的异质性,在个性化的基础上预测抗癌药物的临床结局在癌症治疗中具有挑战性。已经采取了传统的计算努力来建模药物反应对通过其分子概况描绘的单个样品的影响,但由于OMICS数据的高维度而发生过度拟合,因此阻碍了临床应用的模型。最近的研究表明,深度学习是通过学习药物和样品之间的学习对准模式来建立药物反应模型的一种有前途的方法。但是,现有研究采用了简单的特征融合策略,仅考虑了整个药物特征,同时忽略了在对齐药物和基因时可能起着至关重要的作用的亚基信息。特此在本文中,我们提出了TCR(基于变压器的癌症药物反应网络),以预测抗癌药物反应。通过利用注意机制,TCR能够在我们的研究中有效地学习药物原子/子结构和分子特征之间的相互作用。此外,设计了双重损耗函数和交叉抽样策略,以提高TCR的预测能力。我们表明,TCR在所有评估矩阵上(一些具有显着改进)的各种数据分裂策略下优于所有其他方法。广泛的实验表明,TCR在独立的体外实验和体内实际患者数据上显示出显着提高的概括能力。我们的研究强调了TCR的预测能力及其对癌症药物再利用和精度肿瘤治疗的潜在价值。
translated by 谷歌翻译
在半监督的学习领域中,作为GNN的变体模型,图形卷积网络(GCN)通过将卷积引入GNN来实现非欧盟数据的有希望的结果。但是,GCN及其变体模型无法安全地使用风险未标记数据的信息,这将降低半监督学习的性能。因此,我们提出了一个安全的GCN框架(SAFE-GCN),以提高学习绩效。在Safe-GCN中,我们设计了一个迭代过程来标记未标记的数据。在每次迭代中,学会了GCN及其监督版本(S-GCN),以高信任地找到未标记的数据。然后将高信心的未标记数据及其伪标签添加到标签集中。最后,两者都添加了未标记的数据和标记的数据来训练S-GCN,该S-GCN可以安全地探索风险未标记的数据,并可以安全使用大量未标记的数据。在三个众所周知的引用网络数据集上评估了安全性GCN的性能,并且获得的结果证明了该框架对几种基于图的半监督学习方法的有效性。
translated by 谷歌翻译
本文介绍了Thuee团队的语音识别系统,用于IARPA Open自动语音识别挑战(OpenASR21),并进行了进一步的实验探索。我们在受限和受约束的训练条件下取得了出色的成果。对于受限的训练条件,我们基于标准混合体系结构构建基本ASR系统。为了减轻摄影库(OOV)的问题,我们使用针对OOV和潜在的新单词的素式至phoneme(G2P)技术扩展了发音词典。采用了标准的声学模型结构,例如CNN-TDNN-F和CNN-TDNN-F-A。此外,还应用了多种数据增强技术。对于约束训练条件,我们使用自我监督的学习框架WAV2VEC2.0。我们在公开可用的预训练XLSR-53的基础上使用连接式时间分类(CTC)标准进行各种微调技术。我们发现,在将WAV2VEC2.0预训练的模型应用于基于编码器的CTC/CTC/COATION ASR体系结构时,前端特征提取器在将WAV2VEC2.0预训练的模型应用时起着重要作用。通过将目标语言用作为前端功能提取器使用的CTC模型填充可以实现额外的改进。
translated by 谷歌翻译
本文旨在通过介绍第一个中国数学预训练的语言模型〜(PLM)来提高机器的数学智能,以有效理解和表示数学问题。与其他标准NLP任务不同,数学文本很难理解,因为它们在问题陈述中涉及数学术语,符号和公式。通常,它需要复杂的数学逻辑和背景知识来解决数学问题。考虑到数学文本的复杂性质,我们设计了一种新的课程预培训方法,用于改善由基本和高级课程组成的数学PLM的学习。特别是,我们首先根据位置偏见的掩盖策略执行令牌级预训练,然后设计基于逻辑的预训练任务,旨在分别恢复改组的句子和公式。最后,我们介绍了一项更加困难的预训练任务,该任务强制执行PLM以检测和纠正其生成的解决方案中的错误。我们对离线评估(包括九个与数学相关的任务)和在线$ A/B $测试进行了广泛的实验。实验结果证明了与许多竞争基线相比,我们的方法的有效性。我们的代码可在:\ textColor {blue} {\ url {https://github.com/rucaibox/jiuzhang}}}中获得。
translated by 谷歌翻译
估计物体的距离是自动驾驶的一项安全至关重要的任务。专注于短距离对象,现有方法和数据集忽略了同样重要的远程对象。在本文中,我们引入了一项具有挑战性且探索不足的任务,我们将其称为长距离距离估计,以及两个数据集,以验证为此任务开发的新方法。然后,我们提出了第一个框架,即通过使用场景中已知距离的引用来准确估算远程对象的距离。从人类感知中汲取灵感,R4D通过将目标对象连接到所有引用来构建图形。图中的边缘编码一对目标和参考对象之间的相对距离信息。然后使用注意模块权衡参考对象的重要性,并将它们组合到一个目标对象距离预测中。与现有基准相比,这两个数据集的实验通过显示出显着改善,证明了R4D的有效性和鲁棒性。我们正在寻求制作提出的数据集,Waymo OpenDataSet-远程标签,可在Waymo.com/open/download上公开可用。
translated by 谷歌翻译
由于其在自主驾驶中的应用,因此基于单眼图像的3D感知已成为一个活跃的研究领域。与基于激光雷达的技术相比,单眼3D感知(包括检测和跟踪)的方法通常会产生较低的性能。通过系统的分析,我们确定了每个对象深度估计精度是界限性能的主要因素。在这种观察过程中,我们提出了一种多级融合方法,该方法将不同的表示(RGB和伪LIDAR)和跨多个对象(Tracklets)的时间信息结合在一起,以增强对目标深度估计。我们提出的融合方法实现了Waymo打开数据集,KITTI检测数据集和Kitti MOT数据集的每个对象深度估计的最新性能。我们进一步证明,通过简单地用融合增强的深度替换估计的深度,我们可以在单眼3D感知任务(包括检测和跟踪)方面取得重大改进。
translated by 谷歌翻译