虽然现代自动语音识别(ASR)系统可以实现高性能,但它们可能会产生削弱读者体验并对下游任务造成伤害的错误。为了提高ASR假设的准确性和可靠性,我们提出了一种用于语音识别器的跨模型后处理系统,其中1)熔断来自不同方式的声学特征和文本特征,2)接合置信度估计器和多个误差校正器任务学习时尚和3)统一纠错和话语抑制模块。与单模或单任务模型相比,我们提出的系统被证明更有效和高效。实验结果表明,我们的后处理系统导致对工业ASR系统的单扬声器和多扬声器语音相对降低的10%相对减少,每个令牌约为1.7ms延迟确保在流语音识别中可以接受后处理引入的额外延迟。
translated by 谷歌翻译
近几十年来,Camera-IMU(惯性测量单元)传感器融合已经过度研究。已经提出了具有自校准的运动估计的许多可观察性分析和融合方案。然而,它一直不确定是否在一般运动下观察到相机和IMU内在参数。为了回答这个问题,我们首先证明,对于全球快门Camera-IMU系统,所有内在和外在参数都可以观察到未知的地标。鉴于此,滚动快门(RS)相机的时间偏移和读出时间也证明是可观察到的。接下来,为了验证该分析并解决静止期间结构无轨滤波器的漂移问题,我们开发了一种基于关键帧的滑动窗滤波器(KSWF),用于测量和自校准,它适用于单眼RS摄像机或立体声RS摄像机。虽然关键帧概念广泛用于基于视觉的传感器融合,但对于我们的知识,KSWF是支持自我校准的首先。我们的模拟和实际数据测试验证了,可以使用不同运动的机会主义地标的观察来完全校准相机-IMU系统。实际数据测试确认了先前的典故,即保持状态矢量的地标可以弥补静止漂移,并显示基于关键帧的方案是替代治疗方法。
translated by 谷歌翻译
我们提出了一个分散的“Local2Global”的图形表示学习方法,即可以先用来缩放任何嵌入技术。我们的Local2Global方法首先将输入图分成重叠的子图(或“修补程序”)并独立地培训每个修补程序的本地表示。在第二步中,我们通过估计使用来自贴片重叠的信息的刚性动作的一组刚性运动来将本地表示将本地表示与全局一致的表示。 Local2Global相对于现有工作的关键区别特征是,在分布式训练期间无需经常昂贵的参数同步训练曲线的培训。这允许Local2Global缩放到大规模的工业应用,其中输入图甚至可能均不适合存储器,并且可以以分布式方式存储。我们在不同大小的数据集上应用Local2Global,并表明我们的方法在边缘重建和半监督分类上的规模和准确性之间实现了良好的权衡。我们还考虑异常检测的下游任务,并展示如何使用Local2Global在网络安全网络中突出显示异常。
translated by 谷歌翻译
运动,作为视频中最明显的现象,涉及随时间的变化,对视频表示学习的发展是独一无二的。在本文中,我们提出了问题:特别是对自我监督视频表示学习的运动有多重要。为此,我们撰写了一个二重奏,用于利用对比学习政权的数据增强和特征学习的动作。具体而言,我们介绍了一种以前的对比学习(MCL)方法,其将这种二重奏视为基础。一方面,MCL大写视频中的每个帧的光流量,以在时间上和空间地样本地样本(即,横跨时间的相关帧斑块的序列)作为数据增强。另一方面,MCL进一步将卷积层的梯度图对准来自空间,时间和时空视角的光流程图,以便在特征学习中地进行地面运动信息。在R(2 + 1)D骨架上进行的广泛实验证明了我们MCL的有效性。在UCF101上,在MCL学习的表示上培训的线性分类器实现了81.91%的前1个精度,表现优于6.78%的训练预测。在动力学-400上,MCL在线方案下实现66.62%的前1个精度。代码可在https://github.com/yihengzhang-cv/mcl-motion-focused-contrastive-learning。
translated by 谷歌翻译
人类的行为通常是组合结构或图案,即受试者,物体,以及两者之间的时空相互作用。因此,发现这种结构是一种有价值的方式,可以推理互动的动态并识别动作。在本文中,我们介绍了一个新的子图设计,以表示和编码视频中每个动作的辨别模式。具体而言,我们呈现多尺度的子图学习(MOTE)框架,该框架,该框架新颖地构建空间时间图并将图形集群相对于节点的数量在每个比例上的紧凑型子图中。从技术上讲,Mudle在每个视频剪辑中产生3D边界框,即管弦,作为曲线节点,并将密集的连接作为管之间的图形边缘。对于每个操作类别,我们通过学习高斯混合层执行在线群集以将图形分解为每种比例的子图,并选择判别子图作为动作原型以进行识别。在某种东西上进行了广泛的实验 - 某种东西 - 某种东西 - 东西-400数据集,并且与最先进的方法相比,报告了卓越的结果。更值得注意的是,我们的柱子达到了最佳报告的准确性为65.0%的东西 - 某种东西的验证集。
translated by 谷歌翻译
视频内容是多方面的,由对象,场景,交互或操作组成。现有数据集主要标记为模型培训的一个方面,导致视频表示根据训练数据集仅偏置为一个小平面。目前还没有研究如何学习来自多方面标签的视频表示,以及多方面的信息是否有助于视频表示学习。在本文中,我们提出了一种新的学习框架,多朝向集成(MUFI),以聚合来自不同数据集的面部,以学习可以反映视频内容的全频谱的表示。从技术上讲,MUFI将问题交流为视觉语义嵌入学习,该问题将视频表示映射到丰富的语义嵌入空间中,并从两个角度联合优化视频表示。一个是利用每个视频和自己的标签描述之间的小型内部监督,第二个是从其他数据集的小平面预测每个视频的“语义表示”作为刻面监控。广泛的实验表明,通过我们的MUFI框架在四个大型视频数据集加上两个图像数据集的联盟上学习3D CNN,导致视频表示的优异能力。具有MUFI的预先学习的3D CNN还显示出在几个下游视频应用上的其他方法的清晰改进。更值得注意的是,MUFI在UCF101 / HMDB51上实现98.1%/ 80.9%,用于行动识别和101.5%,在MSVD上的浏览器D得分为视频字幕。
translated by 谷歌翻译
基于学习的网络入侵检测系统(NIDS)被广泛部署用于捍卫各种网络攻击。现有的基于学习的NID主要使用神经网络(NN)作为依赖于网络图克数据的质量和数量的分类器。这种基于NN的方法也很难解释提高效率和可扩展性。在本文中,我们通过组合可解释的梯度升压决策树(GBDT)和联合学习(FL)框架来设计一个新的本地全局计算范例,基于新的学习的NID。具体地,联合纤维公司由多个客户端组成,该客户端提取用于服务器的本地网络基地数据功能以培训模型和检测入侵。在Fedlorest中还提出了一种隐私增强技术,以进一步击败流动系统的隐私。关于4个网络内人数据集的广泛实验,不同任务表明,联邦纤维公司是有效,高效,可解释和可延伸的。 Fedlorest在中国大学生的协同学习和网络安全竞赛中排名第一。
translated by 谷歌翻译
域适应(DA)最近在医学影像社区提出了强烈的兴趣。虽然已经提出了大量DA技术进行了用于图像分割,但大多数这些技术已经在私有数据集或小公共可用数据集上验证。此外,这些数据集主要解决了单级问题。为了解决这些限制,与第24届医学图像计算和计算机辅助干预(Miccai 2021)结合第24届国际会议组织交叉模态域适应(Crossmoda)挑战。 Crossmoda是无监督跨型号DA的第一个大型和多级基准。挑战的目标是分割参与前庭施瓦新瘤(VS)的后续和治疗规划的两个关键脑结构:VS和Cochleas。目前,使用对比度增强的T1(CET1)MRI进行VS患者的诊断和监测。然而,使用诸如高分辨率T2(HRT2)MRI的非对比度序列越来越感兴趣。因此,我们创建了一个无人监督的跨模型分段基准。训练集提供注释CET1(n = 105)和未配对的非注释的HRT2(n = 105)。目的是在测试集中提供的HRT2上自动对HRT2进行单侧VS和双侧耳蜗分割(n = 137)。共有16支球队提交了评估阶段的算法。顶级履行团队达成的表现水平非常高(最佳中位数骰子 - vs:88.4%; Cochleas:85.7%)并接近完全监督(中位数骰子 - vs:92.5%;耳蜗:87.7%)。所有顶级执行方法都使用图像到图像转换方法将源域图像转换为伪目标域图像。然后使用这些生成的图像和为源图像提供的手动注释进行培训分割网络。
translated by 谷歌翻译
自动化医疗编码,医疗保健操作和交付的基本任务,通过从临床文献预测医学代码来实现非结构化数据。自然语言处理中深入学习模型的最新进展已被广泛应用于此任务。然而,它缺乏对医学编码的神经网络架构设计的统一视图。本综述提出了一个统一的框架,为医疗编码模型的构建块提供了一般性的理解,并概述了近期框架下的最新模型。我们的统一框架将医疗编码分解为四个主要组件,即文本特征提取的编码器模块,为构建深编码器架构的机制,解码器模块,用于将隐藏的表示转换为医学代码,以及辅助信息的使用。最后,我们讨论了关键的研究挑战和未来方向。
translated by 谷歌翻译
尽管端到端(E2E)自动语音识别(ASR)的快速进展,但已经证明将外部语言模型(LMS)结合到解码中可以进一步提高E2E ASR系统的识别性能。为了与E2E ASR系统中采用的建模单元对准,通常使用子字级(例如,字符,BPE)LMS与当前的E2E ASR系统配合。但是,使用子字级LMS将忽略单词级信息,这可能会限制E2E ASR中的外部LMS的强度。虽然已经提出了几种方法在E2E ASR中包含了单词级外部LMS,但这些方法主要针对具有清晰字界的语言,例如英语,并且不能直接应用于普通话等语言,其中每个字符序列可以具有多个对应的语言字序列。为此,我们提出了一种新颖的解码算法,其中在飞行中构造了单词级格子,以考虑每个部分假设的所有可能的字序列。然后,通过将产生的格子与外部单词N-GRAM LM交叉来获得假设的LM得分。在关注的基于编码器 - 解码器(AED)和神经换能器(NT)框架上检查所述方法。实验表明,我们的方法始终如一地优于次字级LMS,包括N-GRAM LM和神经网络LM。我们在Aishell-1(Cer 4.18%)和Aishell-2(Cer 5.06%)数据集上实现最先进的结果,并在21k小时的普通话数据集中减少14.8%。
translated by 谷歌翻译