内窥镜伪影是促进中空器官疾病的诊断和治疗的核心挑战。精确检测特定伪像,如像素饱和度,运动模糊,镜面反射,气泡和碎片,对于高质量的帧恢复至关重要,对于实现可靠的计算机辅助工具以改善患者护理至关重要。目前,由于视频帧中存在大量的多类伪像,目前大多数内窥镜检查视频尚未进行分析。通过内窥镜伪影检测(EAD 2019)的挑战,我们通过解决内窥镜框架伪影的准确识别和定位来解决这一关键瓶颈问题,从而能够对不可用的视频帧进行进一步的关键定量分析,例如镶嵌和3D重建,这对于提供改善的患者护理至关重要。本文总结了挑战任务,并描述了在EAD 2019挑战中建立的数据集和评估标准。
translated by 谷歌翻译
对物联网(IoT)应用程序越来越感兴趣的是与增加的安全威胁量相关联。在这种情况下,入侵检测系统(IDS)已成为检测和预防恶意活动的可行解决方案。与基于签名的检测方法不同,基于机器学习的解决方案是检测未知攻击的有前途的手段。但是,机器学习模型需要足够精确以减少误报的数量。更重要的是,他们需要在现实数据集上进行培训和评估,以便在实时部署中验证其效力。据报道,文献中提出的许多解决方案具有高准确性,但由于用于训练和评估基础模型的数据集的非代表性而在重新应用中无效。另一方面,一些现有的解决方案克服了这些挑战,但产生的精度低,妨碍了它们在商业工具中的实施。这些解决方案主要针对单个学习者,因此直接受每个学习算法的内在限制的影响。本文的新颖之处在于使用可用于入侵检测的最真实的数据集,称为NSL-KDD,并将多个学习者组合在一起构建集成学习器,以提高检测的准确性。此外,提出了采用两级分类的雾到物环境中的部署体系结构。在结构中,第一级执行异常检测,其实质上降低了分类的持续性,而第二级执行攻击分类,从而实现精确的预防措施。最后,实验结果证明了所提出的IDS与NSL-KDD数据集上的其他现有技术比较的有效性。
translated by 谷歌翻译
当应用于叙述电影时扬声器的二值化可能难以实现,其中扬声器通常在不利的声学条件下进行说话:背景音乐,声音效果,语调的广泛变化可能隐藏说话者之间的变异性并使基于音频的说话者日记化方法容易出错。另一方面,这种虚构的电影在图像级别上表现出强烈的规律性,特别是在对话场景中。在本文中,我们提出通过结合音频和视频模式在电视连续剧的对话场景中进行说话人员的分类:说话人的人格化首先由我们的模式进行;然后,在最终处理对应于两个模态之间的不一致的情况的剩余实例之前,最优地匹配实例集的两个结果分区。通过对虚构电影应用这种多模态方法获得的结果变得比通过依赖单一模态获得的结果更好。
translated by 谷歌翻译
当应用于虚构电影时,音频流的扬声器分类变得特别具有挑战性,其中许多角色在各种声学条件下(背景音乐,声音效果,语调的变化......)进行对话。尽管有这种声学可变性,但这些电影表现出特定的视觉模式,特别是在对话场景中。在本文中,我们介绍了在电视剧中实现说话人日记化的两步法:首先在视觉上被识别为视频对话的场景中进行演说;然后,在第二个聚类过程中将假设的本地发言者相互比较以便检测重复的发言者:这个聚类的第二阶段受制于必须将参与同一对话的不同语言分配给不同聚集的约束。我们的方法的性能与应用于相同数据的标准扬声器diarization工具获得的性能进行了比较。
translated by 谷歌翻译
神经网络架构是强大的自动语音识别系统(ASR)的核心。然而,虽然最近的研究集中在新颖的模型架构上,但声学输入特征几乎保持不变。传统的ASR系统依赖于多维声学特征,例如梅尔滤波器组能量以及第一和第二阶导数,以表征构成信号序列的时间帧。 。考虑到这些组件描述了同一元素的三个不同视图,神经网络必须学习这些特征中存在的内部关系,以及时间帧之间存在的外部或全局依赖关系。最近,四元数值神经网络(QNN)受到研究人员的重视,他们在多维空间中处理和学习这种关系。实际上,四元数和QNN已经显示出将多维输入作为实体处理,编码内部依赖性以及用比实值模型少四倍的学习参数来解决许多任务的效率。我们建议在TIMIT数据集的语音识别环境中研究现代四元数值模型,如卷积和循环四元数神经网络。实验表明,QNN总是优于具有较少自由参数的实值等价模型,从而导致相关信息的更高效,紧凑和富有表现力的表示。
translated by 谷歌翻译
递归神经网络(RNN)是现代自动语音识别(ASR)系统的核心。特别地,长短期记忆(LSTM)递归神经网络已经在许多语音识别任务中实现了最先进的结果,这是由于它们在相互依赖的特征序列中有效地表示长期和短期依赖性。尽管如此,构成多维特征的元素中的内部依赖性仍被传统的实值表示所弱化。我们提出了一种新颖的四元数长短期记忆(QLSTM)递归神经网络,它考虑了构成序列的特征之间的外部关系,以及这些内部潜在的结构依赖与四元数。在内存复制任务期间将QLSTM与LSTM进行比较,并在华尔街日报(WSJ)数据集上对语音识别进行实际应用。在两次实验中,QSTSTM达到了更好的性能,学习参数减少了2.8美元,导致更具表现力信息的表示。
translated by 谷歌翻译
最近,连接时间分类(CTC)模型与循环(RNN)或卷积神经网络(CNN)相结合,使得以端到端方式训练语音识别系统变得更容易。然而,在实值模型中,诸如梅尔滤波器组能量的时间范围组件和从它们获得的倒谱系数以及它们的一阶和二阶衍生物被处理为单独的元素,而自然的替代方案是处理诸如组合实体的组件。我们建议以四元数的形式对suchelements进行分组,并使用已建立的四元数代数处理这些四元数。四元数和四元数神经网络已经显示出它们处理多维输入不同性,编码内部依赖性以及用比实值模型更少的学习参数来解决许多任务的效率。本文提出了四元数卷积神经网络(QCNN)中的多个特征视图,用于CTC模型的序列到序列映射。利用TIMIT语料库在音素识别实验中使用简单的QCNN报告了增加的结果。更确切地说,与基于实值CNN的竞争模型相比,QCNN获得较低的电话误差率(PER),具有较少的学习参数。
translated by 谷歌翻译
递归神经网络(RNN)是用于模拟序列数据的强大架构,因为它们能够学习序列的基本元素之间的短期和长期依赖性。尽管如此,诸如语音或图像识别之类的普通信息涉及多维输入特征,其特征在于输入矢量的维度之间的强内部依赖性。我们提出了一种新颖的四元数递归神经网络(QRNN),它考虑了四元数代数的外部关系和这些内部结构依赖性。类似地,tocapsules,四元数允许QRNN通过将多维特征组合和处理为单个实体来编码内部依赖性,而当前操作揭示构成这些序列的元素之间的相关性。我们证明了QRNN在合成记忆复制任务和自动语音识别的现实应用中都取得了更好的表现。最后,我们表明,与RNN相比,QRNN减少了3倍所需的自由参数,以达到更好的结果,从而导致相关信息的更紧凑的表示。
translated by 谷歌翻译
舌行为的肌肉协调模式是通过以各种方式改变局部肌肉群而产生的协同作用。功能单元是舌内局部结构元件的功能性肌肉群,其以紧密且一致的方式压缩,扩张和移动。使用标记磁共振成像(MRI)识别功能单元揭示了正常和病理肌肉协调模式的机制,从而改善了手术计划,治疗或康复过程。在这里,为了挖掘这些信息,我们提出了矩阵分解和概率图形模型框架,以使用从标记的MRI中提取的运动量来产生构建块及其相关的加权图。我们的标记MRI成像和精确的体素水平跟踪提供了以前不可用的内部舌头运动模式,从而揭示了在语言或其他语言行为期间舌头的内部工作。我们在加权图上使用谱聚类来识别由可能涉及多个或未记录区域的舌头运动定义的内聚区域。为了评估我们的方法,我们进行了一系列实验。我们首先使用二维图像和合成数据来证明我们的方法的准确性。然后,我们使用三维合成和\ textit {in vivo}舌运动数据,使用突出和简单的语音任务来识别局部区域中舌头的主体特定和数据驱动的功能单元。
translated by 谷歌翻译
计算机辅助诊断(CAD)系统对于现代医学成像至关重要。但几乎所有CAD系统都在重建图像上运行,这些图像被放射科医师优化。计算机视觉可以捕获对人类观察者来说微妙的特征,因此需要设计一个操作该数据的CAD系统。在本文中,我们提出了一种基于深度神经网络的计算机断层扫描(CT)肺结节检测系统。首先应用Aprimal-dual-type深度重建网络将绘图数据转换为图像空间,然后使用三维卷积神经网络(3D-CNN)进行结节检测。为了进行有效的网络训练,首先对重建网络和CNN探测器进行顺序训练,然后进行一次端到端微调训练。该方法在具有模拟前向投影的肺图像数据库联盟图像集(LIDC-IDRI)上进行了评估。通过144个多切片风束投影,所提出的端到端检测器可以实现与参考检测器相当的灵敏度,该检测器经过训练并应用于完全采样的图像数据。与在重建图像上训练的检测器相比,它还表现出优异的检测性能。所提出的方法是通用的,并且可以扩展到医学成像中的大多数检测任务。
translated by 谷歌翻译