作为计算机视觉中的一个重要研究课题,旨在识别下属级别的细粒度分类引起了人们的极大关注。我们提出了一种新的基于区域的综合学习网络,用于细粒度分类。我们的方法包含检测模块和分类模块。检测模块基于更快的R-CNN框架来定位对象的语义区域。该分类模块使用集合学习方法,该方法为不同的语义区域训练一组子分类器并将它们组合在一起以获得更强的分类器。在评估中,我们对CUB-2011数据集进行了实验,实验结果证明了我们的方法对于细粒度分类是有效的。我们还扩展了远程场景识别的方法,并在NWPU-RESISC45数据集上进行评估。
translated by 谷歌翻译
在现实生活中的环境中,由于窗户,灯光和物体突然出现阻挡光源,视觉SLAM系统可以很容易地捕捉由过度曝光或过度黑暗引起的低对比度图像。此时,基于像素亮度信息估计相机运动的直接方法是不可行的,并且通常很难在没有图像处理的情况下找到足够的有效特征点。本文提出了HE-SLAM,一种结合直方图均衡和ORB特征提取的新方法,可以在更多场景中稳健,特别是在具有低对比度图像的阶段。由于HE-SLAM使用直方图均衡来改善图像的对比度,因此它可以在低对比度中提取足够的有效特征点,用于后续特征匹配,关键帧选择,束调整和循环闭包检测。所提出的HE-SLAM已经在流行数据集(例如KITTI和EuRoc)上进行了测试,并且通过比较系统运行时和绝对轨迹误差(ATE)的主题平方根误差(RMSE)来证明系统的实时性能和鲁棒性。使用ORB-SLAM2等最先进的方法。
translated by 谷歌翻译
离线手写数学表达式识别是一项具有挑战性的任务,因为手写数学表达式在识别过程中主要存在两个问题。一方面,它是如何正确识别不同的数学符号。另一方面,它是如何正确识别数学表达式中存在的二维结构。最近的深度学习工作启发了一种新的神经网络模型,它将多尺度卷积神经网络(CNN)与注意力恢复神经网络相结合(提出RNN)将二维手写数学表达式识别为一维LaTeX序列。结果表明,目前工作中提出的模型的WER误差为25.715%,ExpRate为28.216%。
translated by 谷歌翻译
数据集在面部表情识别算法的进展中发挥着重要作用,但它们可能遭受由不同文化和收集条件引起的明显偏差。为了深入研究这种偏差,我们首先对数据集识别和交叉数据集一般化任务进行了全面的实验,并首次探索了数据集差异的内在原因。结果定量验证了当前数据集具有较强的构建偏差,相应的分析表明源数据集与目标数据集之间的条件概率分布不同。然而,先前的研究主要基于具有有限辨别能力的浅特征,假设条件分布在域之间保持不变。为了解决这些问题,我们进一步提出了一种新的深度情感 - 条件适应网络(ECAN)来学习域不变和判别特征表示,它们可以同时匹配跨域的边际和条件分布。此外,很大程度上被忽略的表达类分布偏差也通过可学习的重新加权参数来解决,即训练和测试域可以共享相似的类分布。在实验室控制的数据集(CK +,JAFFE,MMI和两者)上进行广泛的跨数据库实验。 Oulu-CASIA)和现实世界数据库(AffectNet,FER2013,RAF-DB2.0和SFEW 2.0)证明我们的ECAN可以在各种面部表情转移任务中产生竞争性能,并且优于最先进的方法。
translated by 谷歌翻译
深层强化学习(DRL)已经取得了重大突破,不断完成任务。然而,大多数DRL算法都存在推广学习策略的问题,这使得即使通过对训练环境的微小修改也很大程度地影响学习性能。除此之外,使用深度神经网络使学习策略难以解释。针对这两个挑战,我们提出了一种名为神经逻辑强制学习(NLRL)的新算法来表示一阶逻辑在强化学习中的策略。 NLRL基于政策梯度方法和可区分的归纳逻辑程序设计,这些程序在监督机构的可解释性和普遍性方面表现出明显的优势。在悬崖行走和区块操纵任务上进行的大量实验表明,NLRL可以诱导可解释的政策实现近乎最佳的性能,同时展示对不同初始状态和问题规模的环境的良好通用性。
translated by 谷歌翻译
深度神经网络容易受到对抗性攻击。许多努力都集中在防御上,这些防御要么试图在经过训练的模型中修补“漏洞”,要么难以计算利用这些漏洞的对抗性例子。在我们的工作中,我们探索了一种反直觉的方法来构建“对抗性陷阱。与先前的作品不同,试图修补或掩盖流形中的脆弱点,我们故意注入”trapdoors“,歧管中的人为弱点将吸引优化的扰动吸引到某些预嵌入因此,对抗性生成功能自然地倾向于我们的陷阱,产生模型所有者可以通过已知的神经元激活签名识别的对抗性示例。在本文中,我们引入陷阱并描述使用类似策略的后门/特洛伊木马的实现我们通过主动将陷门注入模型(并提取其神经激活特征),我们可以检测到由现有技术攻击(投射梯度下降,基于CW优化和弹性网络)生成的对抗性示例,具有高检测成功率和对正常投入的影响可以忽略不计也可以概括多个分类域(图像识别,人脸识别和交通标志识别)。我们探索了活板门的不同属性,并讨论了潜在的对策(自适应攻击)和缓解措施。
translated by 谷歌翻译
我们介绍DeepNovoV2,这是最先进的基于神经网络的模型,用于从头肽测序。与DeepNovo或DeepMatch等现有模型相反,它将每个光谱表示为一个长稀疏矢量,在DeNNNVV2中,我们建议将光谱直接表示为一组(m / z,强度)对。然后我们使用顺序不变网络结构(T-Net)来提取频谱中的特征。通过将光谱表示为峰值集,我们认为我们的方法更直接,并且没有准确度 - 速度/存储器权衡问题。我们的实验表明,与原始的DeepNovo模型相比,DeepNovoV2在肽准确度方面具有至少15%的相对改善。
translated by 谷歌翻译
传输控制协议(TCP)拥塞控制是提高网络性能的关键技术之一。 TCP拥塞控制算法识别(TCP识别)可用于显着提高网络效率。现有的TCP识别方法只能应用于有限数量的TCP拥塞控制算法,并专注于有线网络。在本文中,我们提出了一种基于机器学习的有线和无线网络被动TCP识别方法。通过比较三种典型的机器学习模型,我们得出结论,4层LongShort术语记忆(LSTM)模型实现了最佳的识别精度。对于新提出的TCP拥塞控制算法,Ourapproach在有线和无线网络和工作中的准确度达到了98%以上。
translated by 谷歌翻译
使用无干3D超声(US)进行心导管检查的快速准确的导管检测可以提高干预的效率和结果。然而,美国的低图像质量需要额外的训练forsonographers定位导管。在本文中,我们提出了一种基于预先训练的VGG网络的导管检测方法,该方法通过重新组织的横截面利用3D信息通过共同完全卷积网络(FCN)对导管进行分割,FCN称为方向融合FCN( DF-FCN)。基于DF-FCN的分割图像,可以通过模型拟合来定位导管。我们的实验表明,所提出的方法可以成功地在具有挑战性的离体3D USdataset中检测消融导管,该数据在猪心脏上收集。大量分析表明,与最先进的仪器检测方法相比,所提方法的Dice得分为57.7%,至少提高了11.8%。由于DF-FCN的分割性能得到改善,导管可以定位,误差仅为1.4 mm。
translated by 谷歌翻译
最近,深度学习已经改变了许多领域,包括医学成像。受生物神经元多样性的启发,我们小组提出了二次神经元,其中当前人工神经元中的内积被替换为输入的二次运算,从而增强了单个神经元的能力。沿着这个方向,我们有动力去评估代表性网络架构中的二次神经元的功率,以及基于二次神经元的深度学习。在这方面,我们先前的理论研究已经显示出二次神经元和网络的重要优点。在本文中,我们使用二次神经元构造编码器 - 解码器结构,称为二次自动编码器,并将其应用于低剂量CT噪声。然后,我们对Mayo低剂量CT数据集进行实验,以证明二次自动编码器产生更好的去噪性能。
translated by 谷歌翻译