视觉定位是一个有吸引力的问题,它基于查询图像估计来自数据库图像的相似定位。它是各种应用的关键任务,例如自动驾驶汽车,辅助导航和增强现实。任务的挑战性问题在于查询和数据库图像之间的不同外观变化,包括照明变化,季节变化,动态对象变化和观点变化。为了应对这些挑战,本文提出了全景环形透镜和强大的深度图像描述符的全景环形定位器。处理由单个摄像机捕获的全景环形图像并将其馈送到NetVLAD网络中以形成活动的深度描述符,并且利用顺序匹配来生成定位结果。在公共数据集和现场进行的实验说明了所提出的系统的验证。
translated by 谷歌翻译
受语音识别的启发,最新的最先进的算法主要考虑场景文本识别作为序列预测问题。这些方法表现出色,通常忽略了图像中的文本实际分布在二维空间中的重要因素。它的性质与语音完全不同,语音基本上是一维信号。原则上,将文本的特征直接压缩为一维形式可能会丢失有用的信息并引入特权。在本文中,我们从二维视角处理场景文本识别。一种简单而有效的模型,称为Character Attention FullyConvolutional Network(CA-FCN),被设计用于识别任意形状的文本。场景文本识别是通过语义分割网络实现的,其中采用了角色的注意机制。结合单词形成模块,CA-FCN可以同时识别脚本并预测每个字符的位置。实验证明,所提出的算法在常规和非标准文本数据集上都优于以前的方法。此外,它被证明对文本检测阶段的不精确定位更加稳健,这在实践中非常普遍。
translated by 谷歌翻译
在本文中,我们开发了一种新的量子空间图卷积神经网络(QSGCNN)模型,该模型可以直接学习任意大小的图形的分类函数。与最先进的图形卷积神经网络(GCN)模型不同,所提出的QSGCNN模型结合了识别图之间的传递对齐顶点的过程,并将任意大小的图变换为固定大小的对齐顶点网格结构。为了进一步学习有代表性的图形特征,提出了一种新的量子空间图形卷积,用于提取多尺度顶点特征,每个图形的网格顶点之间的量子通过信息的内容。由于量子空间卷积保留了输入网格结构的属性,所以提出的QSGCNN模型允许直接使用传统的卷积神经网络来进一步学习全局图拓扑,提供端到端的深度学习体系结构,集成了图形表示和学习。量子空间图卷积层和传统的卷积层用于图分类。我们证明了所提出的QSGCNN模型在与最先进方法的理论联系方面的有效性。建议的QSGCNN模型增加了与SortPooling或SumPoolinglayers相关的现有GCN模型中信息丢失和不精确信息表示的缺点。基准图分类数据集的实验结果证明了所提出的QSGCNN模型的有效性。
translated by 谷歌翻译
随着网络信息技术的快速发展,越来越多的人沉浸在网络带来的虚拟社区环境中,忽视了现实生活中的社会互动。随之而来的诽谤问题变得越来越严重。通过宠物机器人和育种者之间的情感沟通促进人与人之间的离线沟通“解决了这个问题,并开发了一种名为”汤姆“的设计。”汤姆“是一个智能宠物机器人,具有基于petrobot的社交机制,名为”Tom-本文的主要贡献是提出一种名为“Tom-Talker”的社交机制,鼓励用户离线社交。“Tom-Talker”也有相应的奖励机制和朋友推荐算法。它还提出了一个宠物机器人名为“汤姆“通过情感交互算法识别用户的情绪,模拟动物的情绪,并用情感进行交流。本文设计实验并分析结果。结果表明,荆棘机器人对解决城市自闭症问题有很好的效果。
translated by 谷歌翻译
无监督域适应(UDA)解决了由于训练和测试集之间的域转换而导致的性能退化问题,这在计算机视觉应用中是常见的。大多数现有的UDA方法都是基于矢量形式的数据,尽管可视化应用中的典型数据或特征格式是多维张量。此外,目前的方法,包括深度网络方法,假设提供了丰富的标记源样本用于训练。然而,由于在实践中昂贵的注释成本,标记的源样本的数量总是有限的,使得观察到次优性能。在本文中,我们建议通过学习张量空间中的结构化字典来寻求多维数据的判别表示。字典分离特定于域的信息和特定于类的信息,以保证对域的鲁棒性。此外,开发了一种伪标签估计方案,在算法迭代中结合了判别分析,避免了外部分类器的设计。我们在具有有限源样本的不同数据集上执行广泛的结果。实验结果表明,所提出的方法优于最先进的方法。
translated by 谷歌翻译
广泛的计算负担限制了移动设备中CNN的使用以用于密集估计任务。在本文中,我们提出了一个轻量级网络来解决这个问题,即LEDNet,它采用非对称编码器 - 解码器架构来完成实时语义分段。更具体地说,编码器采用ResNet作为骨干网络,其中两个新的操作,在每个残余块中利用信道分离和混洗,以大大降低计算成本,同时保持更高的分割精度。另一方面,在解码器中采用了注意金字塔网络(APN),进一步减轻了整个网络的复杂性。我们的模型只有不到1M的参数,并且能够在单个GTX 1080Ti GPU中以超过71 FPS的速度运行。综合实验表明,我们的方法在CityScapesdataset的速度和准确性权衡方面取得了最新的成果。
translated by 谷歌翻译
由于广泛的内容创作,在线视频在过去十年中见证了前​​所未有的增长。这为广告和营销机构提供了大量有针对性的广告机会。这些技术涉及用新广告替换视频帧中的现有广告。然而,这种在线视频的后处理主要由视频编辑手动完成。这是麻烦且耗时的。在本文中,我们提出DeepAds--一种基于简单编码器 - 解码器架构的深度神经网络,可以精确地定位视频帧中的一个反转位置。我们使用神经网络在户外进行广告牌定位的方法是同类中的第一种,并且实现了最佳性能。我们将我们提出的方法与其他语义分段算法进行对比,在具有手动注释的双层映射的室外场景的公共数据集上。
translated by 谷歌翻译
本文旨在学习用于视频人脸识别任务的视频的紧凑表示。我们做出以下贡献:首先,我们提出了一种基于元注释的聚合方案,该方案自适应地和细粒度地对所有帧中的每个特征维度的特征进行权衡,以形成紧凑且不可判断的表示。它最好利用每个框架的有价值或不受歧视的部分来促进面部识别的表现,而不像通常的方法那样丢弃或鄙视低质量的框架。其次,我们构建了一个由特征嵌入模块和特征聚合模块组成的特征聚合网络。嵌入模块是用于从面部图像提取特征向量的卷积神经网络,而聚合模块由级联的两个元注意块组成,其自适应地将特征向量聚合成单个固定长度表示。网络可以处理任意数量的窗口,并且对帧顺序不敏感。第三,我们验证了所提出的聚合方案的性能。公开可用的数据集(例如YouTube面部数据集和IJB-A数据集)上的实验显示了我们的方法的有效性,并且它在验证和识别协议上实现了竞争性能。
translated by 谷歌翻译
光谱计算机断层扫描(CT)的潜在巨大优势是其能够提供准确的材料识别和定量组织信息。这有利于临床应用,如脑血管造影,早期肿瘤识别等。为了实现更高精度的材料成分和更高的材料图像质量,本文开发了基于字典学习的光谱CT图像域材料分解(DLIMD)。首先,我们从投影重建光谱CT图像,并通过从图像重建结果中选择基础材料的均匀区域来计算材料系数矩阵。其次,我们采用直接反演(DI)方法获得初始材料分解结果,并且通过K-SVD技术从标准化材料图像张量的模式-1展开中提取一组图像块,以组合联合字典。第三,通过构建DLIMD模型,训练有素的词典用于探索分解材料图像的相似性。第四,更多约束(即,体积保存和材料图中每个像素的界限)进一步整合到模型中以提高材料分解的准确性。最后,物理体模和临床前实验都用于评估所提出的DLIMD在材料中的性能。分解准确性,材料图像边缘保存和特征恢复。
translated by 谷歌翻译
由于其在视频监控中的应用,近年来基于视频的人物引起了很多关注。大多数现有方法都集中在如何表示有区别的剪辑级特征上。此外,剪辑级数据增加也很重要,特别是对于临时聚合任务。不一致的剪辑内增强将折叠帧对齐,从而带来额外的噪声。为了解决上述问题,我们设计了一个新的基于视频的人员框架,它由两个主要模块组成:同步转换(ST)和插入聚合聚合(ICA)。前一模块以相同的概率和相同的操作增加剪辑内帧,而后者利用两级内部剪辑编码来生成更具辨别力的剪辑级特征。为了确定同步转换的优势,我们进行了不同的同步转换方案的研究。我们还进行跨数据集实验,以更好地理解我们的方法的一般性。对三个基准数据集的大量实验表明,我们的框架优于大多数最新的最先进方法。
translated by 谷歌翻译