图像检索利用图像描述符来检索给定查询图像的最多相似图像。卷积神经网络(CNN)正成为提取图像检索图像描述符的主要方法。对于图像检索的低功率硬件实现,基于CNN的特征描述符的缺点是它需要数百兆的存储。针对这一问题,本文将深度模型量化和压缩应用于ASIC芯片中的CNN进行图像检索。证明了可以使用少至2比特量化来提取基于CNN的特征描述符,以提供与用于图像检索的浮点模型类似的性能。此外,为了在ASIC中实现CNN,特别是对于大规模图像,应考虑芯片的有限缓冲区大小。对于大规模图像,我们提出了一种改进的合并策略,区域不变池(RNIP),它使用裁剪的子图像进行CNN。芯片上的测试结果表明,将RNIP与提出的2比特CNN模型压缩方法相结合能够检索大比例图像。
translated by 谷歌翻译
利用视频帧或子视频之间的时间依赖性对于视频摘要的任务非常重要。实际上,RNN是良好的时间依赖性建模,并且在许多基于视频的任务(例如视频字幕和分类)中已经取得了压倒性的表现。然而,RNN不足以处理视频摘要任务,因为传统的RNN(包括LSTM)只能处理短视频,而摘要任务中的视频通常持续时间较长。为了解决这个问题,我们提出了一种用于视频摘要的分层递归神经网络,本文称为H-RNN。具体地说,它具有两层,其中第一层被利用以编码从原始视频切割的短视频子镜头,并且每个子镜的最终隐藏状态被输入到第二层以用于计算作为关键子镜的置信度。与传统的RNN相比,H-RNN更适合于视频摘要,因为它可以利用长时间依赖的帧,同时,计算操作也大大减少。两个流行数据集的结果,包括Combined数据集和VTWdataset,已经证明了提议的H-RNN优于现有技术。
translated by 谷歌翻译
天气识别在我们的日常生活和许多计算机视觉应用中发挥着重要作用。然而,从单个图像识别天气状况仍然具有挑战性并且尚未彻底研究。通常,大多数先前的工作将天气识别视为单标签分类任务,即确定图像是否属于特定天气类。这种处理并不总是合适的,因为在单个图像中可能同时出现多个天气条件。为了解决这个问题,我们首次尝试将天气识别视为多标签分类任务,即根据所显示的天气条件分配多于一个标签的图像。具体地,本文提出了一种基于CNN-RNN的多标签分类方法。卷积神经网络(CNN)通过渠道方式的注意力模型进行扩展,以提取最相关的视觉特征。 Recurrent NeuralNetwork(RNN)进一步处理特征并挖掘天气类的依赖性。最后,逐步预测天气标签。此外,我们构建了两个天气识别任务数据集,并探索不同天气条件之间的关系。实验结果证明了该方法的优越性和有效性。新构建的数据集将在以下网址提供://github.com/wzgwzg/Multi-Label-Weather-Recognition。
translated by 谷歌翻译
在本文中,我们为编辑的视频摘要和原始视频摘要构建了一个通用的摘要框架。总的来说,我们的工作可以分为三个部分:1)四个模型被设计用于捕捉视频的属性,即包含重要的人物和物体(重要性),代表视频内容(代表性),没有类似的关键镜头(多样性) )和故事情节的平滑性(故事情节)。具体来说,这些模型适用于编辑过的视频和原始视频。 2)通过上述四种模型的加权组合建立综合评分函数。注意,得分函数中的四个模型的权重,表示为属性 - 权重,以监督的方式学习。此外,分别为编辑过的视频和原始视频学习属性权重。 3)训练集由编辑的视频和原始视频构成,以弥补缺乏训练数据。特别地,每个训练视频配备有一对混合系数,这些混合系数可以减少由粗糙混合引起的训练集中的结构混乱。我们在threedatasets上测试我们的框架,包括编辑过的视频,简短的原始视频和长视频。实验结果验证了所提框架的有效性。
translated by 谷歌翻译
视觉问题回答(VQA)面临两个主要挑战:如何更好地融合视觉和文本模式,以及如何使VQA模型具有回答更复杂问题的理论能力。在本文中,我们通过提出新颖的问题引导模块化路由网络(QGMRN)来解决这些挑战。 QGMRN可以融合多个语义层中的视觉和文本模式,使得融合以细粒度的方式发生,它还可以通过在通用模块之间路由而不需要额外的监督信息或先验知识来学习。拟议的QGMRN由三个网络组成:可视网络,文本网络和路由网络。路由网络根据文本网络生成的问题特征激活的路径选择性地执行可视网络中的每个模块。对CLEVR数据集的实验表明,我们的模型可以胜过最先进的模型。型号和代码将发布。
translated by 谷歌翻译
最近提出并研究了甲虫天线搜索算法以解决全局优化问题。尽管该算法及其变体的性能显示出优于某些现有的启发式算法,但仍缺乏收敛性分析。在本文中,我们对beetleantennae搜索算法的收敛性进行了理论分析。我们测试了BAS算法viasome代表性基准函数的性能。同时,还介绍了BAS算法的一些应用。
translated by 谷歌翻译
蒙德里安过程代表了一种优雅而强大的空间分割建模方法。但是,由于它将分区限制为轴对齐,因此其建模灵活性受到限制。在这项工作中,我们提出了一个自洽的二元空间划分(BSP) - 树过程来推广蒙德利过程。 BSP-Tree过程几乎肯定是连续的Markov跳跃过程,允许在二维凸多边形中均匀分布的倾斜切割。 BSP-Tree过程也可以使用非均匀概率测度来扩展,以生成方向差分切割。该过程也是自洽的,在受限子域下维持分布不变性。我们使用条件序列蒙特卡罗作为高维变量使用树结构进行推理。 TheBSP-Tree流程在合成数据分区和关系规划方面的表现证明了对标准的传统流程和其他相关方法的明显推理性改进。
translated by 谷歌翻译
背景:构建可视化编码模型以准确预测视觉响应是当前基于视觉的脑机接口技术的核心挑战。为了实现对神经信号的高预测精度,视觉编码模型应包括精确的视觉特征和适当的预测算法。大多数现有的可视编码模型采用手工可视特征(例如,Gabor小波或语义标签)或数据驱动特征(例如,从深度神经网络(DNN)提取的特征)。他们还假设特征表示与大脑活动之间的线性映射。然而,这种线性映射是否足以形成预测准确性仍然是未知的。新方法:我们构建了一个新的可视化编码框架,用于预测基准功能磁共振成像(fMRI)数据集中的皮层反应。在这个框架中,我们采用转移学习技术来结合预训练的DNN(即AlexNet)并训练从视觉特征到大脑活动的非线性映射。这种非线性映射取代了传统的线性映射,可以提高大脑活动的预测准确性。结果:所提出的框架可以显着预测早期视觉区域(即V1-侧枕区,LO)超过20%体素的反应,并达到前所未有的预测准确性。与现有方法比较:与两种常规视觉编码模型相比,我们发现所提出的编码模型在所有早期视觉区域中显示出一致的较高预测准确度,尤其是在相对前方视觉区域(即V4和LO)。结论:我们的工作提出了一种新的框架,以利用预先训练的视觉特征并训练从视觉特征到大脑活动的非线性映射。
translated by 谷歌翻译
滚动地平线进化算法(RHEA)是一类用于实时游戏的在线计划方法;他们的表现与计划范围和允许的搜索时间密切相关。在本文中,我们建议通过培训价值网络和apolicy网络,以离线方式容忍RHEA的先验。价值网络用于通过提供对未来奖励的估计来减少计划范围,并且策略网络用于初始化人口,这有助于缩小搜索范围。所提出的算法,称为基于先验的RHEA(p-RHEA),通过迭代地执行规划和学习来训练策略和价值网络。在规划阶段,进行了地平线限制搜索,辅助政策网络和价值网络,以改进政策和收集培训样本。在学习阶段,政策网络和价值网络通过收集的样本进行培训,以学习更好的先验知识。在OpenAl Gym MuJoCo任务上的实验结果表明,与RHEA相比,所提出的p-RHEA的性能显着提高。
translated by 谷歌翻译
人类在结构化和构图中感知这个看似混乱的世界,其前提是能够将概念实体与复杂的视觉场景隔离开来。将场景的基本视觉元素分组为概念实体的机制被称为感知分组。在这项工作中,我们提出了一种新型的空间混合模型,其具有可学习的先验,用于感知分组。与现有方法不同,所提出的方法将对象的表示形式化为“形状”和“外观”,它们由混合权重和条件概率分布分别建模。更具体地,视觉场景中的每个对象由一个混合分量建模,其混合权重和条件概率分布的参数分别由两个神经网络生成。混合权重集中于建模空间依赖性(即,形状),并且条件概率分布处理对象内变化(即,外观)。此外,背景被单独建模为与前景对象互补的特殊组件。对两个感知分组数据集的过度实证测试表明,所提出的方法在mostexperimental配置下优于最先进的方法。学习的概念实体可以推广到新颖的视觉场景,并且对物体的多样性不敏感。
translated by 谷歌翻译