在立体匹配任务中,匹配成本聚合在传统方法和深度神经网络模型中都是至关重要的,以便准确地估计差异。我们提出了两个新颖的神经网络层,旨在分别捕获局部和整个图像成本依赖性。第一个是半全局聚合层,它是半全局匹配的可微近似,第二个是局部引导聚合层,它遵循传统的成本过滤策略来细化薄结构。这两个层可以用来代替广泛使用的3D卷积层由于具有立方计算/存储器复杂性而在计算上成本高并且消耗存储器。在实验中,我们表明具有双层引导聚合块的网络容易胜过具有19个3D卷积层的最先进的GC-Net。我们还训练了一个深度导向聚集网络(GA-Net),它比场景流数据集和KITTI基准测试中的最先进方法具有更好的准确性。
translated by 谷歌翻译
深度网络本质上消耗大量内存。我们可以在保持性能的同时减少内存需求。特别是,在这项工作中,我们解决了多个任务的记忆有效学习问题。为此,我们提出了一种新颖的网络体系结构,可以为不同的任务生成多个不同配置的网络,称为深度虚拟网络(DVN)。每个DVN都是专门的单一任务和分层结构。包含对应于不同数量的参数的多个层次结构的分层结构使得能够对不同的存储器预算进行多个推断。深度虚拟网络的构建块基于网络参数的不相交集合,我们将其称为单元。深度虚拟网络中最低级别的层次结构是一个单元,更高级别的层次结构包含较低级别的单元和其他附加单元。给定参数数量的预算,可以选择不同级别的深度虚拟网络来执行任务。一个单元可以由不同的DVN共享,允许单个网络中的多个DVN。此外,共享单元通过从其他任务中学到的额外知识为目标任务提供帮助。这种DVN的协作配置使得以记忆感知方式处理不同任务成为可能。我们的实验表明,所提出的方法优于现有的多任务方法。值得注意的是,我们的效率比其他任务更高,因为它允许对所有任务进行内存感知推理。
translated by 谷歌翻译
在较少的监督下学习是人工智能的一项重大挑战。减少监督量的一种明智的方法是容忍先前的经验和从过去看到的任务转移知识。然而,成功转移的必要条件是能够记住如何执行先前的任务。持续学习(CL)设置,即代理从任务流中学习而不看任何示例,是研究如何累积这些知识的理想框架。在这项工作中,我们考虑监督学习任务和方法,利用非常小的情景记忆进行持续学习。通过对适用于CL的四个基准数据集进行广泛的经验分析,我们观察到一个非常简单的基线,它共同训练来自当前任务的两个例子以及存储在存储器中的例子,优于最先进的CL方法,有或没有情节记忆。令人惊讶的是,重复学习微小的情节记忆不会损害对任务的概括,因为对后续任务的数据的联合训练就像数据依赖的正则化器一样。我们讨论和评估写入内存的不同方法。最值得注意的是,除了内存大小非常小外,水库采样对电路板的工作效果非常好。在这种情况下,编写保证所有类的平等表示的策略更好。总体而言,在对新CL方法进行基准测试时,应将这些方法视为强有力的基线候选
translated by 谷歌翻译
最近,图形神经网络在各个研究领域引起了极大的关注并取得了突出的成果。这些算法中的大多数都具有感兴趣对象的成对关系。然而,在许多重新应用中,对象之间的关系是高阶的,超出了一定的配置。为了有效地学习高阶图结构数据的深度嵌入,我们在图神经网络的家庭中引入了两个端到端可训练算子,即超图卷积和超图注意。虽然超图卷积定义了在超图上执行卷积的基本公式,但超图注意通过利用注意模块进一步增强了表示学习的能力。通过这两个算子,图形神经网络很容易扩展到更灵活的模型,并应用于观察到非成对关系的各种应用。半监督节点分类的广泛实验结果证明了超图卷积和超图注意的有效性。
translated by 谷歌翻译
深度强化学习(DeepRL)模型在众多任务中超越了人类的表现。与恒星表现形成鲜明对比的是学习政策的模糊性。国家行动的直接映射使得很难解释代理人决策背后的基本原理。与之前的可视化DeepRL策略的后验方法相比,我们提出了一种基于Rainbow的端到端可训练框架,Rainbow是一个代表性的深Q网络(DQN)代理。我们的方法自动检测输入域中的重要区域,这使得能够表征非直观行为的一般策略和表示。因此,我们称之为Region SensitiveRainbow(RS-Rainbow)。 RS-Rainbow利用一种简单而有效的机制将先天可视化能力融入学习模型,不仅提高了可解释性,而且使代理能够利用增强状态表示来提高性能。在没有额外监督的情况下,可以了解专注于游戏玩法的不同方面的专用特征探测器。在Atari 2600的挑战性平台上进行了大量实验,证明了RS-Rainbow的优越性。特别是,我们的代理人只需要25%的训练框架就能达到最先进的技术水平,而无需进行大规模的大规模平行训练。
translated by 谷歌翻译
在本文中,我们将介绍如何使用一个简单的方法实时执行视觉对象跟踪和半监督视频对象分割。我们的方法,称为SiamMask,改进了流行的完全卷积暹罗方法的对象跟踪的离线训练过程,通过二进制分割任务来确定它们的损失。一旦经过训练,SiamMasksolely依赖于单个边界框初始化并在线操作,产生类别不可知的对象分割掩模和每秒35帧的旋转边界框。尽管它的简单性,多功能性和快速性,我们的策略使我们能够在VOT-2018上建立一个新的最先进的实时测试人员,同时展示竞争性能和半监督视频的最佳速度DAVIS-2016和DAVIS-2017上的objectsegmentation任务。项目网站是:http://www.robots.ox.ac.uk/~qwang/SiamMask。
translated by 谷歌翻译
通过量化参数来压缩大型神经网络,同时保持性能通常是非常期望的,因为存储器和时间复杂度降低。在这项工作中,我们将神经网络量化制定为离散标记问题,并设计了一种基于流行平均场方法的有效近似算法。为此,我们设计了一个预测的随机梯度下降算法,并表明它实际上等同于平均场方法的近端版本。因此,我们为神经网络量化提供MRF优化视角,这将使得能够研究建模网络参数之间的高阶交互以设计更好的量化方案。我们对具有卷积和残余架构的标准图像分类数据集的实验证明,我们的算法获得了完全量化的网络,其精度非常接近浮点参考网络。
translated by 谷歌翻译
深度卷积神经网络(CNNs)是计算机视觉中最具影响力的最新发展之一,特别是对于分类。随着这些系统在现实世界中的部署,对可解释的AI的需求越来越大。但是,理解在CNN中表示和处理的信息在大多数情况下仍然具有挑战性。在本文中,我们探索了在神经科学领域开发的新信息理论技术的使用,以便能够对aCNN如何表示信息进行新的理解。我们训练了一个10层的ResNet架构来识别使用严格控制的3D人脸渲染模型生成的26M图像中的2,000个面部身份,这些模型产生了内在(表面形态,性别,年龄,表达和种族)和外在因素(即3D姿势,照明)的变化,规模和二维翻译)。通过我们的方法论,我们证明了与人类网络不同,即使面部形状发生极端变化,也会过度概括面部身份,但它对纹理的变化更为敏感。为了理解这些具有直觉特性的信息处理,我们可视化网络处理以识别面部的形状和纹理的特征。然后,我们对黑匣子的内部工作进行了阐述,并揭示了隐藏层如何表示这些特征以及表示是否对于姿势不变。我们希望我们的方法将为CNN的可解释性提供额外的有价值的工具。
translated by 谷歌翻译
立体深度估计用于许多计算机视觉应用。虽然许多流行的方法仅仅针对深度质量,但对于实时移动应用(例如假肢眼镜或微型无人机),速度和功率效率同样重要,甚至更重要。许多真实系统依靠半全球匹配(SGM)来实现良好的精度与速度平衡,但传统硬件难以实现功率效率,使得FPGA等嵌入式设备的使用对低功耗应用具有吸引力。但是,完整的SGM算法不适合在FPGA上部署,而且它的somost FPGA变体是部分的,但会牺牲精度。在非FPGA上下文中,更多全局匹配(MGM)改进了SGM的准确性,这也有助于解决影响SGM的条纹伪像。在本文中,我们提出了一种新颖的,资源有效的方法,该方法受MGM技术的启发,用于提高深度质量,但可以实现在低功耗FPGA上实时运行。通过对多个数据集(KITTI和Middlebury)的评估,我们表明,与其他具有实时功能的立体声方法相比,我们可以在准确性,功率效率和速度之间实现最先进的平衡,使我们的方法非常适合用于功率有限的实时系统。
translated by 谷歌翻译
相机姿态估计是计算机视觉中的重要问题。常用技术或者将当前图像与具有已知姿势的关键帧匹配,直接回归姿势,或者在图像中的关键点和场景中的点之间建立对应关系以估计姿势。近年来,回归森林已成为建立此类对应的流行替代方案。它们可以获得准确的结果,但传统上需要在目标场景下离线训练,防止在新环境中重新定位。最近,我们展示了如何通过在预先训练的森林中适应新的场景来规避这种限制。经过改造的森林实现了与离线森林相当的地方化性能,并且我们的方法能够近乎实时地估计相机姿态。在本文中,我们展示了这项工作的扩展,在完全实时运行的同时实现了更好的重定位性能。为了实现这一目标,我们对原始方法进行了一些改变:(i)我们不必毫无疑问地接受相机姿势假设,而是使用几何方法来确定最后几个假设并选择最有希望的假设; (ii)我们将我们的重定位器的几个实例连接在一起,允许我们首先尝试更快但不太准确的重定位,只在必要时回落到更慢,更准确的重定位; (iii)我们调整级联参数以实现有效的整体性能。这些变化使我们能够显着提高我们最先进的方法能够在众所周知的7场景和斯坦福4场景基准上实现的性能。作为额外的贡献,我们提出了一种可视化森林内部行为的方法,并展示了如何完全规避在一般场景中预先训练森林的需要。
translated by 谷歌翻译