由于DenseNet通过密集连接来保存具有不同感受域的中间特征,因此它在对象检测任务中表现出良好的性能。尽管特征重用使得DenseNet能够利用少量模型参数和FLOP生成强大的特征,但具有密集网骨干的探测器显示出相当慢的速度和低能效。我们发现通过密集连接线性增加的输入通道导致大量的存储器访问成本,这导致计算开销和更多的能量消耗。为了解决DenseNet的低效问题,我们提出了一种称为VoVNet的能量和计算效率架构,由一次聚合(OSA)组成.OSA不仅采用了代表具有多个感知领域的多样化特征的DenseNet的强度,而且还通过聚合克服了这种连接的低效率。所有功能在最后一个功能图中只有一次。为了验证VoVNet作为骨干网络的有效性,我们设计了轻量级和大规模的VoVNet,并将它们应用于单级和两级物体探测器。我们基于VoVNet的探测器的速度优于基于DenseNet的探测器,速度提高了2倍,能耗降低了1.6x-4.1x。除了DenseNet之外,VoVNet还以更快的速度和更高的能效优于广泛使用的ResNetbackbone。特别是,在MissNet和ResNet上,小物体检测性能得到了显着提高。
translated by 谷歌翻译
视觉关系检测是一种中间图像理解任务,它检测两个对象并对解释图像中两个对象之间关系的谓词进行分类。这三个组成部分在语言上和视觉上相关(例如“穿戴”与“人”和“衬衫”有关,而“笔记本电脑”与“桌子”和“上”相关)因此,解决方案空间很大,因为有许多可能的情况它们之间。开发了语言和视觉模块,并提出了复杂的空间向量。这项工作中的模型优于艺术状态,没有昂贵的语言知识从大文本语料库中提炼并构建复杂的损失函数。所有实验仅在Visual RelationshipDetection和Visual Genome数据集上进行评估。
translated by 谷歌翻译
在视觉监控系统中,有必要认识到人们处理诸如电话,杯子或塑料袋之类物体的行为。在本文中,为了解决这个问题,我们提出了一个新的框架,用于通过图形卷积网络使用人类和对象姿势识别与对象相关的人类行为。在此框架中,我们通过选择性地对视频中的信息帧进行采样来构建可靠人类的骨架图,其中包括在姿势估计中获得的具有高置信度分数的人类关节。从采样帧生成的骨架图表示与空间域和时域中的对象位置相关的人体姿势,并且这些图被用作图卷积网络的输入。通过开放基准和我们自己的数据集进行实验,我们验证了框架的有效性,因为我们的方法优于基于骨架的动作识别的最先进方法。
translated by 谷歌翻译
给定图形模型(GM),计算其分区函数是最重要的推理任务,但它在计算上通常是难以处理的。针对该问题,探索GM的某些局部结构/一致性的迭代近似算法已被研究作为实践中的流行选择。然而,由于它们的局部/迭代性质,它们经常输出异常或甚至不收敛,例如,在低温状态(大参数的硬实例)中。为了克服这个限制,我们提出了利用GM的全局光谱特征的新方法。我们的贡献是双重的:(a)我们首先提出一种完全多项式时间近似方案(FPTAS),用于近似与低阶秩耦合矩阵相关的GM的分区函数; (b)对于一般的高阶GM,我们利用(a)作为子程序设计一个光谱领域方案,其中它将高阶GM近似为秩-1 GM的乘积,以便有效地近似分区函数。所提出的算法在运行时间和精度上比现有方法更稳健,即,既不会遇到收敛问题,也不依赖于硬局部结构,如我们的实验所示。
translated by 谷歌翻译
本文研究了大型无人驾驶飞行器(UAV)对关键任务应用的自主控制(例如,将许多无人机从一个源发送到目的地以进行灭火)。在风扰动下实现无快速无人机碰撞的快速行波低运动能量是一项艰巨的控制任务,它为实时交换无人机状态提供了巨大的通信能量。我们通过利用平均场游戏(MFG)理论控制方法来解决这个问题,该方法要求UAV状态仅在初始源处交换一次。之后,每个无人机可以通过局部求解两个偏微分方程(PDE)来控制其加速度,称为哈密尔顿 - 雅可比 - 贝尔曼(HJB)和福克 - 普朗克 - 科尔莫戈罗夫(FPK)方程。然而,这种方法带来了巨大的计算能量。解决PDD,特别是在多维无人机状态下。我们通过使用机器学习(ML)方法来解决这个问题,其中两个单独的ML模型接近HJB和FPK方程的解。这些ML模型使用具有低计算复杂度的在线梯度下降方法进行训练和利用。数值评估验证了所提出的MLaided MFG理论算法,即MFG学习控制,在低通信能量和可接受的计算能量的碰撞避免中是有效的。
translated by 谷歌翻译
我们研究了随机梯度下降所发现的最终参数如何受到过度参数化的影响。我们通过增加基础网络中的通道数来生成模型族,然后执行大型超参数搜索以研究测试错误如何取决于学习速率,批量大小和网络宽度。我们发现最佳SGD超参数由“归一化噪声标度”确定,“标准化噪声标度”是批量化,学习速率和初始化条件的函数。在没有球形归一化的情况下,最佳归一化噪声标度与纬度成正比。更宽的网络具有更高的最佳噪声标度,也可以实现更高的测试精度。这些观察结果适用于MLP,ConvNets和ResNets,以及两种不同的参数化方案(“标准”和“NTK”)。我们通过ResNets的批量标准化来保持类似的趋势。令人惊讶的是,由于最大的稳定学习速率是有界的,因此随着宽度的增加,与最佳归一化噪声尺度一致的最大批量尺寸减小。
translated by 谷歌翻译
本研究旨在研究人类和连接模型如何在算术问题中遇到困难之间的相似性。问题困难是通过解决agiven问题所涉及的数量来实现的。通过响应时间在人体中测量问题困难,并且通过计算步骤在模型中测量。本研究发现,在解决二元加法和减法问题时,人类和连接模型都会遇到类似的困难。具体而言,两种药剂都发现难以在携带次数方面严格增加。另一个值得注意的相似之处在于,对于人类和连接模型,问题难度在减法中增加得更多。进一步研究两个模型超参数---置信度阈值和隐藏度 - 显示出更高的置信度阈值,使模型采取更多的计算步骤来得出正确的答案。同样,较大的隐藏维度会导致模型采取更多计算步骤来正确解决算法问题;但是,隐藏尺寸的这种影响可以忽略不计。
translated by 谷歌翻译
人际解剖差异限制了与人无关的凝视估计网络的准确性。然而,需要进一步降低凝血层以使得能够实现更高质量的应用。通过个性化凝视网络可以实现进一步的增益,理想情况下只需很少的校准样本。然而,过度参数化的神经网络并不适用于少数几个例子,因为它们可以快速过度拟合。我们接受了这些挑战,并提出了一种新的少量射击自适应GaZE估计框架(FAZE),用于学习具有极少(少于9个)校准样本的人特定凝视网络。 FAZE学习了一种旋转感知的gazevia潜在表示,一种解缠结的编码器 - 解码器架构以及使用元学习训练的高适应性的估计器。它能够适应任何新人,只需3个样品即可获得显着的性能提升,在GazeCapture上产生3.18度的最先进性能,比现有技术提高19%。
translated by 谷歌翻译
由于一对图$ G_1 $和$ G_2 $和顶点集合在$ G_1 $兴趣,顶点提名问题,力求找到ofinterest在$ G_2 $对应的顶点(如果存在的话),并产生了一个等级表顶点$ G_2 $,与感兴趣的$ G_2 $对应的顶点集中,理想情况下,在排名列表的顶部。在本文中,我们研究anadversarial污染模型对频谱基于graphembedding顶点提名方案的性能效果。在真实和模拟的例子中,我们证明了这个顶点提名方案theuncontaminated设置有效执行;对抗性网络污染会对我们的VN方案的性能产生不利影响;和网络正规化成功地减轻了污染的影响。除了进一步在顶点提名理论basisof一致性,对抗噪声模型理论的发展,使我们在车架最大顶点提名一致性类方面anadversary的作用假定hereinis接地。
translated by 谷歌翻译
本文提出了一种新的框架,用于联合增强图像的分辨率和动态范围,即基于卷积神经网络(CNN)的同时超分辨率(SR)和高动态范围成像(HDRI)。从两个任务的共同趋势,我们通过关注高频细节的重建来训练CNN用于联合HDRI和SR。具体地,我们工作中的高频分量是根据基于Retinex的图像分解的反射分量,并且只有反射分量由CNN操纵,而另一个分量(照明)以常规方式处理。在训练CNN时,需要设置适当的损失函数,以有助于产生图像的自然质量。实验表明,我们的算法优于基于CNN的SR和HDRI的级联实现。
translated by 谷歌翻译