本文提出了一种卷积神经网络向后传播的分数阶梯度法。为了克服分数阶梯度法不能收敛到实际极值点的问题,基于Caputo的定义设计了简化的分数阶梯度法。层内的参数由设计的梯度方法更新,但层之间的传播仍然使用整数阶梯度,因此避免了复合函数的复杂导数,并保留链规则。通过串联连接每个层并增加损失函数,可以根据各种任务顺利地训练所提出的卷积神经网络。为了最终证明神经网络的有效性,进行了一些实际的实验。
translated by 谷歌翻译
在本文中,我们提出了一个生成框架,在不受约束的情景中,在具有重度遮挡和任意面部表情变化的情况下,动态地统一基于深度的3D面部姿势跟踪和面部模型适应。具体地,我们引入了一种灵活描述的统计3D可变形模型。面部模型表面上的点分布,具有足够的可切换在线适应性,逐渐捕获被跟踪对象的身份,并在主体改变时快速构建合适的面部模型。此外,与采用基于ICP的面部姿态估计的现有技术不同,为了提高对遮挡的鲁棒性,我们提出了一种射线可见度约束,其基于面部模型相对于输入点云的可见性来规范姿势。关于百威和ICT-3DHP数据集的消融研究和实验结果表明,所提出的框架是有效的,并且优于完成最先进的基于深度的方法。
translated by 谷歌翻译
权重量化是Deep NeuralNetworks(DNNs)模型压缩方法最重要的技术之一。最近使用先进的优化算法ADMM(乘法的交替方向方法)使用DNN权重量化的系统框架的工作在权重量化中实现了最先进的结果之一。在这项工作中,我们首先扩展这种基于ADMM的框架以保证解决方案的可行性,并且我们进一步开发了一个多步骤,渐进式DNN权重量化框架,具有以下优点:(i)由于ADMM正规化的特殊属性,实现了进一步的权重量化,以及( ii)在每个步骤中减少搜索空间。广泛的实验结果证明了与以前的工作相比具有更高的性能。一些亮点:我们为MNIST推出了第一个无损且完全二值化(适用于所有层)的LeNet-5;我们推出了第一个完全二值化(适用于所有层)VGG-16用于CIFAR-10和ResNet forImageNet,具有合理的精度损失。
translated by 谷歌翻译
在这项工作中,我们使用\ emph {功能面向对象网络}(FOON)探索人机协同规划,这是一种可以由家用机器人执行的操作的图形知识表示。用于获取解决给定问题的必要步骤(作为atask树)的知识检索过程被修改以考虑反映在通用FOON中执行运动的难度的权重。这些权重作为成功率给出,其描述了机器人成功完成动作的可能性。然而,基于其物理限制,某些操作可能难以使其自身执行。为了使机器人更容易,人类可以通过识别人类要做的成功率低的那些动作来协助完成活动所需的最小程度。从ourexperiments中可以看出,在助手的帮助下,任务可以成功执行。我们的结果表明,最好的任务树可以找到成功完成三项活动的机会,同时最大限度地减少人工助理所需的工作量。
translated by 谷歌翻译
在本文中,提出了一种连体DNN模型来学习音频动态范围压缩器(DRC)的特性。这有助于智能控制系统使用音频示例来配置DRC,DRC是音乐制作,语音通信和广播领域中广泛使用的非线性音频信号调节技术。提出了几种替代的暹罗DNN架构来学习特征嵌入,这些特征嵌入可以表征由于动态范围压缩而产生的微妙影响。这些模型相互比较,并且在之前的工作中提出了手工制作的功能。还提供了DNN和SDC参数的超参数之间关系的评估。最好的模型能够产生能够同时预测多个DRC参数的通用特征嵌入,这是我们之前研究的重大改进。当预测单声道音频环路和复音的DRC参数时,特征嵌入比手工音频特性表现出更好的性能。音乐作品。
translated by 谷歌翻译
最先进的DNN结构涉及高计算量和对存储器的巨大需求,这对DNN框架资源构成了严峻的挑战。挑战挑战,重量修剪技术已被研究。然而,极端结构化修剪的高精度解决方案结合了不同类型的结构化稀疏性仍然等待由于DNN网络中极度减少的权重而解开。在本文中,我们提出了一种DNN框架,它结合了两种不同类型的结构化权重修剪(滤波器和列修剪),通过结合交替方向乘法器(ADMM)算法,以获得更好的修剪性能。我们是第一个在结构化修剪模型中找到ADMM过程和未使用权重的非最优性,并进一步设计一个优化框架,其中包含第一个提议的网络净化和未使用路径去除算法,这些算法专用于在ADMM步骤之后对结构化修剪模型进行后处理。一些高光照显示我们在LeNet-5上实现232x压缩,在ResNet-18CIFAR-10上实现60x压缩,在AlexNet上实现超过5倍压缩。我们在匿名链接http://bit.ly/2VJ5ktv上分享我们的模型。
translated by 谷歌翻译
With an increasing demand for training powers for deep learning algorithms and the rapid growth of computation resources in data centers, it is desirable to dynamically schedule different distributed deep learning tasks to maximize resource utilization and reduce cost. In this process, different tasks may receive varying numbers of machines at different time, a setting we call elastic distributed training. Despite the recent successes in large mini-batch distributed training, these methods are rarely tested in elastic distributed training environments and suffer degraded performance in our experiments, when we adjust the learning rate linearly immediately with respect to the batch size. One difficulty we observe is that the noise in the stochastic momentum estimation is accumulated over time and will have delayed effects when the batch size changes. We therefore propose to smoothly adjust the learning rate over time to alleviate the influence of the noisy momentum estimation. Our experiments on image classification, object detection and semantic segmentation have demonstrated that our proposed Dynamic SGD method achieves stabilized performance when varying the number of GPUs from 8 to 128. We also provide theoretical understanding on the optimality of linear learning rate scheduling and the effects of stochastic momentum.
translated by 谷歌翻译
我们的最终目标是在文本理解中缩小人类和机器读者之间的差距,我们展示了从语言和专业认证考试中收集的第一批具有挑战性的中文机器阅读理解数据集(C ^ 3),其中包含13,924个文档和相关的23,990个多项选择题。 C ^ 3中的大多数问题不能仅通过与给定文本的表面形式匹配来回答。作为一项试点研究,我们仔细分析了这些真实世界阅读理解任务中所需的先前知识(即语言,领域特定和一般世界知识)。我们通过微调预先训练的语言模型,进一步探索如何利用语言学知识,包括常用习语词汇和谚语以及特定领域知识(如教科书)来帮助机器读者(Devlin et al。,2019)。我们的实验结果表明,语言知识可以帮助提高基线阅读器在一般和特定领域任务中的性能。 C ^ 3将在http://dataset.org/c3/上提供。
translated by 谷歌翻译
计算机视觉近年来取得了令人瞩目的进展。同时,手机已经成为数百万人的主要计算平台。除了移动电话之外,许多自治系统依靠视觉数据来做出决策,其中一些系统的能量有限(例如无人驾驶飞行器也称为无人驾驶飞机和移动机器人)。这些系统依赖电池,能效至关重要。本文保留了两个主要目的:(1)检查低功率解决方案的最新技术,以检测图像中的对象。自2015年以来,IEEE年度国际低功耗图像识别挑战赛(LPIRC)一直致力于识别最节能的计算机视觉解决方案。本文总结了2018年获奖者的解决方案。 (2)建议研究方向以及低功耗计算机视觉的机会。
translated by 谷歌翻译
粒子成像测速仪(PIV)通过分析注入粒子的运动来估计流体的流动。该问题具有挑战性,因为颗粒在不同深度但具有相似的外观并且跟踪大量颗粒是特别困难的。在本文中,我们提出了一种PIVsolution,它使用密集采样的光场来重建和跟踪3D粒子。我们利用光场的重聚焦能力和焦点对称约束来进行可靠的粒子深度估计。我们通过实施局部运动刚度和Navier-Stoke约束进一步提出了一种新的运动约束光流估计方案。在合成和实际实验中的综合实验表明,使用单个光场相机,ourtechnique可以在小到中等体积内恢复密集和精确的3D流体流动。
translated by 谷歌翻译