计算机视觉近年来取得了令人瞩目的进展。同时,手机已经成为数百万人的主要计算平台。除了移动电话之外,许多自治系统依靠视觉数据来做出决策,其中一些系统的能量有限(例如无人驾驶飞行器也称为无人驾驶飞机和移动机器人)。这些系统依赖电池,能效至关重要。本文保留了两个主要目的:(1)检查低功率解决方案的最新技术,以检测图像中的对象。自2015年以来,IEEE年度国际低功耗图像识别挑战赛(LPIRC)一直致力于识别最节能的计算机视觉解决方案。本文总结了2018年获奖者的解决方案。 (2)建议研究方向以及低功耗计算机视觉的机会。
translated by 谷歌翻译
Contemporary domain adaptation methods are very effective at aligning feature distributions of source and target domains without any target supervision. However, we show that these techniques perform poorly when even a few labeled examples are available in the target domain. To address this semi-supervised domain adaptation (SSDA) setting, we propose a novel Minimax Entropy (MME) approach that adversarially optimizes an adaptive few-shot model. Our base model consists of a feature encoding network , followed by a classification layer that computes the features' similarity to estimated prototypes (representatives of each class). Adaptation is achieved by alternately maximizing the conditional entropy of unlabeled target data with respect to the classifier and minimizing it with respect to the feature encoder. We empirically demonstrate the superiority of our method over many baselines, including conventional feature alignment and few-shot methods, setting a new state of the art for SSDA.
translated by 谷歌翻译
低功耗图像识别挑战(LPIRC,https://rebootingcomputing.ieee.org/lpirc)是一项于2015年开始的年度竞赛。该竞赛确定了可以有效分类和检测图像中的对象(短执行时间和低能耗)和准确(高精度)的最佳技术。四年来,获奖者的成绩提高了24倍以上。由于计算机视觉广泛用于许多电池供电系统(例如无人机和移动电话),对低功耗计算机视觉的需求将变得越来越重要。本文通过描述三种不同的轨道和获胜者的解决方案来总结LPIRC 2018。
translated by 谷歌翻译
本文提出了一种基于时延神经网络(TDNN)的声学模型,用于实现韩语语音识别的快速收敛声学建模。由于不包括重复权重的子采样,TDNN在快速收敛方面具有优势,其中训练数据的数量是有限的。与基于前馈神经网络(FFNN)的建模相比,TDNN在字符误差方面显示出2.12%的绝对改善。为Koreanspeech语料库。所提出的模型比基于aFFNN的模型快1.67倍。
translated by 谷歌翻译
在本文中,我们提出了一种新的算法,通过消除阴影伪像来纠正数字化文档的照明。首先,使用每个像素的亮度值来创建输入数字化文档的顶部表面。然后通过模拟散射过程来估计文档上的阴影伪影。使用具有迭代更新规则的新的扩散方程来模拟浸没过程。在估计着色伪影之后,使用Lambertiansurface模型重建数字化文档。为了评估所提算法的性能,我们对一组数字化文档进行了严格的实验,这些文档是在具有挑战性的光照条件下使用智能手机生成的。根据实验结果,发现所提出的方法产生了增强的光照校正结果并且优于最先进方法的结果。
translated by 谷歌翻译
修剪是一种有效的模型压缩技术,用于消除深度神经网络(DNN)连通性中的冗余。然而,使用通过修剪参数获得的稀疏矩阵的计算表现出极大不同的并行性,这取决于索引表示方案。因此,细粒度修剪由于其不规则的索引形式导致大的内存占用和卷积和矩阵乘法的低并行性而没有引起太多关注。在本文中,我们提出了一种新的网络修剪技术,它生成一个低秩二进制索引矩阵来压缩索引数据,而解压缩索引数据则通过简单的二进制矩阵乘法来执行。该提出的压缩方法找到特定的细粒度修剪掩模,其可以被分解成两个二进制矩阵。 Wealso提出了一种基于区块的分解技术,不仅可以降低内存需求,还可以提高压缩率。与先前的稀疏矩阵格式相比,可以使用少得多的DNN模型,同时保持相同的修剪率。
translated by 谷歌翻译
转移学习或多语言模型对于低资源神经机器翻译(NMT)至关重要,但通过共享词汇表,适用性仅限于同源语言。本文展示了有效的技术,将预先训练的NMT模型转换为一种没有共享词汇的新的无关语言。我们通过使用跨语言代码来减轻词汇不匹配,通过注入人工噪声来训练更加语言无关的编码器,并且可以从训练前数据中轻松生成合成数据而无需后向翻译。我们的方法不需要重构词汇表或重新训练模型。我们在五个低资源翻译任务中将单纯的NMT转移提高了多达+ 5.1%的BLEU,超出多边联合训练的大幅度差距。我们还提供广泛的消融前研究,合成数据,词汇量和参数冷冻,以更好地理解NMT转移。
translated by 谷歌翻译
我们在最近普及的分散执行(CTDE)制度的集中培训中探索基于价值的多智能体强化学习(MARL)任务解决方案。然而,VDN和QMIX是代表性的例子,它将联合行动 - 价值函数的因子分解为分散执行的个体化。 VDN和QMIX仅解决可分解的MARL任务的分数,因为它们在诸如可加性和单调性之类的因素中具有结构约束。在本文中,我们提出了一种新的MARL分解方法,即QTRAN,它没有这种结构约束,并采用了一种新的方法将原始的联合作用 - 值函数转换为易于分解的函数,具有相同的优化。 QTRAN保证比VDN或QMIX更通用的因子分解,因此比以前的方法覆盖了更广泛的MARL任务类。多域Gaussian-squeeze和modifiedpredator-prey任务的Ourexperiments展示了QTRAN在游戏中的特殊大规模优越性能,其收益更加积极地惩罚非合作行为。
translated by 谷歌翻译
我们介绍了一种用于物体检测的新型无监督域自适应方法。我们的目标是同时缓解像素级别的不完美翻译问题,以及特征性差异的源偏差判别问题。我们的方法由两个阶段组成,即域多样化(DD)和多域不变表示学习(MRL)。在DD阶段,我们通过从源域生成各种不同的移位域来使标记数据的分布多样化。在MRL阶段,我们应用具有多域鉴别器的对抗性学习来鼓励在域之间难以区分的特征。 DD解决了资源偏向的歧视性问题,而MRL减轻了不完美的图像翻译。我们为学习范式构建了一个结构化的域适应框架,并介绍了DD实现的实用方法。在各种数据集中,我们的方法在平均精度(mAP)的3%~11%间隔范围内优于最先进的方法。
translated by 谷歌翻译
随着各种先进驾驶辅助系统(ADAS)平台的发展,自动驾驶系统的设计变得越来越复杂和安全。自动驾驶系统同时激活多个ADAS功能;因此,协调各种ADAS功能至关重要。本文提出了一种随机对抗模仿学习(RAIL)方法,该方法模仿配备先进传感器的自动驾驶汽车的协调。 RAIL政策通过衍生自由优化对协调适当的ADAS功能的决策者进行训练,例如,智能巡航控制和车道保持系统。特别是,所提出的方法还能够处理LIDAR数据并在复杂的多车道高速公路和多代理环境中做出决策。
translated by 谷歌翻译