鉴于最近深度学习的发展激增,本文提供了对音频信号处理的最新深度学习技术的回顾。语音,音乐和环境声音处理被并排考虑,以指出领域之间的相似点和不同点,突出一般方法,问题,关键参考和区域之间相互交流的可能性。回顾了主要特征表示(特别是log-mel光谱和原始波形)和deeplearning模型,包括卷积神经网络,长期短期记忆体系结构的变体,以及更多音频特定的神经网络模型。随后,涵盖了突出的深度学习应用领域,即音频识别(自动语音识别,音乐信息检索,环境声音检测,定位和跟踪)和合成与转换(源分离,音频增强,语音,声音和音乐合成的生成模型)。最后,确定了应用于音频信号处理的深度学习的关键问题和未来问题。
translated by 谷歌翻译
Disparity prediction from stereo images is essential to computer vision applications including autonomous driving, 3D model reconstruction, and object detection. To predict accurate disparity map, we propose a novel deep learning architecture for detecting the disparity map from a rectified pair of stereo images, called MSDC-Net. Our MSDC-Net contains two modules: multi-scale fusion 2D convolution and multi-scale residual 3D convolution modules. The multi-scale fusion 2D convolution module exploits the potential multi-scale features, which extracts and fuses the different scale features by Dense-Net. The multi-scale residual 3D convolution module learns the different scale geometry context from the cost volume which aggregated by the multi-scale fusion 2D convolution module. Experimental results on Scene Flow and KITTI datasets demonstrate that our MSDC-Net significantly outperforms other approaches in the non-occluded region.
translated by 谷歌翻译
机器学习已广泛应用于各种应用,其中一些涉及对隐私敏感数据的培训。已经研究了适度数量的数据库,包括自然语言数据中的信用卡信息和来自面部数据集的身份。然而,大多数这些研究都集中在监督学习模型上。由于深度强化学习(DRL)已经部署在许多现实世界的系统中,例如室内机器人导航,受过训练的DRL策略是否会泄露私人信息需要深入研究。为了总体上探讨这种隐私缺陷,我们主要提出了两种方法:基于遗传算法的环境动态搜索和基于影子策略的候选推理。我们进行了大量实验,以在各种设置下证明DRL中的此类隐私漏洞。我们利用所提出的算法来推断一些经过训练的GridWorld导航DRL代理并具有LiDAR感知的楼层平面图。所提出的算法可以正确推断大部分平面图,并使用策略梯度训练代理达到平均恢复率95.83%。此外,我们能够在连续控制环境和高精度的自动驾驶模拟器中恢复机器人配置。据我们所知,这是调查DRL设置中隐私泄漏的第一项工作,并且说明基于DRL的代理可能会从受过训练的策略中泄露隐私敏感信息。
translated by 谷歌翻译
TAMER已被证明是一种强大的交互式强化学习方法,允许普通人通过提供评估反馈来教授和个性化自主代理人的行为。然而,计划withUCT的TAMER代理---蒙特卡罗树搜索策略,只能更新状态沿着它的pathand可能会导致高学习成本,特别是对于物理机器人。在本文中,我们建议通过示范中的逆向强化学习来初始化代理人的奖励函数,从而推动代理人沿着最佳路径进行探索并降低学习成本。我们在RL基准测试领域---网格世界中测试我们提出的方法 - 对人类的评价有不同的折扣。我们的研究结果表明,从示范中学习可以让TAMERagent在最深入的搜索中学习大致最优的策略,并鼓励代理人沿着最佳路径进行探索。此外,我们发现从示范中学习可以通过减少总反馈,不正确行动的数量和增加纠正比率以获得最优策略来提高学习效率,从而允许TAMER代理更快地收敛。
translated by 谷歌翻译
深度神经网络容易受到对抗性攻击。许多努力都集中在防御上,这些防御要么试图在经过训练的模型中修补“漏洞”,要么难以计算利用这些漏洞的对抗性例子。在我们的工作中,我们探索了一种反直觉的方法来构建“对抗性陷阱。与先前的作品不同,试图修补或掩盖流形中的脆弱点,我们故意注入”trapdoors“,歧管中的人为弱点将吸引优化的扰动吸引到某些预嵌入因此,对抗性生成功能自然地倾向于我们的陷阱,产生模型所有者可以通过已知的神经元激活签名识别的对抗性示例。在本文中,我们引入陷阱并描述使用类似策略的后门/特洛伊木马的实现我们通过主动将陷门注入模型(并提取其神经激活特征),我们可以检测到由现有技术攻击(投射梯度下降,基于CW优化和弹性网络)生成的对抗性示例,具有高检测成功率和对正常投入的影响可以忽略不计也可以概括多个分类域(图像识别,人脸识别和交通标志识别)。我们探索了活板门的不同属性,并讨论了潜在的对策(自适应攻击)和缓解措施。
translated by 谷歌翻译
在本文中,我们提出了相关的logistic(CorrLog)模型用于多标记分类。 CorrLog通过明确建模标签之间的成对相关性,将常规逻辑回归模型扩展到多标签案例。此外,我们建议学习CorrLog的模型参数和弹性网络正则化,这有助于利用特征选择和标签相关性的稀疏性,从而进一步提高多标签分类的性能。通过正则化的最大伪似然估计,可以有效地学习CorrLog,并且它可以获得与标签数量无关的令人满意的泛化界限。与最先进的多标签分类算法相比,CorrLog在基准数据集MULAN场景,MIT室外场景,PASCAL VOC 2007和PASCALVOC 2012上进行多标记图像分类的竞争性。
translated by 谷歌翻译
热图回归已成为局部化地标的主流方法之一。随着卷积神经网络(CNN)和递归神经网络(RNN)在解决计算机视觉任务中变得越来越流行,已经在这些架构上进行了广泛的研究。然而,很少研究热图回归的损失函数。在本文中,我们分析了面部对齐问题中热图回归的理想损失函数属性。然后我们提出了一种新的损失函数,称为自适应翼损失,它能够使形状适应不同类型的地面真实热图像素。这种适应性将前景像素上的损失减少到零,同时在背景像素上留下一些损失。为了解决前景和背景像素之间的不平衡问题,我们还提出了加权损失图,它在背景和难以处理的背景像素上分配高权重,以帮助训练过程聚焦更多对地标定位至关重要的像素。为了进一步提高面部对准精度,我们引入边界预测和带边界坐标的CoordConv。包括COFW,300W和WFLW在内的不同基准测试的广泛实验表明,我们的方法在各种评估指标上的表现优于现有技术。此外,自适应Wingloss还可以帮助其他热图回归任务。代码将公开发布。
translated by 谷歌翻译
计算机视觉近年来取得了令人瞩目的进展。同时,手机已经成为数百万人的主要计算平台。除了移动电话之外,许多自治系统依靠视觉数据来做出决策,其中一些系统的能量有限(例如无人驾驶飞行器也称为无人驾驶飞机和移动机器人)。这些系统依赖电池,能效至关重要。本文保留了两个主要目的:(1)检查低功率解决方案的最新技术,以检测图像中的对象。自2015年以来,IEEE年度国际低功耗图像识别挑战赛(LPIRC)一直致力于识别最节能的计算机视觉解决方案。本文总结了2018年获奖者的解决方案。 (2)建议研究方向以及低功耗计算机视觉的机会。
translated by 谷歌翻译
LiDAR相机校准是许多异构系统的先决条件,这些系统融合了LiDAR和相机的数据。然而,来自公共视野的约束和严格时间同步的要求使得校准成为具有挑战性的问题。在本文中,我们提出了一种混合的LiDAR相机校准方法,旨在解决这两个难题。 LiDAR和相机之间的配置没有他们共同的视野,我们移动相机以覆盖LiDAR观察到的情景。可以通过由移动相机获得的连续视觉图像来实现对环境的3D视觉重建,其随后可以与在场景和设备都是静止时捕获的单个3D激光扫描对准。在这种设计下,我们的方法可以进一步摆脱LiDAR与相机之间时间同步的影响。此外,由移动相机获得的扩展视野可以提高校准精度。我们得出了我们方法的最小可观测性条件,并讨论了不同位置的测量板对校准精度的影响,可以作为设计高精度校准程序的指南。我们在仿真平台和现实世界数据集上验证我们的方法。实验表明,我们的方法可以实现比其他可比方法更高的准确性。
translated by 谷歌翻译
我们针对(i)两个视图中的四个点的校准摄像机和(ii)两个视图中的五个点的校准的一般化摄像机提出了相对姿态估计问题的两个最小解。在两种情况下,假设视图之间的相对角度是已知的。在实践中,suchangle可以从3d陀螺仪的读数中获得。我们用单位四元数表示运动的旋转部分,以构造编码极线约束的多项式方程。然后使用Gr \“{o} bner basistechnique来有效地推导出解决方案。我们的常规相机的第一个求解器显着改善了现有的最先进的解决方案。广义相机的第二个求解器是新颖的。所提出的最小求解器可以是在RANSAC等假设和测试架构中用于可靠的姿态估计。对合成和真实数据集的实验证实我们的算法在数值上是稳定的,快速的和稳健的。
translated by 谷歌翻译