诸如去噪的图像重建技术通常需要应用于相机和手机的RGB输出。不幸的是,常用的加性白噪声(AWGN)模型不能准确地再现这些输入上的噪声和降级。这对于基于学习的技术尤其重要,因为训练与真实世界数据之间的不匹配会损害他们的概括。本文旨在准确模拟摄像机管道的降级和噪声转换。这允许在RGB图像中产生可用于训练机器学习模型的真实降级。我们使用我们的模拟来研究噪声模型对基于学习的去噪的重要性。我们的研究表明,学习去噪真实的JPEG图像需要一个真实的噪声模型。在逼真噪声上训练的神经网络优于用AWGN训练的3 dB。我们的管道的消融研究表明,模拟去噪和去马赛克对于这种改进很重要,并且需要很少考虑的现实的去马赛克算法。我们相信这种模拟对于其他图像重建任务也很有用,我们将公开发布我们的代码。
translated by 谷歌翻译
视频运动放大技术使我们能够看到肉眼看不见的小动作,例如振动的飞机,或者在风的影响下摇摆的建筑物。因为运动很小,所以放大结果容易产生噪声或过度模糊。现有技术依赖于手工设计的滤波器来提取可能不是最佳的表示。在本文中,我们试图使用深度卷积神经网络直接从示例中学习滤波器。为了使训练具有可操作性,我们精心设计了一个捕捉小动作的合成数据集,并使用两帧输入进行训练。我们表明,学习过滤器可以在真实视频中获得高质量的结果,与以前的方法相比,具有更少的振铃伪像和更好的噪声特性。虽然我们的模型没有使用时间滤波器进行训练,但我们发现时间滤波器可以与我们提取的表示一起使用,直到中等放大率,从而实现基于频率的运动选择。最后,我们分析了学习过滤器,并显示它们的行为与先前工作中使用的派生过滤器类似。我们的代码,经过培训的模型和数据集将在线提供。
translated by 谷歌翻译
强化学习的几个应用由于高度变化而受到不稳定性的影响。这在高维域中尤其普遍。退化是机器学习中常用的减少方差的技术,代价是引入一些偏差。大多数现有的正则化技术都集中在空间(感知)正则化上。然而在加强学习中,由于贝尔曼方程的性质,还有机会基于价值估计轨迹的平滑性来利用时间正则化。本文探讨了一类时间正规化的方法。我们使用马尔可夫链概念正式描述了这种技术引起的偏差。我们通过一系列简单的离散和连续MDP来说明时间正则化的各种特征,并表明该技术即使在高维Atarigames中也能提供改进。
translated by 谷歌翻译
广泛用于新闻,商业和教育媒体,信息图表可以有效地传达有关复杂和常常抽象主题的信息,包括“保护环境的方法”和“理解金融危机”。信息图表由风格和语义多样的视觉和文本元素组成,为计算机视觉带来了新的挑战。虽然自动文本提取在信息图表上运行良好,但是在自然图像上训练的计算机视觉方法无法识别图表或“图标”中的独立视觉元素。为了弥合这种代表性差距,我们提出了一种合成数据生成策略:我们使用互联网抓取的图标从我们的Visually29K数据集中增加信息图表中的背景补丁,这些图标用作图标提议机制的训练数据。在1Kannotated信息图表的测试集上,图标的精确度为38%,召回率为34%(使用自然图像训练的最佳模型达到14%的精度和7%的召回率)。结合我们的图标提议与图标分类和textextraction,我们提出了一个多模式摘要应用程序。我们的应用程序将信息图作为输入,并自动生成文本标签和视觉标签,分别在文本和视觉上代表信息图的视图。
translated by 谷歌翻译