强化学习算法通常需要数百万个环境交互才能在稀疏奖励设置中学习成功的策略。 HindsightExperience Replay(HER)作为一种技术被引入,通过重新设想不成功的轨迹作为成功的轨迹,通过取代原先预期的目标来提高样本效率。但是,此方法不适用于目标配置未知且必须从观察中推断的视域。在这项工作中,我们展示了如何使用在相对较少的目标快照上训练的生成模型来成功幻觉成功的视觉轨迹。据我们所知,这是第一项工作,代理政策仅以其国家为条件。 Wethen将此模型应用于离散和连续设置中的强化学习代理。我们在3D环境和模拟机器人应用程序中显示导航和拾取任务的结果。我们的方法显示了标准RL算法和从先前工作得到的基线的标记改进。
translated by 谷歌翻译
各种计算机视觉应用取决于所使用的图像匹配算法的效率。设计各种描述符以检测和匹配图像中的特征。在移动应用程序中部署此算法需要较少的计算时间。二进制描述符比基于浮点的描述符需要更少的计算时间,因为在创建二进制字符串之后,样本点对之间的强度比较和比较。为了减少时间复杂性,匹配的关键点的质量受到损害。我们提出了一个名为Morphological RetinaKeypoint Descriptor(MREAK)的关键点描述符,其灵感来自于人类学生的功能,它可以对光量进行响应和收缩。通过使用打开和关闭的形态学操作者并相应地修改视网膜采样模式,观察到精确匹配的关键点的数量的增加。我们的结果表明,匹配的关键点比FREAK描述符更有效,并且需要比SIFT,BRISK和SURF等各种描述符更低的计算时间。
translated by 谷歌翻译
图像到图像的翻译是一个长期存在且难以解决的计算机视觉问题。在本文中,我们提出了一种基于对抗的图像到图像转换模型。常规的基于深度神经网络的方法通过比较语法矩阵和使用需要人为干预的图像分割来执行图像到图像的翻译任务。我们基于生成对话网络的模型基于条件概率方法。这种方法使图像转换独立于任何局部,全局和内容或样式特征。在我们的方法中,我们使用附加了仿射变换因子的双向重构模型,与其他模型相比,它有助于保留内容和照片级真实感。使用这种方法的优点在于图像到图像的翻译是半监督的,独立于图像分割并且继承了生成逼真的生成对抗网络的特性。事实证明,这种方法比Multimodal UnsupervisedImage-to-image翻译产生更好的结果。
translated by 谷歌翻译
手写签名验证领域在过去的几十年中得到了广泛的研究,但仍然是一个开放的研究问题。在离线(静态)签名验证中,签名写入过程的动态信息丢失,并且难以设计出能够区分真实签名和熟练伪造的良好特征提取器。在编写者独立的场景中,这个验证任务更加困难,这无疑是财务上的现实案例。在本文中,我们提出了一个用于离线写入器的集合模型,具有深度学习的独立签名验证任务。我们使用两个CNN进行特征提取,然后使用RGBT进行分类和堆叠以生成最终预测向量。我们对来自不同来源的各种数据集进行了大量实验,以维持数据集中的方差。我们已经在各种数据集上实现了最先进的性能。
translated by 谷歌翻译
经过对侧训练的深度神经网络通过幻觉照相逼真的局部纹理显着提高了单图像超分辨率的性能,从而大大降低了区域高分辨率图像与其超分辨率(SR)对应物之间的感知差异。然而,应用于医学成像需要保留诊断相关的特征,同时避免引入任何诊断上令人困惑的伪影。我们建议使用深度卷积超分辨率网络(SRNet)训练(i)最小化真实和SRimages之间的重建损失,以及(ii)最大限度地混淆学习相对论视觉图灵测试(rVTT)网络以区分(a)对真实和SR图像(T1)和(b)真实的一对斑块和从感兴趣的区域(T2)中选择的SR。通过SRNet反向传播时,T1和T2的对抗性损失有助于它重建感兴趣区域的病理现象,如外周血涂片中的白细胞(WBC)或癌组织切片组织病理学中的上皮细胞,这些都在实验中得到证实。实验用于测量使用峰值信号噪声比(pSNR)和结构相似性(SSIM)与SR比例因子的变化,rVTT对抗性损失的影响以及使用SR在商业上可获得的人工智能(AI)数字病理系统上报告的影响的信号失真损失实现了我们的声明。
translated by 谷歌翻译
由于不受约束的外观变化和动态环境,视觉跟踪是一个复杂的问题。通过多种特征从对象环境中提取补充信息并适应目标的外观变化是这项工作的关键问题。为此,我们提出了一种基于多线索统一图形融合(UGF)的鲁棒对象跟踪框架,以适应对象的外观。所提出的稀疏和密集特征的交叉扩散不仅抑制了各个特征的缺陷,而且还从多线索中提取了补充信息。这种迭代过程构建了强大的统一特征,这些特征对于对象变形,快速运动和遮挡是不变的。统一特征的稳健性还使随机森林分类器能够精确地区分前景和背景,增加了背景杂乱的弹性。此外,我们提出了一种新的基于核的自适应策略,使用离群检测和转换可靠性度量。适应策略更新外观模型以适应比例,照明,旋转的变化。对25个基准视频序列(OTB-50,OTB-100和VOT2017 / 18)的定性和定量分析表明,在各种对象跟踪挑战下,所提出的UGF跟踪器对15种其他最先进的跟踪器有利。
translated by 谷歌翻译
在低延迟约束下设计信道代码是5G标准中最苛刻的要求之一。然而,传统代码的性能的清晰表征仅在大块长度限制中可用。代码设计由那些渐近分析引导,并且需要大块长度和长延迟以实现期望的错误率。此外,当为一个信道(例如,加法高斯白噪声(AWGN)信道)设计的代码用于另一个信道(例如非AWGN信道)时,启发式必须实现任何非平凡的性能 - 其中严重缺乏不稳定性和适应性。通过联合设计基于回归神经网络(RNN)的编码和解码器获得,我们提出了一种端到端学习神经码,其在块设置下优于经典卷积码。凭借这种设计新型神经阻滞码的经验,我们提出了一类新的码延迟约束 - 低延迟高效自适应鲁棒神经(LEARN)码,其性能优于现有技术的低延迟码以及禁止码。稳健性和适应性。学习代码显示了为现代深度学习的未来通信技术和通信工程见解设计新的通用和通用代码的潜力。
translated by 谷歌翻译
光流是特征空间的重要组成部分,用于动态场景的早期视觉处理,特别是在诸如装配驱动车辆,无人驾驶飞机和自动机器人的新应用中。动态视觉传感器非常适合这种应用,因为它们具有异步,稀疏和时间精确的视觉动态表示。许多用于计算这些传感器的视觉流动的算法受到孔径问题的影响,因为估计流动的方向由物体的曲率而不是真实的运动方向控制。通过时间窗口克服该问题的一些方法未充分利用动态传感器的真实精确时间特征。在本文中,我们提出了一种新的基于多尺度平面拟合的视觉流算法,该算法对孔径问题具有鲁棒性,并且计算速度快,效率高。我们的算法可以在许多场景中运行,从固定摄像机记录简单的几何形状到现实世界场景,例如安装在移动车上的摄像机,并且可以成功地执行场景中物体的逐事件运动估计,以允许预测高达500毫秒,即相当于使用传统相机10到25帧。
translated by 谷歌翻译
生成对抗网络(GAN)在许多无监督学习任务中取得了显着的成功,毫无疑问,聚类是一个重要的无监督学习问题。虽然人们可以利用GAN中的孤立空间反投影进行聚类,但我们证明了聚类结构并未保留在GAN潜在空间中。在本文中,我们提出ClusterGAN作为使用GAN进行聚类的新机制。通过从一个热编码变量和连续潜变量的混合中对潜在变量进行采样,结合反向网络(将数据投射到潜在空间)与集群特定损失共同训练,我们能够在潜在空间中实现聚类。我们的结果显示了一个显着的现象,即GAN可以保持跨类别的潜在空间插值,即使鉴别器从未暴露于这样的向量。我们将结果与各种聚类基线进行比较,并在合成数据集和真实数据集上表现出优异的性能。
translated by 谷歌翻译
在本文中,我们通过在贝叶斯设置的协同滤波器中进行模拟退火的可逆跳跃MCMC来选择特征的未知维度。我们在MovieLens小数据集中实现了相同的功能。我们通过使用修改的经验贝叶斯来修改超参数。它也可用于猜测网格搜索过程中超参数的初始选择,即使MCMC在真实值附近振荡或需要长时间收敛的数据集。
translated by 谷歌翻译