为会话代理定义行动空间并通过强化学习优化他们的决策制定过程是一个持久的挑战。通常的做法是使用手工制作的对话行为或输出词汇,例如:在神经编码器解码器中,作为动作空间。两者都有自己的局限性。本文提出了一种新的潜在行动框架,它将端到端对话代理的动作空间作为潜在变量进行处理,并开发无监督方法,以便从数据中引出自己的动作空间。综合实验研究了连续和离散动作类型以及基于随机变分推理的两种不同的优化方法。结果表明,在DealOrNoDeal和MultiWoz对话框中,所提出的潜在行为比先前的单词级政策梯度方法具有更好的经验性能改进。我们的详细分析还提供了有关政策学习的各种潜在变量方法的见解,并可作为在未来研究中开发更好的潜在反应的基础。
translated by 谷歌翻译
对话状态跟踪是口语对话系统的核心部分。在每次对话转变时都会考虑可能的用户目标的信念。然而,对于大多数当前的方法,很难扩展到大型对话域。它们具有以下一个或多个限制:(a)某些模型在本体中的槽值动态变化的情况下不起作用; (b)模型参数的数量与槽的数量成正比; (c)一些基于手工制作词典的模型提取特征。为了应对这些挑战,我们提出了StateNet,一个普遍的对话状态跟踪器。它独立于值的数量,在所有插槽中共享参数,并使用预先训练的字向量而不是显式语义字典。我们在twodatasets上的实验表明,我们的方法不仅克服了局限性,而且显着优于最先进方法的性能。
translated by 谷歌翻译
从图像中自动消除雨水效果有许多应用,例如自动驾驶,无人机驾驶和照片编辑,并且仍然吸引了许多人的注意力。传统方法使用启发式手工制作各种先验,以从图像中移除或分离雨效果。最近提出了基于端到端深度学习的去除方法以提供更大的灵活性和有效性。然而,当遇到大雨的图像时,它们往往不会获得良好的视觉效果。大雨带来了不仅有雨的条纹,还有由于微小雨滴积聚而产生的雾状效应。与以往的去除方法不同,在本文中,我们使用新的雨模型来模拟雨水图像,不仅可以去除雨水条纹,还可以消除类似雾霾的效果。在我们的模型的指导下,我们设计了一个双分支网络来容忍其参数。然后,联合训练SPP结构以改进我们模型的结果,以便灵活地控制去除雾状效果的程度。此外,提出了一种可以定位雨天像素的子网,以指导我们的网络训练。在几个数据集上的广泛实验表明,我们的方法在目标评估和视觉质量方面都优于最先进的技术。
translated by 谷歌翻译
我们介绍了场景素描零射击学习(SSZSL)的一个新问题,这是一项具有挑战性的任务,因为(i)与照片不同,常见语义域(例如,词向量)和草图之间的差距太大,无法利用常见的语义知识作为知识转移的桥梁,以及(ii)与单一对象草图相比,需要更具表现力的特征表示,以适应其高水平的抽象和复杂性。为了克服这些挑战,我们提出了一种深嵌入模型forscene sketch zero-shot learning。特别地,我们提出增强语义向量通过融合多模态语义知识(例如,卡通图像,自然图像,文本描述)和采用基于注意的网络进行场景素描特征学习来进行域对齐。此外,我们提出了一种新的距离度量来改善测试期间的相似性度量。大量的实验和消融研究证明了我们的特定设计的好处。
translated by 谷歌翻译
为了提高不同照度条件下人脸识别的准确性,提出了一种基于差分滤波图像融合(FDFI-LTEIN)的局部纹理增强光照归一化方法,以减弱光照变化引起的影响。首先,通过对数变换扩展了暗区或阴影区域中人脸图像的动态范围。然后,将全局对比度增强人脸图像与高斯滤波器的差异和双边滤波器的差异进行对比,并且使用基于图像的标准偏差(SD)的系数选择规则对滤波后的图像进行加权和合并,这可以在滤除时增强图像纹理信息。最噪音。最后,对融合的面部图像执行局部对比均衡(LCE),以减少由高光或暗区域中的过饱和或低于饱和的像素值引起的影响。扩展耶鲁B人脸数据库和CMU PIEface数据库的实验结果表明,与其他照明归一化方法和基于CNN的深度照明变异人脸识别方法相比,该方法对照明变化更具鲁棒性,并获得更高的识别精度。
translated by 谷歌翻译
面部地标定位是众多面部相关应用中非常关键的一步,例如面部识别,面部姿势估计,面部图像合成等。然而,之前的面部地标定位竞赛(即300-W,300-VW和Menpo挑战)旨在预测68点地标,这些地标无法描述面部构件的结构。为了克服这个问题,我们构建了一个具有挑战性的数据集,名为J-landmark。每个图像都用106点地标手动注释。这个数据集涵盖了姿势和表情的大变化,这给预测准确的地标带来了很多困难。我们与IEEE国际多媒体和博览会(ICME)2019一起在该数据集上举办了一场106点的面部地标定位竞赛1。本次比赛的目的是发现有效而强大的面部地标定位方法。
translated by 谷歌翻译
本文提出了一种基于类标签文本信息的音频分类零镜头学习方法,没有任何来自目标类的音频样本。我们提出了一种基于双线性模型的音频分类系统,该系统将音频特征嵌入和语义类labelembeddings作为输入,并测量音频特征嵌入和类标签嵌入之间的兼容性。我们使用VGGish从录音中提取音频特征嵌入。我们将文本标签视为音频类的语义侧信息,并使用Word2Vec生成类labelembeddings。 ESC-50数据集上的结果表明,所提出的系统可以用小训练数据集进行零射击音频分类。它可以比eachaudio类别的随机猜测(10%)更准确(平均26%)。特别是,自然音频课程的类别达到39.7%。
translated by 谷歌翻译
本文的目的是对来自视频的特征嵌入进行自我监督学习,适用于对应流,即匹配视频上帧之间的对应关系。我们利用视频中外观的自然时空连贯性来创建“指针”模型,该模型通过复制参考帧中的颜色来学习重构目标帧。我们做出了三个贡献:首先,我们引入了一个简单的信息瓶颈,它强制模型学习对应匹配的强大功能,并避免它学习琐碎的解决方案,例如:基于低级颜色信息的匹配。其次,我们建议在视频中通过长时间窗口训练模型。为了使模型对复杂的物体变形,遮挡,即跟踪器漂移的问题更加鲁棒,我们制定了递归模型,用预定的采样和循环一致性进行训练。第三,我们通过首先使用自我监督学习训练动力学数据集来评估该方法,然后直接应用于DAVIS视频分割和JHMDB关键点跟踪。在这两项任务中,我们的方法已经实现了最先进的性能,尤其是在分割方面,我们以前所未有的方式表现出所有以前的方法。
translated by 谷歌翻译
最佳传输(OT)自然地出现在许多机器学习应用中,但是繁重的计算负担限制了其广泛使用。为了解决可扩展性问题,我们提出了一种隐含的基于生成学习的框架,称为SPOT(OptimalTransport的可扩展推进)。具体而言,我们通过参考分布的推进来近似最优运输计划,并将最优运输问题转化为极小极大问题。然后,我们可以使用主要的随机梯度型算法有效地解决OT问题。我们还表明,我们可以使用神经普通微分方程来恢复最优运输计划的密度。合成数据集和真实数据集的数值实验表明,SPOT具有鲁棒性,具有良好的收敛性。 SPOT还允许从最佳传输计划中有效地进行采样,这有利于域适应等下游应用。
translated by 谷歌翻译
尽管取得了成功,深度学习仍然需要大量标记数据集。数据增加在减轻对标记数据的需求方面显示出很大的希望,但到目前为止,它主要应用于监督环境并获得有限的收益。在这项工作中,我们建议在半监督学习环境中将数据增加应用于未标记数据。我们的方法,名为非监督数据增强或UDA,鼓励模型预测在未标记的示例和增强的未标记示例之间保持一致。与以前使用随机噪声的方法(如高斯噪声或dropoutnoise)不同,UDA有一个小的转折,因为它使用由最先进的数据增强方法产生的更难和更现实的噪音。当标记集非常小时,这种小的扭曲导致六种语言任务和三种视觉任务的显着改进。例如,在IMDb文本分类数据集中,只有20个标记示例,UDA优于在25,000个标记示例上训练的最新模型。在标准的半监督学习基准测试中,CIFAR-10有4,000个示例,SVHN有1000个例子,UDA优于以前的所有方法,并且降低了超过30美元的现有方法错误率:从7.66开始分别为%至5.27%和3.53%至2.46%。 UDA也适用于具有大量标记数据的数据集。例如,在ImageNet上,使用1.3M超标记数据,与AutoAugment相比,UDA将前1 /前5精度从78.28 / 94.36%提高到79.04 / 94.45%。
translated by 谷歌翻译