对于真实世界的语音识别应用,噪声稳健性仍然是一个挑战。在这项工作中,我们采用师生(T / S)学习技术,使用并行干净和嘈杂的语料库来改善多媒体噪声下的自动语音识别(ASR)性能。最重要的是,我们应用logits选择方法,该方法仅保留k个最高值,以防止教师错误地强调知识并减少传输数据所需的带宽。我们整合了长达8000小时的未转录数据,并且除了受过交叉熵训练的模型之外,还在序列训练模型上呈现我们的结果。与训练有序的教师相比,最佳序列训练的学生模型分别对我们的清洁,模拟噪声和真实测试集产生约10.1%,28.7%和19.6%的相关误差率(WER)减少。
translated by 谷歌翻译
我们通过$ \ ell_1 $ -minimization研究从一组信号中全局恢复字典的问题。我们假设信号是asi.i.d生成的。来自完整参考字典$ D ^ * \ in \ mathbb R ^ {K \ times K} $的$ K $原子的随机线性组合,其中线性组合系数来自伯努利型模型或精确稀疏模型。首先,我们获得必要且充分的规范条件,引用的字典$ D ^ * $是预期的$ \ ell_1 $目标函数的一个尖锐的局部最小值。我们的结果大大扩展了Wu和Yu(2015)的结果,并允许组合系数是非负的。其次,我们在所引用的字典的目标值最小的区域上获得显式绑定。第三,我们证明了参考字典是唯一的尖锐局部最小值,从而建立了第一个已知的$ \ ell_1 $ -minimization字典学习的全局属性。在理论结果的推动下,我们引入了基于扰动的测试来确定adictionary是否是目标函数的尖锐局部最小值。此外,我们还提出了一种新的基于Block CoordinateDescent的字典学习算法,称为DL-BCD,保证具有单调收敛性。模拟研究表明DL-BCD在恢复率方面具有竞争性,与许多状态相比。 -art字典学习算法。
translated by 谷歌翻译
车辆重新识别是一个重要的问题,随着视频监控和智能传输应用的快速扩展而变得可取。通过回顾人类视觉的识别过程,我们发现当人类识别不同的车辆时存在本地的等级依赖性。具体地,人类总是首先确定一个车辆的粗粒度类别,即汽车模型/类型。然后,在预测的汽车模型/类型的分支下,他们将通过细微的视觉线索(例如,定制的绘画和挡风玻璃)在细粒度水平上识别特定的车辆。受粗到细分层过程的启发,我们提出了一种用于车辆重新识别的端到端基于RNN的分层注意(RNN-HA)分类模型。 RNN-HA由三个相互耦合的模块组成:第一个模块生成车辆图像的图像表示,第二个层次模块模拟上述层级依赖关系,最后一个注意模块侧重于捕获特定车辆彼此之间的细微视觉信息识别。通过对两个车辆重新识别基准数据集VeRi和VehicleID进行全面的实验,我们证明了所提出的模型实现了超越现有技术的卓越性能。
translated by 谷歌翻译
仅从原始样本到相应的二进制标签学习一个投影矩阵太严格,并且因此会丢失一些数据的固有几何结构。在本文中,我们提出了一种新的基于过渡子空间学习的最小二乘回归(TSL-LSR)模型形式分类图像分类。 TSL-LSR的主要思想是学习原始样本和二进制标签之间的过渡子空间,以缓解严格投影学习引起的过度拟合问题。此外,为了反映转移矩阵的基础低秩结构并且学习更多判别性投影矩阵,在转移子空间中增加了低秩约束。几个图像数据集的实验结果证明了所提出的TSL-LSR模型与最先进的算法相比的有效性
translated by 谷歌翻译
在本文中,我们专注于面部表情翻译任务,并提出一个新的表达式条件GAN(ECGAN),它可以学习基于一个额外的表达属性从一个图像域到另一个图像域的映射。所提出的ECGAN是通用框架,并且适用于不同的表达生成任务,其中特定的面部表情可以通过条件属性标签容易地控制。此外,我们还介绍了一种新颖的面膜,以减少背景变化的影响。此外,我们提出了在野外进行面部表情生成和识别的整个框架,其包括两个模块,即生成和识别。最后,我们在几个公共面部数据集上评估我们的框架,其中主体具有不同的种族,光照,遮挡,姿势,颜色,内容和背景条件。尽管这些数据集非常多样化,但定性和定量结果都表明我们的方法能够准确,稳健地生成面部表达。
translated by 谷歌翻译
将对象解构为内容和风格的两个正交空间是具有挑战性的,因为每个对象可以不同地且不可预测地影响视觉观察。很少有人可以访问分离影响的大量数据帮助。在本文中,我们提出了一种新的框架,以完全无监督的方式容忍这种解缠结的表示。在双分支Autoencoder框架中解决此问题。对于结构内容分支,我们将潜在因子投影到一个软结构化的点对象中,并用先验知识得到的损失约束它。此约束鼓励分支提取几何信息。 Anotherbranch学习补充风格信息。这两个分支形成了一个有效的框架,可以解开对象的内容风格表示,而不需要任何人类注释。我们在四个图像数据集上评估我们的方法,在这些数据集上我们展示了合成和现实世界数据中的优越解开和视觉类比质量。我们能够生成具有256 * 256分辨率的非常逼真的图像,这些图像明显地解开了不确定和风格。
translated by 谷歌翻译
多视图子空间聚类旨在根据其基础子空间结构将一组多源数据划分为多个组。尽管基于光谱聚类的方法在多视图聚类中实现了推广,但是它们的效用受到隔离​​亲和矩阵构造和聚类指示符估计的单独学习方式的限制。在本文中,我们建议在统一模型中共同学习自我表征,继续和离散集群指标。我们的模型可以探索每个视图的子空间结构并融合它们以便同时进行聚类。两个基准数据集的实验结果表明,我们的方法优于其他现有的竞争性多视图聚类方法。
translated by 谷歌翻译
机器人装配代表了一组用于执行学习和变量合规控制的基准问题,其具有复杂的接触操纵。将强化学习应用于物理机器人的关键挑战之一是样本的复杂性,需要大量的学习经验。我们通过模型引导探索将迭代重构模型纳入学习过程,从而缓解了这个样本复杂性问题。然而,拟合物理环境的局部模型是一个主要困难。在这项工作中,aKalman滤波器用于将自适应线性动力学与来自分析描述的粗糙模型相结合,并证明比现有方法提供更准确的预测。实验结果表明,所提出的模型拟合策略可以结合到模型预测控制器中,为学习加速产生良好的探索行为,同时保留不确定环境下无模型强化学习的优势。除了样本复杂性之外,在操作期间不可避免的机器人过载也会限制学习效率。为了解决这个问题,我们提出了一种方法来限制合规控制系统中最大可能的潜在能量,从而将接触力保持在合理范围内。
translated by 谷歌翻译
无监督域适应(UDA)解决了由于训练和测试集之间的域转换而导致的性能退化问题,这在计算机视觉应用中是常见的。大多数现有的UDA方法都是基于矢量形式的数据,尽管可视化应用中的典型数据或特征格式是多维张量。此外,目前的方法,包括深度网络方法,假设提供了丰富的标记源样本用于训练。然而,由于在实践中昂贵的注释成本,标记的源样本的数量总是有限的,使得观察到次优性能。在本文中,我们建议通过学习张量空间中的结构化字典来寻求多维数据的判别表示。字典分离特定于域的信息和特定于类的信息,以保证对域的鲁棒性。此外,开发了一种伪标签估计方案,在算法迭代中结合了判别分析,避免了外部分类器的设计。我们在具有有限源样本的不同数据集上执行广泛的结果。实验结果表明,所提出的方法优于最先进的方法。
translated by 谷歌翻译
选择性估计长期以来用于密度估计的统计工具。为了捕获关系表的丰富多变量分布,我们建议使用一种新型的高容量统计模型:深度似然模型。然而,这些模型的直接应用导致有限的估计器,其对于范围和通配符谓词的评估来说过于昂贵。为了制作真正可用的估算器,我们在可能性模型之上开发了蒙特卡罗集成方案,该方案可以使用数十个或更多过滤器来有效地处理范围查询。像经典概要一样,我们的估算器在没有监督的情况下总结了数据。与以前的解决方案不同,我们的估算器近似于联合数据分布,没有任何独立性假设。当在真实世界数据集上进行评估并与实际系统和主要技术家族进行比较时,我们的基于似然模型的估计器在尾部实现了单位数乘法误差,比第二种最佳方法提高了40-200 $ \次精度,并且是空间和运行时间效率高达。
translated by 谷歌翻译