最近,人们越来越关注多变量高斯过程(MGP),它扩展了高斯过程(GP)以处理多个输出。构建MGP并在输出之间考虑非平凡的共同性的一种方法采用卷积过程(CP)。 CP基于在多个卷积中共享潜在功能的想法。尽管CP结构的优雅,但它提供了尚未解决的新挑战。首先,即使具有适度数量的输出,由于计算命令和要估计的参数数量的大量增加,模型构建极其令人望而却步。其次,当某些产出不具有共性时,可能会出现负面的知识转移。在本文中,我们将解决这些问题。我们提出了使用CP建立的MGP的正则化成对建模方法。我们的方法的关键特征是将完整多变量模型的估计分配到一组单独构建的双变量GP中。有趣的是,成对建模具有独特的特征,这使我们能够通过惩罚促进每个双变量模型中信息共享的潜在功能来应对负转移的挑战。然后通过组合贝叶斯框架内的双变量模型的预测来进行预测。当输出数量很大时,所提出的方法具有极好的可扩展性,并且最小化了相关输出之间的知识的负向转移。对所提方法的统计保证进行了研究,并通过数值研究证明了其有利特征。
translated by 谷歌翻译
端到端模型已经在自动语音识别(ASR)中显示出优势。与此同时,流媒体识别的能力已成为端到端模型不断增长的需求。根据这些趋势,编码器 - 解码器递归神经网络称为递归神经对准器(RNA)已被新提出,并显示其在两个英语ASRtasks上的竞争力。然而,目前尚不清楚RNA是否可以进一步改进并应用于其他口语。在这项工作中,我们探讨了RNA在汉语中的适用性并提出了四种有效的扩展:在编码器中,设计了时间下采样并引入了强大的卷积结构。在解码器中,我们利用正则化器来平滑输出分布并使用语言模型进行联合训练。在两个MandarinChinese会话电话语音识别(MTS)数据集上,我们的扩展RNA获得了很好的表现。特别是它实现了27.7%的字符错误率(CER),这优于当前最受欢迎的HKUST任务的结果。
translated by 谷歌翻译
我们通过视觉观察和语言输入共同推理,研究学习遵循自然语言指令的任务。与从示范学习(LfD)开始然后使用强化学习(RL)来微调模型参数的现有方法相比,我们提出了一种新的策略优化算法,其动态地调度演示学习和RL。所提出的训练范式提供了超越现有方法的有效探索和更好的泛化。与现有的集合模型相比,基于我们提出的方法的最佳单一模型极大地减少了对ablock-world环境的执行误差超过50%。为了进一步说明我们的RL算法的探索策略,我们还对训练期间政策熵的演变进行了系统研究。
translated by 谷歌翻译
我们提出了两种算法,它们可以在有限和一般随机非凸优化中比最先进的算法更快地找到局部最小值。所提出的算法的核心是$ \ text {One-epoch-SNVRG} ^ + $使用随机嵌套方差减少(Zhou etal。,2018a),其优于最先进的方差约简算法,如SCSG( Lei等,2017)。特别是,对于有限求和优化问题,建议的$ \ text {SNVRG} ^ {+} + \ text {Neon2} ^ {\ text {finite}} $算法达到$ \ tilde {O}(n ^ {1 / 2} \ epsilon ^ { - 2} + n \ epsilon_H ^ { - 3} + n ^ {3/4} \ epsilon_H ^ { - 7/2})$梯度复杂度收敛到$(\ epsilon,\ epsilon_H) )$ - second-ordertationary point,胜过$ \ text {SVRG} + \ text {Neon2} ^ {\ text {finite}} $(Allen-Zhu and Li,2017),这是现有的最佳算法,在广泛的范围内。对于一般随机优化问题,建议$ \ text {SNVRG} ^ {+} + \ text {Neon2} ^ {\ text {online}} $达到$ \ tilde {O}(\ epsilon ^ { - 3} + \ epsilon_H ^ { - 5} + \ epsilon ^ { - 2} \ epsilon_H ^ { - 3})$梯度复杂度,优于$ \ text {SVRG} + \ text {Neon2} ^ {\ text {online}}在某些制度下,$(Allen-Zhu和Li,2017)和Natasha2(Allen-Zhu,2017)。此外,我们探讨了目标函数的三阶平滑带来的加速度。
translated by 谷歌翻译
机器学习的预测风险评分可以为高风险的决策提供信息,例如刑事司法中的保释和判刑,公平性是一个严重的问题。最近的工作描述了这些风险核心在用于二元分类任务时可能具有的不同影响,并提供了用于审计和调整结果分类器的工具。然而,这可能无法解释风险评分的更多样化的下游用途及其非二元性质。 Tobetter解释了这一点,在本文中,我们从二分排名任务的角度研究预测风险分数的公平性,其中一个人试图将正例高于负数。我们引入xAUC差异作为评估风险核心的不同影响的度量,并将其定义为将来自一个受保护组的一个randcompositive示例从一个受保护组与另一个组之间进行排序的可能性的差异,反之亦然。我们提供了分解二元排名损失的组件,这些组件涉及每个组内涉及纯预测能力的差异和组件。我们进一步解释了xAUC在资源分配公平性方面的差异,并与现有的公平性指标和调整相关联。我们在累犯预测,收入预测和心脏骤停预测中对数据集进行了实际评估,其中描述了仅通过比较组内预测性能而不明显的差异。
translated by 谷歌翻译
Two new stochastic variance-reduced algorithms named SARAH and SPIDER have been recently proposed, and SPIDER has been shown to achieve a near-optimal gradient oracle complexity for non-convex optimization. However, the theoretical advantage of SPIDER does not lead to substantial improvement of practical performance over SVRG. To address this issue, momentum technique can be a good candidate to improve the performance of SPIDER. However, existing momentum schemes used in variance-reduced algorithms are designed specifically for convex optimization, and are not applicable to nonconvex scenarios. In this paper, we develop novel momentum schemes with flexible coefficient settings to accelerate SPIDER for nonconvex and nonsmooth composite optimization , and show that the resulting algorithms achieve the near-optimal gradient oracle complexity for achieving a generalized first-order stationary condition. Furthermore, we generalize our algorithm to online nonconvex and nonsmooth optimization, and establish an oracle complexity result that matches the state-of-the-art. Our extensive experiments demonstrate the superior performance of our proposed algorithm over other stochastic variance-reduced algorithms.
translated by 谷歌翻译
在凸和非凸设置中已经广泛研究了平滑有限和优化。然而,有限和优化的现有下界主要限于每个分量函数(强)凸的设置,而非凸有限和优化的下界仍然大不相同。在本文中,我们研究了平滑非凸总和优化的下界,其中目标函数是$ n $ nonconvex组件函数的平均值。对于目标函数(或每个分量函数)的Hessian的最小特征值的广泛区域,我们证明了在不同设置中找到$ \ epsilon $ -suboptimal点和$ \ epsilon $ -approximate静止点的复杂性的紧密下界。鉴于我们的下限,我们可以证明现有算法包括KatyushaX(Allen-Zhu,2018),Natasha(Allen-Zhu,2017),RapGrad(Lan和Yang,2018)和StagewiseKatyusha(Chen和Yang,2018)已经实现了最优增量第一 - 订购Oracle(IFO)复杂度(即IFO调用的数量),达到非凸有限和优化的对数因子。我们还指出了进一步改善这些复杂性结果的潜在方法,包括制定强度假设或通过不同的收敛分析。
translated by 谷歌翻译
在本文中,我们提出了JPEG图像中的无损数据隐藏方案。在经过量化的DCT变换之后,系数具有在高频分布相对稀疏且绝对值小的特性。为了提高编码效率,我们提出了一种编码算法,该搜索算法搜索高频作为终止点并重新编码上述系数,保留sospare空间以嵌入秘密数据和附加数据而不进行文件扩展。接收方可以通过数据分析获取终止点,提取附加数据并恢复原始JPEG图像无损。实验结果表明,该方法具有比现有技术更大的容量。
translated by 谷歌翻译
通过深度神经网络从单视图或多视图RGB图像中恢复对象的3D表示在过去的几年中引起了越来越多的关注。几个主流作品(例如,3D-R2N2)使用递归神经网络(RNN)来融合从输入图像中顺序提取的多个特征图。然而,当给出具有不同订单的相同输入图像集时,基于RNN的方法不能产生一致的重建结果。此外,由于长期记忆丧失,RNN无法完全利用输入图像来改善重建结果。为了解决这些问题,我们提出了一种新的单视图和多视图三维重建框架,命名为Pix2Vox。通过使用精心设计的编码器 - 解码器,它可以从每个输入图像生成粗三维体积。然后,引入上下文感知融合模块以自适应地从不同的粗3D体积中为每个部分(例如,桌腿)选择高质量的重建以获得融合的3D体积。最后,精炼机进一步细化融合的3D体积以产生最终输出。在ShapeNet和Pascal 3D +基准测试中的实验结果表明,所提出的Pix2Vox在大数据上优于现有技术水平。此外,所提出的方法比后向推断时间的3D-R2N2中间快24倍。在ShapeNet看不见的3D类别上的实验已经展示了我们方法的优越的泛化能力。
translated by 谷歌翻译
由于不同类型的大脑异常,在磁共振图像(MRI)中准确分割脑组织是一项艰巨的任务。本文研究了变形方法,重点是微分同胚的构造,明确地解决了运动域变形问题的新形式,并将其应用于自然图像,人脸图像和MRI脑图像。我们使用一种新方法通过完全不同的方法构造微分同胚。这个想法是直接控制雅可比行列式和变换的卷积,并将它们用作具有其他模态的一个CNN通道(T1加权,T1-IR和T2-FLAIR),以获得更准确的脑分割结果。更重要的是,我们通过数值实验和理论分析讨论了一些优化参数对MRI脑分割精确分析的影响。我们在基于VoxResNet的IBSRdataset和MRBrainS18数据集上测试了该方法,并证明了三个参数对MRI脑分割准确性的影响。最后,我们还比较了我们的方法在两个网络中的分割性能,即VoxResNet和3D U-Net网络。我们相信所提出的方法可以提高大脑分割和临床诊断的性能。
translated by 谷歌翻译