本文介绍了一种新的统一预训练语言模型(UniLM),可以对自然语言理解和生成任务进行微调。该模型使用三种类型的语言建模目标进行预训练:单向(从左到右和从右到左),双向和序列到序列预测。通过使用共享的变压器网络并利用特定的自注意掩模来控制预测条件的上下文来实现统一建模。我们可以将UniLM微调为单向解码器,双向编码器或序列到序列模型,以支持各种下游自然语言理解和生成任务。 UniLM在GLUE基准测试和SQuAD 2.0和CoQA问题回答任务方面优于BERT。此外,我们的模型在三个自然语言生成任务上实现了最新的结果,包括将CNN / DailyMail抽象概括ROUGE-L提高到40.63(2.16绝对改进),推动CoQA生成问题回答F1得分为82.5(绝对值37.1)改进)和SQUAD问题代BLEU-4到22.88(6.50绝对改进)。
translated by 谷歌翻译
复杂的社会系统由相互关联的个体组成,其相互作用导致群体行为。对现实世界复杂系统的最佳控制有许多应用,包括道路交通管理,流行病预防和信息传播。然而,由于高维和非线性系统动力学以及决策者的爆炸状态和动作空间,这种现实世界的复杂系统控制很难实现。现有方法可分为两类:基于模拟的方法和分析方法。现有的模拟方法在蒙特卡罗积分中具有高度方差,并且分析方法受到建模不准确性的影响。我们采用仿真建模来指定复杂系统的复杂动力学,并开发了具有高维状态动作空间的复杂网络中的最优策略的分析解决方案。为了捕捉复杂的系统动力学,我们将复杂的社会网络决策问题制定为离散事件决策过程。为了解决维度的诅咒和在复杂系统中的高维状态动作空间中的搜索,我们将复杂系统的控制减少到变分推理和参数学习,引入了Bethe entropyapproximation,并开发了期望传播算法。与现有的分析和采样方法相比,我们提出的算法在现实世界的运输方案中导致更高的系统预期回报,更快的收敛和更低的价值函数方差。
translated by 谷歌翻译
信号退化无处不在,并且已经研究了降解信号的计算恢复多年。最近,据报道,信号恢复的能力基本上受到感知 - 失真折衷的限制,即,恢复信号和理想“原始”信号之间的失真和感知差异不能同时最小化。失真对应于信号保真度,感知差异对应于感知自然,这两者在实践中都是重要的指标。此外,还有另一个值得考虑的方面,即恢复信号的语义质量或识别用途的效用。在本文中,我们将先前的感知 - 失真权衡扩展到分类 - 失真 - 感知(CDP)权衡的情况,其中我们引入了恢复信号的分类错误率以及失真和感知差异。考虑两种版本的CDP权衡,一种是使用预定义的分类器,另一种是处理恢复信号的最佳分类器。对于这两个版本,我们可以严格证明CDP权衡的存在,即失真,感知差异和分类错误率不能同时做到最小。我们的研究结果特别适用于计算机视觉研究,其中一些低级视觉任务(信号恢复)用于高级视觉任务(视觉理解)。
translated by 谷歌翻译
图像消光通常被建模为从颜色空间到α空间的空间变换。通过估计模型的α因子,可以提取图像的前景。但是,在alpha空间中存在一些维度信息冗余。它通常导致前景和背景之间边界附近的某些像素的错误判断。在本文中,提出了一种称为Patch Alignment Manifold Matting的歧管消光框架用于图像消光。特别地,我们首先提出局部图像块中颜色空间的部分建模。然后,我们使用子空间重构语义执行整个对齐优化以近似α结果。此外,我们利用Nesterov算法来解决优化问题。最后,我们在框架中应用了一些流形学习方法,并获得了几种图像匹配方法,如命名为ISOMAP matting及其衍生的Cascade ISOMAP matting。实验结果表明,与几种有代表性的消光方法相比,该流形消光框架及其两个实例是有效的。
translated by 谷歌翻译
Autonomous navigation is an essential capability of smart mobility for mobile robots. Traditional methods require the environment map to plan a collision-free path in workspace. Deep reinforcement learning (DRL) is a promising technique to realize the autonomous navigation task without a map, with which deep neural network can fit the mapping from observation to reasonable action through explorations. It should not only memorize the trained target, but more importantly, the planner can reason out the path to unseen goal. We proposed a new motion planner based on deep reinforcement learning that can arrive at new targets that have not been trained before in the indoor environment with RGB image and odometry only. The model has a structure of stacked Long Short-Term memory (LSTM). Finally, experiments were implemented in both simulated and real environments. The source code is available: https://github.com/marooncn/navbot.
translated by 谷歌翻译
高分辨率表示学习在许多视觉问题中起着重要作用,例如姿势估计和语义分割。最近开发用于人工估计的高分辨率网络(HRNet)〜\ _引用{SunXLW19}通过在\ emph {parallel}中连接高到低分辨率的卷积来维持整个过程的高分辨率表示,并产生强大的高分辨率表示通过反复进行平行卷积的融合。在本文中,我们通过引入简单而有效的修改对高分辨率表示进行了进一步的研究,并将其应用于广泛的视觉任务。我们通过聚合来自所有并行卷积的(上采样的)表示来增强高分辨率表示,而不是仅仅是高分辨率卷积中的表示,如在{SunXLW19}中所做的那样。这种简单的修改可以产生更强的表现形式,并且可以通过卓越的结我们展示了在城市景观,LIP和PASCAL背景下的语义分割以及AFLW,COFW,$ 300 $ W和WFLW的面部地标检测的最佳结果。此外,我们从高分辨率表示构建多级表示,并将其应用于更快的R-CNN对象检测框架和扩展框架。所提出的方法在现有的COCO对象检测单模型网络上取得了优异的成果。代码和模型已在\ url {https://github.com/HRNet}上公开。
translated by 谷歌翻译
由于深度卷积神经网络(CNN)的巨大改进,近年来人脸识别取得了显着进展。然而,deepCNN很容易受到对抗性的例子的影响,这些例子可能会在具有安全敏感性目的的真实世界人脸识别应用程序中造成致命的后果。对抗性攻击被广泛研究,因为它们可以在部署之前识别模型的脆弱性。在本文中,我们评估了基于决策的黑盒攻击设置中最先进的人脸识别模型的稳健性,其中攻击者无法访问模型参数和梯度,但只能通过发送查询来获取硬标签预测到目标模型。这种攻击设置在现实世界的人脸识别系统中更为实用。为了提高上述方法的效率,我们提出了一种进化攻击算法,该算法可以对搜索方向的局部几何进行建模,并减小这些空间的维数。大量实验证明了所提出的方法的有效性,该方法通过较少的查询引起对输入面部图像的最小扰动。我们还应用所提出的方法成功地攻击真实世界的人脸识别系统。
translated by 谷歌翻译
学习系统通常很难在训练数据中从未发生的罕见事件上正确预测,并且没有例外的错误算法。同时,由于数据规模大,人力资源有限,人工检查每个案例以定位故障变得不可行。因此,我们建立一个警报系统,当分割结果可能不令人满意时设置非法,假设提供了相应的地面实况掩码。一种合理的解决方案是将分割结果拓展到低维特征空间;然后学习分类器/回归器来预测它们的质量。受此启发,在本文中,我们使用形状信息来学习一个特征空间,该形状信息在不同数据集之间共享,并且对输入数据的外观变化具有鲁棒性。使用经过训练的VariationalAuto-Encoder(VAE)网络捕获形状特征。只有地面实况掩模。在测试过程中,形状不好的分割结果不符合先前的形状,导致损耗值大。因此,VAE能够在不使用地面真值的情况下评估未见数据的分割结果的质量。最后,我们在一维特征空间中学习回归量来预测分割结果的质量。我们的报警系统是根据最新的3D医疗分割任务的最新分割算法进行评估的。与其他标准质量评估方法相比,我们的系统始终提供更可靠的分段结果质量预测。
translated by 谷歌翻译
RGB图像与深度图像区分开来,因为它们携带有关颜色和纹理信息的更多细节,这可以用作深度的重要补充,以提高3D语义场景完成(SSC)的性能。 SSC由3D形状完成(SC)和语义标记组成,而大多数现有方法使用深度作为唯一输入,这导致性能瓶颈。此外,最先进的方法使用具有繁琐网络和巨大参数的3D CNN。我们为三维密集预测任务引入了轻量级分解残差网络(DDR)。新型分解卷积层对于减少网络参数是有效的,所提出的深度和彩色图像的多尺度融合机制可以同时提高完成和分割准确性。我们的方法在twopublic数据集上表现出优异的性能。与最新的方法SSCNet相比,我们在SC-IoU中获得了5.9%的增益,在SSC-IOU中获得了5.7%的增益,尽管与SSCNet相比,网络参数仅为21%,FLOP采用率为16.6%。
translated by 谷歌翻译
这是用于人体姿势估计的深度高分辨率表示学习的官方pytorch实现。在这项工作中,我们对人体姿势估计问题感兴趣,重点是学习可靠的高分辨率表示。大多数现有方法从高分辨率网络产生的低分辨率表示中恢复高分辨率表示。相反,我们提出的网络在整个过程中保持高分辨率的表示。我们从高分辨率子网开始作为第一阶段,逐一逐步添加高到低分辨率子网以形成更多阶段,并且并行地连接它们的分辨率子网。我们进行重复的多尺度融合,使得从高到低分辨率的表示中的每一个一遍又一遍地从其他平行表示接收信息,从而导致丰富的高分辨率表示。结果,预测的关键点热图可能更准确并且在空间上更精确。我们通过两个基准数据集的优越姿态估计结果,经验证明了我们网络的有效性:COCO关键点检测数据集和MPII人体姿势数据集。代码和模型已在\ url {https://github.com/leoxiaobin/deep-high-resolution-net.pytorch}公开发布。
translated by 谷歌翻译