语义分割需要大量像素方式的注释,以容许准确的模型。在本文中,我们提出了一种基于视频预测的方法,通过综合新的训练样本来扩展训练集,以提高语义分割网络的准确性。我们利用视频预测模型预测未来帧的能力,以便预测未来的标签。还提出了联合传播策略以减少合成样品中的错误比对。我们证明了由合成样本增加的数据集上的训练分割模型导致准确性的显着改善。此外,我们引入了一种新颖的边界标签松弛技术,该技术使得对沿着对象边界的注释噪声和传播伪像具有鲁棒性。我们提出的方法在Cityscapes上实现了83.5%的最新技术,在CamVid上实现了82.9%。没有模型合奏的单一模型在KITTI语义分割测试集上达到了72.8%mIoU,超过了ROBchallenge 2018的获奖作品。我们的代码和视频可以在以下网址找到://nv-adlr.github.io/publication/2018 -分割。
translated by 谷歌翻译
在本文中,我们提出了一种简单而有效的填充方案,可用作现有卷积神经网络的插入模块。我们称之为基于部分卷积的填充,直觉可以将填充区域视为空洞,将原始输入视为非空洞。具体地,在卷积操作期间,基于填充区域和卷积窗口区域之间的比率,对卷积结果重新加权近图像边界。利用各种深度网络模型对ImageNet分类和语义分割进行的广泛实验表明,所提出的填充方案始终优于标准零填充,具有更高的准确性。
translated by 谷歌翻译
在可能发生在世界任何地方的人道主义援助 - 灾难救济(HADR)危机的过程中,实时信息通常由需要帮助的人员在线提供,反过来,这些信息可以由参与管理的不同利益相关者使用。危机自动处理这些职位可以大大提高这些工作的效率;例如,了解受影响人群特定区域的总体情绪可能有助于决策者了解如何最有效地分配资源以实现有效的灾难响应。但是,这些努力可能会受到当地语言资源可用性的严重限制。 DARPA项目针对紧急事件的低资源语言(LORELEI)旨在在这种人道主义危机背景下为低资源语言推进语言处理技术。在这项工作中,我们描述了LORELEI项目2019年情绪,情绪和认知状态(SEC)试点任务的提交。我们描述了我们提交中包含的情绪分析系统的集合以及提取的特征。我们的fieldingsystems在SEC试点任务的英语和西班牙语评估中取得了最好的成绩。
translated by 谷歌翻译
在本文中,我们介绍了我们的方法和SemEval的子任务A的系统描述2019任务9:在线评论和论坛的建议挖掘。给出一个句子,任务要求预测句子是否包括提示。我们的模型基于通用语言模型微调文本分类。我们在训练语言和分类模型之前应用各种预处理技术。我们进一步提供了使用训练模型获得的结果的详细分析。我们的团队在34名参赛者中排名第10,获得了0.7011的F1分数。我们在https://github.com/isarth/SemEval9_MIDAS上公开分享实施情况
translated by 谷歌翻译
从诸如Instagram帖子之类的多模态数据计算作者意图需要建模文本和图像之间的复杂关系。例如,一个标题可以讽刺地反映在图像上,因此标题和图像都不是另一个的转录本。相反,他们结合 - 通过所谓的乘法 - 来创造一种新的意义,与文本和图像的字面意义有更复杂的关系。在这里,我们介绍1299 Instagram帖子的多模态数据集,标记为三个正交分析:图​​像标题对背后的作者意图,图像和标题的字面意义之间的语境关系,以及图像和标题的表示意义之间的这些关系。构建一个基线深度多模式分类器来验证分类法,表明与仅使用图像模态相比,同时使用文本和图像可以将意图检测提高8%,从而证明了非交叉意义乘法的共性。我们的数据集为研究文本和图像配对带来的丰富意义提供了重要资源。
translated by 谷歌翻译
在本文中,我们介绍了我们的方法和SemEval 2019的子任务A和子任务B的系统描述任务6:识别和分类社交媒体中的攻击性语言。子任务A涉及识别给定的推文是否具有攻击性,而子任务B涉及检测攻击性推文是否针对某人(组或个人)。我们的子任务A模型基于卷积神经网络,双向LSTM机器人和双向LSTM +双向GRU的集合,而对于子任务B,我们依赖于从训练数据和手动观察得到的一组启发式算法。我们提供了使用训练模型获得的结果的详细分析。我们的团队在子任务A的103名参与者中排名第5,获得了0.807的宏观F1评分,并且在子任务B的75名参与者中排名第8,实现了0.695的宏观F1。
translated by 谷歌翻译
在许多情况下,智能代理可能想要学习如何模仿单个观察到的轨迹。在这项工作中,我们考虑如何从观察中进行这样的过程学习,这有助于使代理人能够更好地使用观察序列上的大量视频数据。 Ourapproach利用此设置的属性逐步构建可以产生所需子序列的openloop行动计划,并且可以在Markov和部分可观察的Markov域中使用。此外,程序通常涉及重复的扩展时间动作子序列。我们的方法在理论上探索了在程序中利用潜在重复结构的行动。与一些最先进的方法相比,我们发现从观察方法中明确的程序性学习大约是基于政策梯度的方法的100倍,这种方法学习随机策略并且比基于模型的方法更快。我们还发现,当存在潜在的动力学结构时,执行乐观动作选择会产生显着的加速。
translated by 谷歌翻译
我们提出了可视化查询检测(VQD),一种新的可视化接地任务。在VQD中,系统由自然语言引导,以在图像中本地化\ emph {variable}个对象。 VQD与视觉引用表达式识别有关,其中任务是仅定位\ emph {one}对象。我们描述了VQD的第一个数据集,我们提出了基准算法,证明了与引用表达式识别相比较的任务难度。
translated by 谷歌翻译
我们通过使用来自图像标题对的弱监视来解决将自由格式文本短语接地的问题。我们提出了一种新颖的端到端模型,它将字幕到图像检索作为“下游”任务来指导词语本地化过程。作为第一步,我们的方法推断标题中的感兴趣区域(RoI)和短语之间的潜在对应,并使用这些匹配的RoI创建辨别图像表示。在随后的步骤中,这个(学习的)表示与标题一致。我们的关键贡献在于构建这种“字幕条件”图像编码,它紧密地耦合两个任务并允许弱监督有效地指导视觉基础。我们提供了广泛的经验和定性分析,以研究我们提出的模型的不同组成部分,并将其与竞争基线进行比较。对于短语本地化而言,相对于VisualGenome数据集的先前技术水平,改进了4.9%(绝对值)。我们还报告了与COCO和Flickr30k数据集上下游字幕到图像检索任务的最新技术相关的结果。
translated by 谷歌翻译
我们研究了具有对抗性扰动的线性动力系统的控制(与统计噪声相反)。我们考虑的目标是遗憾:我们希望在线控制程序几乎可以完成与完全了解后方干扰相关的程序。我们的主要结果是一个有效的算法,为这个问题提供了近乎严格的限制。从技术角度来看,这项工作在以前的工作中主要集中在两个主要方面:我们的模型允许动力学中的有源噪声,并允许一般的凸成本。
translated by 谷歌翻译