语义分割需要大量像素方式的注释,以容许准确的模型。在本文中,我们提出了一种基于视频预测的方法,通过综合新的训练样本来扩展训练集,以提高语义分割网络的准确性。我们利用视频预测模型预测未来帧的能力,以便预测未来的标签。还提出了联合传播策略以减少合成样品中的错误比对。我们证明了由合成样本增加的数据集上的训练分割模型导致准确性的显着改善。此外,我们引入了一种新颖的边界标签松弛技术,该技术使得对沿着对象边界的注释噪声和传播伪像具有鲁棒性。我们提出的方法在Cityscapes上实现了83.5%的最新技术,在CamVid上实现了82.9%。没有模型合奏的单一模型在KITTI语义分割测试集上达到了72.8%mIoU,超过了ROBchallenge 2018的获奖作品。我们的代码和视频可以在以下网址找到://nv-adlr.github.io/publication/2018 -分割。
translated by 谷歌翻译
在本文中,我们提出了一种简单而有效的填充方案,可用作现有卷积神经网络的插入模块。我们称之为基于部分卷积的填充,直觉可以将填充区域视为空洞,将原始输入视为非空洞。具体地,在卷积操作期间,基于填充区域和卷积窗口区域之间的比率,对卷积结果重新加权近图像边界。利用各种深度网络模型对ImageNet分类和语义分割进行的广泛实验表明,所提出的填充方案始终优于标准零填充,具有更高的准确性。
translated by 谷歌翻译
我们提出了可视化查询检测(VQD),一种新的可视化接地任务。在VQD中,系统由自然语言引导,以在图像中本地化\ emph {variable}个对象。 VQD与视觉引用表达式识别有关,其中任务是仅定位\ emph {one}对象。我们描述了VQD的第一个数据集,我们提出了基准算法,证明了与引用表达式识别相比较的任务难度。
translated by 谷歌翻译
我们通过使用来自图像标题对的弱监视来解决将自由格式文本短语接地的问题。我们提出了一种新颖的端到端模型,它将字幕到图像检索作为“下游”任务来指导词语本地化过程。作为第一步,我们的方法推断标题中的感兴趣区域(RoI)和短语之间的潜在对应,并使用这些匹配的RoI创建辨别图像表示。在随后的步骤中,这个(学习的)表示与标题一致。我们的关键贡献在于构建这种“字幕条件”图像编码,它紧密地耦合两个任务并允许弱监督有效地指导视觉基础。我们提供了广泛的经验和定性分析,以研究我们提出的模型的不同组成部分,并将其与竞争基线进行比较。对于短语本地化而言,相对于VisualGenome数据集的先前技术水平,改进了4.9%(绝对值)。我们还报告了与COCO和Flickr30k数据集上下游字幕到图像检索任务的最新技术相关的结果。
translated by 谷歌翻译
我们研究了具有对抗性扰动的线性动力系统的控制(与统计噪声相反)。我们考虑的目标是遗憾:我们希望在线控制程序几乎可以完成与完全了解后方干扰相关的程序。我们的主要结果是一个有效的算法,为这个问题提供了近乎严格的限制。从技术角度来看,这项工作在以前的工作中主要集中在两个主要方面:我们的模型允许动力学中的有源噪声,并允许一般的凸成本。
translated by 谷歌翻译
图像字幕模型在包含有限视觉概念和大量配对图像字幕训练数据的数据集上取得了令人印象深刻的结果。然而,如果这些模型要在野外发挥作用,必须学习更多种类的视觉概念,理想情况是从较少的监督。为了鼓励开发可以从备选数据源(例如对象检测数据集)中获取视觉概念的图像字幕模型,我们为此任务提供了第一个大规模基准。被称为'nocaps',对于大规模的新物体字幕,我们的基准包括166,100个人类生成的字幕,描述了15,100张来自Open Imagesvalidation和测试集的图像。相关的训练数据包括COCOimage-caption对,以及Open Images图像级标签和对象边界框。由于Open Images包含比COCO更多的类,因此在测试图像中看到的超过500个对象类没有训练字幕(因此,nocaps)。我们在具有挑战性的基准测试中评估了几种现有的新对象字幕方法。在自动评估中,这些方法显示了仅在图像标题数据上训练的强基线的模式改进。然而,即使使用地面实况对象检测,结果也明显弱于我们的人类基线 - 表明有很大的改进空间。
translated by 谷歌翻译
预测性维护的关键挑战之一是预测具有合理预测范围的设备的阻止停机时间,以便采取相应的措施。传统上,这个问题已经由两种不同的方式提出,这些方式通常是独立解决的:(1)剩余有用寿命(RUL)估计作为长期预测任务来估计设备的使用寿命中剩余的时间和(2)故障预测(FP)作为短期预测任务,用于评估在预先指定的时间窗口内失败的概率。由于这两个任务是相关的,因此单独执行它们是次优的,并且可能导致相同设备的预测不一致。为了缓解这些问题,我们提出了两种方法:Deep Weibull模型(DW-RNN)和多任务学习(MTL-RNN)。 DW-RNN能够通过使用深度神经网络拟合Weibull分布参数来学习潜在的失效动态,该神经网络以生存可能性进行学习,而无需直接对每项任务进行训练。虽然DW-RNN对数据分布作出明确假设,但MTL-RNN利用长期RUL和短期FP任务之间的隐含关系来学习基础分布。此外,我们的两种方法都可以利用非故障设备数据进行RUL估算。我们证明了我们的方法始终优于可用于FP的基线RUL方法,同时为RUL和FP生成一致的结果。我们还表明,我们的方法与基于两个任务中的任何一个优化的目标训练的基线相同。
translated by 谷歌翻译
我们提出了一种新颖的方法,用于融合外观和语义信息,利用视觉注意力,在观看条件的极端变化中进行基于2D图像的定位(2D-VL)。我们基于深度学习的方法的动机是直觉即使在外观形态存在巨大差异的情况下,特定场景区域在语义模态中保持稳定。所提出的基于注意力的模块学习不仅关注用于地点识别的判别性视觉区域而且还关注于始终如一的稳定语义区域来执行2D-VL。我们通过比较几种具有挑战性的定位数据集的最新技术(SOTA)方法来展示该模型的有效性。我们报告的平均绝对改善率为19%,超过目前的SOTA2D-VL方法。此外,我们提出了一项广泛的研究,展示了我们模型的每个组成部分的有效性和贡献,显示8%-15%的绝对改进来自添加语义信息,另外4%来自我们提出的注意模块,超过现有方法和竞争对手基线。
translated by 谷歌翻译
从计算的角度来看,情绪仍然难以理解。在研究中,不可能在现实环境中进行直接的实时检查。因此,离散,间接,事后记录是常态。因此,适当的情绪评估仍然是一个有问题的问题。连续注释的情绪信号(CASE)数据集提供了一种解决方案,专注于参与者体验的情绪的实时连续注释,同时观看各种视频。为此,开发了一种新颖,直观的基于操纵杆的注释界面,该界面允许同时报告化合价和唤醒,而不是独立地注释。同时,八个高质量,同步生理记录(1000 Hz,16位ADC)由ECG,BVP,EMG(3x),GSR(或EDA),呼吸和皮肤温度组成。该数据集包括来自30名参与者的生理和注释数据,15名男性和15名女性,他们观看了几个经过验证的视频刺激。还介绍了情感归纳的有效性,并通过注释和生理数据进行了简化。
translated by 谷歌翻译
虚拟执行环境允许将多个应用程序合并到同一物理服务器上,从而可以更有效地使用服务器资源。但是,用户通常通过猜测静态配置虚拟机的资源,导致资源分配不足以阻碍VM性能,或者过多的分配浪费了宝贵的数据中心资源。在本文中,我们首先通过分析广泛的数据集来描述虚拟机的实际资源分配和利用,该数据集包含来自超过3.6k私有企业集群的超过250,000个虚拟机。我们的大规模分析证实,虚拟机经常配置错误,无论是过度配置还是未充分配置,并且这个问题在各种私有集群中普遍存在。然后,我们提出了ADARES,一种使用机器学习技术动态调整VM资源的自适应系统。特别是,ADARES利用上下文绑定框架来有效地管理调整。我们的系统利用集群,节点和虚拟机级别的易收集数据,制定更明智的分配决策,并通过转移学习来安全地探索配置空间并加快培训速度。我们的实证评估表明,ADARES可以在不牺牲性能的情况下显着提高系统利用率。例如,当与阈值和基于预测的基线进行比较时,它可以实现更可预测的VM级性能,并且还可以将实际群集上的合成工作负载分别减少高达35%和60%的虚拟CPU和内存量。
translated by 谷歌翻译