语义分割需要大量像素方式的注释,以容许准确的模型。在本文中,我们提出了一种基于视频预测的方法,通过综合新的训练样本来扩展训练集,以提高语义分割网络的准确性。我们利用视频预测模型预测未来帧的能力,以便预测未来的标签。还提出了联合传播策略以减少合成样品中的错误比对。我们证明了由合成样本增加的数据集上的训练分割模型导致准确性的显着改善。此外,我们引入了一种新颖的边界标签松弛技术,该技术使得对沿着对象边界的注释噪声和传播伪像具有鲁棒性。我们提出的方法在Cityscapes上实现了83.5%的最新技术,在CamVid上实现了82.9%。没有模型合奏的单一模型在KITTI语义分割测试集上达到了72.8%mIoU,超过了ROBchallenge 2018的获奖作品。我们的代码和视频可以在以下网址找到://nv-adlr.github.io/publication/2018 -分割。
translated by 谷歌翻译
在本文中,我们提出了一种简单而有效的填充方案,可用作现有卷积神经网络的插入模块。我们称之为基于部分卷积的填充,直觉可以将填充区域视为空洞,将原始输入视为非空洞。具体地,在卷积操作期间,基于填充区域和卷积窗口区域之间的比率,对卷积结果重新加权近图像边界。利用各种深度网络模型对ImageNet分类和语义分割进行的广泛实验表明,所提出的填充方案始终优于标准零填充,具有更高的准确性。
translated by 谷歌翻译
图像字幕模型在包含有限视觉概念和大量配对图像字幕训练数据的数据集上取得了令人印象深刻的结果。然而,如果这些模型要在野外发挥作用,必须学习更多种类的视觉概念,理想情况是从较少的监督。为了鼓励开发可以从备选数据源(例如对象检测数据集)中获取视觉概念的图像字幕模型,我们为此任务提供了第一个大规模基准。被称为'nocaps',对于大规模的新物体字幕,我们的基准包括166,100个人类生成的字幕,描述了15,100张来自Open Imagesvalidation和测试集的图像。相关的训练数据包括COCOimage-caption对,以及Open Images图像级标签和对象边界框。由于Open Images包含比COCO更多的类,因此在测试图像中看到的超过500个对象类没有训练字幕(因此,nocaps)。我们在具有挑战性的基准测试中评估了几种现有的新对象字幕方法。在自动评估中,这些方法显示了仅在图像标题数据上训练的强基线的模式改进。然而,即使使用地面实况对象检测,结果也明显弱于我们的人类基线 - 表明有很大的改进空间。
translated by 谷歌翻译
预测性维护的关键挑战之一是预测具有合理预测范围的设备的阻止停机时间,以便采取相应的措施。传统上,这个问题已经由两种不同的方式提出,这些方式通常是独立解决的:(1)剩余有用寿命(RUL)估计作为长期预测任务来估计设备的使用寿命中剩余的时间和(2)故障预测(FP)作为短期预测任务,用于评估在预先指定的时间窗口内失败的概率。由于这两个任务是相关的,因此单独执行它们是次优的,并且可能导致相同设备的预测不一致。为了缓解这些问题,我们提出了两种方法:Deep Weibull模型(DW-RNN)和多任务学习(MTL-RNN)。 DW-RNN能够通过使用深度神经网络拟合Weibull分布参数来学习潜在的失效动态,该神经网络以生存可能性进行学习,而无需直接对每项任务进行训练。虽然DW-RNN对数据分布作出明确假设,但MTL-RNN利用长期RUL和短期FP任务之间的隐含关系来学习基础分布。此外,我们的两种方法都可以利用非故障设备数据进行RUL估算。我们证明了我们的方法始终优于可用于FP的基线RUL方法,同时为RUL和FP生成一致的结果。我们还表明,我们的方法与基于两个任务中的任何一个优化的目标训练的基线相同。
translated by 谷歌翻译
我们提出了一种新颖的方法,用于融合外观和语义信息,利用视觉注意力,在观看条件的极端变化中进行基于2D图像的定位(2D-VL)。我们基于深度学习的方法的动机是直觉即使在外观形态存在巨大差异的情况下,特定场景区域在语义模态中保持稳定。所提出的基于注意力的模块学习不仅关注用于地点识别的判别性视觉区域而且还关注于始终如一的稳定语义区域来执行2D-VL。我们通过比较几种具有挑战性的定位数据集的最新技术(SOTA)方法来展示该模型的有效性。我们报告的平均绝对改善率为19%,超过目前的SOTA2D-VL方法。此外,我们提出了一项广泛的研究,展示了我们模型的每个组成部分的有效性和贡献,显示8%-15%的绝对改进来自添加语义信息,另外4%来自我们提出的注意模块,超过现有方法和竞争对手基线。
translated by 谷歌翻译
从计算的角度来看,情绪仍然难以理解。在研究中,不可能在现实环境中进行直接的实时检查。因此,离散,间接,事后记录是常态。因此,适当的情绪评估仍然是一个有问题的问题。连续注释的情绪信号(CASE)数据集提供了一种解决方案,专注于参与者体验的情绪的实时连续注释,同时观看各种视频。为此,开发了一种新颖,直观的基于操纵杆的注释界面,该界面允许同时报告化合价和唤醒,而不是独立地注释。同时,八个高质量,同步生理记录(1000 Hz,16位ADC)由ECG,BVP,EMG(3x),GSR(或EDA),呼吸和皮肤温度组成。该数据集包括来自30名参与者的生理和注释数据,15名男性和15名女性,他们观看了几个经过验证的视频刺激。还介绍了情感归纳的有效性,并通过注释和生理数据进行了简化。
translated by 谷歌翻译
虚拟执行环境允许将多个应用程序合并到同一物理服务器上,从而可以更有效地使用服务器资源。但是,用户通常通过猜测静态配置虚拟机的资源,导致资源分配不足以阻碍VM性能,或者过多的分配浪费了宝贵的数据中心资源。在本文中,我们首先通过分析广泛的数据集来描述虚拟机的实际资源分配和利用,该数据集包含来自超过3.6k私有企业集群的超过250,000个虚拟机。我们的大规模分析证实,虚拟机经常配置错误,无论是过度配置还是未充分配置,并且这个问题在各种私有集群中普遍存在。然后,我们提出了ADARES,一种使用机器学习技术动态调整VM资源的自适应系统。特别是,ADARES利用上下文绑定框架来有效地管理调整。我们的系统利用集群,节点和虚拟机级别的易收集数据,制定更明智的分配决策,并通过转移学习来安全地探索配置空间并加快培训速度。我们的实证评估表明,ADARES可以在不牺牲性能的情况下显着提高系统利用率。例如,当与阈值和基于预测的基线进行比较时,它可以实现更可预测的VM级性能,并且还可以将实际群集上的合成工作负载分别减少高达35%和60%的虚拟CPU和内存量。
translated by 谷歌翻译
本文介绍了2018版WATShared任务的印度语多语言任务的机器翻译(MT)系统的系统描述。在我们的实验中,我们(RGNLP团队)探索所有语言对的统计和神经方法。 (我们进一步对低资源环境下的两种方法的语言相关问题进行了广泛的比较。)我们的PBSMT模型在英语中的自动评估指标得分最高,分为泰卢固语,印地语,孟加拉语,泰米尔语部分的共享任务。
translated by 谷歌翻译
充足的身体活动和安宁的睡眠在许多慢性病的预防和治疗中起着重要作用。能够主动筛查和监测这种慢性病将是整体健康向前迈出的一大步。可穿戴设备的普及迅速增加提供了重要的新来源,使得可以实时跟踪用户的生活方式。在本文中,我们提出了一种新的无监督表示学习技术,称为activity2vec,它学习并“总结”离散值活动时间序列。它通过三个组成部分来学习:(i)时间段中活动水平的共现和大小,(ii)时间段的邻近背景,以及(iii)通过对抗性训练促进主体不变性。我们评估我们的用线性分类器对四种无序预测任务的方法。经验评估表明,我们提出的方法可以比许多强基线更好地扩展和表现。对抗性政权通过促进主体不变的特征,有助于提高我们的表征的普遍性。我们还表明,在一天的水平上使用表示是最好的,因为人类活动是根据日常程序来构建的
translated by 谷歌翻译
最近,云提供商扩展了对可信硬件原型(如英特尔SGX)的支持。同时,深度学习领域正在进行巨大的创新和采用的增加。在本文中,他们提出了一个问题:“第三方云服务能否使用SGX提供实用且安全的DNN推理即服务?”我们的工作解决了基于SGX的DNN推理面临的三个主要挑战,即安全性,易用性和性能。我们首先证明了对DNN模型的基于旁路的攻击确实是可行的。我们通过观察访问模式表明,我们可以将输入恢复到DNN模型。这激发了对Privado的需求,Privado是我们为安全推理即服务而设计的系统。 Privado是输入不经意的:它将用C / C ++编写的深度学习框架转换为没有依赖于输入的访问模式。 Privado是全自动的,具有较低的TCB:使用zerodeveloper工作,给定ONNX描述,它生成紧凑的C代码,该模型可以在SGX-emblaves内运行。 Privado的性能开销很低:我们将Privado与Torch一起使用,并且在10个现代网络上平均显示其开销为20.77%。
translated by 谷歌翻译