Machine learning (ML) techniques are enjoying rapidly increasing adoption. However, designing and implementing the systems that support ML models in real-world deployments remains a significant obstacle, in large part due to the radically different development and deployment profile of modern ML methods, and the range of practical concerns that come with broader adoption. We propose to foster a new systems machine learning research community at the intersection of the traditional systems and ML communities, focused on topics such as hardware systems for ML, software systems for ML, and ML optimized for metrics beyond predictive accuracy. To do this, we describe a new conference, SysML, that explicitly targets research at the intersection of systems and machine learning with a program committee split evenly between experts in systems and ML, and an explicit focus on topics at the intersection of the two.
translated by 谷歌翻译
大多数场景图生成器使用两级流水线来检测视觉关系:第一级检测实体,第二级使用softmax分布预测每个实体对的预测。我们发现,仅通过谓词类的交叉熵损失训练的这种管道遭受两个常见错误。当模型混淆同一类型实体的多个实例(例如多个杯子)时,会发生第一个实体实例混淆。第二个近亲关系歧义出现在多个主谓词 - 宾语三元组与同一谓词紧密相邻时,并且该模型努力推断出正确的主语 - 对象对(例如错误配对的音乐家及其乐器)。我们提出了一套对比损失公式,它们专门针对场景图生成问题中的这些类型的错误,统称为GraphicalContrastive Lossses。这些损失明确迫使模型通过特定于每种混淆的边际约束消除相关和不相关实例的歧义。我们使用上述管道进一步构建一个称为RelDN的关系检测器,以证明我们提出的损失的功效。我们的模型在测试集上优于4.7 \%(16.5%相对)的OpenImages RelationshipDetection Challenge的获胜方法。我们还显示了对Visual Genome和VisualRelationship Detection数据集中最好的先前方法的改进结果。
translated by 谷歌翻译
语义分割需要大量像素方式的注释,以容许准确的模型。在本文中,我们提出了一种基于视频预测的方法,通过综合新的训练样本来扩展训练集,以提高语义分割网络的准确性。我们利用视频预测模型预测未来帧的能力,以便预测未来的标签。还提出了联合传播策略以减少合成样品中的错误比对。我们证明了由合成样本增加的数据集上的训练分割模型导致准确性的显着改善。此外,我们引入了一种新颖的边界标签松弛技术,该技术使得对沿着对象边界的注释噪声和传播伪像具有鲁棒性。我们提出的方法在Cityscapes上实现了83.5%的最新技术,在CamVid上实现了82.9%。没有模型合奏的单一模型在KITTI语义分割测试集上达到了72.8%mIoU,超过了ROBchallenge 2018的获奖作品。我们的代码和视频可以在以下网址找到://nv-adlr.github.io/publication/2018 -分割。
translated by 谷歌翻译
多情感情感分类是一种自然语言处理(NLP)问题,具有对现实世界数据的有价值的用例。我们证明了大规模无监督语言建模与微调相结合,为困难的数据集提供了实用的解决方案,包括那些具有标签类不平衡和特定领域背景的数据集。通过对40GB文本(亚马逊评论)(McAuley等人,2015)的基于训练的变形金刚网络(Vaswani等人2017)进行训练并对训练集进行微调,我们的模型在SemEval任务1上获得0.69 F1分数: Ec多维度分类问题(Mohammad等人,2018年),基于Plutchikwheel of emotions(Plutchik 1979)。这些结果与最先进的模型相比具有竞争力,包括在恐惧(0.73),厌恶(0.77)和愤怒(0.78)等困难(情绪)类别上的强劲F1分数,以及诸如预期(0.42)等罕见类别的竞争结果。惊喜(0.37)。此外,我们在真实世界文本分类任务中演示我们的应用程序。我们在几个主题上创建了一个狭窄收集的真实推文的文本数据集,并表明我们的微调模型优于通用商业可用的API,用于对该数据集的情感和多维情感分类。我们还进行了大量额外的研究,研究深度学习体系的属性,数据集和算法,以实现实际的多维情感分类。总的来说,我们发现无监督语言建模和微调是一个简单的框架,用于在现实世界情感分类中获得高质量的结果。
translated by 谷歌翻译
在本文中,我们提出了一种简单而有效的填充方案,可用作现有卷积神经网络的插入模块。我们称之为基于部分卷积的填充,直觉可以将填充区域视为空洞,将原始输入视为非空洞。具体地,在卷积操作期间,基于填充区域和卷积窗口区域之间的比率,对卷积结果重新加权近图像边界。利用各种深度网络模型对ImageNet分类和语义分割进行的广泛实验表明,所提出的填充方案始终优于标准零填充,具有更高的准确性。
translated by 谷歌翻译
我们提出了一种高效且可解释的场景图生成器。我们考虑了各种类型的特征:视觉,空间和语义,并且我们使用后期融合策略,以便可以明确地研究每个特征的贡献。我们研究关于这些特征的关键因素对性能的影响最大,并且还可视化学习的视觉关系的特征和研究我们的模型的功效。我们赢得了Kaggle的OpenImages视觉关系检测挑战赛的冠军,其中我们以5%的比率(20%相对)赢得第二名。我们相信精确的场景图生成器是高级视觉语言任务(如图像字幕和视觉QA)的基本踏脚石,因为它提供了超出像素和对象的图像的语义,结构化理解。
translated by 谷歌翻译
我们通过对过去的帧和过去的光流进行条件化来提出一种用于高分辨率视频帧预测的方法。以前接近重新采样过去的帧,由学习的未来光流或像素的直接生成引导。基于流量的重新采样是不够的,因为它不能处理去除错误。生成模型目前导致模糊结果。最近的方法通过将输入补丁与预测的内核进行卷积来合成像素。然而,它们的内存需求随着内核大小的增加而增加。在这里,我们使用空间位移卷积(SDC)模块进行视频帧预测。我们为每个像素学习运动矢量和内核,并通过在源图像中由预测运动矢量定义的位移位置处应用内核来合成像素。我们的方法继承了基于矢量和基于内核的方法的优点,同时改善了它们各自的缺点。我们在428K未标记的1080p视频游戏帧上训练我们的模型。我们的方法产生了最先进的结果,在高清YouTube-8M视频上获得0.904的SSIM评分,在CaltechPedestrian视频上获得0.918。我们的模型有效地处理大运动并合成具有一致运动的重帧。
translated by 谷歌翻译
本文描述了我们构建的模型,该模型在Kaggle的OpenImage视觉关系检测挑战中获得第一名。三个关键因素对我们的成功贡献最大:1)语言偏见是这项任务的有力基线。我们在训练集中构建经验分布$ P(谓词|主语,宾语)$并直接在测试中使用它。该基线在提交时达到了第二位; 2)空间特征与视觉特征同样重要,特别是对于空间关系,例如“下”和“内部”; 3)通过首先为每个特征构建单独的模块,然后添加它们的输出来融合不同特征是一种非常有效的方法在最终的softmax层之前进行logits。我们在消融研究中表明,每个因素都可以将性能提升到一个非平凡的程度,并且当所有这些因素结合时,模型达到最优。
translated by 谷歌翻译
在本文中,我们提出了WaveGlow:一种基于流的网络,能够从mel谱图中生成高质量的语音。 WaveGlow结合了Glow和WaveNet的见解,以提供快速,高效和高质量的音频合成,而无需自动回归。 WaveGlow仅使用单个网络实施,仅使用单一成本函数进行训练:最大化训练数据的可能性,这使得训练过程简单而稳定。我们的PyTorch实现在NVIDIA V100 GPU上以超过500 kHz的速率生成音频样本。平均意见得分表明,它提供的音频质量与最好的公开WaveNet实施一样好。所有代码都将在线公开发布。
translated by 谷歌翻译
我们研究视频到视频合成的问题,其目的是学习从输入源视频(例如,一系列语义分割掩模)到精确描绘源视频内容的输出照片级真实视频的拍摄功能。虽然其图像对应图像到图像合成问题是一个热门话题,但文献中对视频到视频合成问题的研究较少。在不了解时间动态的情况下,将现有的图像合成方法直接应用于输入视频通常会导致视觉质量低的时间不连贯的视频。在本文中,我们提出了一种新的视频到视频合成方法,在生成对抗性学习框架下。通过精心设计的发生器和鉴别器架构,再加上一个时空对称物镜,我们可以在多种输入格式(包括分割面板,草图和姿势)上实现高分辨率,逼真,时间相干的视频效果。多个基准测试的实验表明,与强基线相比,我们的方法具有优势。特别是,我们的模型能够合成长达30秒的街道场景的2K分辨率视频,这显着提升了视频合成的最新技术水平。最后,我们将我们的方法应用于未来的视频预测,超越了几个最先进的竞争系统。
translated by 谷歌翻译