语义分割需要大量像素方式的注释,以容许准确的模型。在本文中,我们提出了一种基于视频预测的方法,通过综合新的训练样本来扩展训练集,以提高语义分割网络的准确性。我们利用视频预测模型预测未来帧的能力,以便预测未来的标签。还提出了联合传播策略以减少合成样品中的错误比对。我们证明了由合成样本增加的数据集上的训练分割模型导致准确性的显着改善。此外,我们引入了一种新颖的边界标签松弛技术,该技术使得对沿着对象边界的注释噪声和传播伪像具有鲁棒性。我们提出的方法在Cityscapes上实现了83.5%的最新技术,在CamVid上实现了82.9%。没有模型合奏的单一模型在KITTI语义分割测试集上达到了72.8%mIoU,超过了ROBchallenge 2018的获奖作品。我们的代码和视频可以在以下网址找到://nv-adlr.github.io/publication/2018 -分割。
translated by 谷歌翻译
在本文中,我们提出了一种简单而有效的填充方案,可用作现有卷积神经网络的插入模块。我们称之为基于部分卷积的填充,直觉可以将填充区域视为空洞,将原始输入视为非空洞。具体地,在卷积操作期间,基于填充区域和卷积窗口区域之间的比率,对卷积结果重新加权近图像边界。利用各种深度网络模型对ImageNet分类和语义分割进行的广泛实验表明,所提出的填充方案始终优于标准零填充,具有更高的准确性。
translated by 谷歌翻译
我们通过对过去的帧和过去的光流进行条件化来提出一种用于高分辨率视频帧预测的方法。以前接近重新采样过去的帧,由学习的未来光流或像素的直接生成引导。基于流量的重新采样是不够的,因为它不能处理去除错误。生成模型目前导致模糊结果。最近的方法通过将输入补丁与预测的内核进行卷积来合成像素。然而,它们的内存需求随着内核大小的增加而增加。在这里,我们使用空间位移卷积(SDC)模块进行视频帧预测。我们为每个像素学习运动矢量和内核,并通过在源图像中由预测运动矢量定义的位移位置处应用内核来合成像素。我们的方法继承了基于矢量和基于内核的方法的优点,同时改善了它们各自的缺点。我们在428K未标记的1080p视频游戏帧上训练我们的模型。我们的方法产生了最先进的结果,在高清YouTube-8M视频上获得0.904的SSIM评分,在CaltechPedestrian视频上获得0.918。我们的模型有效地处理大运动并合成具有一致运动的重帧。
translated by 谷歌翻译
这篇介绍旨在讲述我们如何将文字放入计算机的故事。它是自然语言处理(NLP)领域的故事的一部分,是人工智能的分支。它针对广泛的受众,对计算机编程有基本的了解,但避免了详细的数学处理,并且没有提出任何算法。它也没有关注NLP的任何特定应用,例如翻译,问答或信息提取。这里提出的想法是由许多研究人员在几十年内发展起来的,因此引用并非详尽无遗,而是将读者直接引导到一些论文,这些论文在作者看来是开创性的。阅读本文后,您应该对单词向量(也称为单词嵌入)有一个大致的了解:为什么它们存在,它们解决了什么问题,它们来自何处,它们如何随时间变化,以及关于它们的开放性问题的最新内容是。建议已熟悉字向量的读者跳到第5节,讨论最新的上下文字向量。
translated by 谷歌翻译
本报告概述了利用大数据革命和大规模计算解决多信使天体物理学中的重大计算挑战的最新工作,特别强调实时发现活动。该文件承认了多信使天体物理学的跨学科性质,由物理学家,天文学,计算机科学,数据科学,软件和网络基础设施社区的成员编写,他们参加了NSF-,DOE-和NVIDIA资助的“多信使天体物理学的深度学习”。 :实时发现规模“研讨会,于2018年10月17日至19日在国家超级计算应用中心举办。本报告的重点包括一致同意这对于加速新型信号处理算法的开发和部署至关重要。利用人工智能(AI)和高性能计算之间的协同作用,最大限度地发挥Multi-Messenger天体物理学的潜在科学发现。我们讨论了实现这一努力的关键方面,即(i)为多信使天体物理学设计和利用可扩展和计算效率高的AI算法;(ii)数字模拟天体物理资源的网络基础设施要求,以及处理和解释多信使天体物理学数据; (iii)管理引力波探测和触发以实现电磁和天体粒子跟踪; (iv)利用未来发展的机器和深度学习以及网络基础设施资源的愿景与大数据时代的发现规模相结合; (v)需要建立一个社区,将领域专家与数据科学家一起进行平等,以最大限度地加速发现多信天体物理学的新兴领域。
translated by 谷歌翻译
构建易于理解的软件驱动系统变得面临挑战,其复杂性和自主性不断增加。因此,最近的研究努力努力帮助设计可解释的系统。然而,仍然缺少系统可解释所需的共同概念。为了解决这个问题,我们提出了一个可解释系统的特征,它巩固了现有的研究。通过提供统一的语言学,我们为现有和未来研究的分类以及对这些系统的精确要求的制定奠定了基础。
translated by 谷歌翻译
本文提出了一种基于深度学习方法评估身体康复训练的新框架。该框架的目标是基于捕获的全身关节轨迹自动量化患者在完成预备康复训练中的表现。该框架的主要组成部分是用于测量运动性能的度量,用于将性能度量映射到运动质量的数值得分的评分函数,以及用于通过监督学习来调整输入运动的质量得分的深度神经网络模型。此外,现有的建模方法的概述提出了康复运动的评估,包括各种距离函数,降维技术以及先前研究中用于该问题的运动模型。据我们所知,这是第一个实施深度神经网络评估康复性能的工作。多个深度网络体系结构被重新用于任务吸入,并在康复训练数据集上进行验证。
translated by 谷歌翻译
主题模型在自然语言处理及其他方面得到广泛应用。在这里,我们提出了一种新的框架,用于评估基于合成语料库的概率主题建模算法,该合成语料库包含明确定义的地面真实主题结构。我们的方法的主要创新是通过比较标记级别的指定主题标签来量化种植和推断的主题结构之间的一致性的能力。在实验中,我们的方法产生关于主题模型的相对强度的新颖见解,因为语料库特征变化,当种植结构薄弱时,主题模型的第一个证据是“不可检测的阶段”。我们还通过预测真实世界语料库中主题建模算法分类任务的性能,确定了对合成公司获得的见解的实际相关性。
translated by 谷歌翻译
虽然作为算法公平的子领域的一部分,越来越多地研究分配的危害,但是代表性的危害受到的关注却少得多。在本文中,我们将两种立体定型概念形式化,并展示它们如何在机器学习管道中的后期分配危害中表现出来。我们还提出了缓解策略,并证明了它们在合成数据集上的有效性。
translated by 谷歌翻译
大型标记数据集驱动了深度学习方法,以在各种医学成像任务上实现卓越的性能。我们提供了CheXpert,这是一个包含224,316张胸片的65,240名患者的大型数据集。我们设计了一个贴标机,可以自动检测放射学报告中14个观测值的存在,捕捉射线照相解释中固有的不确定性。我们研究了使用不确定性标签训练卷积神经网络的不同方法,这些方法根据可用的正面和横向射线照片输出这些观察的可能性。在由2名经过委员会认证的放射科医师手动注释的200个胸部放射学研究的验证集中,我们发现不同的不确定性方法对于不同的病理学是有用的。然后,我们评估了由500名胸部放射学研究组成的测试集上的最佳模型,该研究由5位经过委员会认证的放射科医师的共识进行注释,并将我们的模型与3位额外放射科医师在5种选定病理检测中的表现进行比较。在Cardiomegaly,Edema和Pleural Effusion上,模型ROC和PR曲线位于所有3个放射科医师手术点之上。将数据集作为标准基准向公众发布,以评估胸部X光片解释模型的性能。该数据集可从以下网站免费获取://stanfordmlgroup.github.io/competitions/chexpert。
translated by 谷歌翻译