我们通过对过去的帧和过去的光流进行条件化来提出一种用于高分辨率视频帧预测的方法。以前接近重新采样过去的帧,由学习的未来光流或像素的直接生成引导。基于流量的重新采样是不够的,因为它不能处理去除错误。生成模型目前导致模糊结果。最近的方法通过将输入补丁与预测的内核进行卷积来合成像素。然而,它们的内存需求随着内核大小的增加而增加。在这里,我们使用空间位移卷积(SDC)模块进行视频帧预测。我们为每个像素学习运动矢量和内核,并通过在源图像中由预测运动矢量定义的位移位置处应用内核来合成像素。我们的方法继承了基于矢量和基于内核的方法的优点,同时改善了它们各自的缺点。我们在428K未标记的1080p视频游戏帧上训练我们的模型。我们的方法产生了最先进的结果,在高清YouTube-8M视频上获得0.904的SSIM评分,在CaltechPedestrian视频上获得0.918。我们的模型有效地处理大运动并合成具有一致运动的重帧。
translated by 谷歌翻译
最近的工作已经展示了如何在大型图像数据集上快速训练卷积神经网络(CNN),然后将从这些模型中获得的知识转移到各种任务中。在[Radford 2017]之后,我们在这项工作中,针对自然语言任务,针对递归神经网络(RNN)进行了类似的可扩展性和传输。通过利用混合精度算法和分布在128个NVIDIA Tesla V100 GPU上的32k批量大小,我们能够在4小时内在40 GB Amazon Reviewsdataset的3个时期内进行字符级4096维乘法LSTM(mLSTM)的无监督文本重建。这个运行时与以前的工作一个月相比,可以在相同的数据集上训练一个历元的相同大小和配置。聚合大批量RNN模型可能具有挑战性。最近的工作建议将学习速率作为批量大小的函数进行扩展,但我们发现,简单地将学习速率作为批量大小的函数进行缩放会导致该问题的收敛或即时分歧明显更差。我们提供学习率计划,使我们的模型能够以32k批量大小收敛。由于我们的模型在数小时内收敛于Amazon Reviewsdataset,而我们的计算需求为128个Tesla V100 GPU,虽然实质上是商用的,但这项工作为大多数商业应用和深度学习研究人员开启了大规模无监督的NLP培训。模型可以在大多数公共或私人文本数据集上进行培训。
translated by 谷歌翻译
在这项工作中,我们探讨了常见对象的形状之间的细微差异是如何用语言表达的,基于对象的图像和3D模型。我们首先构建一个大规模,精心控制的人类话语数据集,每个数据集都指的是3D CAD模型的2D渲染,以便将其与一组形状相似的替代方案区分开来。使用这个数据集,我们开发了神经语言理解(听力)和生产(说话)模型,这些模型的基础不同(纯粹的3D形式通过点云,渲染的2D图像),捕获的语用推理程度(例如说明听众的说话者)或不)和神经结构(例如有或没有注意)。我们发现模型能够与合成伙伴和人类合作伙伴一起表现良好,并且能够保持话语和物体。我们还指出,这些模型适用于零射击转移学习到novelobject类(例如从椅子上的培训转移到灯上测试),以及从家具目录中抽取的真实世界图像。病变研究表明,神经聆听者严重依赖于与部分相关的词语,并将这些词语与对象的视觉部分正确关联(没有对象部分进行任何明确的网络训练),并且当已知的部分词语可用时,转移到新的类别是最成功的。这项工作说明了语言基础的实用方法,并提供了对象形状和语言结构之间关系的案例研究。
translated by 谷歌翻译
人工智能(AI)技术的进步使得可以从现有地图或其他视觉中学习风格设计标准,并转移这些风格以制作新的数字地图。在本文中,我们提出了一种新的框架,使用AI进行地图样式转换,适用于多个地图尺度。具体来说,我们通过两个生成性对抗网络(GAN)模型识别并从一组目标视觉示例(包括Google Maps,OpenStreetMap和艺术绘画)将设计元素转移到未经校正的GIS矢量数据。然后,我们基于深度卷积神经网络训练二元分类器,以评估转移风格的地图图像是否保留了原始地图设计特征。我们的实验结果表明,GAN具有很大的多尺度地图样式转移潜力,但仍存在许多挑战,需要进一步研究。
translated by 谷歌翻译
全世界有数百万人缺席他们国家的人口普查。准确,现有和细化的人口指标对于改善政府资源配置,衡量疾病控制,应对自然灾害以及研究这些社区人类生活的任何方面至关重要。卫星图像可以提供足够的信息来建立人口普查地图,而无需政府人口普查的成本和时间。我们提出了两种卷积神经网络(CNN)架构,它可以有效地组合来自多个源的卫星图像输入,以准确地预测一个区域的人口密度。在本文中,我们使用来自印度农村的卫星图像和2011年SECC人口普查的人口标签。我们的最佳模型比以前的纸张以及LandScan(全球人口分布的社区标准)实现了更好的性能。
translated by 谷歌翻译
机器视觉对机器人技术至关重要,因为它依赖于视觉传感器(如自动移动机器人和智能生产系统)的广泛应用。为了创建明天的智能家居和系统,对研究领域当前挑战的概述将用于识别以系统化和可再现的方式创建的进一步可能的方向。在这项工作中,进行了系统的文献回顾,涵盖了过去10年的研究。我们从四个数据库中筛选了172篇论文,并选出了52篇相关论文。虽然稳健性和计算时间得到了很大改善,但遮挡和光照变化仍然是最大的问题。根据最近出版物的数量,我们得出结论,观察领域与研究界具有相关性和关注性。在该领域的许多领域中出现了进一步的挑战。
translated by 谷歌翻译
我们提出了一个大型数据集,OpenEDS:Open Eye Dataset,使用虚拟现实(VR)头戴式显示器捕获的眼睛图像,该显示器安装有两个同步的视觉相机,在200Hz的帧速率下进行受控照明。该数据集是根据从152个个体参与者收集的眼睛区域的视频捕获编译的,并且被分成四个子集:(i)12,759个图像,其具有关键眼睛区域的像素级注释:虹膜,瞳孔巩膜(ii)252,690未标记的眼睛 - 图像,(iii)来自随机选择的持续时间为1.5秒的视频序列的91,200帧和(iv)143个左右点云数据,这些数据来自从子集中收集的眼睛区域的角膜地形图,152个中的143个参与者。在OpenEDS上评估了Abaseline实验,用于瞳孔,虹膜,巩膜和背景的语义分割任务,其平均交叉转换(mIoU)为98.3%。我们预计OpenEDS将为眼动追踪社区和更广泛的机器学习和计算机视觉社区的研究人员创造机会,以推进VR应用的眼跟踪状态。该数据集可通过https://research.fb.com/programs/openeds-challenge进行下载
translated by 谷歌翻译
We present an approach to analyze C 1 (R m) functions that addresses limitations present in the Active Subspaces (AS) method of Constantine et al. (2015; 2014). Under appropriate hypotheses, our Active Manifolds (AM) method identifies a 1-D curve in the domain (the active manifold) on which nearly all values of the unknown function are attained, and which can be exploited for approximation or analysis , especially when m is large (high-dimensional input space). We provide theorems justifying our AM technique and an algorithm permitting functional approximation and sensitivity analysis. Using accessible , low-dimensional functions as initial examples, we show AM reduces approximation error by an order of magnitude compared to AS, at the expense of more computation. Following this, we revisit the sensitivity analysis by Glaws et al. (2017), who apply AS to analyze a magnetohydrodynamic power generator model, and compare the performance of AM on the same data. Our analysis provides detailed information not captured by AS, exhibiting the influence of each parameter individually along an active manifold. Overall, AM represents a novel technique for analyzing functional models with benefits including: reducing m-dimensional analysis to a 1-D analogue, permitting more accurate regression than AS (at more computational expense), enabling more informative sensitivity analysis, and granting accessible visualizations (2-D plots) of parameter sensitivity along the AM.
translated by 谷歌翻译
随着当前数字化浪潮中出现的新机遇,需要通过采用数据驱动的方式重新审视终端规划和管理。业务分析作为从操作数据中提取洞察力的实践,有助于使用预测来减少不确定性,并帮助识别和理解组织内和组织间终端操作中的低效率,中断和异常的原因。尽管集装箱码头内部和周围的数据日益复杂,但可以确定在集装箱码头的背景下缺乏数据驱动的方法。在本章中,介绍了支持终端规划和管理的业务分析的概念。本章特别关注数据挖掘方法,并提供有关容器和相关研究应用的综合概述。因此,我们的目标是建立一个关于终端规划和管理的数据驱动的视角,补充传统的优化视角。
translated by 谷歌翻译
稀缺数据是将机器人学习扩展到真正的互补性的一个主要挑战,因为我们需要在不同的任务框架上概括本地学习的政策。上下文策略搜索通过在参数上下文空间上明确地调整策略来提供数据有效的学习和概括。在本文中,我们进一步构建了上下文策略表示。我们建议将上下文分解为两个组成部分:描述任务目标的目标上下文,例如,投掷目标的目标位置;以及表征环境的环境背景,例如初始位置或球的质量。我们的关键观察是经验可以直接在目标背景下进行推广。我们表明,这可以在上下文策略搜索算法中轻松开发。特别是,我们将基于采样和主动学习设置的贝叶斯优化方法应用于贝叶斯优化方法以进行上下文策略搜索。我们的仿真结果表明在各种机器人领域中学习速度更快,通用性更好。 Seeour补充视频:https://youtu.be/MNTbBAOufDY。
translated by 谷歌翻译