在人群中导航的机器人需要能够计划安全,有效和人类可预测的轨迹。这是一个特别具有挑战性的问题,因为它需要机器人预测人群中的未来人类预测,其中每个人都隐含地相互协作以避免碰撞。人类轨迹预测的先前方法已经模拟了人类之间的相互作用作为接近度的函数。然而,这并不一定是正确的,因为我们附近的一些人在同一方向上移动可能不像其他人那么重要,但可能在未来与我们发生冲突。在这项工作中,我们提出了社交注意,这是一种新颖的轨迹预测模型,可以捕捉每个人在人群中导航时的相对重要性,而不管他们的接近程度如何。我们在两个可公开获得的人群数据集上展示了我们的方法对最先进方法的表现,并分析了经过培训的注意力模型,以便更好地了解人群在人群中航行时所处理的周围环境。
translated by 谷歌翻译
已经提出了区域辍学策略来增强卷积神经网络分类器的性能。事实证明,它们可以有效地指导模型参与对象的较少辨别部分(例如,与人的头部相对应的腿),从而使网络更好地概括并具有更好的对象定位能力。另一方面,当前用于区域性丢失的方法通过覆盖黑色像素或随机噪声的斑块来移除训练图像上的信息像素。 {这种移除是不可取的,因为它会导致信息丢失和训练期间的低效率。}因此,我们提出了CutMix增强策略:在训练图像之间切割和粘贴补丁,其中地面实况标签与补丁区域成比例地混合。通过有效利用训练像素和\ mbox {保持}区域放弃的正规化效果,CutMix始终优于CIFAR和ImageNet分类任务以及ImageNet弱监督本地化任务的最新增强策略。此外,与先前的增强方法不同,我们的CutMix训练的ImageNet分类器在用作预训练模型时,可以在Pascal检测和MS-COCO图像字幕基准测试中获得一致的性能提升。我们还展示了CutMix改进了针对输入损坏及其分布式检测性能的模型稳健性。
translated by 谷歌翻译
由于缺乏关于主要社会,环境和经济指标的数据缺乏,特别是在发展中国家,联合国可持续发展目标(SDG)的进展受到阻碍。例如,由于调查成本高,贫困数据 - 十七个可持续发展目标中的第一个 - 在撒哈拉以南非洲空间稀疏且不经常收集。在这里,我们提出了一种使用来自维基百科文章的开源,地理定位文本信息来估计社会经济指标的新方法。我们证明现代NLP技术可用于使用附近的地理定位维基百科文章来预测社区 - levelasset财富和教育成果。当与夜间卫星图像配对时,我们的方法优于所有先前发布的预测任务的基准,表明维基百科的潜力可以为两个研究提供信息。社会科学和未来的政策决定。
translated by 谷歌翻译
作为一种高效且可扩展的图形神经网络,GraphSAGE通过聚合下采样的本地邻域并通过以小批量梯度下降方式学习,实现了用于推断看不见的节点或图形的诱导能力。 GraphSAGE中使用的邻域采样是有效的,以便在并行地推断出具有不同程度的一批目标节点时提高计算和存储效率。尽管具有这一优势,但默认的统一采样会受到训练和推理的高度差异的影响,从而导致最佳的准确性。我们提出了一种新的数据驱动的采样方法,通过非线性回归量来推断邻域的实值重要性,并将该值用作对邻域进行二次抽样的标准。使用基于价值的强化学习来学习使用者。从GraphSAGE的负分类损失输出中归一化地提取顶点和邻域的每个组合的隐含重要性。因此,在使用三个数据集的归纳节点分类基准中,我们的方法使用均匀采样增强了基线,在准确性方面优于图神经网络的近似变量。
translated by 谷歌翻译
在随机和对偶设置中已经广泛研究了强盗式算法。已经表明这种算法在多玩家设置中是有用的,例如,解决无线网络选择问题,可以将其表述为对抗强盗问题。对抗设置的领先bandife算法是EXP3。但是,网络行为是重复的,其中用户密度和网络行为遵循常规模式。像EXP3这样的强盗算法无法为周期性行为提供良好的保证。一个主要原因是这些算法与固定动作策略竞争,这在定期设置中是无效的。在本文中,我们定义了周期性强盗设置,并定期后悔作为此类设置的更好的性能度量。我们的目标是在一些可能的周期性模式$ F $(例如,所有可能的周期函数,周期为1,2,\ cdots,P $)下运用武器,而不是将分析算法的性能与固定动作策略进行比较。我们提出了周期性EXP4,这是用于周期性设置的EXP4算法的计算有效变体。使用$ K $武器,$ T $时间步长,以及$ F $中的每个周期模式的长度最多为$ P $,我们显示由Periodic EXP4获得的periodicregret最多为$ O \ big(\ sqrt {PKT \ log K + KT \ log | F |} \ big)$。我们还证明了周期性设置的$ \ Omega \ big(\ sqrt {PKT + KT \ frac {\ log | F |} {\ log K}} \ big)$的下限,表明这在log-中是最优的因素。例如,我们关注无线网络选择问题。通过仿真,我们证明了周期EXP4随时间学习周期模式,适应动态环境的变化,远远超过EXP3。
translated by 谷歌翻译
最近的现代显示器现在能够渲染高达8K UHD(超高清)的高动态范围(HDR),高分辨率(HR)视频。因此,UHD HDR广播和流媒体已成为高质量的优质服务。然而,由于缺乏原始的UHD HDR视频内容,迫切需要适当的转换技术来将传统低分辨率(LR)标准动态范围(SDR)视频转换为UHD HDR版本。在本文中,我们提出了联合超分辨率(SR)和inversetone-mapping(ITM)框架,称为Deep SR-ITM,它学习从LR SDR视频到HR HDR版本的直接映射。联合SR和ITM是一项复杂的任务,必须为SRM恢复高频细节,与ITM的局部对比相结合。我们的网络能够通过分解输入图像并关注单独的基础(低频)和细节(高频)层来恢复精细的细节。此外,所提出的调制块应用位置变量操作来增强局部对比度。深度SR-ITM显示出良好的主观质量,增加了对比度和细节,优于先前的联合SR-ITM方法。
translated by 谷歌翻译
机器学习的广泛使用从根本上改变了软件开发范式(a.k.a. Software 2.0),其中数据成为一流的公民,与代码同等。由于机器学习用于敏感应用,因此训练有素的模型必须准确,公平且对攻击具有鲁棒性。虽然已经提出了许多技术来改进模型训练过程(处理中的方法)或训练模型本身(后处理),但我们认为最有效的方法是清除错误的根源:模型训练的数据(预处理)。历史上,至少有三个研究团体一直在研究这个问题:数据管理,机器学习(模式和安全)。尽管每个社区都进行了大量的研究,但最终必须对相同的数据集进行预处理,并且很难理解这些技术如何相互关联并且可以被集成。我们认为,现在是时候将数据的概念扩展到现代机器学习需求。我们确定了数据预处理技术之间的依赖关系,并提出了MLClean,这是一种统一的数据清理框架,集成了这些技术并有助于培训准确和公平的模型。这项工作是大数据更广泛趋势的一部分 - 人工智能(AI)集成。
translated by 谷歌翻译
我们提出了一种交互式视频对象分割的深度学习方法。我们的方法建立在两个核心操作,即交互和传播之上,每个操作都由卷积神经网络进行。两个网络内外连接,使网络联合训练,相互交互,解决复杂的视频对象分割问题。我们为交互式视频对象分割提出了一种新的多轮训练方案,以便网络可以学习如何理解用户的意图并在训练期间更新不正确的估计。在测试时,我们的方法可以产生高质量的结果,并且运行速度足以与用户交互使用。我们在DAVISChallenge 2018的交互式轨道基准上定量评估了所提出的方法。我们在速度和准确度方面都表现出了很大的优势。我们还证明了我们的方法适用于真实的用户交互。
translated by 谷歌翻译
在日常生活中,由于其超越语言边界的直观表达,图形符号(例如交通标志和品牌标识)在我们周围被广泛使用。我们通过一次性分类处理开放式图形符号识别问题,将原型图像作为每个级别的单个训练示例。我们采用一种方法来学习用于小规模任务的可推广嵌入空间。我们提出了一种称为变分原型编码器(VPE)的新方法,该方法从真实世界输入图像中学习图像转换任务,作为元任务对应的原型图像。因此,VPE学习图像相似性以及与广泛使用的基于度量学习的方法不同的原型概念。我们对不同数据集的实验证明,所提出的VPE对基于竞争的基于metriclearning的一次性方法表现出色。此外,我们的定性分析表明,mymeta-task会产生一个适合于看不见的数据表示的有效嵌入空间。
translated by 谷歌翻译
本文是关于改进二元神经网络的训练,其中激活和权重都是二元的。虽然现有的神经网络组合方法独立地对每个滤波器进行二值化,但我们建议使用矩阵或张量分解来代替参数化每个层的权重张量。然后,通过应用于重建权重的量化函数(例如,符号函数),使用该潜在参数化来执行二值化处理。我们的方法的一个关键特征是,当构造被二值化时,潜在分解空间中的计算完全在实域中。这具有几个优点:(i)潜在因素在二值化之前强制执行滤波器的耦合,这显着提高了训练模型的准确性。 (ii)在吸引时间时,每个卷积层的二进制权重使用实值矩阵或张量分解进行参数化,在推理期间我们简单地使用重构(二进制)权重。因此,我们的方法不会在模型压缩和加速推理方面克服二进制网络的任何优势。作为进一步的贡献,不是像在先前的工作中那样分析地计算二进制权重缩放因子,我们建议通过反向传播来区别地区分它们。最后,我们证明,当在(a)人体姿势估计(超过4%的改进)和(b)ImageNet分类(高达5%的性能增益)的挑战性任务上进行测试时,超出现有方法的性能明显优于现有方法。
translated by 谷歌翻译