交通信号控制是一种新兴的应用场景,用于加强学习。除了作为影响人们通勤日常生活的重要问题之外,交通信号控制在适应动态交通环境和协调包括车辆和行人在内的数千名代理人方面对于强化学习提出了独特的挑战。现代强化学习成功的关键因素依赖于商品模拟器来生成大量用于学习的数据样本。然而,最常用的开源流量模拟器SUMO不能扩展到大型公路网和大流量,这阻碍了对交通场景的强化学习的研究。这促使我们创建一个新的流量模拟器CityFlow,它具有基本优化的数据结构和高效的算法。 CityFlow可以根据合成和真实数据支持灵活的道路网络和交通流量定义。它还提供了用户友好的强化学习界面。最重要的是,CityFlow比SUMO快20多倍,并且能够通过交互式渲染形式监控来支持全市范围的交通模拟。除了交通信号控制,CityFlow还可以作为其他交通研究的基础,并为智能交通领域的测试机器学习方法创造新的可能性。
translated by 谷歌翻译
现有的姿势估计方法可以分为单级和多级方法。虽然多阶段架构看起来更适合于任务,但是当前多阶段方法的性能不如单阶段方法那么具有竞争力。这项工作研究了这个问题。我们认为目前的表现不尽如人意,因为目前的方法设计不足。我们对架构设计,特征流和损失函数提出了一些改进。由此产生的多级网络优于之前的所有工作,并在COCO关键点挑战201上获得最佳性能。源代码将被发布。
translated by 谷歌翻译
大多数现有的工作都是以图像中的自然语言短语为基础,假设所讨论的短语与图像相关。在本文中,我们讨论了一个更加真实的自然语言背景任务版本,我们必须确定该短语是否与图像相关并将该词组本地化。这也可以被视为对开放式词汇表的对象检测的概括,主要是引入少量和零射击检测的元素。我们为此任务提出了一个短语R-CNN网络,它扩展了更快的R-CNN以关联图像区域和短语。通过使用规范相关分析(CCA)仔细初始化我们网络的分类层,我们鼓励在相似短语之间进行推理时更加清晰的解决方案,导致与两个流行的短语接地数据,Flickr30K实体和引用游戏的天真适应相比,性能超过两倍,测试时间短语词汇分别为5K和39K。
translated by 谷歌翻译
众所周知,深度学习是数据枯竭的,当数据集较小时,这会阻碍其在许多科学领域的应用。在这里,我们建议使用转移学习方法在不同的物理场景之间迁移知识,并显着提高在小数据集上应用的人工神经网络的预测精度。该方法可以通过利用额外的廉价数据来帮助减少需求的高价数据。首先,我们证明在预测多层光子薄膜的透射率时,当源数据来自10层(8层)薄膜且目标数据来自8层时,相对误差率降低了46.8%(26.5%)( 10层)膜。其次,我们表明,当知识在两种截然不同的物理场景之间转移时,相对误差率降低了22%:多层膜的透射和多层纳米粒子的散射。最后,我们提出了一种多任务学习方法,以同时改善不同物理场景的性能,其中每个任务只有一个小数据集。
translated by 谷歌翻译
卷积神经网络(CNN)由于其建筑物模块中的固定几何结构而固有地局限于模型几何变换。在这项工作中,我们引入了两个新模块来增强CNN的转换建模能力,即可变形卷积和可变形RoI池。两者都基于增加模块中的空间采样位置以及额外的偏移并从目标任务中学习偏移的想法,而无需额外的监督。新模块可以很容易地取代现有CNN中的普通模块,并且可以通过标准的反向传播轻松地进行端到端的训练,从而产生可变形的卷积网络。大量实验验证了对于物体检测和语义分割的复杂视觉任务的有效性。代码将被释放。
translated by 谷歌翻译
提出了一种新的双线性判别特征线分析(BDFLA)用于图像特征提取。最近的特征线(NFL)是一个功能强大的分类器。最近引入了一些基于NFL的子空间算法。在大多数基于NFL的经典子空间学习方法中,输入样本是矢量。对于图像分类任务,图像样本应首先转换为矢量。该过程引起高计算复杂性并且还可能导致样品的几何特征的损失。提出的BDFLA是基于矩阵的算法。它旨在最大限度地减少类内散射,并最大化基于二维(2D)NFL的类间散射。双图像数据库的实验结果证实了其有效性。
translated by 谷歌翻译
目的:组织氧饱和度(StO2)的术中测量在缺血检测,监测灌注和鉴别疾病中是重要的。高光谱成像(HSI)测量组织的光学反射光谱,并使用该信息量化其组成,包括StO2。但是,由于捕获率和数据处理时间,实时监控很困难。方法:先前开发了一种基于多光纤探头的内窥镜系统,以稀疏地捕获HSI数据(sHSI)。这些通过深度神经网络与RGB图像组合,以生成高分辨率超立方体并计算StO2。为了提高准确度和处理速度,我们提出了双输入条件生成对抗网络(cGAN)Dual2StO2,通过融合RGB和sHSI的特征来直接估计StO2。结果:在vivoporcine肠道数据中进行了验证实验,其中地面实况StO2是从HSIcamera生成的。在平均StO2预测精度和结构相似性度量方面,还将性能与我们的先前光谱分辨率网络SSRNet进行了比较。 Dual2StO2也使用具有不同光纤数量的模拟探针数据进行测试。结论:在一般结构中,由二重StO2估计的StO2在视觉上更接近于地面实况,与SSRNet相比,实现了更高的预测精度和更快的处理速度。仿真表明,当在探头中使用更多数量的光纤时,结果得到改善。未来的工作将包括网络架构的改进,基于模拟结果的硬件优化,以及超出StO2估计的临床应用技术评估。
translated by 谷歌翻译
我们分析随机梯度算法来优化非凸问题。特别是,我们的目标是找到局部最小值(二阶静止点)而不是仅找到一阶静止点,这可能是某些不稳定的鞍点。我们证明了一个简单的扰动版本的随机递归梯度下降算法(称为SSRGD)可以找到$(\ epsilon,\ delta)$ - 二阶固定点,其中$ \ widetilde {O}(\ sqrt {n} / \ epsilon ^ 2 + \ sqrt {n} / \ delta ^ 4 + n / \ delta ^ 3)非凸有限和问题的$随机梯度复杂度。作为aby-product,SSRGD使用$ O(n + \ sqrt {n} / \ epsilon ^ 2)$随机梯度找到$ \ epsilon $ -first-order固定点。自Fang等人以来,这些结果几乎是最优的。 [2018]提供了一个下限$ \ Omega(\ sqrt {n} / \ epsilon ^ 2)$,用于查找甚至只是$ \ epsilon $ -first-orderstationary点。我们强调用于寻找二阶点的SSRGD算法就像通过有时添加均匀扰动来寻找一阶静止点一样简单,而用于寻找具有相似梯度复杂度的二阶静止点的所有其他算法需要具有负曲率的tocombine搜索子程序(例如,Neon2 [Allen-Zhu andLi,2018])。此外,简单的SSRGD算法得到了更简单的分析。此外,我们还扩展了非凸的有限和问题tononconvex在线(期望)问题的结果,并证明了相应的收敛结果。
translated by 谷歌翻译
多形性胶质母细胞瘤(GBM)是一种头部肿瘤,具有非常复杂的治疗过程。存活期通常为14-16个月,2年存活率约为26%-33%。 GBM的假性进展(PsP)和真实肿瘤进展(TTP)的临床治疗策略是不同的,因此准确区分这两种情况具有特别重要的意义。由于GBM的PsP和TTP在形状和其他特征上相似,因此很难区分这两种形式。精确。为了准确区分它们,本文介绍了一种基于生成对抗网络的特征学习方法:DC-Al GAN。 GAN由两种架构组成:发电机和鉴别器。 Alexnet在这项工作中被用作鉴别者。由于发生器和鉴别器之间的对抗性和竞争性关系,后者在训练期间提取高度协调的特征。在DC-Al GAN中,在最终分类阶段从特征网中提取特征,并且它们的高性质对分类精度有积极贡献。通过添加三个卷积,通过深度卷积生成对抗网络(DCGAN)修改DC-AlGAN中的生成器。层。这有效地生成了更高分辨率的样本图像。特征融合用于将高层特征与低层特征相结合,允许创建和使用更精确的特征进行分类。实验结果证实,DC-Al GAN对用于PsP和TTP图像分类的GBM数据集具有高精度,优于其他最先进的方法。
translated by 谷歌翻译
尽管深度学习取得了巨大成功,但我们对如何训练凸凸神经网络的理解仍然相当有限。大多数现有的理论工作只涉及具有一个隐藏层的神经网络,而且对于多层神经网络知之甚少。递归神经网络(RNN)是在自然语言处理应用中广泛使用的特殊多层网络。与前馈网络相比,它们特别难以分析,因为权重参数在整个时间范围内重复使用。我们可以说是对训练RNN的收敛速度的第一个理论上的理解。具体来说,当神经元的数量足够大时 - 意味着训练数据大小和时间范围内的多项式 - 以及随机初始化权重时,我们表明梯度下降和随机梯度下降都可以最小化线性收敛中的训练损失率,即$ \ varepsilon \ proptoe ^ { - \ Omega(T)} $。
translated by 谷歌翻译