深度学习的最新进展使得可以使用街道级图像在精细分辨率和大范围内量化城市度量。在这里,我们专注于使用谷歌街景(GSV)图像来测量城市树木覆盖。首先,我们提供一个小规模的标记验证数据集,并提出标准指标,以比较使用GSV自动估算街道树木覆盖的性能。我们应用最先进的深度学习模型,并将其性能与先前建立的无监督方法基准进行比较。我们的深度学习模型的训练程序是新颖的;我们利用丰富的公开可用和类似标记的街道级图像数据集来预训我们的模型。然后,我们对由GSV图像组成的小型训练数据集执行额外训练。我们发现深度学习模型明显优于无人监督的基准方法。我们的语义分割模型相对于无监督方法将平均交叉联合(IoU)从44.10%增加到60.42%,而oundnd-end模型将平均绝对误差从10.04%减少到4.67%。我们还采用了最近开发的一种称为梯度加权类激活图(Grad-CAM)的方法来解释端到端模型学到的特征。该技术证实,端到端模型已经准确地学会识别树覆盖区域作为预测百分比树木覆盖的关键特征。我们的论文提供了一个将高级深度学习技术应用于大规模,地理标记和基于图像的数据集的示例,以有效地估计重要的城市指标。结果表明,深度学习模型非常准确,可以解释,并且在数据标记工作和计算资源方面也可以是高效的。
translated by 谷歌翻译
太阳眩光是导致交通事故的主要环境危害之一。每年都有许多人因与太阳眩光有关的交通事故而死亡和受伤。提供关于发生太阳光的时间和地点的准确信息将有助于防止太阳眩光造成交通事故并挽救生命。在本研究中,我们建议使用可公开访问的GoogleStreet View(GSV)全景图像来估计和预测sunglare的发生。 GSV图像具有类似于驾驶员的视线,这将使GSVimage适合于估计驾驶员对太阳眩光的可见性。最近开发的卷积神经网络算法用于分割GSV图像并预测太阳眩光上的障碍物。根据给定位置的预测障碍,我们通过估算太阳位置以及这些位置的驾驶员和太阳之间的相对角度,进一步估算了太阳伞的时间窗。我们在美国马萨诸塞州剑桥进行了一个案例研究。结果表明,该方法可以准确预测出眩光的存在。所提出的方法将为驾驶员和交通规划者提供重要的工具,以减轻太阳眩光并减少由太阳眩光引起的潜在交通事故。
translated by 谷歌翻译
漫画是一种人物形象的艺术形式,其中某些特征被抽象或夸大以产生愚蠢或讽刺效果。对于众多漫画相关的应用,如属性识别和漫画编辑,面部解析是一个必不可少的预处理步骤,提供完整的面部结构理解。然而,当前最先进的面部解析方法需要在像素上的大量标记数据 - 漫画的水平和这样的过程是乏味和劳动密集型的。对于真实照片,有许多用于faceparsing的标记数据集。因此,我们将漫画人脸解析制定为领域适应问题,其中真实照片扮演源域的角色,适应目标漫画。具体来说,我们首先利用基于空间变换器的网络来实现形状域移位。然后利用前馈式传输网络来捕获纹理级域间隙。通过这两个步骤,从真实照片中合成面部漫画,因此我们可以使用原始照片的解析背景来学习解析模型。对合成和真实漫画的实验结果证明了所提出的域自适应算法的有效性。代码位于:https://github.com/ZJULearning/CariFaceParsing。
translated by 谷歌翻译
我们不是从头开始一个字一个字;我们的大脑很快就像\ textsc {sth do sth at someplace}一样构建了apattern,然后填写详细的描述。为了使现有的编码器 - 解码器图像捕获器具有类似人类的推理,我们提出了一种新的框架:学习CollocateNeural Modules(CNM),以生成连接可视编码和语言解码器的“内部模式”。与visualQ \&A中广泛使用的神经模块网络不同,其中语言(即问题)是完全可观察的,因为生成语言因此可以部分地观察用于字幕的CNM更具挑战性。为此,我们为CNMtraining做出以下技术贡献:1)紧凑的模块设计 - 一个用于功能词和一个用于视觉内容词(例如,名词,形容词和动词),2)软模块融合和多步模块执行,在部分观察中证明视觉推理,3)模块控制器忠实于词性搭配(例如,形容词在名词之前)的语言损失。针对具有挑战性的MS-COCO图像字幕基准测试的广泛实验验证了CNM图像字幕的有效性。特别是,CNM在官方服务器上实现了最新的127.9 CIDEr-D在Karpathy分裂和单机型126.0 c40。 CNM对于少数训练样本也很稳健,例如,通过每个图像仅训练一个句子,CNM可以将性能损失减半,与强基线相比。
translated by 谷歌翻译
我们通过感知变化来解决视觉位置识别的问题。视觉位置识别的基本问题是产生强大的图像表示,其不仅对环境变化不敏感,而且可以区分不同的地方。利用卷积神经网络(CNN)的特征提取能力,我们进一步研究如何定位有利于相似性测量的判别性视觉地标,例如建筑物和植被。特别地,地标定位网络(LLN)被设计为指示图像的哪些区域用于区分。详细的实验是在开源数据集上进行的,具有不同的外观和视点变化。所提出的方法实现了针对最先进方法的优越性能。
translated by 谷歌翻译
提高模型性能始终是机器学习的关键问题,包括深度学习。然而,当堆叠更多层时,独立神经网络总是受到边际效应的影响。同时,整体是一种有用的技术,可以进一步提高模型性能。然而,训练几个独立的独立深度神经网络需要花费多种资源。在这项工作中,我们提出了Intra-Ensemble,这是一种端到端策略,具有随机训练操作,可以在一个神经网络内同时训练多个子网络。由于大多数参数是相互共享的,因此附加参数大小是微不足道的。同时,随机训练通过权重共享增加了子网的多样性,显着提高了整体性能。大量实验证明了整体在各种数据集和网络架构中的适用性。我们的模型与CIFAR-10和CIFAR-100上最先进的架构实现了可比较的结果。
translated by 谷歌翻译
在这项工作中,我们提出了一种基于ResNet的通用方法,用于光学相干断层扫描(OCT)图像中的散斑减少。建议的模型包含3个主要模块:Convolution-BN-ReLU,Branch和Residual模块。在非传统算法中,模型可以从训练数据中学习,而不是手动选择参数,如噪声水平。将这种提出的方​​法应用于OCT图像显示,在最小结构模糊的情况下,斑点噪声降低的信噪比提高了22dB以上。所提出的方法提供了强大的泛化能力,并且可以在不重新训练的情况下处理其他类型的OCT图像。它在抑制散斑噪声和揭示细微特征方面优于其他滤波方法。
translated by 谷歌翻译
从通过玻璃拍摄的图像中去除不需要的反射在计算机视觉中是非常重要的。它可以作为一种手段来增强图像质量,以达到审美目的,并在机器学习和模式识别应用程序中预处理图像。我们提出了一个凸模型来抑制单个输入图像的反射。我们的模型意味着一个带有梯度阈值的偏微分方程,它可以使用离散余弦变换有效地求解。对合成和现实世界图像的广泛实验表明,与现有技术相比,我们的方法实现了理想的反射抑制结果并显着缩短了执行时间。
translated by 谷歌翻译
在本文中,我们提出了一种通过同时学习图像表示和文本表示来聚类图像 - 字幕对的方法,这些图像表示和文本表示被约束以表现出类似的分布。这些图像标题对经常出现在高价值应用中,其中结构化训练数据的生成成本很高,但自由文本描述很常见。 MultiDEC使用堆叠自动编码器初始化参数,然后迭代地最小化Kullback-Leibler在图像(和文本)分布与组合联合目标分布的分布之间的差异。我们通过对集群中的非均匀分布进行规范化。最大限度地减少此目标的表示产生的集群在大型基准图像标题数据集上的表现优于单视图和多视图技术。
translated by 谷歌翻译
我们提出了场景图自动编码器(SGAE),它将语言诱导偏差融入到编码器 - 解码器图像字幕框架中,以实现类似人类的更多字幕。直觉上,我们人类使用归纳偏见来构成话语中的位置和语境推理。例如,当我们看到“骑自行车的人”这个关系时,很自然地用“骑”取代'on'并且在路上更换“骑自行车”,即使是“道路”也不明显。因此,利用这种偏差作为语言先验预期有助于常规编码器 - 解码器模型不太可能过度拟合数据集偏差并专注于推理。具体来说,我们使用场景图---有向图($ \ mathcal {G} $),其中对象节点通过形容词节点和关系节点连接---表示两个图像的复杂结构布局($ \ mathcal {我} $)和句子($ \ mathcal {S} $)。在文本域中,我们使用SGE来学习一个字典($ \ mathcal {D} $),它有助于重构$ \ mathcal {S} \ rightarrow \ mathcal {G} \ rightarrow \ mathcal {D} \ rightarrow \ mathcal中的句子{S} $ pipeline,其中$ \ mathcal {D} $先编码所需的语言;在视觉语言领域,我们使用共享的$ \ mathcal {D} $来引导$ \ mathcal {I中的编码器 - 解码器} \ rightarrow \ mathcal {G} \ rightarrow \ mathcal {D} \ rightarrow \ mathcal {S} $ pipeline。由于场景图表示和共享字典,归纳偏差原则上在域内传递。我们验证了SGAE在具有挑战性的MS-COCO图像字幕基准测试中的有效性,例如,我们基于SGAE的单一模型在Karpathy分割上实现了最新的127.8美元CIDEr-D,以及具有竞争力的125.5美元CIDEr-官方服务器上的D(c40)甚至与其他整体模型相比。
translated by 谷歌翻译