目前,城市流动研究和政府举措主要集中在与电动机相关的问题上,例如,拥堵与污染问题。然而,我们不能忽视城市景观中最脆弱的元素:行人,暴露于比其他道路用户更高的风险。实际上,城市的安全,无障碍和可持续的运输系统是联合国2030年议程的核心目标。因此,有机会将先进的计算工具应用于交通安全的问题,特别是对过去常被忽视的行人。本文结合了公共数据来源,大型街道图像和计算机视觉技术,以自动化,相对简单和普遍适用的数据处理方案接近行人和车辆安全性。该流水线所涉及的步骤包括对残余卷积神经网络的适应和训练,以确定每个给定城市场景的危险指标,以及基于这些相同图像的图像分割和类激活映射的解释性分析。结合,这种计算方法的结果是一个城市危险水平的细粒度地图,以及识别可能同时改善行人和车辆安全的干预措施的启发式。拟议的框架应作为城市规划者和公共当局的工作补充。
translated by 谷歌翻译
The visual dimension of cities has been a fundamental subject in urban studies, since the pioneering work of scholars such as Sitte, Lynch, Arnheim, and Jacobs. Several decades later, big data and artificial intelligence (AI) are revolutionizing how people move, sense, and interact with cities. This paper reviews the literature on the appearance and function of cities to illustrate how visual information has been used to understand them. A conceptual framework, Urban Visual Intelligence, is introduced to systematically elaborate on how new image data sources and AI techniques are reshaping the way researchers perceive and measure cities, enabling the study of the physical environment and its interactions with socioeconomic environments at various scales. The paper argues that these new approaches enable researchers to revisit the classic urban theories and themes, and potentially help cities create environments that are more in line with human behaviors and aspirations in the digital age.
translated by 谷歌翻译
自动化驾驶系统(广告)开辟了汽车行业的新领域,为未来的运输提供了更高的效率和舒适体验的新可能性。然而,在恶劣天气条件下的自主驾驶已经存在,使自动车辆(AVS)长时间保持自主车辆(AVS)或更高的自主权。本文评估了天气在分析和统计方式中为广告传感器带来的影响和挑战,并对恶劣天气条件进行了解决方案。彻底报道了关于对每种天气的感知增强的最先进技术。外部辅助解决方案如V2X技术,当前可用的数据集,模拟器和天气腔室的实验设施中的天气条件覆盖范围明显。通过指出各种主要天气问题,自主驾驶场目前正在面临,近年来审查硬件和计算机科学解决方案,这项调查概述了在不利的天气驾驶条件方面的障碍和方向的障碍和方向。
translated by 谷歌翻译
The last decade witnessed increasingly rapid progress in self-driving vehicle technology, mainly backed up by advances in the area of deep learning and artificial intelligence. The objective of this paper is to survey the current state-of-the-art on deep learning technologies used in autonomous driving. We start by presenting AI-based self-driving architectures, convolutional and recurrent neural networks, as well as the deep reinforcement learning paradigm. These methodologies form a base for the surveyed driving scene perception, path planning, behavior arbitration and motion control algorithms. We investigate both the modular perception-planning-action pipeline, where each module is built using deep learning methods, as well as End2End systems, which directly map sensory information to steering commands. Additionally, we tackle current challenges encountered in designing AI architectures for autonomous driving, such as their safety, training data sources and computational hardware. The comparison presented in this survey helps to gain insight into the strengths and limitations of deep learning and AI approaches for autonomous driving and assist with design choices. 1
translated by 谷歌翻译
自动交通事故检测已吸引机器视觉社区,因为它对自动智能运输系统(ITS)的发展产生了影响和对交通安全的重要性。然而,大多数关于有效分析和交通事故预测的研究都使用了覆盖范围有限的小规模数据集,从而限制了其效果和适用性。交通事故中现有的数据集是小规模,不是来自监视摄像机,而不是开源的,或者不是为高速公路场景建造的。由于在高速公路上发生事故,因此往往会造成严重损坏,并且太快了,无法赶上现场。针对从监视摄像机收集的高速公路交通事故的开源数据集非常需要和实际上。为了帮助视觉社区解决这些缺点,我们努力收集涵盖丰富场景的真实交通事故的视频数据。在通过各个维度进行集成和注释后,在这项工作中提出了一个名为TAD的大规模交通事故数据集。在这项工作中,使用公共主流视觉算法或框架进行了有关图像分类,对象检测和视频分类任务的各种实验,以证明不同方法的性能。拟议的数据集以及实验结果将作为改善计算机视觉研究的新基准提出,尤其是在其中。
translated by 谷歌翻译
地理定位的概念是指确定地球上的某些“实体”的位置的过程,通常使用全球定位系统(GPS)坐标。感兴趣的实体可以是图像,图像序列,视频,卫星图像,甚至图像中可见的物体。由于GPS标记媒体的大规模数据集由于智能手机和互联网而迅速变得可用,而深入学习已经上升以提高机器学习模型的性能能力,因此由于其显着影响而出现了视觉和对象地理定位的领域广泛的应用,如增强现实,机器人,自驾驶车辆,道路维护和3D重建。本文提供了对涉及图像的地理定位的全面调查,其涉及从捕获图像(图像地理定位)或图像内的地理定位对象(对象地理定位)的地理定位的综合调查。我们将提供深入的研究,包括流行算法的摘要,对所提出的数据集的描述以及性能结果的分析来说明每个字段的当前状态。
translated by 谷歌翻译
规划自行车共享站的布局是一个复杂的过程,特别是在刚刚实施自行车共享系统的城市。城市规划者通常必须根据公开可用的数据并私下提供来自管理的数据,然后使用现场流行的位置分配模型。较小城市的许多城市可能难以招聘专家进行此类规划。本文提出了一种新的解决方案来简化和促进通过使用空间嵌入方法来实现这种规划的过程。仅基于来自OpenStreetMap的公开数据,以及来自欧洲34个城市的站布局,已经开发了一种使用优步H3离散全球电网系统将城市分成微区域的方法,并指示其值得放置站的区域在不同城市使用转移学习的现有系统。工作的结果是在规划驻地布局的决策中支持规划者的机制,以选择参考城市。
translated by 谷歌翻译
小型太阳能光伏(PV)阵列中电网的有效集成计划需要访问高质量的数据:单个太阳能PV阵列的位置和功率容量。不幸的是,不存在小型太阳能光伏的国家数据库。那些确实有限的空间分辨率,通常汇总到州或国家一级。尽管已经发布了几种有希望的太阳能光伏检测方法,但根据研究,研究这些模型的性能通常是高度异质的。这些方法对能源评估的实际应用的比较变得具有挑战性,可能意味着报告的绩效评估过于乐观。异质性有多种形式,我们在这项工作中探讨了每种形式:空间聚集的水平,地面真理的验证,培训和验证数据集的不一致以及培训的位置和传感器的多样性程度和验证数据始发。对于每个人,我们都会讨论文献中的新兴实践,以解决它们或暗示未来研究的方向。作为调查的一部分,我们评估了两个大区域的太阳PV识别性能。我们的发现表明,由于验证过程中的共同局限性,从卫星图像对太阳PV自动识别的传统绩效评估可能是乐观的。这项工作的收获旨在为能源研究人员和专业人员提供自动太阳能光伏评估技术的大规模实用应用。
translated by 谷歌翻译
The Mapillary Vistas Dataset is a novel, largescale street-level image dataset containing 25 000 highresolution images annotated into 66 object categories with additional, instance-specific labels for 37 classes. Annotation is performed in a dense and fine-grained style by using polygons for delineating individual objects. Our dataset is 5× larger than the total amount of fine annotations for Cityscapes and contains images from all around the world, captured at various conditions regarding weather, season and daytime. Images come from different imaging devices (mobile phones, tablets, action cameras, professional capturing rigs) and differently experienced photographers. In such a way, our dataset has been designed and compiled to cover diversity, richness of detail and geographic extent. As default benchmark tasks, we define semantic image segmentation and instance-specific image segmentation, aiming to significantly further the development of state-of-theart methods for visual road-scene understanding.
translated by 谷歌翻译
未经我们的知识,偏差可以过滤到AI技术。通常,开创性深度学习网络冠军高于其他一切。在本文中,我们试图通过迭代训练的无学习算法来缓解城市驾驶场景中的语义分段模型遇到的偏差。已经显示卷积神经网络依赖于颜色和纹理而不是几何形状。当安全关键型应用(例如自动驾驶汽车)时,在测试时间遇到具有协变量的图像时,这会提高问题 - 通过照明变化或季节性等变化引起的变化。在诸如MNIST之类的简单数据集上显示了偏见无线的概念证明。但是,该策略从未应用于高度变量培训数据的像素明智语义分割的安全关键领域 - 例如城市场景。对于基线和偏置未经学习方案的培训模型已经过针对颜色操纵验证集的性能进行了测试,从原始RGB图像中显示出在Miou中的差异高达85.50% - 确认细分网络强烈取决于培训数据中的颜色信息进行分类。偏置未经学习方案表明,在最佳观察的情况下处理高达61%的调节的改善 - 并且在与基线模型相比,将“人”和“车辆”类始终如一地执行。
translated by 谷歌翻译
这项调查回顾了对基于视觉的自动驾驶系统进行行为克隆训练的解释性方法。解释性的概念具有多个方面,并且需要解释性的驾驶强度是一种安全至关重要的应用。从几个研究领域收集贡献,即计算机视觉,深度学习,自动驾驶,可解释的AI(X-AI),这项调查可以解决几点。首先,它讨论了从自动驾驶系统中获得更多可解释性和解释性的定义,上下文和动机,以及该应用程序特定的挑战。其次,以事后方式为黑盒自动驾驶系统提供解释的方法是全面组织和详细的。第三,详细介绍和讨论了旨在通过设计构建更容易解释的自动驾驶系统的方法。最后,确定并检查了剩余的开放挑战和潜在的未来研究方向。
translated by 谷歌翻译
在设计可持续和弹性的城市建造环境的同时,越来越多地促进了世界各地的,重大的数据差距对压迫可持续性问题挑战开展的研究。已知人行道具有强大的经济和环境影响;然而,由于数据收集的成本持久和耗时的性质,大多数城市缺乏它们的表面的空间目录。计算机愿景的最新进展与街道级别图像的可用性一起为城市提供了新的机会,以利用较低的实施成本和更高的准确性提取大规模建筑环境数据。在本文中,我们提出了一个基于主动学习的框架,利用计算机视觉技术来使用广泛可用的街道图像进行分类的计算机视觉技术。我们培训了来自纽约市和波士顿的图像的框架,评价结果显示了90.5%的Miou评分。此外,我们使用六个不同城市的图像评估框架,表明它可以应用于具有不同城市面料的区域,即使在培训数据的领域之外。 Citysurfaces可以为研究人员和城市代理商提供低成本,准确,可扩展的方法来收集人行道材料数据,在寻求主要可持续性问题方面发挥着关键作用,包括气候变化和地表水管理。
translated by 谷歌翻译
街道级别图像对原位数据收集进行扩大占据了重要潜力。通过组合使用便宜的高质量相机与最近的深度学习计算解决方案的进步来实现这一点,以推导出相关专题信息。我们介绍了一个框架,用于使用计算机视觉从街道层图像中收集和提取作物类型和候选信息。在2018年生长季节期间,高清图片被捕获在荷兰弗莱洛兰省的侧视动作相机。每个月从3月到10月,调查了一个固定的200公里路线,每秒收集一张照片,结果总计40万个地理标记的图片。在220个特定的包裹物位置,记录了现场作物的观察结果,以获得17种作物。此外,时间跨度包括特定的出苗前包裹阶段,例如用于春季和夏季作物的不同栽培的裸土,以及收获后栽培实践,例如,绿色皱眉和捕捉庄稼。基于与卷积神经网络(MobileNet)的转移学习,使用具有众所周知的图像识别模型的Tensorflow进行分类。开发了一种超核解方法,以获得160型号的表现最佳模型。这种最佳模型应用于独立推理的鉴别作物类型,宏观F1分数为88.1%的宏观效果,在包裹水平的86.9%。讨论了这种方法的潜力和警告以及实施和改进的实际考虑因素。所提出的框架速度升高了高质量的原位数据收集,并通过使用计算机视觉自动分类建议大规模数据收集的途径。
translated by 谷歌翻译
TU Dresden www.cityscapes-dataset.net train/val -fine annotation -3475 images train -coarse annotation -20 000 images test -fine annotation -1525 images
translated by 谷歌翻译
分析了2011年至2021年发表的88个来源,本文对基于计算机的建筑物和建筑环境进行了首次系统评价,以评估其对建筑和城市设计研究的价值。遵循多阶段的选择过程,讨论了有关建筑应用,例如建筑物分类,详细分类,定性环境分析,建筑条件调查和建筑价值估算等建筑应用程序的类型。这揭示了当前的研究差距和趋势,并突出了研究目标的两个主要类别。首先,要使用或优化计算机视觉方法进行体系结构图像数据,然后可以帮助自动化耗时,劳动密集型或复杂的视觉分析任务。其次,通过查找视觉,统计和定性数据之间的模式和关系来探索机器学习方法的方法论上的好处,以研究有关建筑环境的新问题,这可以克服传统手动分析的局限性。不断增长的研究为建筑和设计研究提供了新的方法,论文确定了未来的研究挑战和方向。
translated by 谷歌翻译
关键应用程序中机器学习(ML)组件的集成引入了软件认证和验证的新挑战。正在开发新的安全标准和技术准则,以支持基于ML的系统的安全性,例如ISO 21448 SOTIF用于汽车域名,并保证机器学习用于自主系统(AMLAS)框架。 SOTIF和AMLA提供了高级指导,但对于每个特定情况,必须将细节凿出来。我们启动了一个研究项目,目的是证明开放汽车系统中ML组件的完整安全案例。本文报告说,Smikk的安全保证合作是由行业级别的行业合作的,这是一个基于ML的行人自动紧急制动示威者,在行业级模拟器中运行。我们演示了AMLA在伪装上的应用,以在简约的操作设计域中,即,我们为其基于ML的集成组件共享一个完整的安全案例。最后,我们报告了经验教训,并在开源许可下为研究界重新使用的开源许可提供了傻笑和安全案例。
translated by 谷歌翻译
全球城市可免费获得大量的地理参考全景图像,以及各种各样的城市物体上的位置和元数据的详细地图。它们提供了有关城市物体的潜在信息来源,但是对象检测的手动注释是昂贵,费力和困难的。我们可以利用这种多媒体来源自动注释街道级图像作为手动标签的廉价替代品吗?使用Panorams框架,我们引入了一种方法,以根据城市上下文信息自动生成全景图像的边界框注释。遵循这种方法,我们仅以快速自动的方式从开放数据源中获得了大规模的(尽管嘈杂,但都嘈杂,但对城市数据集进行了注释。该数据集涵盖了阿姆斯特丹市,其中包括771,299张全景图像中22个对象类别的1400万个嘈杂的边界框注释。对于许多对象,可以从地理空间元数据(例如建筑价值,功能和平均表面积)获得进一步的细粒度信息。这样的信息将很难(即使不是不可能)单独根据图像来获取。为了进行详细评估,我们引入了一个有效的众包协议,用于在全景图像中进行边界框注释,我们将其部署以获取147,075个地面真实对象注释,用于7,348张图像的子集,Panorams-clean数据集。对于我们的Panorams-Noisy数据集,我们对噪声以及不同类型的噪声如何影响图像分类和对象检测性能提供了广泛的分析。我们可以公开提供数据集,全景噪声和全景清洁,基准和工具。
translated by 谷歌翻译
The PASCAL Visual Object Classes (VOC) challenge is a benchmark in visual object category recognition and detection, providing the vision and machine learning communities with a standard dataset of images and annotation, and standard evaluation procedures. Organised annually from 2005 to present, the challenge and its associated dataset has become accepted as the benchmark for object detection.This paper describes the dataset and evaluation procedure. We review the state-of-the-art in evaluated methods for both classification and detection, analyse whether the methods are statistically different, what they are learning from the images (e.g. the object or its context), and what the methods find easy or confuse. The paper concludes with lessons learnt in the three year history of the challenge, and proposes directions for future improvement and extension.
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
使用计算机视觉对间接费用的分析是一个问题,在学术文献中受到了很大的关注。在这个领域运行的大多数技术都非常专业,需要大型数据集的昂贵手动注释。这些问题通过开发更通用的框架来解决这些问题,并结合了表示学习的进步,该框架可以更灵活地分析具有有限标记数据的新图像类别。首先,根据动量对比机制创建了未标记的空中图像数据集的强大表示。随后,通过构建5个标记图像的准确分类器来专门用于不同的任务。从6000万个未标记的图像中,成功的低水平检测城市基础设施进化,体现了我们推进定量城市研究的巨大潜力。
translated by 谷歌翻译