精确农业的发展在农业过程中逐渐引入自动化,以支持和合理化与现场管理有关的所有活动。特别是,服务机器人技术通过部署能够在字段中导航的自主代理在执行不同的任务而无需人工干预(例如监视,喷涂和收获)的同时,在这一演变中起主要作用。在这种情况下,全球路径规划是每个机器人任务的第一步,并确保通过完整的现场覆盖范围有效地执行导航。在本文中,我们提出了一种基于学习的方法来解决Waypoint生成,以规划基于行的农作物的导航路径,从利益区域的顶级图表开始。我们提出了一种基于对比损失的新方法,可以将这些点投射到可分离的潜在空间。拟议的深神经网络可以同时在单个正向传球中使用两个专门的头部来预测路点位置和群集分配。对模拟和现实世界图像的广泛实验表明,所提出的方法有效地解决了基于直的和曲面的作物的路点生成问题,从而克服了先前最先进的方法的局限性。
translated by 谷歌翻译
昂贵的传感器和低效的算法管道显着影响自动机器的总成本。然而,实惠的机器人解决方案对于实际使用至关重要,其财务影响构成了在大多数申请领域采用服务机器人的基本要求。其中,精密农业领域的研究人员努力设计强大,经济高效的自主平台,以提供真正的大规模竞争解决方案。在本文中,我们提出了一个完整的算法管道,用于基于行的作物自主导航,专门设计用于应对低范围的传感器和季节性变化。首先,我们建立一个强大的数据驱动方法,为自主机器生成一个可行的路径,仅涵盖庄稼的占用网格信息的裁剪的完整扩展。此外,我们的解决方案利用了深入学习优化技术和综合生成数据的最新进步,以提供一种实惠的解决方案,可有效地解决由于植被生长在行的植被而有效地解决了众所周知的全球导航卫星系统不可靠性和降级。对计算机生成的环境和现实世界作物的广泛实验和模拟表明了我们的方法的稳健性和内在的完全平整性,其开辟了高度实惠和完全自主机器的可能性。
translated by 谷歌翻译
农业环境中的自主导航通常受到可能在耕地中可能出现的不同田间条件的挑战。在这些农业环境中自动导航的最新解决方案将需要昂贵的硬件,例如RTK-GPS。本文提出了一种强大的作物排检测算法,该算法可以承受这些变化,同时检测作物行进行视觉伺服。创建了一个糖图像的数据集,其中有43个组合在可耕地中发现的11个田间变化。新型的作物行检测算法既经过作物行检测性能,又要测试沿农作系的视觉伺服伺服的能力。该算法仅使用RGB图像作为输入,并且使用卷积神经网络来预测作物行面罩。我们的算法优于基线方法,该方法使用基于颜色的分割来实现场变化的所有组合。我们使用一个组合性能指标,该指标解释了作物行检测的角度和位移误差。我们的算法在作物的早期生长阶段表现出最差的表现。
translated by 谷歌翻译
精确农业正在迅速吸引研究,以有效地引入自动化和机器人解决方案,以支持农业活动。葡萄园和果园中的机器人导航在自主监控方面具有竞争优势,并轻松获取农作物来收集,喷涂和执行时必的耗时必要任务。如今,自主导航算法利用了昂贵的传感器,这也需要大量的数据处理计算成本。尽管如此,葡萄园行代表了一个具有挑战性的户外场景,在这种情况下,GPS和视觉进程技术通常难以提供可靠的定位信息。在这项工作中,我们将Edge AI与深度强化学习相结合,以提出一种尖端的轻质解决方案,以解决自主葡萄园导航的问题,而无需利用精确的本地化数据并通过基于灵活的学习方法来克服任务列出的算法。我们训练端到端的感觉运动剂,该端机直接映射嘈杂的深度图像和位置不可稳定的机器人状态信息到速度命令,并将机器人引导到一排的尽头,不断调整其标题以进行无碰撞的无碰撞中央轨迹。我们在现实的模拟葡萄园中进行的广泛实验证明了解决方案的有效性和代理的概括能力。
translated by 谷歌翻译
地理定位的概念是指确定地球上的某些“实体”的位置的过程,通常使用全球定位系统(GPS)坐标。感兴趣的实体可以是图像,图像序列,视频,卫星图像,甚至图像中可见的物体。由于GPS标记媒体的大规模数据集由于智能手机和互联网而迅速变得可用,而深入学习已经上升以提高机器学习模型的性能能力,因此由于其显着影响而出现了视觉和对象地理定位的领域广泛的应用,如增强现实,机器人,自驾驶车辆,道路维护和3D重建。本文提供了对涉及图像的地理定位的全面调查,其涉及从捕获图像(图像地理定位)或图像内的地理定位对象(对象地理定位)的地理定位的综合调查。我们将提供深入的研究,包括流行算法的摘要,对所提出的数据集的描述以及性能结果的分析来说明每个字段的当前状态。
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
我们提出了一种新的四管齐下的方法,在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架,彼此之叠,以提高消防员在紧急首次响应设置中进行的救援任务的安全性,效率和成功完成。首先,我们使用深度卷积神经网络(CNN)系统,以实时地分类和识别来自热图像的感兴趣对象。接下来,我们将此CNN框架扩展了对象检测,跟踪,分割与掩码RCNN框架,以及具有多模级自然语言处理(NLP)框架的场景描述。第三,我们建立了一个深入的Q学习的代理,免受压力引起的迷失方向和焦虑,能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后,我们使用了一种低计算无监督的学习技术,称为张量分解,在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构,我们建立了人工智能系统的骨干,用于消防员的情境意识。要将设计的系统带入消防员的使用,我们设计了一种物理结构,其中处理后的结果被用作创建增强现实的投入,这是一个能够建议他们所在地的消防员和周围的关键特征,这对救援操作至关重要在手头,以及路径规划功能,充当虚拟指南,以帮助迷彩的第一个响应者恢复安全。当组合时,这四种方法呈现了一种新颖的信息理解,转移和综合方法,这可能会大大提高消防员响应和功效,并降低寿命损失。
translated by 谷歌翻译
由于它可能对粮食安全,可持续性,资源利用效率,化学处理的降低以及人类努力和产量的优化,因此,自主机器人在农业中的应用正在越来越受欢迎。有了这一愿景,蓬勃发展的研究项目旨在开发一种适应性的机器人解决方案,用于精确耕作,该解决方案结合了小型自动无人驾驶飞机(UAV)(UAV)的空中调查能力以及由多功能无人驾驶的无人接地车(UGV)执行的针对性干预措施。本文概述了该项目中获得的科学和技术进步和结果。我们引入了多光谱感知算法以及空中和地面系统,用于监测农作物密度,杂草压力,作物氮营养状况,并准确地对杂草进行分类和定位。然后,我们介绍了针对我们在农业环境中机器人身份量身定制的导航和映射系统,以及用于协作映射的模块。我们最终介绍了我们在不同的现场条件和不同农作物中实施和测试的地面干预硬件,软件解决方案以及接口。我们描述了一个真正的用例,在该案例中,无人机与UGV合作以监视该领域并进行选择性喷涂而无需人工干预。
translated by 谷歌翻译
近年来,深度学习算法在地球观察(EO)中的应用使依赖远程感知数据的领域取得了重大进展。但是,鉴于EO中的数据量表,创建具有专家使用像素级注释的大型数据集是昂贵且耗时的。在这种情况下,先验被视为一种有吸引力的方法,可以减轻在训练EO的深度学习方法时手动标签的负担。对于某些应用,这些先验很容易获得。本研究以许多计算机视觉任务中的自我监督特征表示学习的对比学习方法取得了巨大成功的动机,本研究提出了一种使用作物标签比例的在线深度聚类方法,作为研究基于政府作物的样本级别的先验者 - 整个农业地区的比例数据。我们使用来自巴西两个不同农业地区的两个大数据集评估了该方法。广泛的实验表明,该方法对不同的数据类型(合成句子雷达和光学图像)具有鲁棒性,考虑到目标区域中主要的作物类型,报告了更高的精度值。因此,它可以减轻EO应用中大规模图像注释的负担。
translated by 谷歌翻译
视频分析的图像分割在不同的研究领域起着重要作用,例如智能城市,医疗保健,计算机视觉和地球科学以及遥感应用。在这方面,最近致力于发展新的细分策略;最新的杰出成就之一是Panoptic细分。后者是由语义和实例分割的融合引起的。明确地,目前正在研究Panoptic细分,以帮助获得更多对视频监控,人群计数,自主驾驶,医学图像分析的图像场景的更细致的知识,以及一般对场景更深入的了解。为此,我们介绍了本文的首次全面审查现有的Panoptic分段方法,以获得作者的知识。因此,基于所采用的算法,应用场景和主要目标的性质,执行现有的Panoptic技术的明确定义分类。此外,讨论了使用伪标签注释新数据集的Panoptic分割。继续前进,进行消融研究,以了解不同观点的Panoptic方法。此外,讨论了适合于Panoptic分割的评估度量,并提供了现有解决方案性能的比较,以告知最先进的并识别其局限性和优势。最后,目前对主题技术面临的挑战和吸引不久的将来吸引相当兴趣的未来趋势,可以成为即将到来的研究研究的起点。提供代码的文件可用于:https://github.com/elharroussomar/awesome-panoptic-egation
translated by 谷歌翻译
休眠季节葡萄树修剪需要熟练的季节性工人,这在冬季变得越来越缺乏。随着在短期季节性招聘文化和低工资的短期季节性招聘文化和低工资的时间内,随着工人更少的葡萄藤,葡萄藤往往被修剪不一致地导致葡萄化物不平衡。除此之外,目前现有的机械方法无法选择性地修剪葡萄园和手动后续操作,通常需要进一步提高生产成本。在本文中,我们展示了崎岖,全自治机器人的设计和田间评估,用于休眠季节葡萄园的端到最终修剪。该设计的设计包括新颖的相机系统,运动冗余机械手,地面机器人和在感知系统中的新颖算法。所提出的研究原型机器人系统能够在213秒/葡萄藤中完全从两侧刺激一排藤蔓,总修枝精度为87%。与机械预灌浆试验相比,商业葡萄园中自治系统的初始现场测试显示出休眠季节修剪的显着变化。在手稿中描述了设计方法,系统组件,经验教训,未来增强以及简要的经济分析。
translated by 谷歌翻译
本文介绍了使用腿收割机进行精密收集任务的集成系统。我们的收割机在狭窄的GPS拒绝了森林环境中的自主导航和树抓取了一项挑战性的任务。提出了映射,本地化,规划和控制的策略,并集成到完全自主系统中。任务从使用定制的传感器模块开始使用人员映射感兴趣区域。随后,人类专家选择树木进行收获。然后将传感器模块安装在机器上并用于给定地图内的本地化。规划算法在单路径规划问题中搜索一个方法姿势和路径。我们设计了一个路径,后面的控制器利用腿的收割机的谈判粗糙地形的能力。在达接近姿势时,机器用通用夹具抓住一棵树。此过程重复操作员选择的所有树。我们的系统已经在与树干和自然森林中的测试领域进行了测试。据我们所知,这是第一次在现实环境中运行的全尺寸液压机上显示了这一自主权。
translated by 谷歌翻译
合成孔径雷达(SAR)图像是各种任务的有价值资产。在过去的几年里,许多网站以易于管理产品的形式免费提供它们,倾向于在S​​AR领域的广泛扩散和研究工作。这些机会的缺点是,这些图像可能会被恶意用户暴露于伪造和操纵,提高对他们的诚信和可信度的新担忧。到目前为止,多媒体取证文献提出了各种技术来定位自然照片中的操纵,但从未调查过SAR图像的完整性评估。此任务构成了新的挑战,因为SAR图像是由处理链完全不同于自然照片的图像。这意味着对于自然图像开发的许多取证方法不保证成功。在本文中,我们研究了SAR图像拼接定位问题的问题。我们的目标是本地化已经复制和粘贴了从另一个图像复制和粘贴的幅度SAR图像的区域,可能正在进行该过程中的某种编辑。为此,我们利用卷积神经网络(CNN)来提取在分析的输入的处理迹线中突出的指纹突出显示。然后,我们检查该指纹以产生二进制篡改掩模,指示拼接攻击下的像素区域。结果表明,我们提出的方法,针对SAR信号的性质量身定制,提供比为自然图像开发的最先进的法医工具更好的表现。
translated by 谷歌翻译
过去,图像检索是用于跨视图地理位置和无人机视觉本地化任务的主流解决方案。简而言之,图像检索的方式是通过过渡角度获得最终所需的信息,例如GPS。但是,图像检索的方式并非完全端到端。并且有一些多余的操作,例如需要提前准备功能库以及画廊构造的抽样间隔问题,这使得很难实施大规模应用程序。在本文中,我们提出了一个端到端定位方案,使用图像(FPI)查找点,该方案旨在通过源A的图像(无人机 - - 看法)。为了验证我们的框架的可行性,我们构建了一个新的数据集(UL14),该数据集旨在解决无人机视觉自我定位任务。同时,我们还建立了一个基于变压器的基线以实现端到端培训。另外,先前的评估方法不再适用于FPI框架。因此,提出了米级准确性(MA)和相对距离评分(RDS)来评估无人机定位的准确性。同时,我们初步比较了FPI和图像检索方法,而FPI的结构在速度和效率方面都可以提高性能。特别是,由于不同观点与剧烈的空间量表转换之间的巨大差异,FPI的任务仍然是巨大的挑战。
translated by 谷歌翻译
本文提出了一种新颖的方法,用于在具有复杂拓扑结构的地下领域的搜索和救援行动中自动合作。作为CTU-Cras-Norlab团队的一部分,拟议的系统在DARPA SubT决赛的虚拟轨道中排名第二。与专门为虚拟轨道开发的获奖解决方案相反,该建议的解决方案也被证明是在现实世界竞争极为严峻和狭窄的环境中飞行的机上实体无人机的强大系统。提出的方法可以使无缝模拟转移的无人机团队完全自主和分散的部署,并证明了其优于不同环境可飞行空间的移动UGV团队的优势。该论文的主要贡献存在于映射和导航管道中。映射方法采用新颖的地图表示形式 - 用于有效的风险意识长距离计划,面向覆盖范围和压缩的拓扑范围的LTVMAP领域,以允许在低频道通信下进行多机器人合作。这些表示形式与新的方法一起在导航中使用,以在一般的3D环境中可见性受限的知情搜索,而对环境结构没有任何假设,同时将深度探索与传感器覆盖的剥削保持平衡。所提出的解决方案还包括一条视觉感知管道,用于在没有专用GPU的情况下在5 Hz处进行四个RGB流中感兴趣的对象的板上检测和定位。除了参与DARPA SubT外,在定性和定量评估的各种环境中,在不同的环境中进行了广泛的实验验证,UAV系统的性能得到了支持。
translated by 谷歌翻译
随着全球的太阳能能力继续增长,越来越意识到先进的检验系统正度重视安排智能干预措施并最大限度地减少停机时间。在这项工作中,我们提出了一种新的自动多级模型,以通过使用YOLOV3网络和计算机视觉技术来检测由无人机捕获的空中图像上的面板缺陷。该模型结合了面板和缺陷的检测来改进其精度。主要的Noveltize由其多功能性来处理热量或可见图像,并检测各种缺陷及其对屋顶和地面安装的光伏系统和不同面板类型的缺陷。拟议的模型已在意大利南部的两个大型光伏工厂验证,优秀的AP至0.5超过98%,对于面板检测,卓越的AP@0.4(AP@0.5)大约为88.3%(66.95%)的热点红外热成像和MAP@0.5在可见光谱中近70%,用于检测通过污染和鸟粪诱导,分层,水坑的存在和覆盖屋顶板诱导的面板遮蔽的异常谱。还预测了对污染覆盖的估计。最后讨论了对不同yolov3的输出尺度对检测的影响的分析。
translated by 谷歌翻译
大坝水库在实现可持续发展目标和全球气候目标方面发挥着重要作用。但是,特别是对于小型水坝水库,其地理位置缺乏一致的数据。为了解决此数据差距,一种有前途的方法是根据全球可用的遥感图像进行自动水坝水库提取。它可以被认为是水体提取的精细颗粒任务,涉及在图像中提取水区,然后将水坝储层与天然水体分开。我们提出了一种基于新型的深神经网络(DNN)管道,该管道将大坝水库提取到水体分割和大坝储层识别中。首先将水体与分割模型中的背景土地分开,然后将每个水体预测为大坝储层或分类模型中的天然水体。对于以前的一步,将跨图像的点级度量学习注入分段模型,以解决水域和土地区域之间的轮廓模棱两可。对于后一个步骤,将带有簇的三重态的先前引导的度量学习注入到分类模型中,以根据储层簇在细粒度中优化图像嵌入空间。为了促进未来的研究,我们建立了一个带有地球图像数据的基准数据集,并从西非和印度的河流盆地标记为人类标记的水库。在水体分割任务,水坝水库识别任务和关节坝储层提取任务中,对这个基准进行了广泛的实验。将我们的方法与艺术方法的方法进行比较时,已经在各自的任务中观察到了卓越的性能。
translated by 谷歌翻译
现代光学卫星传感器使高分辨率立体声重建。但是在观察地球从空间推动立体声匹配时挑战成像条件。在实践中,由此产生的数字表面模型(DSM)相当嘈杂,并且通常不会达到3D城市建模等高分辨率应用所需的准确性。可以说,基于低电平图像相似性的立体声对应不足,并且应该互补关于超出基本局部平滑度的预期表面几何的先验知识。为此,我们介绍了Resptepth,这是一个卷积神经网络,其在示例数据之前学习如此表达几何。 Restepth在调节图像上的细化时改进初始原始的立体声DSM。即,它充当了一个智能,学习的后处理过滤器,可以无缝地补充任何立体声匹配管道。在一系列实验中,我们发现所提出的方法始终如一地改善了定量和定性的立体声DSM。我们表明,网络权重中的先前编码捕获了城市设计的有意义的几何特征,这也概括了不同地区,甚至从一个城市到另一个城市。此外,我们证明,通过对各种立体对的训练,RESPTH可以在成像条件和采集几何体中获得足够的不变性。
translated by 谷歌翻译
由于技术成本的降低和卫星发射的增加,卫星图像变得越来越流行和更容易获得。除了提供仁慈的目的外,还可以出于恶意原因(例如错误信息)使用卫星数据。事实上,可以依靠一般图像编辑工具来轻松操纵卫星图像。此外,随着深层神经网络(DNN)的激增,可以生成属于各种领域的现实合成图像,与合成生成的卫星图像的扩散有关的其他威胁正在出现。在本文中,我们回顾了关于卫星图像的产生和操纵的最新技术(SOTA)。特别是,我们既关注从头开始的合成卫星图像的产生,又要通过图像转移技术对卫星图像进行语义操纵,包括从一种类型的传感器到另一种传感器获得的图像的转换。我们还描述了迄今已研究的法医检测技术,以对合成图像伪造进行分类和检测。虽然我们主要集中在法医技术上明确定制的,该技术是针对AI生成的合成内容物的检测,但我们还审查了一些用于一般剪接检测的方法,这些方法原则上也可以用于发现AI操纵图像
translated by 谷歌翻译