对象本地化一直是计算机视觉字段中的至关重要任务。已经根据参加像素的特征提出了在图像中定位对象的方法。最近,研究人员提出了将对象定位作为动态决策过程的方法,可以通过强化学习方法来解决。在这个项目中,我们基于深入的强化学习实现了一种新颖的活动对象本地化算法。我们比较了此MDP的两个不同的动作设置:一种分层方法和动态方法。我们通过研究不同的超参数和各种体系结构的变化,进一步对模型的性能进行一些消融研究。
translated by 谷歌翻译
场景文本检测的具有挑战性的领域需要复杂的数据注释,这是耗时和昂贵的。弱监管等技术可以减少所需的数据量。本文提出了一种薄弱的现场文本检测监控方法,这是利用加强学习(RL)。RL代理收到的奖励由神经网络估算,而不是从地面真理标签推断出来。首先,我们增强了具有多种培训优化的文本检测的现有监督RL方法,允许我们将性能差距缩放到基于回归的算法。然后,我们将拟议的系统在现实世界数据的漏洞和半监督培训中使用。我们的结果表明,在弱监督环境中培训是可行的。但是,我们发现在半监督设置中使用我们的模型,例如,将标记的合成数据与未经发布的实际数据相结合,产生最佳结果。
translated by 谷歌翻译
动机:医学图像分析涉及帮助医师对病变或解剖结构进行定性和定量分析的任务,从而显着提高诊断和预后的准确性和可靠性。传统上,这些任务由医生或医学物理学家完成,并带来两个主要问题:(i)低效率; (ii)受个人经验的偏见。在过去的十年中,已经应用了许多机器学习方法来加速和自动化图像分析过程。与受监督和无监督的学习模型的大量部署相比,在医学图像分析中使用强化学习的尝试很少。这篇评论文章可以作为相关研究的垫脚石。意义:从我们的观察结果来看,尽管近年来增强学习逐渐增强了动力,但医学分析领域的许多研究人员发现很难理解和部署在诊所中。一个原因是缺乏组织良好的评论文章,针对缺乏专业计算机科学背景的读者。本文可能没有提供医学图像分析中所有强化学习模型的全面列表,而是可以帮助读者学习如何制定和解决他们的医学图像分析研究作为强化学习问题。方法和结果:我们从Google Scholar和PubMed中选择了已发表的文章。考虑到相关文章的稀缺性,我们还提供了一些出色的最新预印本。根据图像分析任务的类型对论文进行仔细审查和分类。我们首先回顾了强化学习的基本概念和流行模型。然后,我们探讨了增强学习模型在具有里程碑意义的检测中的应用。最后,我们通过讨论审查的强化学习方法的局限性和可能的​​改进来结束这篇文章。
translated by 谷歌翻译
为了跟踪视频中的目标,当前的视觉跟踪器通常采用贪婪搜索每个帧中目标对象定位,也就是说,将选择最大响应分数的候选区域作为每个帧的跟踪结果。但是,我们发现这可能不是一个最佳选择,尤其是在遇到挑战性的跟踪方案(例如重闭塞和快速运动)时。为了解决这个问题,我们建议维护多个跟踪轨迹并将光束搜索策略应用于视觉跟踪,以便可以识别出更少的累积错误的轨迹。因此,本文介绍了一种新型的基于梁搜索策略的新型多代理增强学习策略,称为横梁。它主要是受图像字幕任务的启发,该任务将图像作为输入,并使用Beam搜索算法生成多种描述。因此,我们通过多个并行决策过程来将跟踪提出作为样本选择问题,每个过程旨在将一个样本作为每个帧的跟踪结果选择。每个维护的轨迹都与代理商相关联,以执行决策并确定应采取哪些操作来更新相关信息。处理所有帧时,我们将最大累积分数作为跟踪结果选择轨迹。在七个流行的跟踪基准数据集上进行了广泛的实验证实了所提出的算法的有效性。
translated by 谷歌翻译
Current learning machines have successfully solved hard application problems, reaching high accuracy and displaying seemingly "intelligent" behavior. Here we apply recent techniques for explaining decisions of state-of-the-art learning machines and analyze various tasks from computer vision and arcade games. This showcases a spectrum of problem-solving behaviors ranging from naive and short-sighted, to wellinformed and strategic. We observe that standard performance evaluation metrics can be oblivious to distinguishing these diverse problem solving behaviors. Furthermore, we propose our semi-automated Spectral Relevance Analysis that provides a practically effective way of characterizing and validating the behavior of nonlinear learning machines. This helps to assess whether a learned model indeed delivers reliably for the problem that it was conceived for. Furthermore, our work intends to add a voice of caution to the ongoing excitement about machine intelligence and pledges to evaluate and judge some of these recent successes in a more nuanced manner.
translated by 谷歌翻译
由于交通的固有复杂性和不确定性,自主驾驶决策是一项具有挑战性的任务。例如,相邻的车辆可能随时改变其车道或超越,以通过慢速车辆或帮助交通流量。预期周围车辆的意图,估算其未来状态并将其整合到自动化车辆的决策过程中,可以提高复杂驾驶场景中自动驾驶的可靠性。本文提出了一种基于预测的深入强化学习(PDRL)决策模型,该模型在公路驾驶决策过程中考虑了周围车辆的操纵意图。该模型是使用真实流量数据训练的,并通过模拟平台在各种交通条件下进行了测试。结果表明,与深入的增强学习(DRL)模型相比,提出的PDRL模型通过减少碰撞数量来改善决策绩效,从而导致更安全的驾驶。
translated by 谷歌翻译
我们提出了一种新的四管齐下的方法,在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架,彼此之叠,以提高消防员在紧急首次响应设置中进行的救援任务的安全性,效率和成功完成。首先,我们使用深度卷积神经网络(CNN)系统,以实时地分类和识别来自热图像的感兴趣对象。接下来,我们将此CNN框架扩展了对象检测,跟踪,分割与掩码RCNN框架,以及具有多模级自然语言处理(NLP)框架的场景描述。第三,我们建立了一个深入的Q学习的代理,免受压力引起的迷失方向和焦虑,能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后,我们使用了一种低计算无监督的学习技术,称为张量分解,在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构,我们建立了人工智能系统的骨干,用于消防员的情境意识。要将设计的系统带入消防员的使用,我们设计了一种物理结构,其中处理后的结果被用作创建增强现实的投入,这是一个能够建议他们所在地的消防员和周围的关键特征,这对救援操作至关重要在手头,以及路径规划功能,充当虚拟指南,以帮助迷彩的第一个响应者恢复安全。当组合时,这四种方法呈现了一种新颖的信息理解,转移和综合方法,这可能会大大提高消防员响应和功效,并降低寿命损失。
translated by 谷歌翻译
尽管深度强化学习(RL)最近取得了许多成功,但其方法仍然效率低下,这使得在数据方面解决了昂贵的许多问题。我们的目标是通过利用未标记的数据中的丰富监督信号来进行学习状态表示,以解决这一问题。本文介绍了三种不同的表示算法,可以访问传统RL算法使用的数据源的不同子集使用:(i)GRICA受到独立组件分析(ICA)的启发,并训练深层神经网络以输出统计独立的独立特征。输入。 Grica通过最大程度地减少每个功能与其他功能之间的相互信息来做到这一点。此外,格里卡仅需要未分类的环境状态。 (ii)潜在表示预测(LARP)还需要更多的上下文:除了要求状态作为输入外,它还需要先前的状态和连接它们的动作。该方法通过预测当前状态和行动的环境的下一个状态来学习状态表示。预测器与图形搜索算法一起使用。 (iii)重新培训通过训练深层神经网络来学习国家表示,以学习奖励功能的平滑版本。该表示形式用于预处理输入到深度RL,而奖励预测指标用于奖励成型。此方法仅需要环境中的状态奖励对学习表示表示。我们发现,每种方法都有其优势和缺点,并从我们的实验中得出结论,包括无监督的代表性学习在RL解决问题的管道中可以加快学习的速度。
translated by 谷歌翻译
自动检测武器对于改善个人的安全性和福祉是重要的,仍然是由于各种尺寸,武器形状和外观,这是一项艰巨的任务。查看点变化和遮挡也是使这项任务更加困难的原因。此外,目前的物体检测算法处理矩形区域,但是一个细长和长的步枪可以真正地覆盖区域的一部分区域,其余部分可能包含未经紧的细节。为了克服这些问题,我们提出了一种用于定向意识武器检测的CNN架构,其提供具有改进的武器检测性能的面向边界框。所提出的模型不仅通过将角度作为分类问题的角度分成8个类而且提供方向,而是作为回归问题。对于培训我们的武器检测模型,包括总6400件武器图像的新数据集从网上收集,然后用面向定向的边界框手动注释。我们的数据集不仅提供导向的边界框作为地面真相,还提供了水平边界框。我们还以多种现代对象探测器提供我们的数据集,用于在该领域进一步研究。所提出的模型在该数据集上进行评估,并且与搁板对象检测器的比较分析产生了卓越的拟议模型的性能,以标准评估策略测量。数据集和模型实现在此链接上公开可用:https://bit.ly/2tyzicf。
translated by 谷歌翻译
理解手对象交互的关键组成部分是识别活动对象的能力 - 由人类手动操纵的对象。为了准确定位活动对象,任何方法都必须使用由每个图像像素编码的信息,例如它是否属于手,对象或背景。要利用每个像素作为确定活动对象的边界框的证据,我们提出了一种像素明智的投票功能。我们的Pixel-Wise投票函数将初始边界框作为输入,并生成作为输出的活动对象的改进边界框。投票函数设计成使得输入边界盒内部的每个像素用于改进的边界框,并且选择具有大多数投票的框作为输出。我们调用了在投票函数中生成的边界框的集合,关键框字段,因为它表征了与当前边界框中的关系定义的边界框的字段。虽然我们的投票功能能够改进活动对象的边界框,但一轮投票通常不足以准确地本地化活动对象。因此,我们反复应用投票函数来顺序地改善边界框的位置。然而,由于已知重复应用一步预测器(即,使用我们的投票函数的自动回归处理)可以导致数据分配换档,我们使用强化学习(RL)缓解此问题。我们采用标准RL来学习投票功能参数,并表明它通过标准的监督学习方法提供了有意义的改进。我们在两个大型数据集上执行实验:100欧元和麦克巴诺,分别在最先进的情况下提高8%和30%的AP50性能。
translated by 谷歌翻译
We present a method for detecting objects in images using a single deep neural network. Our approach, named SSD, discretizes the output space of bounding boxes into a set of default boxes over different aspect ratios and scales per feature map location. At prediction time, the network generates scores for the presence of each object category in each default box and produces adjustments to the box to better match the object shape. Additionally, the network combines predictions from multiple feature maps with different resolutions to naturally handle objects of various sizes. SSD is simple relative to methods that require object proposals because it completely eliminates proposal generation and subsequent pixel or feature resampling stages and encapsulates all computation in a single network. This makes SSD easy to train and straightforward to integrate into systems that require a detection component. Experimental results on the PASCAL VOC, COCO, and ILSVRC datasets confirm that SSD has competitive accuracy to methods that utilize an additional object proposal step and is much faster, while providing a unified framework for both training and inference. For 300 × 300 input, SSD achieves 74.3% mAP 1 on VOC2007 test at 59 FPS on a Nvidia Titan X and for 512 × 512 input, SSD achieves 76.9% mAP, outperforming a comparable state-of-the-art Faster R-CNN model. Compared to other single stage methods, SSD has much better accuracy even with a smaller input image size. Code is available at: https://github.com/weiliu89/caffe/tree/ssd .
translated by 谷歌翻译
在这项工作中,我们提出并评估了一种新的增强学习方法,紧凑体验重放(编者),它使用基于相似转换集的复发的预测目标值的时间差异学习,以及基于两个转换的经验重放的新方法记忆。我们的目标是减少在长期累计累计奖励的经纪人培训所需的经验。它与强化学习的相关性与少量观察结果有关,即它需要实现类似于文献中的相关方法获得的结果,这通常需要数百万视频框架来培训ATARI 2600游戏。我们举报了在八个挑战街机学习环境(ALE)挑战游戏中,为仅10万帧的培训试验和大约25,000次迭代的培训试验中报告了培训试验。我们还在与基线的同一游戏中具有相同的实验协议的DQN代理呈现结果。为了验证从较少数量的观察结果近似于良好的政策,我们还将其结果与从啤酒的基准上呈现的数百万帧中获得的结果进行比较。
translated by 谷歌翻译
文本检测和识别是现代OCR系统的重要组成部分。大多数OCR方法试图在检测阶段获得准确的文本框,该框架用作文本识别阶段的输入。我们观察到,当使用紧密的文本边界框作为输入时,由于边界框之间的不一致和文本识别的深度表示,文本识别器通常无法实现最佳性能。在本文中,我们提出了Box调节器,这是一种基于增强学习的方法,用于调整每个文本边界框的形状,以使其与文本识别模型更兼容。此外,在处理诸如合成对现实之类的跨域问题时,所提出的方法可显着降低源和目标域之间域分布的不匹配。实验表明,当使用调整后的边界框作为训练的基础真相时,端到端文本识别系统的性能可以得到改善。具体而言,在几个基准数据集以用于场景文本理解上,拟议的方法在端到端文本识别任务上平均比最先进的文本togpters的f得分为2.0%,而域上的F-评分为4.6%。适应任务。
translated by 谷歌翻译
新一代网络威胁的兴起要求更复杂和智能的网络防御解决方案,配备了能够学习在没有人力专家知识的情况下做出决策的自治代理。近年来提出了用于自动网络入侵任务的几种强化学习方法(例如,马尔可夫)。在本文中,我们介绍了一种新一代的网络入侵检测方法,将基于Q学习的增强学习与用于网络入侵检测的深馈前神经网络方法相结合。我们提出的深度Q-Learning(DQL)模型为网络环境提供了正在进行的自动学习能力,该网络环境可以使用自动试验误差方法检测不同类型的网络入侵,并连续增强其检测能力。我们提供涉及DQL模型的微调不同的超参数的细节,以获得更有效的自学。根据我们基于NSL-KDD数据集的广泛实验结果,我们确认折扣因子在250次训练中设定为0.001,产生了最佳的性能结果。我们的实验结果还表明,我们所提出的DQL在检测不同的入侵课程和优于其他类似的机器学习方法方面的高度有效。
translated by 谷歌翻译
本文研究了一种使用背景计划的新方法,用于基于模型的增强学习:混合(近似)动态编程更新和无模型更新,类似于DYNA体系结构。通过学习模型的背景计划通常比无模型替代方案(例如Double DQN)差,尽管前者使用了更多的内存和计算。基本问题是,学到的模型可能是不准确的,并且经常会产生无效的状态,尤其是在迭代许多步骤时。在本文中,我们通过将背景规划限制为一组(抽象)子目标并仅学习本地,子观念模型来避免这种限制。这种目标空间计划(GSP)方法更有效地是在计算上,自然地纳入了时间抽象,以进行更快的长胜压计划,并避免完全学习过渡动态。我们表明,在各种情况下,我们的GSP算法比双DQN基线要快得多。
translated by 谷歌翻译
Due to object detection's close relationship with video analysis and image understanding, it has attracted much research attention in recent years. Traditional object detection methods are built on handcrafted features and shallow trainable architectures. Their performance easily stagnates by constructing complex ensembles which combine multiple low-level image features with high-level context from object detectors and scene classifiers. With the rapid development in deep learning, more powerful tools, which are able to learn semantic, high-level, deeper features, are introduced to address the problems existing in traditional architectures. These models behave differently in network architecture, training strategy and optimization function, etc. In this paper, we provide a review on deep learning based object detection frameworks. Our review begins with a brief introduction on the history of deep learning and its representative tool, namely Convolutional Neural Network (CNN). Then we focus on typical generic object detection architectures along with some modifications and useful tricks to improve detection performance further. As distinct specific detection tasks exhibit different characteristics, we also briefly survey several specific tasks, including salient object detection, face detection and pedestrian detection. Experimental analyses are also provided to compare various methods and draw some meaningful conclusions. Finally, several promising directions and tasks are provided to serve as guidelines for future work in both object detection and relevant neural network based learning systems.
translated by 谷歌翻译
We present YOLO, a new approach to object detection. Prior work on object detection repurposes classifiers to perform detection. Instead, we frame object detection as a regression problem to spatially separated bounding boxes and associated class probabilities. A single neural network predicts bounding boxes and class probabilities directly from full images in one evaluation. Since the whole detection pipeline is a single network, it can be optimized end-to-end directly on detection performance.Our unified architecture is extremely fast. Our base YOLO model processes images in real-time at 45 frames per second. A smaller version of the network, Fast YOLO, processes an astounding 155 frames per second while still achieving double the mAP of other real-time detectors. Compared to state-of-the-art detection systems, YOLO makes more localization errors but is less likely to predict false positives on background. Finally, YOLO learns very general representations of objects. It outperforms other detection methods, including DPM and R-CNN, when generalizing from natural images to other domains like artwork.
translated by 谷歌翻译
Training self-driving cars is often challenging since they require a vast amount of labeled data in multiple real-world contexts, which is computationally and memory intensive. Researchers often resort to driving simulators to train the agent and transfer the knowledge to a real-world setting. Since simulators lack realistic behavior, these methods are quite inefficient. To address this issue, we introduce a framework (perception, planning, and control) in a real-world driving environment that transfers the real-world environments into gaming environments by setting up a reliable Markov Decision Process (MDP). We propose variations of existing Reinforcement Learning (RL) algorithms in a multi-agent setting to learn and execute the discrete control in real-world environments. Experiments show that the multi-agent setting outperforms the single-agent setting in all the scenarios. We also propose reliable initialization, data augmentation, and training techniques that enable the agents to learn and generalize to navigate in a real-world environment with minimal input video data, and with minimal training. Additionally, to show the efficacy of our proposed algorithm, we deploy our method in the virtual driving environment TORCS.
translated by 谷歌翻译
未用性的自治车辆(无人机)在过去的美国军事活动中对侦察和监督任务进行了重大贡献。随着无人机的普遍性增加,柜台上还有改进,使他们难以在感兴趣的领域成功获得宝贵的智能。因此,现代无人机可以在最大化他们的生存机会的同时实现他们的任务已经重要。在这项工作中,我们专门研究从指定开始到目标的识别短路的问题,同时收集所有奖励,避免随机移动到网格上的对手。我们还可以在军事环境中提供框架的可能应用,即自动伤员疏散。我们展示了三种方法来解决这个问题的比较:即我们实施一个深度Q学习模型,一个$ \ varepsilon $ -greedy表格Q学习模型,以及在线优化框架。我们的计算实验,使用具有随机对手的简单网格世界环境设计,展示这些方法如何工作,并在性能,准确性和计算时间方面进行比较。
translated by 谷歌翻译