几种慢性肺疾病,例如特发性肺纤维化(IPF)的特征是气道异常扩张。计算机断层扫描(CT)上气道特征的定量可以帮助表征疾病进展。已经开发了基于物理的气道测量算法,但由于在临床实践中看到的气道形态多样性,因此取得了有限的成功。由于获得精确的气道注释的高成本,监督学习方法也不可行。我们建议使用感知损失通过样式转移进行综合气道,以训练我们的模型气道转移网络(ATN)。我们使用a)定性评估将ATN模型与最先进的GAN网络(SIMGAN)进行比较; b)评估基于ATN和SIMGAN的CT气道指标预测113例IPF患者死亡率的能力。与Simgan相比,ATN被证明更快,更容易训练。还发现基于ATN的气道测量值始终比IPF CTS上的SIMGAN衍生气道指标更强大。通过转化网络使用感知损失来完善合成数据的转化网络是基于GAN的方法的现实替代方法,用于用于特发性肺纤维化的临床CT分析。我们的源代码可以在https://github.com/ashkanpakzad/atn上找到,该源代码与Airquant的现有开放源气道分析框架兼容。
translated by 谷歌翻译
In this work, we study the problem of Embodied Referring Expression Grounding, where an agent needs to navigate in a previously unseen environment and localize a remote object described by a concise high-level natural language instruction. When facing such a situation, a human tends to imagine what the destination may look like and to explore the environment based on prior knowledge of the environmental layout, such as the fact that a bathroom is more likely to be found near a bedroom than a kitchen. We have designed an autonomous agent called Layout-aware Dreamer (LAD), including two novel modules, that is, the Layout Learner and the Goal Dreamer to mimic this cognitive decision process. The Layout Learner learns to infer the room category distribution of neighboring unexplored areas along the path for coarse layout estimation, which effectively introduces layout common sense of room-to-room transitions to our agent. To learn an effective exploration of the environment, the Goal Dreamer imagines the destination beforehand. Our agent achieves new state-of-the-art performance on the public leaderboard of the REVERIE dataset in challenging unseen test environments with improvement in navigation success (SR) by 4.02% and remote grounding success (RGS) by 3.43% compared to the previous state-of-the-art. The code is released at https://github.com/zehao-wang/LAD
translated by 谷歌翻译
姿势估计通常被解决为垃圾箱分类问题或回归问题。在这两种情况下,这个想法都是直接预测对象的姿势。这是一项非平凡的任务,因为不同姿势之间的相似姿势和相似性的外观变化。取而代之的是,我们遵循关键思想,即比较两个姿势要比估计它们更容易。到此为止,已经采用了渲染和能力方法,但是它们往往是不稳定的,计算昂贵的,并且对于实时应用程序而言却很慢。我们建议通过使用动态边缘和连续的姿势标签空间学习对齐度损失来进行类别级别的姿势估计。为了高效的推断,我们使用一个简单的实时图像检索方案,其中包含投影到嵌入空间的参考渲染集。为了实现对现实世界条件的鲁棒性,我们采用合成阻塞,边界盒扰动和外观增强。我们的方法在Pascal3D和OckludedPascal3D上实现了最先进的性能,以及Kitti3d的高质量结果。
translated by 谷歌翻译
自我监督方法的下游精度与在训练过程中解决的代理任务以及从中提取的梯度的质量紧密相关。更丰富,更有意义的梯度更新是允许自我监督的方法以更有效的方式学习的关键。在典型的自我验证框架中,两个增强图像的表示在全球层面是连贯的。尽管如此,将本地线索纳入代理任务可能是有益的,并提高了下游任务的模型准确性。这导致了一个双重目标,一方面,全球代表之间的连贯性是强大的,另一方面,在本地代表之间的一致性得到了强大的一致性。不幸的是,两组局部代表之间的确切对应映射并不存在,这使得将局部代表从一个增强到另一个不平凡的任务匹配。我们建议利用输入图像中的空间信息获得几何匹配,并根据基于相似性匹配的几何方法与以前的方法进行比较。我们的研究表明,不仅1)几何匹配的表现优于低数据表格中的基于相似性的匹配,而且还有2)与没有局部自我验证的香草基线相比,基于相似性的匹配在低数据方面受到了极大的伤害。该代码将在接受后发布。
translated by 谷歌翻译
为了确保用户接受自动驾驶汽车(AVS),正在开发控制系统以模仿人类驾驶员的驾驶行为。模仿学习(IL)算法达到了这个目的,但努力为由此产生的闭环系统轨迹提供安全保证。另一方面,模型预测控制(MPC)可以处理具有安全限制的非线性系统,但是用它来实现类似人类的驾驶需要广泛的域知识。这项工作表明,通过将MPC用作分层IL策略中的可区分控制层,将两种技术的无缝组合从所需驾驶行为的演示中学习安全的AV控制器。通过此策略,IL通过MPC成本,模型或约束的参数在闭环和端到端进行。鉴于人类在固定基准驾驶模拟器上进行了示范,分析了通过行为克隆(BCO)来学习的该方法的实验结果,用于通过行为克隆(BCO)学习的车道控制系统的设计。
translated by 谷歌翻译
在本文中,我们介绍了地图语言导航任务,代理在其中执行自然语言指令,并仅基于给定的3D语义图移至目标位置。为了解决任务,我们设计了指导感的路径建议和歧视模型(IPPD)。我们的方法利用MAP信息来提供指导感知的路径建议,即,它选择所有潜在的指令一致的候选路径以减少解决方案空间。接下来,为表示沿路径的地图观测值以获得更好的模态对准,提出了针对语义图定制的新型路径特征编码方案。基于注意力的语言驱动的歧视者旨在评估候选路径,并确定最佳路径作为最终结果。与单步贪婪决策方法相比,我们的方法自然可以避免误差积累。与单步仿制学习方法相比,IPPD在导航成功方面的性能增长超过17%,而在有挑战性的看不见的环境中,在路径匹配测量NDTW上的性能增长了0.18。
translated by 谷歌翻译
仿真与现实世界之间的差距在计算机视觉和加强学习中抑制了许多机器学习突破,从适用于现实世界。在这项工作中,我们对基于相机导航的具体情况进行了解决这个差距,将其制定为遵循与任意背景的前景中的视觉提示。前景中的视觉提示通常可以逼真地模拟,例如线,门或锥体。然后挑战在于应对未知背景并整合两者。因此,目标是培训在空模拟环境中捕获的数据的视觉代理,除了这个前景提示并直接在视觉各种现实世界中测试此模型。为了弥合这一巨大差距,我们表明它是结合以下技术的重要意义:随机增强前后背景,正规化与深度监督和三态丢失,并通过使用航点而不是直接速度命令来最终抽象动态。各种技术在我们的实验结果中被定性,定量最终展示从模拟到现实世界的成功转移。
translated by 谷歌翻译
识别人类行为基本上是一种时空推理问题,并且应该至少在某种程度上不变,不变于人类的外观和所涉及的物体。在这项工作中,这一假设的激励,我们采取了以物体为中心的行动认可方法。多个工程之前研究过这个设置,但它仍然不清楚(i)仔细制作的时空布局的方法如何识别人类行为,以及(ii)如何,以及何时,融合来自布局和外观的信息基于模型。本文的主要焦点是组成/几次射击动作识别,在那里我们倡导多主题的使用(已被证明是对空间推理的)在时空布局上,即对象边界框的配置。我们评估不同的方案,以将视频出现信息注入系统,并在背景混乱的动作识别上基准。在某种东西 - else和行动基因组数据集上,我们演示(i)如何扩展基于时空布局的动作识别的多针注意,(ii)如何通过与布局融合来提高基于外观的模型的性能 - 基于模型,(iii)即使在非成分背景 - 杂乱的视频数据集中,布局和基于外观的模型之间的融合也提高了性能。
translated by 谷歌翻译
在本文中,我们提出了区块拷贝,该方案与标准的逐帧处理相比,可以加速基于框架的CNN以更有效地处理视频。为此,轻巧的策略网络确定图像中的重要区域,并且仅使用自定义的块 - 帕斯斯卷积应用于选定区域。简单地从前一个帧复制了非选择区域的特征,从而减少了计算和延迟的数量。执行策略是通过在线方式使用强化学习培训的,而无需进行地面真相注释。我们的通用框架在密集的预测任务上进行了证明,例如人行人检测,实例分割和语义分割,同时使用最新技术(中心和比例预测指标,MGAN,MGAN,SWIFTNET)和标准基线网络(Mask-RCNN,DeepLabV3+)。区块拷贝可实现大量的拖放节省和推理速度,对准确性的影响最小。
translated by 谷歌翻译
Segblocks通过根据图像区域的复杂性动态调整处理分辨率来降低现有神经网络的计算成本。我们的方法将图像拆分为低复杂性的块和尺寸块块,从而减少了操作数量和内存消耗的数量。轻量级的政策网络选择复杂区域,是使用强化学习训练的。此外,我们介绍了CUDA中实现的几个模块以处理块中的图像。最重要的是,我们的新颖的阻止模块可以防止现有方法遭受的块边界的特征不连续性,同时保持记忆消耗受到控制。我们对语义分割的城市景观,Camvid和Mapillary Vistas数据集进行的实验表明,与具有相似复杂性的静态基准相比,动态处理图像与复杂性的折衷相对于复杂性更高。例如,我们的方法将SwiftNet-RN18的浮点操作数量降低了60%,并将推理速度提高50%,而CityScapes的MIOU准确性仅降低0.3%。
translated by 谷歌翻译