与从头开始的传统学习相比,知识蒸馏有时会使DNN实现卓越的性能。本文提供了一种新的观点,可以根据信息理论来解释知识蒸馏的成功,即量化在DNN的中间层中编码的知识点。为此,我们将DNN中的信号处理视为丢弃层的信息。知识点称为输入单元,其信息比其他输入单元所丢弃的信息要少得多。因此,我们根据知识点的量化提出了三个用于知识蒸馏的假设。 1. DNN从知识蒸馏中学习比从头开始学习的DNN学习更多的知识点。 2.知识蒸馏使DNN更有可能同时学习不同的知识点。相比之下,从头开始的DNN学习倾向于顺序编码各种知识点。 3.与从头开始学习的DNN学习通常更稳定地优化了从知识蒸馏中学习的DNN学习。为了验证上述假设,我们设计了具有前景对象注释的三种类型的指标,以分析DNN的功能表示,\ textit {i.e。}知识点的数量和质量,不同知识点的学习速度,以及优化方向的稳定性。在实验中,我们诊断出各种DNN的不同分类任务,即图像分类,3D点云分类,二进制情感分类和问题回答,这些问题验证了上述假设。
translated by 谷歌翻译
大型语言模型(LLM)从人类的指示中解开了任务计划的新功能。但是,事先尝试将LLMS应用于现实世界的机器人任务受到周围场景中缺乏接地的限制。在本文中,我们开发了NLMAP,这是一个开放式摄影和可查询场景表示,以解决此问题。 NLMAP是一个框架,可以将上下文信息收集到LLM计划者中,从而在生成上下文条件条件计划之前,可以在场景中查看和查询可用的对象。 NLMAP首先使用视觉语言模型(VLM)建立自然语言可查询场景表示。基于LLM的对象建议模块解析指令并提出涉及的对象,以查询场景表示以获取对象可用性和位置。然后,LLM规划师计划提供有关场景的此类信息。 NLMAP允许机器人在没有固定的对象列表或可执行选项的情况下操作,从而使真实的机器人操作无法通过以前的方法实现。项目网站:https://nlmap-saycan.github.io
translated by 谷歌翻译
实时动态环境感知对于拥挤空间的自动机器人至关重要。尽管流行的基于体素的映射方法可以有效地用任意复杂的形状代表3D障碍,但它们几乎无法区分静态和动态障碍,从而导致避免障碍物的性能有限。尽管在自动驾驶中存在大量基于学习的动态障碍检测算法,但四轮驱动器的有限计算资源无法使用这些方法实现实时性能。为了解决这些问题,我们为使用RGB-D摄像机提出了一个实时动态障碍物跟踪和映射系统,以避免四肢障碍物。拟议的系统首先利用带有占用体素图的深度图像来生成潜在的动态障碍区域作为建议。通过障碍区域建议,Kalman滤波器和我们的连续性过滤器将应用于跟踪每个动态障碍物。最后,使用追踪动态障碍的状态基于马尔可夫链提出了环境感知的轨迹预测方法。我们使用定制的四轮驱动器和导航计划者实施了建议的系统。仿真和物理实验表明,我们的方法可以成功地跟踪和代表动态环境中的障碍,并安全地避免障碍。
translated by 谷歌翻译
导航动态环境要求机器人生成无碰撞的轨迹,并积极避免移动障碍。大多数以前的作品都基于一个单个地图表示形式(例如几何,占用率或ESDF地图)设计路径计划算法。尽管他们在静态环境中表现出成功,但由于地图表示的限制,这些方法无法同时可靠地处理静态和动态障碍。为了解决该问题,本文提出了一种利用机器人在板载视觉的基于梯度的B-Spline轨迹优化算法。深度视觉使机器人能够基于体素图以几何形式跟踪和表示动态对象。拟议的优化首先采用基于圆的指南算法,以近似避免静态障碍的成本和梯度。然后,使用视觉检测的移动对象,我们的后水平距离场同时用于防止动态碰撞。最后,采用迭代重新指导策略来生成无碰撞轨迹。仿真和物理实验证明,我们的方法可以实时运行以安全地导航动态环境。
translated by 谷歌翻译
现有的基于深度学习的3D对象检测器通常依赖于单个对象的外观,并且不明确注意场景的丰富上下文信息。在这项工作中,我们为3D对象检测(CMR3D)框架提出了上下文化的多阶段完善,该框架将3D场景作为输入,并努力在多个级别上明确整合场景的有用上下文信息,以预测一组对象界限盒以及它们相应的语义标签。为此,我们建议利用一个上下文增强网络,该网络在不同级别的粒度级别上捕获上下文信息,然后是多阶段修补模块,以逐步完善框位置和类预测。大规模ScannETV2基准测试的广泛实验揭示了我们提出的方法的好处,从而使基线的绝对提高了2.0%。除3D对象检测外,我们还研究了CMR3D框架在3D对象计数问题上的有效性。我们的源代码将公开发布。
translated by 谷歌翻译
电子商务搜索的关键是如何最好地利用大型但嘈杂的日志数据。在本文中,我们在Instacart介绍了基于嵌入的杂货搜索模型。该系统通过基于两个塔式变压器的编码器体系结构学习查询和产品表示。为了解决冷门问题,我们专注于基于内容的功能。为了在嘈杂的数据上有效地培训模型,我们提出了一种自我分歧学习方法和级联培训方法。Accon是一个离线人类评估数据集,我们在召回@20方面取得了10%的相对改善,对于在线A/B测试,我们每次搜索(CAPS)获得4.1%的Cart-Addds(CAPS)和1.5%的总商品价值(GMV)改进。我们描述了如何训练和部署基于嵌入的搜索模型,并对我们方法的有效性进行详细分析。
translated by 谷歌翻译
尽管人工智能(AI)在理解各个领域的分子方面取得了重大进展,但现有模型通常从单个分子模态中获得单个认知能力。由于分子知识的层次结构是深刻的,即使人类也从不同的方式中学习,包括直觉图和专业文本,以帮助他们的理解。受到这一点的启发,我们提出了一个分子多模式基础模型,该模型是从分子图及其语义相关的文本数据(从发表的科学引用索引论文中爬立)的。该AI模型代表了直接桥接分子图和自然语言的关键尝试。重要的是,通过捕获两种方式的特定和互补信息,我们提出的模型可以更好地掌握分子专业知识。实验结果表明,我们的模型不仅在诸如跨模式检索和分子标题之类的跨模式任务中表现出有希望的性能,而且还可以增强分子属性预测,并具有从自然语言描述中产生有意义的分子图的能力。我们认为,我们的模型将对跨生物学,化学,材料,环境和医学等学科的AI能力领域产生广泛的影响。
translated by 谷歌翻译
从过去的经验中发现有用的行为并将其转移到新任务的能力被认为是自然体现智力的核心组成部分。受神经科学的启发,发现在瓶颈状态下切换的行为一直被人们追求,以引起整个任务的最小描述长度的计划。先前的方法仅支持在线,政策,瓶颈状态发现,限制样本效率或离散的状态行动域,从而限制适用性。为了解决这个问题,我们介绍了基于模型的离线选项(MO2),这是一个脱机后视框架,支持在连续的状态行动空间上发现样品效率高效瓶颈选项。一旦脱机而在源域上学习了瓶颈选项,它们就会在线转移,以改善转移域的探索和价值估计。我们的实验表明,在复杂的长途连续控制任务上,具有稀疏,延迟的奖励,MO2的属性至关重要,并且导致性能超过最近的选项学习方法。其他消融进一步证明了对期权可预测性和信用分配的影响。
translated by 谷歌翻译
由于独特的驾驶特征,人类驾驶员具有独特的驾驶技术,知识和情感。驾驶员嗜睡一直是一个严重的问题,危害道路安全。因此,必须设计有效的嗜睡检测算法以绕过道路事故。杂项研究工作已经解决了检测异常的人类驾驶员行为的问题,以通过计算机视觉技术检查驾驶员和汽车动力学的正面面孔。尽管如此,常规方法仍无法捕获复杂的驾驶员行为特征。但是,以深度学习体系结构的起源,还进行了大量研究,以分析和识别使用神经网络算法的驾驶员的嗜睡。本文介绍了一个基于视觉变形金刚和Yolov5架构的新颖框架,以实现驾驶员嗜睡的识别。提出了定制的Yolov5预训练的结构,以提取面部提取,目的是提取感兴趣的区域(ROI)。由于以前的体系结构的局限性,本文引入了视觉变压器进行二进制图像分类,该二进制图像分类在公共数据集UTA-RLDD上经过训练和验证。该模型分别达到了96.2 \%和97.4 \%的培训和验证精度。为了进行进一步的评估,在各种光明情况下的39名参与者的自定义数据集上测试了拟议的框架,并获得了95.5 \%的准确性。进行的实验揭示了我们在智能运输系统中实用应用框架的重要潜力。
translated by 谷歌翻译
在过去的十年中,基于深度学习的算法在遥感图像分析的不同领域中广泛流行。最近,最初在自然语言处理中引入的基于变形金刚的体系结构遍布计算机视觉领域,在该字段中,自我发挥的机制已被用作替代流行的卷积操作员来捕获长期依赖性。受到计算机视觉的最新进展的启发,遥感社区还见证了对各种任务的视觉变压器的探索。尽管许多调查都集中在计算机视觉中的变压器上,但据我们所知,我们是第一个对基于遥感中变压器的最新进展进行系统评价的人。我们的调查涵盖了60多种基于变形金刚的60多种方法,用于遥感子方面的不同遥感问题:非常高分辨率(VHR),高光谱(HSI)和合成孔径雷达(SAR)图像。我们通过讨论遥感中变压器的不同挑战和开放问题来结束调查。此外,我们打算在遥感论文中频繁更新和维护最新的变压器,及其各自的代码:https://github.com/virobo-15/transformer-in-in-remote-sensing
translated by 谷歌翻译