为N($ ^ 4 $ s)+ o $ _呈现和定量测试了一种用于预测来自特定初始状态(状态为分布或STD)的产品状态分布的机器学习(ML)模型。 {2} $(x $ ^ 3 \ sigma _ {\ rm g} ^ { - } $)$ \ lightarrow $ no(x $ ^ 2 \ pi $)+ o($ ^ 3 $ p)反应。用于训练神经网络(NN)的参考数据集由用于$ \ SIM 2000 $初始条件的显式准古典轨迹(QCT)模拟确定的最终状态分布。总体而言,通过根均方平方差价量化的预测精度$(\ SIM 0.003)$和$ r ^ 2 $ $(\ SIM 0.99)$之间的参考QCT和STD模型的预测很高测试集和离网状态特定的初始条件和从反应性状态分布中汲取的初始条件,其特征在于通过平移,旋转和振动温度。与在相同的初始状态分布上评估的更粗糙的粒度分布 - 分布(DTD)模型相比,STD模型表明了在反应物制剂中的状态分辨率的额外益处具有相当的性能。从特定的初始状态开始,还导致更多样化的最终状态分布,需要更具表现力的神经网络与DTD相比。显式QCT模拟之间的直接比较,STD模型和广泛使用的Larsen-Borgnakke(LB)模型表明,STD模型是定量的,而LB模型最适合旋转分布$ P(J')$和失败振动分布$ p(v')$。因此,STD模型可以非常适合模拟非预测高速流,例如,使用直接仿真蒙特卡罗方法。
translated by 谷歌翻译
A major goal of multimodal research is to improve machine understanding of images and text. Tasks include image captioning, text-to-image generation, and vision-language representation learning. So far, research has focused on the relationships between images and text. For example, captioning models attempt to understand the semantics of images which are then transformed into text. An important question is: which annotation reflects best a deep understanding of image content? Similarly, given a text, what is the best image that can present the semantics of the text? In this work, we argue that the best text or caption for a given image is the text which would generate the image which is the most similar to that image. Likewise, the best image for a given text is the image that results in the caption which is best aligned with the original text. To this end, we propose a unified framework that includes both a text-to-image generative model and an image-to-text generative model. Extensive experiments validate our approach.
translated by 谷歌翻译
学徒学习是一个框架,代理商使用专家提供的示例轨迹来学习在环境中执行给定任务的策略。在现实世界中,在学习任务相同的情况下,在系统动力学不同的不同环境中,人们可能可以访问专家轨迹。对于这种情况,可以定义两种类型的学习目标。一个在一个特定的环境中,当学习策略在所有环境中都表现良好时,该政策在一个特定的环境中表现良好。为了以原则性的方式平衡这两个目标,我们的工作介绍了交叉学徒学习(CAL)框架。这包括一个优化问题,要求寻求每个环境的最佳策略,同时确保所有政策保持彼此之间。优化问题中的一个调谐参数可以促进此临近。随着调整参数的变化,我们得出问题优化者的属性。由于该问题是非convex,因此我们提供凸外近似。最后,我们在大风的环境环境中的导航任务中演示了我们框架的属性。
translated by 谷歌翻译
最近的基于变压器的离线视频实例细分(VIS)方法取得了令人鼓舞的结果,并明显胜过在线方法。但是,它们对整个视频的依赖以及由全时空的注意力引起的巨大计算复杂性限制了它们在现实生活中的应用中,例如处理冗长的视频。在本文中,我们提出了一个基于单级变压器的高效在线VIS框架,名为InstanceFormer,该框架特别适合长期挑战性的视频。我们提出了三个新的组件来建模短期和长期依赖性和时间连贯性。首先,我们传播了对短期更改建模的先前实例的表示形式,位置和语义信息。其次,我们在解码器中提出了一种新颖的记忆交叉注意,该记忆使网络可以在某个时间窗口内研究早期实例。最后,我们采用时间对比度损失,在所有框架的实例表示中施加连贯性。记忆注意力和时间连贯性特别有益于远程依赖建模,包括诸如遮挡等挑战的情况。所提出的实例形式优于以前的在线基准方法在多个数据集上的较大边距。最重要的是,InstanceFormer超过了挑战和长数据集(例如YouTube-Vis-2021和OVIS)的离线方法。代码可从https://github.com/rajatkoner08/instanceformer获得。
translated by 谷歌翻译
移动性,这是必须分析机制的基本属性,以找到自由度。在这项工作中提出了一种快速计算机制中自由度的方法。该机制以类似于斑马交叉的方式表示。提出了一种算法,用于确定斑马线交叉图的移动性。该算法考虑了黑色斑块之间的贴片数,连接到固定链路的接头数以及机制中的循环数。已经讨论了许多案例,其未使用广泛使用的古典Kutzbach-Grubler公式提供所需的结果。
translated by 谷歌翻译
本文介绍了具有多种试剂的协同目标跟踪应用,以及具有所需的代理距离和指定界限的代理形成问题。我们提出了一种基于障碍的障碍基于障碍的分布式控制定律,以保留目标跟踪的形成,并使用运动模型评估其稳定性。提出了使用该模型的数值结果,以证明所提出的控制对基于二次Lyapunov功能的控制的优点。提出了使用实验ROS模拟的结论评估,以说明所提出的控制方法对多转子系统的适用性和执行直线和圆周运动的目标。
translated by 谷歌翻译
通过技术进步,无人机已成为无人驾驶飞行器,可以由人类控制或到达目的地。这也可能是自主的,在那里,无人机本身是足够智能的,以找到从指定源到达目的地的最短障碍路径。成为计划的智能城市,甚至是受天然灾害影响的残骸网站,我们可能会想象建筑物,任何表面竖立的结构或其他堵塞作为无人机在直线视线中飞行的障碍。为了解决这种无人机的这种路径规划,鸟瞰整个景观的眼睛视图首先转变为栅格细胞的图表,其中一些被占据以指示障碍物,有些是可以自由地指示自由路径。我们提出了一种方法来找出GPS指导的坐标系中最短的障碍路径。因此,自主无人机(Autodrone)将能够沿着最短路径从一个地方移动到另一个地方,而不会碰撞入住障碍物,同时在二维空间中行驶。还阐述了延伸到长途旅行和3D空间的启发式。我们的方法可以特别有益于救援行动和快速交付或以节能方式接收,其中我们的算法将有助于找出它应该飞行的最短路径和角度。实验是在不同场景的地图布局和障碍物位置进行,以了解由自主无人机计算的最短可行路线。
translated by 谷歌翻译
本文介绍了设计,开发,并通过IISC-TCS团队为穆罕默德·本·扎耶德国际机器人挑战赛2020年挑战1的目标的挑战1硬件 - 软件系统的测试是抓住从移动和机动悬挂球UAV和POP气球锚定到地面,使用合适的操纵器。解决这一挑战的重要任务包括具有高效抓取和突破机制的硬件系统的设计和开发,考虑到体积和有效载荷的限制,使用适用于室外环境的可视信息的准确目标拦截算法和开发动态多功能机空中系统的软件架构,执行复杂的动态任务。在本文中,设计了具有末端执行器的单个自由度机械手设计用于抓取和突发,并且开发了鲁棒算法以拦截在不确定的环境中的目标。基于追求参与和人工潜在功能的概念提出了基于视觉的指导和跟踪法。本工作中提供的软件架构提出了一种操作管理系统(OMS)架构,其在多个无人机之间协同分配静态和动态任务,以执行任何给定的任务。这项工作的一个重要方面是所有开发的系统都设计用于完全自主模式。在这项工作中还包括对凉亭环境和现场实验结果中完全挑战的模拟的详细描述。所提出的硬件软件系统对反UAV系统特别有用,也可以修改以满足其他几种应用。
translated by 谷歌翻译
图像分类中的严重问题是培训的模型可能对输入数据表现良好,该输入数据源自与用于模型培训的数据相同的分布,但对于分销超出(OOD)样本而言更加差。在真实的安全关键应用中,特别是如果新的数据点是ood的新数据点,重要的是要注意。迄今为止,通常使用置信分数,基于自动编码器的重建或对比学习来解决OOD检测。但是,尚未探索全局图像上下文以区分在分布和OOD样本之间的非局部对象。本文提出了一种名为OOODFORMER的首次检测架构,该架构利用变压器的上下文化功能。作为主要特征提取器的跨\ --former允许我们利用对象概念及其区分属性以及通过可视注意的共同发生。使用上下文化的嵌入,我们使用阶级条件潜伏空间相似性和网络置信度分数展示了OOD检测。我们的方法显示了各种数据集的完全普遍性。我们在CiFar-10 / -100和Imagenet30上取得了新的最先进的结果。
translated by 谷歌翻译