Force modulation of robotic manipulators has been extensively studied for several decades. However, it is not yet commonly used in safety-critical applications due to a lack of accurate interaction contact modeling and weak performance guarantees - a large proportion of them concerning the modulation of interaction forces. This study presents a high-level framework for simultaneous trajectory optimization and force control of the interaction between a manipulator and soft environments, which is prone to external disturbances. Sliding friction and normal contact force are taken into account. The dynamics of the soft contact model and the manipulator are simultaneously incorporated in a trajectory optimizer to generate desired motion and force profiles. A constrained optimization framework based on Alternative Direction Method of Multipliers (ADMM) has been employed to efficiently generate real-time optimal control inputs and high-dimensional state trajectories in a Model Predictive Control fashion. Experimental validation of the model performance is conducted on a soft substrate with known material properties using a Cartesian space force control mode. Results show a comparison of ground truth and real-time model-based contact force and motion tracking for multiple Cartesian motions in the valid range of the friction model. It is shown that a contact model-based motion planner can compensate for frictional forces and motion disturbances and improve the overall motion and force tracking accuracy. The proposed high-level planner has the potential to facilitate the automation of medical tasks involving the manipulation of compliant, delicate, and deformable tissues.
translated by 谷歌翻译
为了自动纠正手写作业,传统方法是使用OCR模型来识别字符并将其与答案进行比较。 OCR模型在识别手写的汉字时很容易混淆,并且在模型推断过程中缺少答案的文本信息。但是,教师总是考虑到这些答案来审查和纠正作业。在本文中,我们专注于中国披肩测试校正并提出一种多模式方法(命名为AIM)。答案的编码表示与学生笔迹的视觉信息进行了交互。我们没有预测“正确”或“错误”,而是在答案文本上执行序列标记,以推断哪个答案字符与手写内容以细粒度的方式不同。我们将OCR数据集的样本作为此任务的正样本,并开发一种负面样本增强方法来扩展培训数据。实验结果表明,目标的范围优于基于OCR的方法。广泛的研究证明了我们多模式方法的有效性。
translated by 谷歌翻译
如今,大规模数据集的大型培训大型模型已成为深度学习的关键主题。具有较高表示能力和可传递性的预训练模型取得了巨大的成功,并在自然语言处理和2D视觉中占据了许多下游任务。但是,鉴于有限的训练数据相对不便,因此将这种预处理的调整范式促进这种预处理的调整范式是非平凡的。在本文中,我们提供了一个新的观点,即利用3D域中的预训练的2D知识来解决此问题,以新颖的点对像素来调整预训练的图像模型,以较小的参数成本提示点云分析。遵循促使工程的原理,我们将点云转换为具有几何形状的投影和几何学吸引着色的色彩图像,以适应预训练的图像模型,在点云分析的端到端优化期间,其权重冻结了任务。我们进行了广泛的实验,以证明与提议的点对像素提示合作,更好的预训练图像模型将导致在3D视觉中始终如一地表现更好的性能。享受图像预训练领域的繁荣发展,我们的方法在Scanobjectnn的最困难环境中获得了89.3%的精度,超过了传统的点云模型,具有较少的可训练参数。我们的框架在模型网分类和塑形部分分割方面还表现出非常具竞争力的性能。代码可从https://github.com/wangzy22/p2p获得
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
在这封信中,我们提出了一种多功能的层次离线计划算法,以及用于敏捷四足球运动的在线控制管道。我们的离线规划师在优化降低阶模型和全身轨迹优化的质心动力学之间进行交替,以实现动力学共识。我们使用等椭圆形参数化的新型动量惰性质地优化能够通过``惯性塑造''来产生高度的杂技运动。我们的全身优化方法可显着改善基于标准DDP的方法的质量从质心层中利用反馈。对于在线控制,我们通过完整的质心动力学的线性转换开发了一种新颖的凸模型预测控制方案。我们的控制器可以在单个优化中有效地对接触力和关节加速度有效地优化,从而实现更直接的加速度,从而实现更直接的优化与现有四倍体MPC控制器相比,跟踪动量丰富的动作。我们在四个不同的动态操作中证明了我们的轨迹计划者的能力和通用性。然后,我们在MIT MINI Cheetah平台上展示了​​一个硬件实验,以证明整个计划的性能和整个计划的性能和性能扭曲的控制管道跳动。
translated by 谷歌翻译
交替的梯度 - 下降 - 上升(Altgda)是一种优化算法,已广泛用于各种机器学习应用中的模型培训,其旨在解决非渗透最小新的优化问题。然而,现有的研究表明,它遭受了非凸起最小值优化中的高计算复杂性。在本文中,我们开发了一种单环和快速Altgda型算法,利用了近端渐变更新和动量加速来解决正常的非透露极限优化问题。通过识别该算法的内在Lyapunov函数,我们证明它会收敛到非凸起最小化优化问题的临界点,并实现了计算复杂度$ \ mathcal {o}(\ kappa ^ {1.5} \ epsilon ^ { - 2} )$,其中$ \ epsilon $是理想的准确度,$ \ kappa $是问题的条件号。这种计算复杂性改善了单环GDA和AltGDA算法的最先进的复杂性(参见表1中的比较摘要)。我们通过对对抗深层学习的实验展示了算法的有效性。
translated by 谷歌翻译
在本文中,我们研究了深神经网络中的动态感知对抗攻击问题。大多数现有的对抗性攻击算法是在基本假设下设计的 - 网络架构在整个攻击过程中都是固定的。然而,这种假设不适用于许多最近提出的网络,例如最近提出的网络。 3D稀疏卷积网络,其中包含输入相关的执行,以提高计算效率。它导致严重问题的滞后梯度,由于架构之后的架构而导致当前步骤的学习攻击无效。为了解决这个问题,我们提出了一种带有铅梯度法(LGM)并显示出滞后梯度的显着影响。更具体地说,我们重新制定了梯度,以了解网络架构的潜在动态变化,使得学习攻击更好地“引导”的下一步,而是当网络架构动态变化时的动态 - 不知道方法。关于各种数据集的广泛实验表明,我们的LGM在语义细分和分类上实现了令人印象深刻的性能。与动态无知的方法相比,LGM在SCANNET和S3DIS数据集上均达到约20%的MIOU。 LGM还优于最近的点云攻击。
translated by 谷歌翻译
本文迈出了一个全局线性时间逻辑规范的反应性,分层多机器人任务分配和计划框架的第一步。四倍体机器人和轮式机器人的功能都可以通过一个异质团队来完成各种导航和交付任务。但是,当部署在现实世界中时,所有机器人都可能容易受到不同类型的干扰,包括但不限于运动失败,人类干预和环境的障碍。为了解决这些干扰,我们建议任务级的本地和全局重新分配策略,以有效地在线生成更新的动作状态序列,同时保证完成原始任务的完成。这些任务重新分配方法消除了重建整个计划或重新合成新任务的方法。为了将任务计划者与低级输入集成,行为树执行层监视不同类型的干扰,并采用重新分配方法来制定相应的恢复策略。为了评估该计划框架,在现实的医院环境中进行了动态模拟,其异质机器人团队由四足动物和轮式机器人组成,用于交付任务。
translated by 谷歌翻译
标准梯度下降(GDA) - 型算法只能在非凸极小优化中找到固定点,这比局部minimax点比局部最佳。在这项工作中,我们开发了GDA型算法,这些算法在非convex-rong-concave minimax优化中全球收敛到局部minimax点。我们首先观察到局部最小点等效于某个包膜函数的二阶固定点。然后,受到经典立方正则化算法的启发,我们提出了Cubic-GDA(一种用于查找局部最小值点的立方体规范化的GDA算法),并通过利用其内在潜在功能来提供全面的收敛分析。具体而言,我们以sublinear收敛速率建立了立方GDA与局部最小点的全球收敛。我们进一步分析了在局部梯度显性型非凸几何形状的整个频谱中立方GDA的渐近收敛速率,比标准GDA更快地建立秩序的渐近收敛速率。此外,我们提出了用于大规模最小优化的立方GDA的随机变体,并在随机子采样下表征其样品复杂性。
translated by 谷歌翻译
In recent years, the Transformer architecture has shown its superiority in the video-based person re-identification task. Inspired by video representation learning, these methods mainly focus on designing modules to extract informative spatial and temporal features. However, they are still limited in extracting local attributes and global identity information, which are critical for the person re-identification task. In this paper, we propose a novel Multi-Stage Spatial-Temporal Aggregation Transformer (MSTAT) with two novel designed proxy embedding modules to address the above issue. Specifically, MSTAT consists of three stages to encode the attribute-associated, the identity-associated, and the attribute-identity-associated information from the video clips, respectively, achieving the holistic perception of the input person. We combine the outputs of all the stages for the final identification. In practice, to save the computational cost, the Spatial-Temporal Aggregation (STA) modules are first adopted in each stage to conduct the self-attention operations along the spatial and temporal dimensions separately. We further introduce the Attribute-Aware and Identity-Aware Proxy embedding modules (AAP and IAP) to extract the informative and discriminative feature representations at different stages. All of them are realized by employing newly designed self-attention operations with specific meanings. Moreover, temporal patch shuffling is also introduced to further improve the robustness of the model. Extensive experimental results demonstrate the effectiveness of the proposed modules in extracting the informative and discriminative information from the videos, and illustrate the MSTAT can achieve state-of-the-art accuracies on various standard benchmarks.
translated by 谷歌翻译