本文提出了一个紧凑的系统OpenPneu,以支持软机器人多腔的气动驱动。系统中使用微型泵来生成气流,因此不需要额外的输入,因为需要压缩空气。我们的系统执行模块化设计以提供良好的可扩展性,这已在具有十个空气通道的原型上证明。OpenPNEU的每个空气通道都配备了通货膨胀和通气功能,可提供从正到负的全范围压力供应,最大流速为1.7 L/min。我们的系统内置了对压力的高精度闭环控制,以实现稳定而有效的动态性能。提供了Python中的开源控制接口和API。我们还证明了OpenPneu在三个软机器人系统上的功能,最多10个腔室。
translated by 谷歌翻译
在图像之间生成健壮和可靠的对应关系是多种应用程序的基本任务。为了在全球和局部粒度上捕获上下文,我们提出了Aspanformer,这是一种基于变压器的无探测器匹配器,建立在层次的注意力结构上,采用了一种新颖的注意操作,能够以自适应方式调整注意力跨度。为了实现这一目标,首先,在每个跨注意阶段都会回归流图,以定位搜索区域的中心。接下来,在中心周围生成一个采样网格,其大小不是根据固定的经验配置为固定的,而是根据与流图一起估计的像素不确定性的自适应计算。最后,在派生区域内的两个图像上计算注意力,称为注意跨度。通过这些方式,我们不仅能够维持长期依赖性,而且能够在高相关性的像素之间获得细粒度的注意,从而补偿基本位置和匹配任务中的零件平滑度。在广泛的评估基准上的最新准确性验证了我们方法的强匹配能力。
translated by 谷歌翻译
神经隐式功能最近显示了来自多个视图的表面重建的有希望的结果。但是,当重建无限或复杂的场景时,当前的方法仍然遭受过度复杂性和稳健性不佳。在本文中,我们介绍了RegSDF,这表明适当的点云监督和几何正规化足以产生高质量和健壮的重建结果。具体而言,RegSDF将额外的定向点云作为输入,并优化了可区分渲染框架内的签名距离字段和表面灯场。我们还介绍了这两个关键的正规化。第一个是在给定嘈杂和不完整输入的整个距离字段中平稳扩散签名距离值的Hessian正则化。第二个是最小的表面正则化,可紧凑并推断缺失的几何形状。大量实验是在DTU,BlendenDMV以及储罐和寺庙数据集上进行的。与最近的神经表面重建方法相比,RegSDF即使对于具有复杂拓扑和非结构化摄像头轨迹的开放场景,RegSDF也能够重建表面。
translated by 谷歌翻译
神经辐射场(NERF)在建模3D场景和合成新型视图图像方面取得了巨大成功。但是,大多数以前的NERF方法需要大量时间来优化一个场景。显式数据结构,例如体素特征,显示出加速训练过程的巨大潜力。但是,体素特征面临两个大挑战,要应用于动态场景,即建模时间信息并捕获不同的点运动尺度。我们通过用时间感知的体素特征(称为Tineuvox)表示场景来提出一个辐射现场框架。引入了一个微小的坐标变形网络,以模拟粗糙运动轨迹,并在辐射网络中进一步增强了时间信息。提出了一种多距离插值方法,并应用于体素特征,以模拟小运动和大型运动。我们的框架大大加快了动态光芒度场的优化,同时保持高渲染质量。经验评估均在合成场景和真实场景上进行。我们的Tineuvox仅需8分钟和8 MB的存储成本即可完成培训,同时表现出比以前的动态NERF方法相似甚至更好的渲染性能。
translated by 谷歌翻译
软机器人由于其机械合规性可以安全地与环境相互作用。在现代的软机器人的现代设计中,自我碰撞也用于在不同的任务中提高其性能。但是,开发一个可以很好地处理碰撞响应的高效且可靠的模拟器,仍然是软机器人技术研究中的一项艰巨任务。本文基于几何优化提供了一个碰撞感知的模拟器,其中我们开发了一种高效且逼真的碰撞检查 /响应模型,该模型包含了超弹性材料特性。软机器人的驱动变形和碰撞响应都是基于几何目标的。可以通过最小化基于几何的目标函数来获得软机器人的无碰撞主体。与基于FEA的物理模拟不同,所提出的管道的计算成本要低得多。此外,在处理具有较大体积变化的软机器人时,适用自适应重新捕获以提高收敛性。在不同的软机器人上进行了实验测试,以验证我们的方法的性能。
translated by 谷歌翻译
用于图像文本生成任务的传统方法主要是分别解决自然双向生成任务,专注于设计任务特定的框架以提高所生成的样本的质量和保真度。最近,Vision-Language预训练模型大大提高了图像到文本生成任务的性能,但仍未开发出用于文本到图像综合任务的大规模预训练模型。在本文中,我们提出了一个具有变压器模型的双向图像文本生成的统一生成的预训练框架的Ernie-Vi​​lg。基于图像量化模型,我们将图像生成和文本生成标准为在文本/图像输入上调节的自回归生成任务。双向图像文本生成建模简化了视觉和语言的语义对齐。对于文本到图像生成过程,我们进一步提出了端到端的训练方法,共同学习视觉序列发生器和图像重建。为了探讨双向文本图像生成的大规模预培训景观,我们在大规模数据集中培训了100亿参数的Ernie-Vi​​lg模型,以145百万(中文)图像 - 文本对实现了达到的状态 - 文本到图像和图像到文本任务的最佳性能,以便在MS-Coco上获取7.9的FID,用于文本到图像合成以及用于图像标题的Coco-CN和AIC-ICC的最佳结果。
translated by 谷歌翻译
现有的神经结构搜索算法主要在具有短距离连接的搜索空间上。我们争辩说,这种设计虽然安全稳定,障碍搜索算法从探索更复杂的情景。在本文中,我们在具有长距离连接的复杂搜索空间上构建搜索算法,并显示现有的权重共享搜索算法由于存在\ TextBF {交织连接}而大部分失败。基于观察,我们介绍了一个名为\ textbf {if-nas}的简单且有效的算法,在那里我们在搜索过程中执行定期采样策略来构建不同的子网,避免在任何中的交织连接出现。在所提出的搜索空间中,IF-NAS优于随机采样和先前的重量共享搜索算法,通过显着的余量。 IF-NAS还推广到微单元的空间,这些空间更容易。我们的研究强调了宏观结构的重要性,我们期待沿着这个方向进一步努力。
translated by 谷歌翻译
神经辐射场(NERF)在代表3D场景和合成新颖视图中示出了很大的潜力,但是在推理阶段的NERF的计算开销仍然很重。为了减轻负担,我们进入了NERF的粗细分,分层采样过程,并指出粗阶段可以被我们命名神经样本场的轻量级模块代替。所提出的示例场地图光线进入样本分布,可以将其转换为点坐标并进料到radiance字段以进行体积渲染。整体框架被命名为Neusample。我们在现实合成360 $ ^ {\ circ} $和真正的前瞻性,两个流行的3D场景集上进行实验,并表明Neusample在享受更快推理速度时比NERF实现更好的渲染质量。Neusample进一步压缩,以提出的样品场提取方法朝向质量和速度之间的更好的权衡。
translated by 谷歌翻译
在本文中,我们提出了一种自我监督的视觉表示学习方法,涉及生成和鉴别性代理,我们通过要求目标网络基于中级特征来恢复原始图像来专注于前者部分。与事先工作不同,主要侧重于原始和生成的图像之间的像素级相似性,我们提倡语义感知生成(Sage)以促进更丰富的语义,而不是在所生成的图像中保留的细节。实现SAGE的核心概念是使用评估者,一个在没有标签的情况下预先培训的深网络,用于提取语义感知功能。 Sage与特定于观点的功能补充了目标网络,从而减轻了密集数据增强所带来的语义劣化。我们在ImageNet-1K上执行Sage,并在包括最近的邻居测试,线性分类和细小图像识别的五个下游任务中评估预训练模型,展示了其学习更强大的视觉表示的能力。
translated by 谷歌翻译
变压器提供了一种设计神经网络以进行视觉识别的新方法。与卷积网络相比,变压器享有在每个阶段引用全局特征的能力,但注意模块带来了更高的计算开销,阻碍了变压器的应用来处理高分辨率的视觉数据。本文旨在减轻效率和灵活性之间的冲突,为此,我们为每个地区提出了专门的令牌,作为使者(MSG)。因此,通过操纵这些MSG令牌,可以在跨区域灵活地交换视觉信息,并且减少计算复杂性。然后,我们将MSG令牌集成到一个名为MSG-Transformer的多尺度体系结构中。在标准图像分类和对象检测中,MSG变压器实现了竞争性能,加速了GPU和CPU的推断。代码可在https://github.com/hustvl/msg-transformer中找到。
translated by 谷歌翻译