移动代理在环境中本地化的能力是对新兴应用程序的基本需求,例如自动驾驶等。许多基于多个传感器的现有方法仍然遭受漂移的影响。我们提出了一个融合图像映射的方案,并从图像中消失了点,该方案可以建立仅在旋转上受到约束的能量项,称为方向投影误差。然后,我们将这些方向先验嵌入到视觉范围内的大满贯系统中,该系统在后端以紧密耦合的方式集成了相机和激光雷达测量。具体而言,我们的方法会生成视觉再投影误差,并指向扫描约束的隐式移动最小平方(IML)表面,并在全局优化时共同求解它们以及方向投影误差。Kitti,Kitti-360和Oxford Radar Robotcar上的实验表明,与先前的MAP相比,我们实现了较低的定位误差或绝对姿势误差(APE),这证实了我们的方法有效。
translated by 谷歌翻译
检测变压器(DETR)依赖于一对一的标签分配,即仅分配一个地面真相(GT)对象作为一个阳性对象查询,用于端到端对象检测,并且缺乏利用多个积极查询的能力。我们提出了一种新颖的DETR训练方法,称为{\ em grout detr},以支持多个积极查询。具体来说,我们将阳性分解为多个独立组,并在每个组中只保留一个阳性对象。我们在培训期间进行了简单的修改:(i)采用$ k $ of Absock Queries; (ii)对具有相同参数的每组对象查询进行解码器自我注意; (iii)为每个组执行一对一的标签分配,从而为每个GT对象提供$ K $阳性对象查询。在推论中,我们只使用一组对象查询,对架构和过程没有任何修改。我们验证了提出的方法对DITR变体的有效性,包括条件DITR,DAB-DER,DN-DEN和DINO。
translated by 谷歌翻译
在本文中,我们对检测变压器(DETR)感兴趣,这是一种基于变压器编码器编码器架构的端到端对象检测方法,而无需手工制作的后处理,例如NMS。受到有条件的Detr的启发,这是一种具有快速训练收敛性的改进的DETR,对内部解码器层提出了盒子查询(最初称为空间查询),我们将对象查询重新将对象查询重新布置为盒子查询的格式,该格式是参考参考嵌入的组成点和框相对于参考点的转换。该重新制定表明在更快地使用R-CNN中广泛研究的DETR中的对象查询与锚固框之间的联系。此外,我们从图像内容中学习了盒子查询,从而进一步提高了通过快速训练收敛的有条件DETR的检测质量。此外,我们采用轴向自我注意的想法来节省内存成本并加速编码器。所得的检测器(称为条件DETR V2)取得比条件DETR更好的结果,可节省内存成本并更有效地运行。例如,对于DC $ 5 $ -Resnet- $ 50 $骨干,我们的方法在可可$ Val $ set上获得了$ 44.8 $ ap,$ 16.4 $ fps和有条件的detr相比,它运行了$ 1.6 \ tims $ $ $ $ $,节省$ 74 $ \ \ \ \ \ \ \ \ \ \ \ \ \ $ 74美元总体内存成本的百分比,并提高$ 1.0 $ ap得分。
translated by 谷歌翻译
点云的语义场景重建是3D场景理解的必不可少的任务。此任务不仅需要识别场景中的每个实例,而且还需要根据部分观察到的点云恢复其几何形状。现有方法通常尝试基于基于检测的主链的不完整点云建议直接预测完整对象的占用值。但是,由于妨碍了各种检测到的假阳性对象建议以及对完整对象学习占用值的不完整点观察的歧义,因此该框架始终无法重建高保真网格。为了绕开障碍,我们提出了一个分离的实例网格重建(DIMR)框架,以了解有效的点场景。采用基于分割的主链来减少假阳性对象建议,这进一步使我们对识别与重建之间关系的探索有益。根据准确的建议,我们利用网状意识的潜在代码空间来解开形状完成和网格生成的过程,从而缓解了由不完整的点观测引起的歧义。此外,通过在测试时间访问CAD型号池,我们的模型也可以通过在没有额外训练的情况下执行网格检索来改善重建质量。我们用多个指标彻底评估了重建的网格质量,并证明了我们在具有挑战性的扫描仪数据集上的优越性。代码可在\ url {https://github.com/ashawkey/dimr}上获得。
translated by 谷歌翻译
我们在本文中重新审视语义场景(SSC),是预测3D场景的语义和占用表示的有用任务。此任务的许多方法始终基于用于保存本地场景结构的体蛋白化场景表示。然而,由于存在可见空体素,当网络更深时,这些方法总是遭受重型计算冗余,从而限制完成质量。为了解决这种困境,我们提出了我们为此任务的新型点体素聚集网络。首先,我们通过去除这些可见的空体素来将Voxized场景传输到点云,并采用深点流,以有效地从场景中捕获语义信息。同时,仅包含两个3D卷积层的轻重体素流保留了体蛋白化场景的局部结构。此外,我们设计一个各向异性体素聚合运算符,将结构细节从体素流融合到点流中,并通过语义标签来增强点流中的上采样过程的语义感知传播模块。我们展示了我们的模型在两个基准上超越了最先进的余量,只有深度图像作为输入。
translated by 谷歌翻译
隐式神经表示显示了3D场景重建的有希望的潜力。最近的工作将其应用于自主3D重建,通过学习信息获得图路径计划的信息增益。有效,信息增益的计算很昂贵,并且与使用体积表示相比,使用隐式表示为3D点进行碰撞检查要慢得多。在本文中,我们建议1)利用神经网络作为信息增益场的隐式函数近似器,以及2)将隐式细粒表示与粗量表示形式结合起来,以提高效率。随着效率的提高,我们提出了基于基于图的计划者的新型信息路径计划。我们的方法表明,与具有隐性和明确表示的自主重建相比,重建质量和计划效率的显着提高。我们将该方法部署在真正的无人机上,结果表明我们的方法可以计划信息意见并以高质量重建场景。
translated by 谷歌翻译
机器人的集体操作,例如以团队或群为单位运行的无人机(UAV),受其个人功能的影响,这反过来又取决于其物理设计,也就是形态。但是,除了一些(尽管临时)进化机器人技术方法外,在理解形态和集体行为的相互作用方面几乎没有工作。特别缺乏计算框架来同时寻找机器人形态和其行为模型的超参数,这些模型共同优化了集体(团队)绩效。为了解决这一差距,本文提出了一个新的共同设计框架。在这里,通过新颖的``人才''指标有效地缓解了原本嵌套的形态/行为共同设计的爆炸计算成本;同时,与典型的亚最佳顺序形态$ \ $ $ to $ $ to Craging to $行为设计相比,还允许明显更好的解决方案方法。该框架包括四个主要步骤:人才指标的选择,人才帕累托探索(多目标形态优化过程),行为优化和形态学最终确定。通过将其应用于设计无用的无人机,可以证明这种共同设计的概念团队本地化信号源,例如在受害者搜索和危害本地化中。在这里,集体行为是由最近报道的批评贝叶斯搜索算法的驱动的,称为贝叶斯 - 工作。我们的案例研究表明,共同设计的结果可显着更高的成功。与基线设计相比,信号源定位的速率,各种信号环境和团队6至15个无人机。此外,与预测的嵌套设计方法相比,该共同设计过程提供了两个降低计算时间的数量级。
translated by 谷歌翻译
公平的聚类旨在将数据分为不同的簇,同时防止敏感属性(例如性别,种族,RNA测序技术),而不是主导聚类。尽管最近已经进行了许多作品并取得了巨大的成功,但其中大多数是启发式的,并且缺乏算法设计的统一理论。在这项工作中,我们通过开发一种相互信息理论来填补这一空白,以实现深度公平的聚类,并因此设计出一种称为FCMI的新型算法。简而言之,通过最大化和最大程度地减少共同信息,FCMI旨在通过深度公平的聚类(即紧凑,平衡和公平的簇)以及信息丰富的特征来实现四种特征。除了对理论和算法的贡献外,这项工作的另一个贡献是提出了一个基于信息理论的新颖的公平聚类指标。与现有的评估指标不同,我们的指标以整体而不是单独的方式来衡量聚类的质量和公平性。为了验证拟议的FCMI的有效性,我们对六个基准进行了实验,包括单细胞RNA-seq Atlas,而与11种最先进的方法相比,就五个指标而言。认可后将发布代码。
translated by 谷歌翻译
最近,基于云的图形卷积网络(GCN)在许多对隐私敏感的应用程序(例如个人医疗保健和金融系统)中表现出了巨大的成功和潜力。尽管在云上具有很高的推理准确性和性能,但在GCN推理中保持数据隐私,这对于这些实际应用至关重要,但仍未得到探索。在本文中,我们对此进行了初步尝试,并开发了$ \ textit {cryptogcn} $ - 基于GCN推理框架的同型加密(HE)。我们方法成功的关键是减少HE操作的巨大计算开销,这可能比明文空间中的同行高的数量级。为此,我们开发了一种方法,可以有效利用GCN推断中基质操作的稀疏性,从而大大减少计算开销。具体而言,我们提出了一种新型的AMA数据格式方法和相关的空间卷积方法,该方法可以利用复杂的图结构并在HE计算中执行有效的矩阵矩阵乘法,从而大大减少HE操作。我们还开发了一个合作式框架,该框架可以通过明智的修剪和GCN中激活模块的多项式近似来探索准确性,安全级别和计算开销之间的交易折扣。基于NTU-Xview骨架关节数据集,即,据我们所知,最大的数据集对同型的评估,我们的实验结果表明,$ \ textit {cryptogcn} $均优胜于最先进的解决方案。同构操作的延迟和数量,即在延迟上达到3.10 $ \ times $加速,并将总代态操作数量减少77.4 \%,而准确度的较小精度损失为1-1.5 $ \%$。
translated by 谷歌翻译
青光眼是一种严重的盲目疾病,迫切需要自动检测方法来减轻眼科医生的稀缺性。许多作品提出采用深度学习方法,涉及视盘和杯中的分割以进行青光眼检测,其中分割过程通常仅被视为上游子任务。在青光眼评估中,底底图像与分割面具之间的关系很少探索。我们提出了一种基于细分的信息提取和融合方法来实现青光眼检测任务,该方法利用了分割掩模的稳健性,而无需忽略原始底底图像中的丰富信息。私有数据集和公共数据集的实验结果表明,我们提出的方法的表现优于所有仅利用底面图像或口罩的模型。
translated by 谷歌翻译