由于稀疏和嘈杂的测量,不完整的观察和大转化,3D对象的点云注册是非常具有挑战性的。在这项工作中,我们提出了匹配共识网络(GMCNet)的图表匹配,该网络估计了ultrange 1偏向部分点云注册(PPR)的姿势不变的对应关系。为了编码强大的点描述符,1)我们首先全面调查各种几何特征的变换 - 鲁棒性和远征性。 2)然后,我们采用新颖的转换 - 强大的点变换器(TPT)模块,以自适应地聚合有关结构关系的本地特征,其利用手工旋转 - 不变($ RI $)功能和噪声弹性空间坐标。 3)基于分层图网络网络和图形建模的协同作用,我们提出了编码由I)从$ RI $特征中汲取的一项机会学习的强大描述符的分层图形建模(HGM)架构;并且ii)通过我们的TPT模块以不同尺度的相邻点关系编码的多个平滑术语。此外,我们用虚拟扫描构建一个具有挑战性的PPR数据集(MVP-RG)。广泛的实验表明,GMCNet优于PPR以前的最先进方法。值得注意的是,GMCNET编码每个点云的点描述符,而不使用CrossContexual信息,或接地真理对应进行培训。我们的代码和数据集将在https://github.com/paul007pl/gmcnet上获得。
translated by 谷歌翻译
倒角距离(CD)和地球移动器的距离(EMD)是两个广泛采用的度量标准,用于测量两点集之间的相似性。然而,CD通常对不匹配的局部密度不敏感,EMD通常由全球分配主导,而忽略了详细结构的保真度。此外,他们的无限值范围从异常值引起沉重的影响。这些缺陷可防止它们提供一致的评估。为了解决这些问题,我们提出了一个名为密度感知倒角距离(DCD)的新的相似度量。它来自CD的源自来自若干所需性质的效果:1)它可以检测密度分布的差异,因此与CD相比更加强烈的相似性。 2)更严格,具有详细的结构,比EMD明显更加计算; 3)界限值范围促进整个测试集更稳定和合理的评估。我们采用DCD来评估点云完成任务,实验结果表明,DCD关注整体结构和本地几何细节,即使CD和EMD相互矛盾,也能提供更可靠的评估。我们还可以使用DCD作为培训损失,这胜过与所有三个指标上的CD损失培训的相同模型。此外,我们提出了一种新的点鉴别器模块,其估计另一个引导的下采样步骤的优先级,并且它在DCD下实现了明显的改进以及CD和EMD的竞争结果。我们希望我们的工作可以为更全面而实用的点云相似性评估铺平道路。我们的代码将可用:https://github.com/wutong16/dentions_aware_Chamfer_distance。
translated by 谷歌翻译
将2D人的姿势提升到3D姿势是一个重要而挑战的任务。现有的3D姿势估计遭受了1)2D和3D数据之间的固有模糊,2)野外缺少缺乏标记的2D-3D姿势对。人类能够从2D图像中的人体3D姿势或具有最低歧义的一组2D身体键点,这应该归因于我们在我们脑海中获得的人体的先验知识。灵感来自于此,我们提出了一个新的框架,利用标记的3D人类姿势来学习人体的3D概念来减少歧义。要在2D姿势上对身体概念进行达成共识,我们的主要洞察力是将2D人类姿势和3D人类姿势视为两个不同的域。通过调整两个域,从3D姿势中学到的身体知识应用于2D姿势并引导2D姿势编码器,以产生信息3D“想象力”,因为在姿势提升中嵌入。从域适应角度受益,所提出的框架统一了一个原则框架的监督和半监督的3D姿态估计。广泛的实验表明,所提出的方法可以在标准基准上实现最先进的性能。更重要的是,验证了明确学习的3D身体概念有效地减轻了2D姿势提升中的2D-3D模糊性,提高了泛化,并使网络能够利用丰富的未标记的2D数据。
translated by 谷歌翻译
对象检测在过去十年中取得了实质性进展。然而,只有少量样品检测新颖类仍然有挑战性,因为低数据制度下的深度学习通常会导致降级的特征空间。现有的作品采用整体微调范例来解决这个问题,其中模型首先在具有丰富样本的所有基类上进行预培训,然后它用于雕刻新颖的类特征空间。尽管如此,这个范例仍然不完美。微调,一个小型类可以隐含地利用多个基类的知识来构造其特征空间,它引起分散的特征空间,因此违反了级别的可分离性。为了克服这些障碍,我们提出了一系列两步的微调框架,通过关联和歧视(FADI),为每个新颖类带来了一个具有两个积分步骤的判别特征空间。 1)在关联步骤中,与隐式利用多个基类相反,我们通过显式模仿特定的基类特征空间来构造一个紧凑的新颖类别特征空间。具体地,我们根据其语义相似性将每个小组与基类联系起来。之后,新类的特征空间可以容易地模仿相关基类的良好训练的特征空间。 2)在歧视步骤中,为了确保新型类和相关基类之间的可分离性,我们解除了基础和新类的分类分支。为了进一步放大所有类之间的阶级间可分性,施加了专用的专用边缘损失。对Pascal VOC和MS-Coco Datasets的广泛实验表明FADI实现了新的SOTA性能,显着改善了任何拍摄/分裂的基线+18.7。值得注意的是,优势在极其镜头方案上最为宣布。
translated by 谷歌翻译
现在,推荐系统已经变得繁荣,旨在通过学习嵌入来预测用户对项目的潜在兴趣。图形神经网络的最新进展〜(GNNS)还提供带有强大备份的推荐系统,从用户项图中学习嵌入。但是,由于数据收集困难,仅利用用户项交互遭受冷启动问题。因此,目前的努力建议将社交信息与用户项目相互作用融合以缓解它,这是社会推荐问题。现有工作使用GNNS同时聚合两个社交链接和用户项交互。但是,它们都需要集中存储的社交链接和用户的互动,从而导致隐私问题。此外,根据严格的隐私保护,在一般数据保护规则下,将来可能不可行的数据存储可能是不可行的,敦促分散的社会建议框架。为此,我们设计了一个小说框架\ textbf {fe} delated \ textbf {so} cial推荐与\ textbf {g} raph神经网络(fesog)。首先,FeSog采用关系的关注和聚集来处理异质性。其次,Fesog Infers使用本地数据来保留个性化的用户嵌入。最后但并非最不重要的是,所提出的模型采用伪标签技术,其中包含项目采样,以保护隐私和增强培训。三个现实世界数据集的广泛实验可以证明FeSog在完成社会建议和隐私保护方面的有效性。我们是为我们所知,为社会建议提供联邦学习框架的第一项工作。
translated by 谷歌翻译
人工智能(AI)为简化Covid-19诊断提供了有前景的替代。然而,涉及周围的安全和可信度的担忧阻碍了大规模代表性的医学数据,对临床实践中训练广泛的模型造成了相当大的挑战。为了解决这个问题,我们启动了统一的CT-Covid AI诊断计划(UCADI),其中AI模型可以在没有数据共享的联合学习框架(FL)下在每个主机机构下分发和独立地在没有数据共享的情况下在每个主机机构上执行。在这里,我们认为我们的FL模型通过大的产量(中国测试敏感性/特异性:0.973 / 0.951,英国:0.730 / 0.942),与专业放射科医师的面板实现可比性表现。我们进一步评估了持有的模型(从另外两家医院收集,留出FL)和异构(用造影材料获取)数据,提供了模型所做的决策的视觉解释,并分析了模型之间的权衡联邦培训过程中的性能和沟通成本。我们的研究基于来自位于中国和英国的23家医院的3,336名患者的9,573次胸部计算断层扫描扫描(CTS)。统称,我们的工作提出了利用联邦学习的潜在保留了数字健康的前景。
translated by 谷歌翻译
由于Covid-19大流行,机器人可以被视为任务中的潜在资源,如帮助人们从远程工作,维持社会疏散和改善精神或身体健康。为了提高人机互动,通过在复杂的真实环境中处理多个社会线索,机器人必须变得更加社交。我们的研究采用了凝视触发的视听跨透视整合的神经毒性范例,使ICUB机器人表达人类的社会关注反应。起初,在37名人体参与者进行行为实验。为了提高生态有效性,设计了一个具有三个蒙面动画头像的圆桌会议场景,其中包括能够进行凝视偏移的中间的一个,以及能够产生声音的其他两个。凝视方向和声音位置是一致或不一致的。掩模用于覆盖除了头像之外的所有面部视觉线索。我们观察到,阿凡达的目光可以在视听通道条件下具有更好的人类性能来引发跨型社会关注,而不是在不一致状态。然后,我们的计算模型,喘气,培训,以实现社会提示检测,视听显着性预测和选择性关注。在完成模型培训之后,ICUB机器人被暴露于与人类参与者相似的实验室条件,表明它可以将类似的关注响应作为人类的同时性和不协调性表现进行复制,而人类表现仍然优越。因此,这种跨学科工作提供了对跨型社会关注机制的新见解以及如何在复杂环境中为机器人建模的机制。
translated by 谷歌翻译
3D互动手重建对于促进人机互动和人类行为理解至关重要。以前的工作在此字段中依赖于辅助输入,例如深度图像,或者如果使用单目的RGB图像,则只能处理单手。当应用于紧密互动时,单手方法倾向于产生碰撞手网格,因为它们无法明确地模拟两只手之间的相互作用。在本文中,我们首次尝试重建从单眼单rgb图像的三维交互手。我们的方法可以通过精确的3D姿势和最小冲突生成3D手网格。这是通过两级框架实现的。具体地,第一阶段采用卷积神经网络来产生容忍碰撞但鼓励姿势准确的手网格的粗略预测。第二阶段通过一系列分解改进逐渐改善碰撞,同时保留3D姿势的精确性。考虑到效率和准确性之间的权衡,我们仔细研究了分解改进的潜在实现。大规模数据集的广泛定量和定性结果,例如Interwand2.6m,证明了所提出的方法的有效性。
translated by 谷歌翻译
空间卷积广泛用于许多深度视频模型。它基本上假设了时空不变性,即,使用不同帧中的每个位置的共享权重。这项工作提出了用于视频理解的时间 - 自适应卷积(Tadaconv),这表明沿着时间维度的自适应权重校准是促进在视频中建模复杂的时间动态的有效方法。具体而言,Tadaconv根据其本地和全局时间上下文校准每个帧的卷积权重,使空间卷积具有时间建模能力。与先前的时间建模操作相比,Tadaconv在通过卷积内核上运行而不是特征,其维度是比空间分辨率小的数量级更有效。此外,内核校准还具有增加的模型容量。通过用Tadaconv替换Reset中的空间互联网来构建坦达2D网络,这与多个视频动作识别和定位基准测试的最先进方法相比,导致PAR或更好的性能。我们还表明,作为可忽略的计算开销的容易插入操作,Tadaconv可以有效地改善许多具有令人信服的边距的现有视频模型。 HTTPS://github.com/alibaba-mmai-research/pytorch-video -Undersing提供代码和模型。
translated by 谷歌翻译
学习良好的3D人类姿势代表对于人类姿势相关的任务是重要的,例如,人体3D姿势估计和行动识别。在所有这些问题中,保留内在姿势信息和调整以查看变化是两个关键问题。在这项工作中,我们提出了一种新颖的暹罗去噪,通过以完全无监督的方式解开来自人骨架数据的姿势相关和视图依赖性特征来学习3D姿态表示。这两个解缠绕特征被用作3D姿势的表示。要考虑运动学和几何依赖项,还提出了一种顺序双向递归网络(Sebirenet)以模拟人体骨架数据。广泛的实验表明,学习的表示1)保留人类姿势的内在信息,2)在数据集和任务中显示出良好的可转换性。值得注意的是,我们的方法在两个固有的不同任务上实现了最先进的表现:姿势​​去噪和无监督的行动识别。代码和模型可在:\ url {https://github.com/nieqiang001/unsupervised-humanpose.git}
translated by 谷歌翻译