Nowadays, the need for user editing in a 3D scene has rapidly increased due to the development of AR and VR technology. However, the existing 3D scene completion task (and datasets) cannot suit the need because the missing regions in scenes are generated by the sensor limitation or object occlusion. Thus, we present a novel task named free-form 3D scene inpainting. Unlike scenes in previous 3D completion datasets preserving most of the main structures and hints of detailed shapes around missing regions, the proposed inpainting dataset, FF-Matterport, contains large and diverse missing regions formed by our free-form 3D mask generation algorithm that can mimic human drawing trajectories in 3D space. Moreover, prior 3D completion methods cannot perform well on this challenging yet practical task, simply interpolating nearby geometry and color context. Thus, a tailored dual-stream GAN method is proposed. First, our dual-stream generator, fusing both geometry and color information, produces distinct semantic boundaries and solves the interpolation issue. To further enhance the details, our lightweight dual-stream discriminator regularizes the geometry and color edges of the predicted scenes to be realistic and sharp. We conducted experiments with the proposed FF-Matterport dataset. Qualitative and quantitative results validate the superiority of our approach over existing scene completion methods and the efficacy of all proposed components.
translated by 谷歌翻译
为了以低成本的自动驾驶成本实现准确的3D对象检测,已经提出了许多多摄像机方法并解决了单眼方法的闭塞问题。但是,由于缺乏准确的估计深度,现有的多摄像机方法通常会沿着深度方向产生多个边界框,例如行人等困难的小物体,从而产生极低的召回。此外,将深度预测模块直接应用于通常由大型网络体系结构组成的现有多摄像机方法,无法满足自动驾驶应用程序的实时要求。为了解决这些问题,我们提出了3D对象检测的跨视图和深度引导的变压器,CrossDTR。首先,我们的轻质深度预测器旨在生成精确的对象稀疏深度图和低维深度嵌入,而在监督过程中,无需额外的深度数据集。其次,开发了一个跨视图引导的变压器,以融合深度嵌入以及来自不同视图的相机的图像特征并生成3D边界框。广泛的实验表明,我们的方法在行人检测中大大超过了10%,总体图和NDS指标中约为3%。同样,计算分析表明,我们的方法比以前的方法快5倍。我们的代码将在https://github.com/sty61010/crossdtr上公开提供。
translated by 谷歌翻译
高度期望可以通过视觉信号执行复杂任务并与人合作执行复杂任务的空间AI。为了实现这一目标,我们需要一个视觉大满贯,该猛击很容易适应新场景而无需预训练,并为实时的下游任务生成密集的地图。由于其组件的固有局限性,先前基于学习和非学习的视觉大满贯都不满足所有需求。在这项工作中,我们开发了一个名为Orbeez-Slam的视觉猛烈抨击,该作品成功地与隐式神经表示(NERF)和视觉探测仪合作以实现我们的目标。此外,Orbeez-Slam可以与单眼相机一起使用,因为它只需要RGB输入,从而广泛适用于现实世界。我们验证其对各种具有挑战性的基准的有效性。结果表明,我们的大满贯速度比强大的渲染结果快800倍。
translated by 谷歌翻译
公平的积极学习(FAL)利用积极的学习技术来实现有限的数据,并在敏感组之间达到公平性(例如,性别)。但是,FAL尚未解决对抗性攻击对各种安全至关重要的机器学习应用至关重要的影响。观察到这一点,我们介绍了一项新颖的任务,公平的健壮的积极学习(FRAL),整合了常规的FAL和对抗性鲁棒性。弗拉尔(Fral)要求ML模型利用主动学习技术在良性数据上共同实现均衡的绩效,并对群体之间的对抗性攻击进行均衡的鲁棒性。在这项新任务中,以前的FAL方法通常面临无法忍受的计算负担和无效性的问题。因此,我们通过联合不一致(JIN)制定了一种简单而有效的弗拉尔策略。为了有效地找到可以提高弱势组标签的性能和鲁棒性的样品,我们的方法利用了良性和对抗样本以及标准模型和强大模型之间的预测不一致。在不同的数据集和敏感组下进行的广泛实验表明,我们的方法不仅可以在良性样本上实现更公平的性能,而且与现有的活跃学习和FAL基本线相比,在白盒PGD攻击下,我们的方法还获得了更公平的鲁棒性。我们很乐观,弗拉尔将为开发安全,强大的ML研究和应用程序(例如生物识别系统中的面部属性识别)铺平道路。
translated by 谷歌翻译
机器人钉孔组件由于其准确性的高度需求而仍然是一项具有挑战性的任务。先前的工作倾向于通过限制最终效果的自由度,或限制目标与初始姿势位置之间的距离来简化问题,从而阻止它们部署在现实世界中。因此,我们提出了一种粗到精细的视觉致毒(CFV)钉孔法,基于3D视觉反馈实现了6DOF最终效应器运动控制。CFV可以通过在细化前进行快速姿势估计来处理任意倾斜角度和较大的初始对齐误差。此外,通过引入置信度图来忽略对象无关的轮廓,CFV可以抵抗噪声,并且可以处理训练数据以外的各种目标。广泛的实验表明,CFV的表现优于最先进的方法,并分别获得100%,91%和82%的平均成功率,分别为3-DOF,4-DOF和6-DOF PEG-IN-IN-HOLE。
translated by 谷歌翻译
我们考虑为多类分类任务生产公平概率分类器的问题。我们以“投射”预先培训(且可能不公平的)分类器在满足目标群体对要求的一组模型上的“投影”来提出这个问题。新的投影模型是通过通过乘法因子后处理预训练的分类器的输出来给出的。我们提供了一种可行的迭代算法,用于计算投影分类器并得出样本复杂性和收敛保证。与最先进的基准测试的全面数值比较表明,我们的方法在准确性权衡曲线方面保持了竞争性能,同时在大型数据集中达到了有利的运行时。我们还在具有多个类别,多个相互保护组和超过1M样本的开放数据集上评估了我们的方法。
translated by 谷歌翻译
在域适应领域,模型性能与目标域注释的数量之间存在权衡。积极的学习,最大程度地提高了模型性能,几乎没有信息的标签数据,以方便这种情况。在这项工作中,我们提出了D2ADA,这是用于语义分割的一般活动域的适应框架。为了使模型使用最小查询标签调整到目标域,我们提出了在目标域中具有高概率密度的样品的获取标签,但源域中的概率密度较低,与现有源域标记的数据互补。为了进一步提高标签效率,我们设计了动态的调度策略,以调整域探索和模型不确定性之间的标签预算。广泛的实验表明,我们的方法的表现优于现有的活跃学习和域适应基线,这两个基准测试基准,GTA5-> CityScapes和Synthia-> CityScapes。对于目标域注释不到5%,我们的方法与完全监督的结果可比结果。我们的代码可在https://github.com/tsunghan-wu/d2ada上公开获取。
translated by 谷歌翻译
肺癌是最致命的癌症之一,部分诊断和治疗取决于肿瘤的准确描绘。目前是最常见的方法的人以人为本的分割,须遵守观察者间变异性,并且考虑到专家只能提供注释的事实,也是耗时的。最近展示了有前途的结果,自动和半自动肿瘤分割方法。然而,随着不同的研究人员使用各种数据集和性能指标验证了其算法,可靠地评估这些方法仍然是一个开放的挑战。通过2018年IEEE视频和图像处理(VIP)杯竞赛创建的计算机断层摄影扫描(LOTUS)基准测试的肺起源肿瘤分割的目标是提供唯一的数据集和预定义的指标,因此不同的研究人员可以开发和以统一的方式评估他们的方法。 2018年VIP杯始于42个国家的全球参与,以获得竞争数据。在注册阶段,有129名成员组成了来自10个国家的28个团队,其中9个团队将其达到最后阶段,6队成功完成了所有必要的任务。简而言之,竞争期间提出的所有算法都是基于深度学习模型与假阳性降低技术相结合。三种决赛选手开发的方法表明,有希望的肿瘤细分导致导致越来越大的努力应降低假阳性率。本次竞争稿件概述了VIP-Cup挑战,以及所提出的算法和结果。
translated by 谷歌翻译
在几次拍摄的仿制学习(FSIL)中,使用行为克隆(BC)来解决少数专家演示的看不见的任务成为一个流行的研究方向。以下功能在机器人应用中至关重要:(1)在包含多个阶段的复合任务中行为。 (2)从少量变体和未对准示范中检索知识。 (3)从不同的专家学习。以前没有工作可以同时达到这些能力。在这项工作中,我们在上述设置的联盟下进行FSIL问题,并介绍一个小说阶段意识注意网络(扫描),以同时检索来自少数示范的知识。扫描使用注意模块识别长度变体演示中的每个阶段。此外,它是根据演示条件的政策设计,了解专家和代理人之间的关系。实验结果表明,扫描可以从不同的专家中学习,而不进行微调和优于复杂的复合任务的基线,可视化可视化。
translated by 谷歌翻译
转变挑战:实际分配转移下的鲁棒性和不确定性是由神经潜逃2021举办的竞争。本次竞争的目的是寻找解决跨域中运动预测问题的方法。在真实世界数据集中,它存在于输入数据分布和地面真实数据分布之间的差异,该数据分布称为域移位问题。在本报告中,我们提出了一种由艺术论文的最新的新建筑。主要贡献是具有自我关注机制和主要损耗功能的骨干架构。随后,我们赢得了第三名,如排行榜上所示。
translated by 谷歌翻译