We propose a novel approach to self-supervised learning of point cloud representations by differentiable neural rendering. Motivated by the fact that informative point cloud features should be able to encode rich geometry and appearance cues and render realistic images, we train a point-cloud encoder within a devised point-based neural renderer by comparing the rendered images with real images on massive RGB-D data. The learned point-cloud encoder can be easily integrated into various downstream tasks, including not only high-level tasks like 3D detection and segmentation, but low-level tasks like 3D reconstruction and image synthesis. Extensive experiments on various tasks demonstrate the superiority of our approach compared to existing pre-training methods.
translated by 谷歌翻译
This paper presents an approach that reconstructs a hand-held object from a monocular video. In contrast to many recent methods that directly predict object geometry by a trained network, the proposed approach does not require any learned prior about the object and is able to recover more accurate and detailed object geometry. The key idea is that the hand motion naturally provides multiple views of the object and the motion can be reliably estimated by a hand pose tracker. Then, the object geometry can be recovered by solving a multi-view reconstruction problem. We devise an implicit neural representation-based method to solve the reconstruction problem and address the issues of imprecise hand pose estimation, relative hand-object motion, and insufficient geometry optimization for small objects. We also provide a newly collected dataset with 3D ground truth to validate the proposed approach.
translated by 谷歌翻译
Compared to the great progress of large-scale vision transformers (ViTs) in recent years, large-scale models based on convolutional neural networks (CNNs) are still in an early state. This work presents a new large-scale CNN-based foundation model, termed InternImage, which can obtain the gain from increasing parameters and training data like ViTs. Different from the recent CNNs that focus on large dense kernels, InternImage takes deformable convolution as the core operator, so that our model not only has the large effective receptive field required for downstream tasks such as detection and segmentation, but also has the adaptive spatial aggregation conditioned by input and task information. As a result, the proposed InternImage reduces the strict inductive bias of traditional CNNs and makes it possible to learn stronger and more robust patterns with large-scale parameters from massive data like ViTs. The effectiveness of our model is proven on challenging benchmarks including ImageNet, COCO, and ADE20K. It is worth mentioning that InternImage-H achieved the new record 65.4 mAP on COCO test-dev. The code will be released at https://github.com/OpenGVLab/InternImage.
translated by 谷歌翻译
密集的预测任务对于3D点云很常见,但是在大量点及其嵌入中的固有不确定性长期以来一直被忽略。在这项工作中,我们提出了CUE,这是一种用于3D点云密集预测任务的新型不确定性估计方法。受公制学习的启发,提示的关键思想是探索传统密集的预测管道上的交叉点嵌入。具体而言,CUE涉及建立概率嵌入模型,然后在嵌入空间中执行大量点的指标。我们证明CUE是在两个不同任务中对3D点云的密集不确定性估算的通用和有效的工具:(1)在3D几何特征学习中,我们首次获得了良好的密集不确定性,(2)在语义段中我们将不确定性的预期校准误差减少了43.8%。所有不确定性均可估算,而不会损害预测性能。
translated by 谷歌翻译
深度学习(DL)模型的解释性可以说是值得信赖的AI面前的障碍。尽管可以解释的AI(XAI)社区做出了巨大的努力,但解释缺乏鲁棒性 - 与众不同的输入扰动可能会导致不同的XAI结果。因此,考虑到XAI技术,评估DL可解释性的可靠性至关重要。为此,我们确定了最先进的挑战,即最先进的挑战:i)XAI技术是高度异质的; ii)误解通常是罕见的事件; iii)最坏情况和整体鲁棒性都是实践意义的。在本文中,我们提出了两种评估方法来解决它们 - i)它们具有基于遗传算法(GA)和子集模拟(SS)的黑盒性质; ii)GA使用定制健身函数来有效地解决受约束的优化,而SS则致力于估计稀有事件概率; iii)引入了两个不同的指标,涉及最坏的解释差异和\ textit {}一般情况下的概率概念。我们进行实验,以研究优于最先进的方法的准确性,敏感性和效率。最后,我们展示了我们的方法的两种应用,用于对强大的XAI方法进行排名,并选择培训方案以提高分类和解释鲁棒性。
translated by 谷歌翻译
通过使用智能电表,零售商可以收集有关消费者行为的大量数据。从收集的数据中,零售商可以获取家庭概况信息并实施需求响应。尽管零售商更喜欢在不同客户中获取尽可能准确的模型,但有两个主要挑战。首先,零售市场中的不同零售商不会共享消费者的电力消耗数据,因为这些数据被视为其资产,这导致了数据岛的问题。其次,由于不同的零售商可以为各种消费者服务,因此电力负载数据是高度异质的。为此,提出了基于共识算法和长期记忆(LSTM)的完全分布的短期负载预测框架,这可能保护客户的隐私并满足准确的负载预测要求。具体而言,利用完全分布式的学习框架进行分布式培训,并采用共识技术来符合机密隐私。案例研究表明,所提出的方法具有相当的性能,而对准确性的集中方法具有相当的性能,但是所提出的方法显示了训练速度和数据隐私的优势。
translated by 谷歌翻译
时空数据包含丰富的信息,近年来由于许多领域的相关应用程序的快速发展,近年来已广泛研究。例如,医疗机构经常使用与患者不同部位相关的电极来分析具有空间和时间特征富含脑的数据,以进行健康评估和疾病诊断。现有的研究主要使用了深度学习技术,例如卷积神经网络(CNN)或经常性神经网络(RNN)来提取隐藏的时空特征。然而,同时合并相互依存的空间信息和动态时间变化是一项挑战。实际上,对于利用这些时空特征来完成复杂预测任务的模型,它通常需要大量的培训数据才能获得令人满意的模型性能。考虑到上述挑战,我们提出了一个自适应的联合相关性框架,即Fedrel,用于在本文中为时空的图形学习。在将原始时空数据转换为高质量特征之后,框架中的核心动力学间图(DIIG)模块能够使用这些功能来生成能够捕获隐藏拓扑和长期的时空图这些图中的时间相关信息。为了提高模型的概括能力和性能,在保留本地数据隐私的同时,我们还设计了一个相关性驱动的联合学习模块,以利用其模型的细心聚合来利用来自不同参与者的各种数据分布。
translated by 谷歌翻译
位置识别是同时定位和映射(SLAM)和空间感知的关键。但是,野外的地方识别通常会因图像变化(例如改变观点和街头外观)而产生错误的预测。将不确定性估计纳入地点识别的生命周期是减轻变化对位置识别性能的影响的有前途的方法。但是,这种静脉的现有不确定性估计方法要么是计算效率低下(例如蒙特卡洛辍学),要么以降低准确性为代价。本文提出了Stun,这是一个自学框架,该框架学会同时预测位置并估计给定输入图像的预测不确定性。为此,我们首先使用标准的度量学习管道训练老师网培训网络,以生产嵌入培训。然后,在经过预告片的教师网络监督的情况下,培训了一个具有额外差异分支的学生网,以对嵌入先验的培训进行训练,并按样本估算不确定性样本。在在线推理阶段,我们仅使用学生网与不确定性结合产生位置预测。与对不确定性一无所知的位置识别系统相比,我们的框架具有自由估计的不确定性估计而无需牺牲任何预测准确性。我们对大规模匹兹堡30K数据集的实验结果表明,昏迷在识别精度和不确定性估计质量方面的表现都优于最先进的方法。
translated by 谷歌翻译
虽然已知辍学是一种成功的正规化技术,但仍缺乏对导致成功的机制的见解。我们介绍了\ emph {重量膨胀}的概念,这增加了由权重协方差矩阵的列或行载体跨越的并行曲线的签名体积,并表明重量膨胀是增加PAC中概括的有效手段。 - bayesian设置。我们提供了一个理论上的论点,即辍学会导致体重扩大和对辍学和体重扩张之间相关性的广泛经验支持。为了支持我们的假设,即可以将重量扩张视为增强的概括能力的\ emph {指示器},而不仅仅是副产品,我们还研究了实现重量扩展的其他方法(resp。\ contraction \ contraction ),发现它们通常会导致(分别\ \降低)的概括能力。这表明辍学是一种有吸引力的正规化器,因为它是一种用于获得体重扩展的计算廉价方法。这种洞察力证明了辍学者作为正规化器的作用,同时为确定正规化器铺平了道路,这些正规化器有望通过体重扩张来改善概括。
translated by 谷歌翻译
近年来,图表表示学习越来越多地引起了越来越长的关注,特别是为了在节点和图表水平上学习对分类和建议任务的低维嵌入。为了能够在现实世界中的大规模图形数据上学习表示,许多研究专注于开发不同的抽样策略,以方便培训过程。这里,我们提出了一种自适应图策略驱动的采样模型(GPS),其中通过自适应相关计算实现了本地邻域中每个节点的影响。具体地,邻居的选择是由自适应策略算法指导的,直接贡献到消息聚合,节点嵌入更新和图级读出步骤。然后,我们从各种角度对图表分类任务进行全面的实验。我们所提出的模型在几个重要的基准测试中优于现有的3%-8%,实现了现实世界数据集的最先进的性能。
translated by 谷歌翻译