我们研究自适应重要性抽样(AIS)作为在线学习问题,并且考虑到在这种适应中探索和开发之间权衡的重要性。借用土匪文献中的思想,我们提出戴基,一种基于分区的AIS算法。我们进一步介绍AIS的概念,并表明Daisee有$ \ mathcal {O}(\ sqrt {T}(\ logT)^ {\ frac {3} {4}})$累积伪遗憾,其中$ T $是项目的数量。然后,我们扩展Daisee以自适应地学习样本空间的分层分区,以获得更有效的采样,并根据经验确认两种算法的性能。
translated by 谷歌翻译
我们引入推理树(IT),这是一种新的推理方法,它构建了蒙特卡罗树搜索的思想,以一种平衡探索与开发的方式进行自适应采样,确保一致性,并减少现有自适应方法中的病理。 IT自适应地从参数空间的分层分区中采样,同时以在线方式学习这些分区。这使得IT不仅可以识别高后部质量的区域,而且还可以保持不确定性估计值,这些区域可能已经错过了显着的后部质量。 IT可以基于任何推断方法,该方法提供对边际可能性的一致估计。当它们与蒙特卡罗相结合时,它们特别有效,它们可以捕获远程依赖性,并且仅仅在提议适应之外就可以产生改进。
translated by 谷歌翻译
直接学习点云的特征已成为3D理解中的一个活跃的研究方向。现有的基于学习的方法通常从点云构建局部区域,并使用共享的多层感知器(MLP)和最大池来提取相应的特征。然而,这些过程中的大多数并未充分考虑点云的空间分布,从而限制了感知细粒度图案的能力。我们设计了一种新颖的局部空间注意(LSA)模块,根据局部区域的空间分布自适应地生成注意力图。与这些注意力图集成的特征学习过程可以有效地捕获局部几何结构。我们进一步提出构建分支架构的空间特征提取器(SFE),以便更好地将空间信息与网络的每一层中的相关特征进行聚合。实验表明,我们的网络名为LSANet,可以达到与状态相同或更好的性能。评估具有挑战性的基准数据集时的最先进方法。源代码可从以下网址获得://github.com/LinZhuoChen/LSANet。
translated by 谷歌翻译
空间音频是观众对3D视觉和听觉体验的重要媒介。然而,记录设备和技术是昂贵的或者对于普通大众来说是不可访问的。在这项工作中,我们提出了一个自我监督的音频空间化网络,可以在给定相应的视频和单声道音频的情况下生成空间音频。为了增强空间化性能,我们使用辅助分类器对地面实况视频和左右声道交换的视频分类进行分类。我们收集具有空间音频的大型视频数据集以验证所提出的方法。实验结果证明了该模型在音频空间化任务中的有效性。
translated by 谷歌翻译
基于秩的学习与深度神经网络已被广泛用于图像策划。然而,基于排名的方法的表现往往很差,这主要是由于两个原因:1)图像裁剪是一种列表排序任务而不是成对比较; 2)由汇集层引起的重新缩放和视图生成中的变形损害了组合学习的性能。在本文中,我们开发了一个新的模型来克服这些问题。为了解决第一个问题,我们将图像裁剪制定为列表方向问题,以找到最佳视图组合。对于第二个问题,提出了定义视图采样(称为RoIRefine)来提取候选视图生成的精细特征映射。给定一系列候选视图,所提出的模型学习视图的前1概率分布并获得最佳视图。通过整合精确抽样和列表排名,所提出的称为LVRN的网络实现了最先进的性能,包括不准确性和速度。
translated by 谷歌翻译
在广义线性估计(GLE)问题中,我们寻求估计通过线性变换观察到的信号,然后是分量,可能是非线性和噪声的信道。在贝叶斯最优设置中,已知广义近似消息传递(GAMP)实现GLE的最佳性能。然而,只要假设和真实生成模型之间存在不匹配,其性能就会显着降低,这种情况在实践中经常遇到。在本文中,我们提出了一种新算法,称为广义近似测量传播(GASP),用于在存在先验或模型误规范的情况下求解GLE。作为原型示例,我们考虑相位检索问题,其中我们显示GASPout执行相应的GAMP,降低重建阈值,并且对于其参数的某些选择,接近贝叶斯最优性能。此外,我们提出了一组状态演化方程,它可以在高维极限中表征GASP的动力学。
translated by 谷歌翻译
Despite the rapid progress of generative adver-sarial networks (GANs) in image synthesis in recent years, current approaches work in either geometry domain or appearance domain which tend to introduce various synthesis artifacts. This paper presents an innovative Adaptive Composition GAN (AC-GAN) that incorporates image synthesis in geometry and appearance domains into an end-to-end trainable network and achieves synthesis realism in both domains simultaneously. An innovative hierarchical synthesis mechanism is designed which is capable of generating realistic geometry and composition when multiple foreground objects with or without occlusions are involved in synthesis. In addition, a novel attention mask is introduced to guide the appearance adaptation to the embedded foreground objects which helps preserve image details and resolution and also provide better reference for synthesis in geometry domain. Extensive experiments on scene text image synthesis, automated portrait editing and indoor rendering tasks show that the proposed AC-GAN achieves superior synthesis performance qualitatively and quantitatively.
translated by 谷歌翻译
基于深度学习的方法已经在分类,检测,分割等无关紧要的任务方面取得了重大进展。众所周知,通过组合多个互补模型,集成学习可以进一步提高性能。例如,基于平均,投票或其他方法,很容易应用集成学习进行分类任务。但是,对于其中输出数量不变且无法简单比较的其他任务(如对象检测),多模型的集合变得困难。在本文中,我们提出了一种新的方法,称为预测集成学习(PEL),基于深度神经网络的强大预测能力,直接预测每个测试实例的基础模型的最佳表现模型,从而将集成学习转化为传统的分类任务。将场景文本检测作为应用,在没有合适的集成学习策略的情况下,与单个最先进的模型相比,PEL可以显​​着提高性能,或者通过非最大压缩来融合多个模型。实验结果表明PEL仅基于查询示例预测不同模型性能的可能性和潜力,可以扩展到许多其他复杂任务中的集成学习。
translated by 谷歌翻译
多视图子空间聚类旨在根据其基础子空间结构将一组多源数据划分为多个组。尽管基于光谱聚类的方法在多视图聚类中实现了推广,但是它们的效用受到隔离​​亲和矩阵构造和聚类指示符估计的单独学习方式的限制。在本文中,我们建议在统一模型中共同学习自我表征,继续和离散集群指标。我们的模型可以探索每个视图的子空间结构并融合它们以便同时进行聚类。两个基准数据集的实验结果表明,我们的方法优于其他现有的竞争性多视图聚类方法。
translated by 谷歌翻译
我们介绍了DeepICP--一种新颖的端到端学习型3D点云注册框架,可以达到与先进的几何方法相当的注册精度。与通常需要RANSAC程序的其他基于关键点的方法不同,我们实现了使用各种深度神经网络结构来建立端到端的可训练网络。我们的关键点检测器通过这种端到端结构进行训练,并使系统能够避免动态对象的推断,利用静止物体上足够显着特征的帮助,从而实现高稳健性。不是在现有点之间搜索相应的点,而是关键的贡献是我们基于一组候选者之间的学习匹配概率创新地生成它们,这可以提高注册准确性。我们的损失功能结合了局部相似性和全局几何约束,以确保所有上述网络设计能够朝着正确的方向收敛。我们使用KITTI数据集和Apollo-SouthBay数据集全面验证了我们方法的有效性。结果表明,我们的方法比最先进的基于几何的方法实现了可比较的或更好的性能。包括详细的消融和可视化分析,以进一步说明我们网络的行为和见解。低注册错误以及我们方法的高稳健性使其对依赖点云注册任务的实质性应用具有吸引力。
translated by 谷歌翻译