马尔可夫链蒙特卡洛(MCMC),例如langevin Dynamics,有效地近似顽固的分布。但是,由于昂贵的数据采样迭代和缓慢的收敛性,它的用法在深层可变模型的背景下受到限制。本文提出了摊销的langevin Dynamics(ALD),其中数据划分的MCMC迭代完全被编码器的更新替换为将观测值映射到潜在变量中。这种摊销可实现有效的后验采样,而无需数据迭代。尽管具有效率,但我们证明ALD是MCMC算法有效的,其马尔可夫链在轻度假设下将目标后部作为固定分布。基于ALD,我们还提出了一个名为Langevin AutoCodeer(LAE)的新的深层变量模型。有趣的是,可以通过稍微修改传统自动编码器来实现LAE。使用多个合成数据集,我们首先验证ALD可以从目标后代正确获取样品。我们还在图像生成任务上评估了LAE,并证明我们的LAE可以根据变异推断(例如变异自动编码器)和其他基于MCMC的方法在测试可能性方面胜过现有的方法。
translated by 谷歌翻译
使用移动操纵器来整理家庭环境,在机器人技术中提出了各种挑战,例如适应大型现实世界的环境变化,以及在人类面前的安全和强大的部署。2021年9月举行的全球竞赛,对真正的家庭环境中的整理任务进行了基准测试,重要的是,对全面的系统性能进行了测试。对于此挑战,我们开发了整个家庭服务机器人系统,该机器人系统利用数据驱动的方法来适应众多的方法在执行过程中发生的边缘案例,而不是经典的手动预编程解决方案。在本文中,我们描述了提出的机器人系统的核心成分,包括视觉识别,对象操纵和运动计划。我们的机器人系统赢得了二等奖,验证了数据驱动的机器人系统在家庭环境中移动操作的有效性和潜力。
translated by 谷歌翻译
Distribution shifts, which often occur in the real world, degrade the accuracy of deep learning systems, and thus improving robustness is essential for practical applications. To improve robustness, we study an image enhancement method that generates recognition-friendly images without retraining the recognition model. We propose a novel image enhancement method, AugNet, which is based on differentiable data augmentation techniques and generates a blended image from many augmented images to improve the recognition accuracy under distribution shifts. In addition to standard data augmentations, AugNet can also incorporate deep neural network-based image transformation, which further improves the robustness. Because AugNet is composed of differentiable functions, AugNet can be directly trained with the classification loss of the recognition model. AugNet is evaluated on widely used image recognition datasets using various classification models, including Vision Transformer and MLP-Mixer. AugNet improves the robustness with almost no reduction in classification accuracy for clean images, which is a better result than the existing methods. Furthermore, we show that interpretation of distribution shifts using AugNet and retraining based on that interpretation can greatly improve robustness.
translated by 谷歌翻译
Computer vision applications have heavily relied on the linear combination of Lambertian diffuse and microfacet specular reflection models for representing reflected radiance, which turns out to be physically incompatible and limited in applicability. In this paper, we derive a novel analytical reflectance model, which we refer to as Fresnel Microfacet BRDF model, that is physically accurate and generalizes to various real-world surfaces. Our key idea is to model the Fresnel reflection and transmission of the surface microgeometry with a collection of oriented mirror facets, both for body and surface reflections. We carefully derive the Fresnel reflection and transmission for each microfacet as well as the light transport between them in the subsurface. This physically-grounded modeling also allows us to express the polarimetric behavior of reflected light in addition to its radiometric behavior. That is, FMBRDF unifies not only body and surface reflections but also light reflection in radiometry and polarization and represents them in a single model. Experimental results demonstrate its effectiveness in accuracy, expressive power, and image-based estimation.
translated by 谷歌翻译
在不确定性下的自动机器人决策中,必须考虑剥削和探索可用选项之间的权衡。如果可以利用与选项相关的次要信息,则此类决策问题通常可以作为上下文多臂强盗(CMAB)提出。在这项研究中,我们采用主动推断,该推断近年来在神经科学领域进行了积极研究,作为CMAB的替代行动选择策略。与常规的行动选择策略不同,在计算与决策代理人的概率模型相关的预期自由能(EFE)时,可以严格评估每种选项的不确定性,这是从自由能原理中得出的。我们专门解决了使用分类观察可能性函数的情况,因此EFE值在分析上是棘手的。我们介绍了基于变异和拉普拉斯近似值计算EFE的新近似方法。广泛的仿真研究结果表明,与其他策略相比,主动推断通常需要迭代率要少得多,以识别最佳选择并普遍实现累积累积的遗憾,以相对较低的额外计算成本。
translated by 谷歌翻译
我们介绍了一种新型的多视图立体声(MVS)方法,该方法不仅可以同时恢复每个像素深度,而且还可以恢复表面正常状态,以及在已知但自然照明下捕获的无纹理,复杂的非斜面表面的反射。我们的关键想法是将MVS作为端到端的可学习网络,我们称为NLMVS-NET,该网络无缝地集成了放射线线索,以利用表面正常状态作为视图的表面特征,以实现学习成本量的构建和过滤。它首先通过新颖的形状从阴影网络估算出每个视图的像素概率密度。然后,这些每个像素表面正常密度和输入多视图图像将输入到一个新颖的成本量滤波网络中,该网络学会恢复每个像素深度和表面正常。通过与几何重建交替进行交替估计反射率。对新建立的合成和现实世界数据集进行了广泛的定量评估表明,NLMVS-NET可以稳健而准确地恢复自然设置中复杂物体的形状和反射率。
translated by 谷歌翻译
我们将2D盲点估计作为道路场景理解的关键视觉任务。通过自动检测从车辆有利位置阻塞的道路区域,我们可以主动提醒手动驾驶员或自动驾驶系统,以实现事故的潜在原因(例如,引起人们对孩子可能逃脱的道路区域的注意)。在完整3D中检测盲点将是具有挑战性的,因为即使汽车配备了LIDAR,3D推理也会非常昂贵且容易发生。相反,我们建议从单眼相机中学习估计2D中的盲点。我们通过两个步骤实现这一目标。我们首先引入了一种自动方法,用于通过利用单眼深度估计,语义细分和SLAM来生成``地面真相''盲点训练数据,以进行任意驾驶视频。关键的想法是在3D中推理,但要从2D图像定义为那些目前看不见但在不久的将来看到的道路区域。我们使用此自动离线盲点估计来构建一个大规模数据集,我们称之为道路盲点(RBS)数据集。接下来,我们介绍BlindSpotnet(BSN),这是一个简单的网络,该网络完全利用此数据集,以完全自动估算框架盲点概率图,以用于任意驾驶视频。广泛的实验结果证明了我们的RBS数据集的有效性和BSN的有效性。
translated by 谷歌翻译
人的大脑在其几种功能中分析了口语中的双重发音结构,即双重关节分析(DAA)。单词连接到形成句子和单词由音素或音节组成的层次结构称为双关节结构。尽管已经获得了一些见解,但尚未建立在人脑中DAA的何处以及如何进行DAA。此外,基于概率生成模型(PGM)的现有计算模型不融合神经科学的发现,并且以前尚未讨论过其与大脑的一致性。这项研究将这些现有的计算模型与神经科学的发现进行了比较,映射和整合,以弥合这一差距,并且发现与未来的应用和进一步的研究有关。这项研究提出了一个DAA假设的PGM,该假设可以根据几种神经科学调查的结果在大脑中实现。该研究涉及(i)研究和组织与口语处理有关的解剖结构,以及(ii)与感兴趣区域的解剖结构和功能相匹配的PGM。因此,这项研究提供了新的见解,这些见解将是基础,以进一步探索大脑中的DAA。
translated by 谷歌翻译
如今,为了改善服务和城市地区的宜居性,全世界正在进行多个智能城市计划。 SmartSantander是西班牙桑坦德市的一个智能城市项目,该项目依靠无线传感器网络技术在城市内部部署异质传感器,以测量多个参数,包括户外停车信息。在本文中,我们使用SmartSantander的300多个户外停车传感器的历史数据研究了停车场可用性的预测。我们设计了一个图形模型,以捕获停车场的定期波动和地理位置。为了开发和评估我们的模型,我们使用了桑坦德市的3年停车场可用性数据集。与现有的序列到序列模型相比,我们的模型具有很高的精度,该模型足够准确,可以在城市提供停车信息服务。我们将模型应用于智能手机应用程序,以被公民和游客广泛使用。
translated by 谷歌翻译
本文提出了一个新的语音转换(VC)任务,从人类语音到类似狗的语音,同时保留语言信息,作为人类到非人类生物语音转换(H2NH-VC)任务的一个例子。尽管大多数VC研究都涉及人类VC,但H2NH-VC旨在将人类的言论转变为非人类生物式的言语。非平行VC允许我们开发H2NH-VC,因为我们无法收集非人类生物说人类语言的并行数据集。在这项研究中,我们建议将狗用作非人类生物目标域的一个例子,并定义“像狗一样说话”任务。为了阐明“像狗一样说话”任务的可能性和特征,我们使用现有的代表性非平行VC方法进行了比较实验,以声学特征(Mel-Cepstral系数和MEL-SPECTROGINS),网络体系结构(五个不同的kernel- kernel--尺寸设置)和训练标准(基于差异自动编码器(VAE)基于对抗性网络)。最后,使用平均意见分数评估了转换后的声音:狗的声音,声音质量和可理解性以及字符错误率(CER)。该实验表明,梅尔光谱图的使用改善了转换后的语音的类似狗,而保留语言信息则具有挑战性。强调了H2NH-VC当前VC方法的挑战和局限性。
translated by 谷歌翻译