现有的深度完成方法通常以特定的稀疏深度类型为目标,并且在任务域之间概括较差。我们提出了一种方法,可以通过各种范围传感器(包括现代手机中的范围传感器或多视图重建算法)获得稀疏/半密度,嘈杂和潜在的低分辨率深度图。我们的方法利用了在大规模数据集中训练的单个图像深度预测网络的形式的数据驱动的先验,其输出被用作我们模型的输入。我们提出了一个有效的培训计划,我们在典型的任务域中模拟各种稀疏模式。此外,我们设计了两个新的基准测试,以评估深度完成方法的普遍性和鲁棒性。我们的简单方法显示了针对最先进的深度完成方法的优越的跨域泛化能力,从而引入了一种实用的解决方案,以在移动设备上捕获高质量的深度捕获。代码可在以下网址获得:https://github.com/yvanyin/filldepth。
translated by 谷歌翻译
深度图用于从3D渲染到2D图像效应(例如散景)的广泛应用。但是,单个图像深度估计(侧)模型预测的人通常无法捕获对象中的孤立孔和/或具有不准确的边界区域。同时,使用商业自动掩蔽工具或现成的分割和垫子的方法,甚至是通过手动编辑,使用商业自动掩盖工具或现成的方法更容易获得。因此,在本文中,我们提出了一个新的掩盖引导深度细化的问题,该问题利用通用掩模来完善侧面模型的深度预测。我们的框架执行了分层的细化和介入/架设,将深度图分解为两个由掩码和倒置面罩表示的单独的层。由于具有深度和掩码注释的数据集很少,因此我们提出了一种使用任意掩码和RGB-D数据集的自我监督学习方案。我们从经验上表明,我们的方法对不同类型的掩模和初始深度预测具有鲁棒性,可以准确地完善内部和外掩模边界区域的深度值。我们通过消融研究进一步分析了我们的模型,并证明了实际应用的结果。可以在https://sooyekim.github.io/maskdepth/上找到更多信息。
translated by 谷歌翻译
Figure 1: Our method can synthesize novel views in both space and time from a single monocular video of a dynamic scene. Here we show video results with various configurations of fixing and interpolating view and time (left), as well as a visualization of the recovered scene geometry (right). Please view with Adobe Acrobat or KDE Okular to see animations.
translated by 谷歌翻译
A difficult example for video frame interpolation. Our approach produces a high-quality result in spite of the delicate flamingo leg that is subject to large motion. This is a video figure that is best viewed using Adobe Reader.
translated by 谷歌翻译
Standard video frame interpolation methods first estimate optical flow between input frames and then synthesize an intermediate frame guided by motion. Recent ap-proaches merge these two steps into a single convolution process by convolving input frames with spatially adaptive kernels that account for motion and re-sampling simultaneously. These methods require large kernels to handle large motion, which limits the number of pixels whose kernels can be estimated at once due to the large memory demand. To address this problem, this paper formulates frame interpolation as local separable convolution over input frames using pairs of 1D kernels. Compared to regular 2D kernels, the 1D kernels require significantly fewer parameters to be estimated. Our method develops a deep fully convolutional neural network that takes two input frames and estimates pairs of 1D kernels for all pixels simultaneously. Since our method is able to estimate kernels and synthesizes the whole video frame at once, it allows for the incorporation of perceptual loss to train the neural network to produce visually pleasing frames. This deep neural network is trained end-to-end using widely available video data without any human annotation. Both qualitative and quantitative experiments show that our method provides a practical solution to high-quality video frame interpolation.
translated by 谷歌翻译
在本文中,我们对数值模拟的加速感兴趣。我们专注于高超音速行星再入问题,该问题涉及耦合流体动力学和化学反应。模拟化学反应需要大部分计算时间,但另一方面,无法避免获得准确的预测。我们面临成本效率和准确性之间的权衡:模拟代码必须足够有效地在操作环境中使用,但必须足够准确,以忠实地预测现象。为了解决这个权衡,我们设计了一个混合模拟代码,将传统的流体动态求解器与近似化学反应的神经网络耦合。当在大数据上下文中应用以及它们源于其矩阵矢量结构的效率时,我们依靠它们的力量来实现重要的加速因子($ \ tims 10 $至$ \ times 18.6 $)。本文旨在解释我们如何在实践中设计这种具有成本效益的混合模拟代码。最重要的是,我们描述了确保准确性保证的方法论,使我们能够超越传统的替代建模,并将这些代码用作参考。
translated by 谷歌翻译
Hamiltonian Monte Carlo(HMC)是Markov链算法,用于从具有密度$ e^{ - f(x)} $的高维分布中进行采样,可访问$ f $的梯度。一种特殊的感兴趣的情况是带有协方差矩阵$ \ sigma $的$ d $二维高斯分布,在这种情况下$ f(x)= x^\ top \ top \ sigma^{ - 1} x $。我们表明,HMC可以使用$ \ wideTilde {o}(\ sqrt {\ kappa} d^{1/4} \ log(1/\ varepsilon),使用$ \ varepsilon $ -close在总变化距离中取样。)$渐变查询,其中$ \ kappa $是$ \ sigma $的条件号。我们的算法对哈密顿动力学使用了长时间和随机的整合时间。这与最近的结果(并受到了)的形成对比,该结果给出了$ \ widetilde \ omega(\ kappa d^{1/2})$查询的HMC较低限制,即使是高斯案例,也有固定的集成时间。
translated by 谷歌翻译
我们提供了证据表明,学到的密度功能理论(``dft')的力场已准备好进行基态催化剂发现。我们的关键发现是,尽管预测的力与地面真相有很大差异,但使用从超过50 \%的评估系统中使用RPBE功能的能量与使用RPBE功能相似或较低能量的力量的力量与使用RPBE功能相似或较低的力量放松。这具有令人惊讶的含义,即学习的潜力可能已经准备好在挑战性的催化系统中替换DFT,例如在Open Catalyst 2020数据集中发现的电位。此外,我们表明,在局部谐波能量表面上具有与目标DFT能量相同的局部谐波能量表面训练的力场也能够在50 \%的情况下找到较低或相似的能量结构。与在真实能量和力量训练的标准模型相比,这种``简易电位''的收敛步骤更少,这进一步加速了计算。它的成功说明了一个关键:即使模型具有高力误差,学到的电位也可以定位能量最小值。结构优化的主要要求仅仅是学到的电位具有正确的最小值。由于学到的电位与系统大小的速度快速且尺寸为线性,因此我们的结果开辟了快速找到大型系统基础状态的可能性。
translated by 谷歌翻译
跨语言转移学习已被证明在各种自然语言处理(NLP)任务中很有用,但是它在法律NLP的背景下被研究了,而在法律判断预测(LJP)中根本没有。我们使用三语瑞士判断数据集探索LJP上的转移学习技术,包括用三种语言编写的案例。我们发现,跨语性转移可以改善跨语言的总体结果,尤其是当我们使用基于适配器的微调时。最后,我们使用3倍较大的培训语料库使用机器翻译版本的原始文档的机器翻译版本来进一步提高模型的性能。此外,我们进行了一项分析,探讨了跨域和跨区域转移的效果,即跨域(法定区域)或地区培训模型。我们发现,在两个环境(法律领域,原产地地区)中,经过培训的所有小组的模型总体表现更好,而在最差的情况下,它们也改善了结果。最后,当我们雄心勃勃地应用跨寿司转移时,我们报告了改进的结果,在此我们通过印度法律案件进一步扩大数据集。
translated by 谷歌翻译
社交媒体的日益普及引起了人们对儿童在线安全的关注。未成年人与具有掠夺性意图的成年人之间的互动是一个特别严重的关注点。在线性修饰的研究通常依靠领域专家来手动注释对话,从而限制了规模和范围。在这项工作中,我们测试了良好的方法如何检测对话行为并取代专家的人类注释。在在线修饰的心理理论中,我们将$ 6772的$ 6772 $聊天消息标记为儿童性犯罪者以十一种掠夺性行为之一发送的聊天消息。我们训练字袋和自然语言推断模型来对每种行为进行分类,并表明,最佳性能模型以一致但不与人类注释的方式分类的方式对行为进行了分类。
translated by 谷歌翻译