我们提出极端视图合成,当输入图像的数量很小时,新视图外推的解决方案。在这种背景下,闭塞和深度不确定性是两个最紧迫的问题,并且随着外推程度的增加而恶化。最先进的方法通过平均显式几何约束或学习先验来解决这个问题。我们的关键见解是,只有对深度不确定性和图像先验进行建模才能解决极端情况。我们首先为新视图生成深度概率体积并合成所搜索图像的估计。然后,我们使用学习者与深度不确定性相结合来改进它。我们的方法是第一个显示高达30倍的基线放大倍数的视觉上令人满意的结果。
translated by 谷歌翻译
我们提出RL-GAN-Net,其中强化学习(RL)代理提供对生成对抗网络(GAN)的快速和强大控制。我们的框架应用于点云形状完成,通过控制GAN将嘈杂的部分点云数据转换为高保真完成形状。虽然GAN不稳定且难以训练,但我们避免了(1)在潜在空间表示上训练GAN的问题,其与原始点云输入相比减小了维度,以及(2)使用RL代理找到GAN的正确输入生成最适合当前不完整点云输入的形状的潜在空间表示。建议的管道可以有力地完成具有较大缺失区域的点云。据我们所知,这是第一次训练RL代理来控制GAN的尝试,它有效地学习了从GAN的输入噪声到点云的潜在空间的高度非线性映射。 RL代理取代了复杂优化的需要,从而使我们的技术实时化。此外,我们证明我们的管道可用于提高点云的分类准确性和丢失的数据。
translated by 谷歌翻译
单眼深度估计的最新进展主要基于深度卷积网络和监督训练。然而,收集用于监督网络的大规模地面实况深度(或差异)地图仍然是艰巨的。本文提出了一种简单而有效的半监测单眼深度估计方法。受人类视觉系统的启发,我们提出了一种学生 - 教师策略,其中使用从更深入和准确的教师网络获得的辅助信息来训练浅层学生网络。具体来说,我们首先充分利用三维几何的双目感知训练立体教师网络,然后使用教师网络的深度预测来监督学生网络的单眼深度推理。这使我们能够利用相对容易获得的大量未标记立体对的所有可用深度数据。我们进一步引入了一种数据集合策略,该策略融合了教师网络的多个深度预测,以改善学生网络的训练样本。另外,提供立体置信度图以避免在监督学生网络时使用不准确的深度估计。我们的新培训数据由使用手持式立体相机拍摄的100万个室外立体图像组成,位于项目网页上。最后,我们证明单眼深度估计网络提供了适用于某些高级视觉任务(如语义分割和道路检测)的特征表示。大量实验证明了该方法在各种室外场景中的有效性和灵活性。
translated by 谷歌翻译
本文提出了一种基于被动理论的导纳控制器,用于动力上肢外骨骼机器人,该机器人由运动的非线性方程控制。无源性允许我们在控制回路中包括人类操作员和环境相互作用。机器人通过F / T传感器与人工操作员交互,并主要通过末端执行器与环境相互作用。虽然任何传感器都无法检测到环境相互作用(因此未知),但是被动性使我们能够进行自然的相互作用。分析表明,当控制增益变为无穷大时,实际系统的行为模仿了名义模型的行为,这意味着所提出的方法是导纳控制器。然而,由于控制增益在实践中无法无限增长,因此还分析了根据可控制增益的性能限制。该分析的结果表明,无限范数意义上的性能随着控制增益线性增加。在实验中,使用1自由度测试台验证了所提出的特性,并且使用实际动力的上肢外骨骼来提升和操纵未知有效载荷。
translated by 谷歌翻译
深度网络本质上消耗大量内存。我们可以在保持性能的同时减少内存需求。特别是,在这项工作中,我们解决了多个任务的记忆有效学习问题。为此,我们提出了一种新颖的网络体系结构,可以为不同的任务生成多个不同配置的网络,称为深度虚拟网络(DVN)。每个DVN都是专门的单一任务和分层结构。包含对应于不同数量的参数的多个层次结构的分层结构使得能够对不同的存储器预算进行多个推断。深度虚拟网络的构建块基于网络参数的不相交集合,我们将其称为单元。深度虚拟网络中最低级别的层次结构是一个单元,更高级别的层次结构包含较低级别的单元和其他附加单元。给定参数数量的预算,可以选择不同级别的深度虚拟网络来执行任务。一个单元可以由不同的DVN共享,允许单个网络中的多个DVN。此外,共享单元通过从其他任务中学到的额外知识为目标任务提供帮助。这种DVN的协作配置使得以记忆感知方式处理不同任务成为可能。我们的实验表明,所提出的方法优于现有的多任务方法。值得注意的是,我们的效率比其他任务更高,因为它允许对所有任务进行内存感知推理。
translated by 谷歌翻译
这项工作涉及一个移动的目标,追逐在杂乱的环境中配备视觉传感器的飞行器的任务。与无障碍或稀疏环境相比,追踪者应该能够在飞行效率的同时进行手动和闭塞。为了通过实时重新计划来解决这些挑战,我们引入了一个指标Fortarget可见性并提出了一个级联追逐计划器。通过图搜索方法,我们首先生成一系列追逐走廊和路径,确保安全并优化可见性。在接下来的阶段,走廊和航路点被用作二次编程中的约束和客观,我们从中完成一个动态可行的追踪轨迹。该算法在多种密集环境中进行了测试。具有完整代码实现和GUI的模拟器AutoChaser可以在以下网址找到://github.com/icsl-Jeon/traj_gen_vis
translated by 谷歌翻译
Machine learning (ML) techniques are enjoying rapidly increasing adoption. However, designing and implementing the systems that support ML models in real-world deployments remains a significant obstacle, in large part due to the radically different development and deployment profile of modern ML methods, and the range of practical concerns that come with broader adoption. We propose to foster a new systems machine learning research community at the intersection of the traditional systems and ML communities, focused on topics such as hardware systems for ML, software systems for ML, and ML optimized for metrics beyond predictive accuracy. To do this, we describe a new conference, SysML, that explicitly targets research at the intersection of systems and machine learning with a program committee split evenly between experts in systems and ML, and an explicit focus on topics at the intersection of the two.
translated by 谷歌翻译
自动图像处理和分类的深度学习的最新进展加速了医学图像分析的许多新应用。然而,大多数深度学习应用程序是使用重构的,人类可解释的医学图像开发的。虽然从原始传感器数据进行图像重建是创建医学图像所必需的,但是构造过程仅使用所获得的所有数据的部分表示。在这里,我们报告了一个系统的开发,该系统直接处理正弦图空间中的原始计算机断层扫描(CT)数据,绕过了图像重建的中间系统。评估了两种分类任务的正弦学 - 空间机器学习的可行性:体区识别和颅内出血(ICH)检测。我们提出的SinoNet与传统的基于重建图像空间的系统相比,无论在投影或检测器方面的扫描几何形状如何,都可以完成任务。此外,在使用稀疏采样的正弦图时,SinoNet的表现明显优于在图像空间中运行的传统网络。因此,正弦图空间算法可用于现场设置,用于二元诊断测试,分类,以及需要低辐射剂量的临床环境。这些研究结果还展示了深度学习的另一个优势,它可以分析和解释对于人类专家几乎不可能的正弦图。
translated by 谷歌翻译
我们建议通过指向训练集中我们称之为代表点的集合来解释深度神经网络的预测,以用于给定的测试点预测。具体来说,我们表明我们可以将神经网络的预激活预测分解为训练点的激活的线性组合,其权重对应于我们称为代表值的值,从而捕获该训练点对所学习的网络参数的重要性。 。但它提供了对网络的更深入理解,而不仅仅是训练点影响:具有与兴奋性训练点相对应的正代表值,以及与抑制点相对应的负值,正如我们所示,它提供了更多的视角。我们的方法也更具可扩展性,允许以影响函数不可行的方式进行实时反馈。
translated by 谷歌翻译
字感应感应(WSI)或自动发现字的多重或意义的任务有三个主要挑战:域适应性,新颖感觉检测和感知粒度灵活性。虽然目前的潜在变量模型已知可以解决前两个挑战,但它们对于不同的词义粒度并不灵活,这些词在各个词之间存在很大差异,从具有一种感觉的aardvark到50多种感觉。当前模型要么需要超参数调整,要么对参数的非参数感应,我们发现它们都是无效的。因此,我们的目标是通过提出基于两个观察的潜在变量模型AutoSense来消除这些要求并解决感知粒度问题:(1)感觉表示为主题上的分布,以及(2)感知生成目标词与其邻近词之间的对应字。这些观察通过(a)抛出垃圾感官和(b)另外诱导细粒度的感官来缓解这个问题。结果显示了对流行的WSI数据集的最新模型的巨大改进。我们还表明,AutoSense可以学习单词的适当感知粒度。最后,我们将自动应用程序应用于无监督作者名称消歧任务,其中感知粒度问题更明显,并表明AutoSense明显优于竞争模型。我们在这里分享我们的数据和代码:https://github.com/rktamplayo/AutoSense。
translated by 谷歌翻译