在本文中,我们专注于3D形式抽象和语义分析的两个任务。这与目前的方法形成对比,仅关注3D形状抽象或语义分析。此外,以前的方法难以产生实例级语义结果,其限制了它们的应用。我们提出了一种用于联合估计3D形式抽象和语义分析的新方法。我们的方法首先为3D形状产生许多3D语义候选区域;然后,我们采用这些候选者直接预测语义类别,并使用深卷积神经网络同时细化候选地区的参数。最后,我们设计一种融合预测结果并获得最终语义抽象的算法,该抽象被显示为对标准非最大抑制的改进。实验结果表明,我们的方法可以产生最先进的结果。此外,我们还发现我们的结果可以很容易地应用于实例级语义部分割和形状匹配。
translated by 谷歌翻译
基于参考的超分辨率(REFSR)在使用外部参考(REF)图像产生现实纹理方面取得了重大进展。然而,现有的REFSR方法可以获得与输入大小一起消耗二次计算资源的高质量对应匹配,限制其应用程序。此外,这些方法通常遭受低分辨率(LR)图像和REF图像之间的比例错位。在本文中,我们提出了一种加速的多尺度聚合网络(AMSA),用于基于参考的超分辨率,包括粗略嵌入式斑块(CFE-PACKPMATCH)和多尺度动态聚合(MSDA)模块。为了提高匹配效率,我们设计一种具有随机样本传播的新型嵌入式PACKMTH方案,其涉及具有渐近线性计算成本的端到端训练到输入大小。为了进一步降低计算成本和加速会聚,我们在构成CFE-PACKMATCH的嵌入式PACKMACTH上应用了粗略策略。为了完全利用跨多个尺度的参考信息并增强稳定性的稳定性,我们开发由动态聚合和多尺度聚合组成的MSDA模块。动态聚合通过动态聚合特征来纠正轻微比例的错位,并且多尺度聚合通过融合多尺度信息来为大规模错位带来鲁棒性。实验结果表明,该拟议的AMSA对定量和定性评估的最先进方法实现了卓越的性能。
translated by 谷歌翻译
非本地注意力(NLA)通过利用自然图像中的内在特征相关性来带来单幅图像超分辨率(SISR)的显着改进。然而,NLA提供嘈杂的信息大量的权重,并且相对于输入大小消耗二次计算资源,限制其性能和应用。在本文中,我们提出了一种新的高效非局部对比度注意(Enca),以执行远程视觉建模并利用更相关的非局部特征。具体而言,Enca由两部分组成,有效的非本地注意力(Enla)和稀疏聚合。 ENLA采用内核方法来近似指数函数并获得线性计算复杂度。对于稀疏聚合,我们通过放大因子乘以专注于信息特征的输入,但近似的方差呈指数增加。因此,应用对比学习以进一步分离相关和无关的特征。为了展示Enca的有效性,我们通过在简单的骨干中添加一些模块来构建称为有效的非本地对比网络(ENLCN)的架构。广泛的实验结果表明,Enlcn对定量和定性评估的最先进方法达到了卓越的性能。
translated by 谷歌翻译
由于源极和目标环境之间的差异,深增强学习算法可以在现实世界的任务中表现不佳。这种差异通常被视为过渡动态的干扰。许多现有算法通过将干扰和应用于训练期间将其应用于源环境来学习强大的政策,这通常需要先验知识对模拟器的干扰和控制。然而,这些算法在目标环境中的干扰未知的情况下可能会失败,或者在模拟器中的模型中难以解决。为了解决这个问题,我们提出了一种新型的无模型演员 - 评论家算法 - 即状态保守政策优化(SCPO) - 学习强大的政策,而不会提前建立干扰。具体地,SCPO将转换动态的干扰降低到状态空间中的干扰,然后通过简单的基于梯度的常规器近似。 SCPO的吸引人的功能包括实施简单,不需要额外了解干扰或专门设计的模拟器。在若干机器人控制任务中的实验表明,SCPO了解抵抗过渡动态的干扰的强大政策。
translated by 谷歌翻译
基于模型的增强学习算法,其目的是学习环境模型,以制定决策,比其无模型的对应物更高。基于模型的方法的样本效率依赖于该模型是否能够良好地近似环境。然而,学习准确的模型是具有挑战性的,特别是在复杂和嘈杂的环境中。为了解决这个问题,我们提出了基于保守的模型的演员 - 评论家(CMBAC),这是一种新的方法,可以实现高样本效率,而无需强烈依赖准确学习模型。具体地,CMBAC从一组不准确模型中了解Q值函数的多个估计,并使用底部K估计的平均值 - 保守估计 - 以优化策略。 CMBAC的吸引人特征是,保守估计有效地鼓励代理人避免不可靠的“有希望的行动” - 其价值在仅小部分模型中。实验表明,CMBAC在几个具有挑战性任务的样本效率方面显着优于最先进的方法,并且该方法比嘈杂环境中的先前方法更强大。
translated by 谷歌翻译
自动皮肤癌诊断的最新进展情况会产生与董事会认证的皮肤科医生的表现。然而,这些方法将皮肤癌诊断制定为简单的分类任务,解除了病变细分的潜在益处。我们认为,准确的病变分割可以补充具有添加性病变信息的分类任务,例如不对称,边界,强度和物理尺寸;反过来,忠诚的病变分类可以支持判别病变特征的分割任务。为此,本文提出了一个名为MT-TransUnet的新的多任务框架,该框架是MT-TransUnet,它能够通过在变压器中调解多任务令牌来协同分割和分类皮肤病。此外,我们引入了双重任务和参加区域一致性损失,以利用这些图像,没有像素级注释,确保在遇到与增强的账户时遇到相同图像时的模型的稳健性。我们的MT-TransUnet超过了ISIC-2017和PH2中的病变细分和分类任务的先前现有技术;更重要的是,它保留了有关模型参数(48m〜与〜130m)和推理速度的令人信服的计算效率(每张图片0.17s〜与〜2.02s)。代码将在https://github.com/jingyechen/mt-transunet上获得。
translated by 谷歌翻译
自动视觉解对我们多样化和开放的世界需要计算机视觉模型,以概括为特定任务的最小定制,类似于人类视力。计算机视觉基础型号培训,培训多样化,大型数据集,可以适应各种下游任务,对该任务来解决现实世界计算机视觉应用而言至关重要。虽然现有的视觉基础模型如剪辑,对齐和吴道2.0主要集中在映射图像和文本表示到跨模型共享表示,我们介绍了一台新的计算机视觉基础模型,佛罗伦萨,扩大粗糙的表示(现场)到精细(对象),从静态(图像)到动态(视频),以及从RGB到多个模态(标题,深度)。通过从Web级图像文本数据中纳入通用视觉语言表示,我们的佛罗伦萨模型可以很容易地适应各种计算机视觉任务,例如分类,检索,对象检测,VQA,图像标题,视频检索和动作识别。此外,佛罗伦萨在许多类型的转移学习中表现出出色的表现:全面采样的微调,线性探测,几次射击传输和用于新颖图像和物体的零拍摄传输。所有这些属性对于我们的视觉基础模型至关重要,以提供通用视觉任务。佛罗伦萨实现了新的最先进的导致44个代表性基准,例如Imagenet-1K零射击分类,最高1精度为83.74,最高5个精度为97.18,62.4地图上的Coco微调, 80.36在VQA上,动力学-600上的87.8。
translated by 谷歌翻译
姿势估计准确性的提高是目前移动机器人中的基本问题。本研究旨在改善观察的使用以提高准确性。选择要点的选择会影响姿势估计的准确性,导致观察贡献如何影响系统的问题。因此,分析了信息对姿势估计过程的贡献。此外,配制了不确定性模型,灵敏度模型和贡献理论,提供了一种计算每种残留项的贡献的方法。所提出的选择方法已经理解证明能够实现全局统计最优。所提出的方法在人工数据模拟上进行测试,与基特基准进行比较。该实验揭示了与Aloam和Mloam对比的优异结果。所提出的算法在LIDAR Idomatry和LIDAR惯性内径术中使用不同的LIDAR传感器,使用不同的扫描模式,展示其提高姿态估计精度的有效性。随后推断出两个激光扫描传感器的新配置。该配置对于先前地图中的三维姿态定位是有效的,并且产生厘米级的结果。
translated by 谷歌翻译
部分微分方程(PDES)在科学和工程的许多学科中都是普遍的,难以解决。通常,PDE的闭合形式溶液不可用,数值近似方法是计算昂贵的。 PDE的参数在许多应用中是可变的,例如逆问题,控制和优化,风险评估和不确定性量化。在这些应用程序中,我们的目标是解决参数PDE而不是其中一个实例。我们所提出的方法,称为元 - 自动解码器(MAD),将参数PDES作为元学习问题求解,并利用\ Cite {Park2019DeepsDF}中的自动解码器结构来处理不同的任务/ PDE。从PDE管理方程和边界条件诱导的物理知识损失被用作不同任务的培训损失。疯狂的目标是学习一个良好的模型初始化,可以概括不同的任务,最终使未能学习的任务能够更快地学习。疯狂的灵感来自于(猜想)参数PDE解决方案的低维结构,并从流形学习的角度解释了我们的方法。最后,我们展示了疯狂的力量,虽然广泛的数值研究,包括汉堡等式,拉普尔斯方程和时域麦克斯韦方程。与其他深度学习方法相比,MAD表现出更快的收敛速度而不会失去准确性。
translated by 谷歌翻译
近年来,深入学习技术已被用来解决部分微分方程(PDE),其中物理信息的神经网络(PINNS)出现是解决前向和反向PDE问题的有希望的方法。具有点源的PDE,其表示为管理方程中的DIRAC DELTA函数是许多物理过程的数学模型。然而,由于DIRAC DELTA功能所带来的奇点,它们不能直接通过传统的PINNS方法来解决。我们提出了一种普遍的解决方案,以用三种新颖的技术解决这个问题。首先,DIRAC DELTA功能被建模为连续概率密度函数以消除奇点;其次,提出了下限约束的不确定性加权算法,以平衡点源区和其他区域之间的Pinns损失;第三,使用具有周期性激活功能的多尺度深度神经网络来提高PinnS方法的准确性和收敛速度。我们评估了三种代表性PDE的提出方法,实验结果表明,我们的方法优于基于深度学习的方法,涉及准确性,效率和多功能性。
translated by 谷歌翻译