在本文中,我们提出了一种新的基于图像的形状生成的视角。大多数现有的基于深度学习的形状重建方法采用单视图确定性模型,由于后部被遮挡,因此有时不足以确定单个地面形状。在这项工作中,我们首先引入一个条件生成网络来模拟单视图重建的不确定性。然后,我们将多视图重建的任务制定为取每个单个图像上的预测形状空间的交集。我们设计了新的可微分引导,包括前约束,多样性约束和一致性损失,以实现有效的单视图条件生成和多视图合成。实验结果和消融研究表明,我们提出的方法优于3D的最先进方法重建测试错误并证明其对现实世界数据的泛化能力。
translated by 谷歌翻译
RGB图像与深度图像区分开来,因为它们携带有关颜色和纹理信息的更多细节,这可以用作深度的重要补充,以提高3D语义场景完成(SSC)的性能。 SSC由3D形状完成(SC)和语义标记组成,而大多数现有方法使用深度作为唯一输入,这导致性能瓶颈。此外,最先进的方法使用具有繁琐网络和巨大参数的3D CNN。我们为三维密集预测任务引入了轻量级分解残差网络(DDR)。新型分解卷积层对于减少网络参数是有效的,所提出的深度和彩色图像的多尺度融合机制可以同时提高完成和分割准确性。我们的方法在twopublic数据集上表现出优异的性能。与最新的方法SSCNet相比,我们在SC-IoU中获得了5.9%的增益,在SSC-IOU中获得了5.7%的增益,尽管与SSCNet相比,网络参数仅为21%,FLOP采用率为16.6%。
translated by 谷歌翻译
本文提出了一种基于视觉的机器人系统来处理自动快递包调度中涉及的挑选问题。通过使用两台RealSense RGB-D摄像机和一台UR10工业机器人,可以自动完成通常由人工完成的包裹调度任务。为了确定重叠变形物体的抓取点,我们改进了伯克利群体提出的采样算法,直接从深度图像中生成抓取算法。出于包识别的目的,深度网络框架YOLO被集成。我们还设计了一个由双指夹具和真空吸盘组成的多模式机器人,以处理不同类型的包装。所有技术都集成在一个工作单元中,模拟了快速打包的场景的实际情况。通过对两个典型快递项目进行的实验来验证所提出的系统。
translated by 谷歌翻译
本文提出了一种高效的神经网络模型,用于生成具有高分辨率图像的机器人格栅。所提出的模型使用完全卷积神经网络,使用400 $ \ $ 400高分辨率RGB-D图像为每个像素生成机器人抓取。它首先对图像进行下采样以获取要素,然后将这些要素上采样到输入的原始大小,并组合来自不同要素图的局部和全局要素。与用于检测机器人抓取的其他回归或分类方法相比,我们的方法看起来更像是通过逐像素方式解决问题的分割方法。我们使用Cornell Grasp Dataset来训练和评估模型,并且在图像方面获得高达94.42%的准确度,在对象方面获得91.02%的快速预测时间和约8ms的快速预测时间。我们还证明,在没有多对象数据集的训练的情况下,由于像素实现,我们的模型可以直接outputrobotic掌握不同对象的候选对象。
translated by 谷歌翻译
光谱分离是高光谱处理中的一个重要且具有挑战性的问题。该主题已被广泛研究,并且在文献中已经提出了各种混合算法。然而,缺乏具有地面实况的公共数据集使得难以以定量和客观的方式评估和比较解混算法的性能。大多数现有工作依赖于使用数值合成数据和直观检查实际数据的结果。为了缓解这种困境,在这项研究中,我们在实验室设计了几个实验场景,包括印刷棋盘格,混合石英砂和垂直板反射。然后通过在我们的实验室中使用高光谱相机对这些场景进行成像来创建数据集,提供36种混合物,具有超过130,000个像素,256个波段,范围从400nm到1000nm。实验设置受到严格控制,以便纯物质光谱特征和材料成分是众所周知。据我们所知,该数据集是第一个以系统方式创建的公开数据集,具有光谱解混的基础事实。一些典型的线性非线性非混合算法也使用该数据集进行了测试,并得出了有意义的结果。
translated by 谷歌翻译
本文讨论了一个具有挑战性的问题 - 如何在推理阶段部署深度神经网络(DNN)时降低能耗而不会导致性能下降。为了减轻计算和存储负担,我们提出了一种新颖的基于数据流的联合量化方法,其假设是较少数量的量化操作会导致较少的信息损失,从而提高最终性能。它首先介绍了具有有效位移和舍入操作的水化方案,以低精度表示网络参数和激活。然后,它构建网络架构,以形成用于优化量化模型的统一模块。 ImageNet和KITTI上的大量实验验证了我们模型的有效性,证明了这种量化模型可以实现各种任务的最先进结果。此外,我们设计并合成了一个RTL模型来测量各种定量方法中的硬件成本。对于每个量化操作,与强基线相比,它将面积成本降低了大约15倍,能耗降低了大约9倍。
translated by 谷歌翻译
基于显微图像中细胞核的形态学特性,巴氏涂片检测已广泛用于检测宫颈癌。因此,精确的核分割可以提高宫颈癌筛查的成功率。在这项工作中,提出了一种使用可变形多路径集合模型(D-MEM)进行自动宫颈核分割的方法。接近采用U形卷积网络作为骨干网络,其中密集块用于更有效地传输特征信息。为了增加模型的灵活性,我们然后使用可变形卷积来处理不同的核不规则形状和大小。为了减少预测偏差,我们进一步构建具有不同设置的多个网络,这形成了一个集合模型。所提出的分割框架在Herlev数据集上达到了最先进的准确度,Zijdenbos相似性指数(ZSI)为0.933,并且有可能被扩展用于解决其他医学图像分割任务。
translated by 谷歌翻译
本文回顾了有效感知图像增强的第一个挑战,重点是在智能手机上部署深度学习模型。挑战包括两个轨道。在第一部分中,参与者解决了经典图像超分辨率问题,其双重缩减因子为4.第二首曲目旨在实现真实世界的照片增强,目标是将iPhone 3GS设备中的低质量照片映射到同一照片用单反相机拍摄。此挑战中使用的目标指标将运行时间,PSNR得分和解决方案在用户研究中测量的感知结果组合在一起。为了确保提交的模型的效率,我们通常在Androidsmartphones上测量它们的运行时和内存要求。所提出的解决方案显着改善了基线结果,从而确定了智能手机上图像增强的最新技术水平。
translated by 谷歌翻译
基于时间序列的传统人类活动识别(HAR)采用滑动窗口分析方法。该方法面向多类窗口问题,该问题错误地将窗口内不同类别的采样点标记为类。本文提出了一种基于U-Net的HAR算法,用于在每个采样点进行活动标记和预测。三轴加速度计的活动数据被映射成具有单像素列和多通道的图像,其被输入到U-Net网络的训练和识别中。我们的提议可以完成像素级手势识别功能。该方法不需要手动特征提取,可以有效识别长期活动序列中的短期行为。我们收集了卫生数据集,并用数据集测试了所提出的方案。实验结果表明,与支持向量机(SVM),k-最近邻(kNN),决策树(DT),二次判别分析(QDA),卷积神经网络(CNN)和全卷积网络(FCN)方法相比,我们的建议每个数据集中的最高精度和F1-socre,具有稳定的性能和高稳健性。同时,在U-Net完成培训后,我们的建议可以实现足够快的识别速度。
translated by 谷歌翻译
纹理是许多类型图像的基本特征,纹理表示是计算机视觉和模式识别中必不可少的挑战性问题之一,引起了广泛的研究。自2000年以来,基于词袋(BoW)和卷积神经网络(CNN)的纹理表示已经被广泛研究并具有令人印象深刻的性能。鉴于这一显着的发展时期,本文将对过去二十年中纹理表征的进展进行全面的调查。本调查引用了200多种主要出版物,涉及研究的不同方面,包括(i)问题描述; (ii)最近在基于BoW,CNN和基于属性的方法方面取得的进展; (iii)评估问题,特别是基准数据集和最新结果。回顾到目前为止已取得的成果,该调查讨论了未来研究的公开挑战和方向。
translated by 谷歌翻译