本文提出了一种基于视觉的机器人系统来处理自动快递包调度中涉及的挑选问题。通过使用两台RealSense RGB-D摄像机和一台UR10工业机器人,可以自动完成通常由人工完成的包裹调度任务。为了确定重叠变形物体的抓取点,我们改进了伯克利群体提出的采样算法,直接从深度图像中生成抓取算法。出于包识别的目的,深度网络框架YOLO被集成。我们还设计了一个由双指夹具和真空吸盘组成的多模式机器人,以处理不同类型的包装。所有技术都集成在一个工作单元中,模拟了快速打包的场景的实际情况。通过对两个典型快递项目进行的实验来验证所提出的系统。
translated by 谷歌翻译
本文提出了一种高效的神经网络模型,用于生成具有高分辨率图像的机器人格栅。所提出的模型使用完全卷积神经网络,使用400 $ \ $ 400高分辨率RGB-D图像为每个像素生成机器人抓取。它首先对图像进行下采样以获取要素,然后将这些要素上采样到输入的原始大小,并组合来自不同要素图的局部和全局要素。与用于检测机器人抓取的其他回归或分类方法相比,我们的方法看起来更像是通过逐像素方式解决问题的分割方法。我们使用Cornell Grasp Dataset来训练和评估模型,并且在图像方面获得高达94.42%的准确度,在对象方面获得91.02%的快速预测时间和约8ms的快速预测时间。我们还证明,在没有多对象数据集的训练的情况下,由于像素实现,我们的模型可以直接outputrobotic掌握不同对象的候选对象。
translated by 谷歌翻译
我们的目标是自动生成有关输入结构化知识库(KB)的自然语言描述。我们构建了基于apointer网络的生成框架,它可以复制输入KB中的事实,并添加两个注意机制:(i)插槽感知注意捕获slottype与其对应的slot值之间的关联; (ii)新的\ emph {table positionself-attention}以捕获相关时隙之间的相互依赖性。除了包括BLEU,METEOR和ROUGE在内的标准指标之外,我们还通过从生成输出中提取KB并将其与输入KB进行比较来提出基于KB重建的度量标准。我们还创建了一个新的数据集,其中包含106,216对结构化KB及其对应两种不同实体类型的自然语言描述。实验表明,ourapproach明显优于最先进的方法。重建的KB达到68.8%-72.6%的F-分数。
translated by 谷歌翻译
最近,综合学习的进展提出了合成图像的训练模型,可以有效地降低人力和物质资源的成本。然而,由于与真实图像相比合成图像的不同分布,所期望的性能仍然不能实现。真实图像由多种形式的光取向组成,而合成图像由均匀的光取向组成。这些特征分别被认为是室外和室内场景的特征。解决这个问题,前一种方法学会了一种模型来改善合成图像的真实感。与以往的方法不同,本文采用净化真实图像的第一步。通过风格转移任务,将室外真实图像的分布转换为室内合成图像,从而减少光的影响。因此,本文提出了一种区域时间风格转移网络,其保留了输入图像(真实图像)的图像内容信息(例如,注视方向,瞳孔中心位置),同时推断了风格图像的风格信息(例如,图像颜色结构,语义特征)。合成图像)。此外,网络加速了模型的收敛速度,并适应多尺度图像。使用混合研究(定性和定量)方法进行实验,以证明在复杂方向上纯化真实图像的可能性。定性地,将所提出的方法与LPW数据集的一系列室内和室外场景中的可用方法进行比较。在定量计中,它通过在交叉数据集上训练凝视估计模型来评估纯化图像。结果显示,与原始实际图像相比,基线方法有显着改进。
translated by 谷歌翻译
目前用于人类活动识别(HAR)的金标准基于相机的使用。然而,相机系统的可扩展性差使得它们在追求在移动计算环境中更广泛地采用HAR的目标上是不切实际的。因此,研究人员反而依赖于可穿戴传感器,特别是惯性传感器。一种特别流行的可穿戴设备是智能手表,由于其集成的惯性和光学传感能力,在非突出的路径中实现更好的HAR具有很大的潜力。如果通常在智能手表或类似设备中找到的腕式光学传感器可以用作数据可用性识别的有用来源,本文试图通过确定来简化可穿戴方法。该方法有可能消除对惯性传感元件的需求,这又会降低智能手表和健身追踪器的成本和复杂性。这可能潜在地考虑到HAR的硬件要求,同时保留来自单个光学传感器的心率监测和活动捕获的功能。我们的方法依赖于基于适当缩放的光信号图来采用用于活动识别的机器视觉。我们采用这种方法,以便产生易于由非技术用户解释和解释的分类。更具体地,使用光电容积描记器信号时间序列的图像来重新训练最初在ImageNet数据库上训练的卷积神经网络的倒数第二层。然后,我们使用来自倒数第二层的2048维特征作为支持向量机的输入。实验结果的平均分类准确率为92.3%。该结果优于光学和惯性传感器的组合(78%)并且使用...来说明HAR系统的能力。
translated by 谷歌翻译
最近使用深度神经网络的研究已经显示出非凡的转换,特别是对于艺术和照片般逼真的图像。然而,使用全局特征相关的方法无法捕获小的,复杂的纹理并且保持艺术品的正确纹理尺度,并且基于局部补丁的方法在全局效果上是有缺陷的。在本文中,我们提出了一个新颖的特征金字塔融合神经网络,称为GLStyleNet,它通过最佳聚合VGG网络中的层来充分考虑多尺度和多级金字塔特征,并分层执行样式转移,具有多个不同的损失。我们提出的方法从损失函数约束和特征融合两个方面保留了图像的高频像素信息和低频构造信息。我们的方法不仅可以灵活地调整内容和风格之间的交易,还可以在全局和本地之间进行控制。与最先进的方法相比,我们的方法不仅可以传递大规模,明显的风格线索,还可以传递微妙,精致的方法,并且可以大大提高风格转换的质量。我们展示了我们的肖像风格转移,艺术风格转移,照片写实风格转移和中国古代绘画风格转移任务的方法的有效性。实验结果表明,我们的统一方法比以往最先进的方法提高了图像样式传递质量,同时也在一定程度上加速了整个过程。我们的代码可在https://github.com/EndyWon/GLStyleNet上获得。
translated by 谷歌翻译
代词通常在诸如中文之类的支持语言中被省略,通常导致在完成翻译的产生方面的重大挑战。最近,王等人。 (2018)提出了一种新的基于重构的方法来减轻神经机器翻译模型的下降代词(DP)翻译问题。在这项工作中,我们从两个角度改进了原始模型。首先,我们采用共享的重构,更好地利用编码器和解码器表示。其次,我们共同学习以端到端的方式翻译和预测DP,以避免从外部DP预测模型传播的错误。实验结果表明,该方法显着提高了翻译性能和DP预测准确性。
translated by 谷歌翻译
由于其不适定的性质,单图像去雾是一个具有挑战性的问题。现有的方法依赖于次优的两步法,其中估计像深度图这样的中间产品,基于该中间产品随后使用人工生成无雾图像。先前的公式。在本文中,我们提出了一个名为LDTNet的轻型双任务神经网络,可以一次性恢复无阴影图像。我们使用传输图估计作为辅助任务来辅助主要任务,雾霾去除,特征提取和增强网络的泛化。在LDTNet中,同时产生无雾图像和透射图。结果,人工原因减少到最小程度。大量实验表明,我们的算法在合成和真实世界图像上都能够达到最先进的方法。
translated by 谷歌翻译
对于感兴趣的产品,我们提出了一种表示一组参考产品的搜索方法。参考产品可用作支持下游建模任务和业务应用程序的候选者。搜索方法包括产品表示学习和指纹型矢量搜索。通过新颖的注意自动编码器神经网络将产品目录信息转换为高质量的低维度嵌入,并且嵌入还与二进制编码向量相结合以便快速检索。我们通过大量实验来评估所提出的方法,并将其与同行服务进行比较,以证明其在搜索返回率和精度方面的优势。
translated by 谷歌翻译
Extreme多标签分类(XML)是一项重要且具有挑战性的机器学习任务,它为每个实例分配一个极其庞大的标签集合中最相关的候选标签,其中标签,功能和实例的数量可能是数千或数百万。随着业务规模/范围和数据积累的增加,XML在互联网行业越来越受欢迎。极大的标签收集产生诸如计算复杂性,标签间依赖性和噪声标记之类的挑战。基于不同的数学公式,已经提出了许多方法来解决这些挑战。在本文中,我们提出了一种深度学习XML方法,其中包含基于字向量的自我关注,然后是基于排名的AutoEncoder架构。所提出的方法具有以下主要优点:1)自动编码器通过将标签和特征投影到公共嵌入空间上,同时考虑标签间依赖性和特征标签依赖性; 2)排名损失不仅可以提高训练效率和准确性,还可以扩展到处理噪声标记数据; 3)有效的注意机制通过突出特征重要性来改进特征表示。基准数据集的实验结果表明,所提出的方法是具有竞争力的先进方法。
translated by 谷歌翻译