从制造环境到个人房屋的最终用户任务的巨大多样性使得预编程机器人非常具有挑战性。事实上,教学机器人从划痕的新行动可以重复使用以前看不见的任务仍然是一个艰难的挑战,一般都留给了机器人专家。在这项工作中,我们展示了Iropro,这是一个交互式机器人编程框架,允许最终用户没有技术背景,以教授机器人新的可重用行动。我们通过演示和自动规划技术将编程结合起来,以允许用户通过通过动力学示范教授新的行动来构建机器人的知识库。这些行动是概括的,并重用任务计划程序来解决用户定义的先前未经调查的问题。我们将iropro作为Baxter研究机器人的端到端系统实施,同时通过演示通过示范来教授低级和高级操作,以便用户可以通过图形用户界面自定义以适应其特定用例。为了评估我们的方法的可行性,我们首先进行了预设计实验,以更好地了解用户采用所涉及的概念和所提出的机器人编程过程。我们将结果与设计后实验进行比较,在那里我们进行了用户学习,以验证我们对真实最终用户的方法的可用性。总体而言,我们展示了具有不同编程水平和教育背景的用户可以轻松学习和使用Iropro及其机器人编程过程。
translated by 谷歌翻译
Decompilation aims to transform a low-level program language (LPL) (eg., binary file) into its functionally-equivalent high-level program language (HPL) (e.g., C/C++). It is a core technology in software security, especially in vulnerability discovery and malware analysis. In recent years, with the successful application of neural machine translation (NMT) models in natural language processing (NLP), researchers have tried to build neural decompilers by borrowing the idea of NMT. They formulate the decompilation process as a translation problem between LPL and HPL, aiming to reduce the human cost required to develop decompilation tools and improve their generalizability. However, state-of-the-art learning-based decompilers do not cope well with compiler-optimized binaries. Since real-world binaries are mostly compiler-optimized, decompilers that do not consider optimized binaries have limited practical significance. In this paper, we propose a novel learning-based approach named NeurDP, that targets compiler-optimized binaries. NeurDP uses a graph neural network (GNN) model to convert LPL to an intermediate representation (IR), which bridges the gap between source code and optimized binary. We also design an Optimized Translation Unit (OTU) to split functions into smaller code fragments for better translation performance. Evaluation results on datasets containing various types of statements show that NeurDP can decompile optimized binaries with 45.21% higher accuracy than state-of-the-art neural decompilation frameworks.
translated by 谷歌翻译
数学推理是人类智力的核心能力,在抽象思维和逻辑推理中对机器提出了独特的挑战。最近的大型预训练的语言模型(例如GPT-3)在以文本形式(例如数学单词问题(MWP))编写的数学推理任务上取得了显着的进步。但是,未知模型是否可以处理更复杂的问题,这些问题涉及数学推理,例如表格数据。为了填补空白,我们提出了表格数学单词问题(TABMWP),这是一个包含38,431个开放域级等级问题的新数据集,这些问题需要在文本和表格数据上进行数学推理。 TABMWP中的每个问题都与表格上下文对齐,该上下文作为图像,半结构化文本和结构化表。有两种类型的问题:自由文本和多选择,每个问题都用金解决方案注释以揭示多步推理过程。我们在TABMWP上评估了不同的预训练模型,包括在几次设置中的GPT-3模型。正如先前的研究所表明的那样,由于很少有GPT-3依赖于内在的示例的选择,因此其性能是不稳定的,并且可能会降解为几乎机会。处理TABMWP等复杂问题时,不稳定的问题更为严重。为了减轻这种情况,我们进一步提出了一种新颖的方法,即PresspG,该方法利用策略梯度学习从少量培训数据中选择中文示例,然后为测试示例构造相应的提示。实验结果表明,与随机选择相比,我们的方法在准确性度量上优于最佳基线,并显着降低了预测方差,这验证了其在选择性上下文示例中的有效性。
translated by 谷歌翻译
本文介绍了Davarocr,这是一种用于OCR和文档理解任务的开源工具箱。Davarocr目前实施19种高级算法,涵盖9个不同的任务表。Davarocr为每种算法提供了详细的用法说明和经过训练的模型。与以前的OpenSource OCR工具箱相比,Davarocr对文档理解的尖端技术的子任务具有相对完整的支持。为了促进OCR技术在学术界和行业中的开发和应用,我们更加关注使用不同的技术可以共享的模块的使用。Davarocr在https://github.com/hikopensource/davar-lab-ocr上公开发行。
translated by 谷歌翻译
端到端的文本发现最近由于其对全球优化的好处和对实际应用的高可维护性而引起了极大的关注。但是,输入量表一直是一个艰难的权衡,因为认识到一个小的文本实例通常需要扩大整个图像,从而带来了高度的计算成本。在本文中,为了解决这个问题,我们提出了一种新颖的成本效益动态低分辨率蒸馏(DLD)文本斑点框架,该框架旨在推断出不同的小但可识别的分辨率中的图像,并在准确性和效率之间取得更好的平衡。具体而言,我们采用一个分辨率选择器来动态地确定不同图像的输入分辨率,这是通过推理准确性和计算成本来限制的。在文本识别分支上进行了另一种顺序知识蒸馏策略,使低分辨率输入获得与高分辨率图像相当的性能。可以在任何当前文本斑点框架中采用提出的方法,并在任何文本斑点框架中采用以提高可实用性。对几个文本斑点基准测试的广泛实验表明,所提出的方法极大地提高了低分辨率模型的可用性。该代码可从https://github.com/hikopensource/davar-lab-ocr/获得。
translated by 谷歌翻译
越来越多的人期望在对象属性具有高感知不确定性的越来越多的非结构化环境中操纵对象。这直接影响成功的对象操纵。在这项工作中,我们提出了一个基于增强的学习动作计划框架,用于对象操纵,该框架既利用了在现有的多感觉反馈,也可以使用学习的注意力引导的深层负担能力模型作为感知状态。可承受的模型是从多种感官方式中学到的,包括视觉和触摸(触觉和力/扭矩),旨在预测和指示具有相似外观的物体的多个负担能力(即抓地力和推动力)的可操作区域属性(例如,质量分布)。然后,对基于DQN的深钢筋学习算法进行培训,以选择成功对象操纵的最佳动作。为了验证提出的框架的性能,使用开放数据集和收集的数据集对我们的方法进行评估和基准测试。结果表明,所提出的方法和整体框架的表现优于现有方法,并实现更好的准确性和更高的效率。
translated by 谷歌翻译
语音情绪识别(SER)是人类计算机互动的重要组成部分。在本文中,我们提出了一个基于图形同构网络的SER网络,具有加权多个聚合器(WMA-GIN),当邻居节点的特征在杜松子酒结构中聚集在一起时,该网络可以有效地解决信息困惑的问题。此外,采用了一个全粘的(FA)层来减轻过度方面的问题,该问题在包括杜松子酒在内的所有图神经网络(GNN)结构中都存在。此外,采用多相注意机制和多损失训练策略来避免缺少堆叠的WMA轴层中有用的情感信息。我们评估了我们在流行的Iemocap数据集中提出的WMA-GIN的性能。实验结果表明,WMA-GIN的表现优于其他基于GNN的方法,并且可以通过达到72.48%的加权准确性(WA)和67.72%的未加权准确性(UA)来与某些基于高级的基于非冲突的方法相媲美。
translated by 谷歌翻译
通常通过过去的选择来告知机器学习中的评估,例如要使用哪些数据集或指标。该标准化可以使用排行榜对平等基础进行比较,但是随着出现更好的替代方案,评估选择变得不佳。这个问题在自然语言生成中尤其相关,该语言需要不断改善的数据集,指标和人类评估以提出确定性的主张。为了使遵循最佳模型评估实践更加容易,我们介绍了GEMV2。新版本的一代,评估和指标基准为数据集,模型和指标开发人员提供了模块化基础架构,以使彼此受益。GEMV2支持40种记录的数据集中51种语言。所有数据集的模型都可以在线评估,我们的交互式数据卡创建和渲染工具使得在Living Benchmark中添加新数据集变得更加容易。
translated by 谷歌翻译
超声检查是乳腺癌诊断的重要常规检查,这是由于其无创,无辐射和低成本的特性。但是,由于其固有的局限性,乳腺癌的诊断准确性仍然受到限制。如果我们可以通过乳房超声图像(BUS)精确诊断乳腺癌,那将是一个巨大的成功。已经提出了许多基于学习的计算机辅助诊断方法来实现乳腺癌诊断/病变分类。但是,其中大多数需要预定的ROI,然后对ROI内的病变进行分类。常规的分类骨架,例如VGG16和RESNET50,可以在没有ROI要求的情况下获得有希望的分类结果。但是这些模型缺乏解释性,因此限制了它们在临床实践中的使用。在这项研究中,我们提出了一种具有可解释特征表示的超声图像中乳腺癌诊断的新型无ROI模型。我们利用解剖学的先验知识,即恶性肿瘤和良性肿瘤在不同的组织层之间具有不同的空间关系,并提出了悬停转换器来提出这种先验知识。提出的悬停式跨界块水平和垂直地提取层间和层内空间信息。我们进行并释放一个开放的数据集GDPH&SYSUCC,以用于公共汽车中的乳腺癌诊断。通过与四个基于CNN的模型和两个Vision Transformer模型进行比较,通过五倍的交叉验证来评估所提出的模型。它通过最佳模型可解释性实现最新的分类性能。同时,我们提出的模型在仅给出一张公交图像时,在乳腺癌诊断方面优于两名高级超声检查员。
translated by 谷歌翻译
深度学习方法已成功用于各种计算机视觉任务。受到成功的启发,已经在磁共振成像(MRI)重建中探索了深度学习。特别是,整合深度学习和基于模型的优化方法已显示出很大的优势。但是,对于高重建质量,通常需要大量标记的培训数据,这对于某些MRI应用来说是具有挑战性的。在本文中,我们提出了一种名为DUREN-NET的新型重建方法,该方法可以通过组合无监督的DeNoising网络和插件方法来为MR图像重建提供可解释的无监督学习。我们的目标是通过添加明确的先验利用成像物理学来提高无监督学习的重建性能。具体而言,使用denoising(红色)正规化实现了MRI重建网络的杠杆作用。实验结果表明,所提出的方法需要减少训练数据的数量才能达到高重建质量。
translated by 谷歌翻译