Real-world robotic grasping can be done robustly if a complete 3D Point Cloud Data (PCD) of an object is available. However, in practice, PCDs are often incomplete when objects are viewed from few and sparse viewpoints before the grasping action, leading to the generation of wrong or inaccurate grasp poses. We propose a novel grasping strategy, named 3DSGrasp, that predicts the missing geometry from the partial PCD to produce reliable grasp poses. Our proposed PCD completion network is a Transformer-based encoder-decoder network with an Offset-Attention layer. Our network is inherently invariant to the object pose and point's permutation, which generates PCDs that are geometrically consistent and completed properly. Experiments on a wide range of partial PCD show that 3DSGrasp outperforms the best state-of-the-art method on PCD completion tasks and largely improves the grasping success rate in real-world scenarios. The code and dataset will be made available upon acceptance.
translated by 谷歌翻译
Designing efficient and labor-saving prosthetic hands requires powerful hand gesture recognition algorithms that can achieve high accuracy with limited complexity and latency. In this context, the paper proposes a compact deep learning framework referred to as the CT-HGR, which employs a vision transformer network to conduct hand gesture recognition using highdensity sEMG (HD-sEMG) signals. The attention mechanism in the proposed model identifies similarities among different data segments with a greater capacity for parallel computations and addresses the memory limitation problems while dealing with inputs of large sequence lengths. CT-HGR can be trained from scratch without any need for transfer learning and can simultaneously extract both temporal and spatial features of HD-sEMG data. Additionally, the CT-HGR framework can perform instantaneous recognition using sEMG image spatially composed from HD-sEMG signals. A variant of the CT-HGR is also designed to incorporate microscopic neural drive information in the form of Motor Unit Spike Trains (MUSTs) extracted from HD-sEMG signals using Blind Source Separation (BSS). This variant is combined with its baseline version via a hybrid architecture to evaluate potentials of fusing macroscopic and microscopic neural drive information. The utilized HD-sEMG dataset involves 128 electrodes that collect the signals related to 65 isometric hand gestures of 20 subjects. The proposed CT-HGR framework is applied to 31.25, 62.5, 125, 250 ms window sizes of the above-mentioned dataset utilizing 32, 64, 128 electrode channels. The average accuracy over all the participants using 32 electrodes and a window size of 31.25 ms is 86.23%, which gradually increases till reaching 91.98% for 128 electrodes and a window size of 250 ms. The CT-HGR achieves accuracy of 89.13% for instantaneous recognition based on a single frame of HD-sEMG image.
translated by 谷歌翻译
提出了一个新的框架,用于处理纵向,多元,异质临床数据的建模和分析的复杂任务。该方法使用时间抽象将数据转换为更合适的形式,用于建模,时间模式挖掘,以发现复杂,纵向数据和生存分析的机器学习模型中的模式,以选择发现的模式。该方法应用于阿尔茨海默氏病(AD)的现实世界研究,这是一种无法治愈的进行性神经退行性疾病。在生存分析模型中,发现的模式可预测AD的一致性指数高达0.8。这是使用AD的时间数据收集对AD数据进行生存分析的第一项工作。可视化模块还清楚地描绘了发现的模式,以易于解释。
translated by 谷歌翻译
在自然界中,动物的集体行为(例如飞鸟)由同一物种的个体之间的相互作用主导。但是,对鸟类物种中这种行为的研究是一个复杂的过程,即人类无法使用常规的视觉观察技术(例如自然界的焦点采样)进行。对于鸟类等社会动物,群体形成的机制可以帮助生态学家了解社交线索及其视觉特征随着时间的流逝(例如姿势和形状)之间的关系。但是,恢复飞行鸟类的不同姿势和形状是一个极具挑战性的问题。解决此瓶颈的一种广泛的解决方案是将姿势和形状从2D图像提取到3D对应关系。 3D视觉的最新进展导致了关于3D形状和姿势估计的许多令人印象深刻的作品,每项作品都有不同的利弊。据我们所知,这项工作是首次尝试概述基于单眼视觉的3D鸟重建的最新进展,使计算机视觉和生物学研究人员概述了现有方法,并比较其特征。
translated by 谷歌翻译
医疗保健数据集通常包含一组高度相关的特征,例如来自同一生物系统的特征。当将功能选择应用于这些数据集以识别最重要的功能时,由于相关功能,由于相关特征而引起的某些多变量特征选择器固有的偏差使这些方法难以区分重要的和无关的特征,并且功能选择过程的结果CAN可以解决。不稳定。已经研究了特征选择合奏,该合奏汇总了多个单个基础特征选择器的结果,已被研究为稳定特征选择结果的一种手段,但不能解决相关特征的问题。我们提出了一个新颖的框架,可以从多元特征选择器中创建特征选择集合,同时考虑了相关特征组产生的偏差,并在预处理步骤中使用团聚层次聚类。这些方法从阿尔茨海默氏病(AD)的研究中应用于两个现实世界数据集,这是一种尚未治愈且尚未完全了解的进行性神经退行性疾病。我们的结果表明,在没有聚类的情况下选择在模型中选择的功能的稳定性有明显的改善,并且这些模型选择的功能与广告文献中的发现保持一致。
translated by 谷歌翻译
医疗保健数据集对机器学习和统计数据都带来了许多挑战,因为它们的数据通常是异质的,审查的,高维的,并且缺少信息。特征选择通常用于识别重要功能,但是当应用于高维数据时,可以产生不稳定的结果,从而在每次迭代中选择一组不同的功能。通过使用特征选择合奏,可以改善特征选择的稳定性,该合奏汇总了多个基本特征选择器的结果。必须将阈值应用于最终的聚合功能集,以将相关功能与冗余功能分开。通常应用的固定阈值不保证最终选定功能仅包含相关功能。这项工作开发了几个数据驱动的阈值,以自动识别集合功能选择器中的相关特征,并评估其预测精度和稳定性。为了证明这些方法对临床数据的适用性,它们被应用于来自两个现实世界中阿尔茨海默氏病(AD)研究的数据。 AD是一种没有已知治愈方法的进行性神经退行性疾病,至少在明显症状出现之前的2-3年开始,为研究人员提供了一个机会,可以鉴定出可能识别有患AD风险的患者的早期生物标志物。通过将这些方法应用于两个数据集来标识的功能反映了广告文献中的当前发现。
translated by 谷歌翻译
多对比度MRI(MC-MRI)捕获了多种互补成像方式,以帮助放射决策。鉴于需要降低多次收购的时间成本,当前的深度加速MRI重建网络集中于利用多个对比度之间的冗余。但是,现有的作品在很大程度上受到了配对数据和/或过度昂贵的完全采样的MRI序列的监督。此外,重建网络通常依赖于卷积体系结构,这些卷积体系结构在建模远程相互作用的能力上受到限制,并可能导致良好的解剖学细节的次优恢复。对于这些目的,我们提出了一个双域自我监督的变压器(DSFORMER),用于加速MC-MRI重建。 DSFormer开发了一个深层条件级联变压器(DCCT),该变压器由几个级联的Swin Transformer重建网络(SWINRN)组成,该网络(SWINRN)在两种深层调理策略下训练,以实现MC-MRI信息共享。我们进一步提出了DCCT的双域(图像和K空间)自我监督的学习策略,以减轻获取完全采样的培训数据的成本。 DSFormer会生成高保真重建,从而超过电流完全监督的基线。此外,我们发现,通过全面监督或我们提出的双域自学训练,DSFORMER可以实现几乎相同的性能。
translated by 谷歌翻译
肺癌是最致命的癌症之一,部分诊断和治疗取决于肿瘤的准确描绘。目前是最常见的方法的人以人为本的分割,须遵守观察者间变异性,并且考虑到专家只能提供注释的事实,也是耗时的。最近展示了有前途的结果,自动和半自动肿瘤分割方法。然而,随着不同的研究人员使用各种数据集和性能指标验证了其算法,可靠地评估这些方法仍然是一个开放的挑战。通过2018年IEEE视频和图像处理(VIP)杯竞赛创建的计算机断层摄影扫描(LOTUS)基准测试的肺起源肿瘤分割的目标是提供唯一的数据集和预定义的指标,因此不同的研究人员可以开发和以统一的方式评估他们的方法。 2018年VIP杯始于42个国家的全球参与,以获得竞争数据。在注册阶段,有129名成员组成了来自10个国家的28个团队,其中9个团队将其达到最后阶段,6队成功完成了所有必要的任务。简而言之,竞争期间提出的所有算法都是基于深度学习模型与假阳性降低技术相结合。三种决赛选手开发的方法表明,有希望的肿瘤细分导致导致越来越大的努力应降低假阳性率。本次竞争稿件概述了VIP-Cup挑战,以及所提出的算法和结果。
translated by 谷歌翻译
如今,推荐系统和搜索引擎在时尚电子商务中发挥积分作用。尽管如此,许多挑战谎言,这项研究试图解决一些问题。本文首先介绍了一种基于内容的时尚推荐系统,它使用并行神经网络作为输入,通过列出商店中可用的类似物品来获取单个时尚项目商店映像。接下来,增强相同的结构以基于用户偏好来个性化结果。然后,这项工作引入了一个背景增强技术,使系统更强大地对域外查询,使其仅使用培训的目录商店图像进行街道到商店建议。此外,本文的最后贡献是推荐任务的新评估度量,称为客观引导的人为评分。该方法是一个完全可定制的框架,可以产生来自人类评分术的主观评估的可解释,可比的分数。
translated by 谷歌翻译
时尚界正在濒临前所未有的变化。在时尚应用中实施机器学习,计算机愿景和人工智能(AI)正在为这一行业开辟很多新的机会。本文对此事提供了全面的调查,将超过580篇相关文章分类为22个与定义的时尚相关的任务。这种基于结构的基于任务的时尚研究文章的多标签分类为研究人员提供了明确的研究方向,并促进了他们对相关研究的访问,同时提高了研究的可见性。对于每项任务,提供了一个时间图来分析多年来的进展。此外,我们提供了86个公共时装数据集的列表,并附上建议的应用程序列表和每个数据项。
translated by 谷歌翻译