动力假肢可有效帮助截肢者在平地上行走,但这些装置在复杂环境中使用起来不方便。 Prostheses需要了解截肢者的动作意图,以帮助他们在复杂的环境中行走。最近,研究人员发现他们可以使用视觉传感器对环境进行分类并预测截肢者的运动意图。以前的研究人员可以在离线分析中准确地对环境进行分类,但是他们忽略了减少相应的时间延迟。为了提高精度,减少环境分类的时间延迟,本文提出了一种新的决策融合方法。我们通过构造隐马尔可夫模型和设计转移概率矩阵来融合环境分类的顺序决策。我们通过邀请受体的受试者和截肢者来评估我们的方法来实施室内和室外实验。实验结果表明,我们的方法可以比以前的方法更准确地分类环境并且延迟时间更短。除了分类环境之外,所提出的决策融合方法还可以优化未来人类运动意图的顺序预测。
translated by 谷歌翻译
计算机视觉近年来取得了令人瞩目的进展。同时,手机已经成为数百万人的主要计算平台。除了移动电话之外,许多自治系统依靠视觉数据来做出决策,其中一些系统的能量有限(例如无人驾驶飞行器也称为无人驾驶飞机和移动机器人)。这些系统依赖电池,能效至关重要。本文保留了两个主要目的:(1)检查低功率解决方案的最新技术,以检测图像中的对象。自2015年以来,IEEE年度国际低功耗图像识别挑战赛(LPIRC)一直致力于识别最节能的计算机视觉解决方案。本文总结了2018年获奖者的解决方案。 (2)建议研究方向以及低功耗计算机视觉的机会。
translated by 谷歌翻译
视频基础的任务,在视频中暂时定位自然语言描述,在理解视频中起着重要作用。现有的研究采用了在整个视频上滑动窗口的策略,或者在预分段视频中详尽地排列所有可能的剪辑 - 句子对,这不可避免地遭受了彻底列举的候选人。为了缓解这个问题,我们通过学习一个基于其策略逐步调节时间地形边界的代理,将这个任务表达为一个顺序决策的问题。具体来说,我们提出了一个基于强化学习的框架,通过多任务学习改进,并通过在训练期间考虑额外的监督边界信息来显示稳定的性能增益。我们提出的框架在ActivityNet'18 DenseCaption数据和Charades-STA数据集上实现了最先进的性能,同时每个视频仅观察10个或更少的剪辑。
translated by 谷歌翻译
这项工作考虑了计算大张量的\ textit {规范多元分解}(CPD)的问题。先前的工作主要利用数据稀性来处理这个问题,这不适合处理在医学成像,计算机视觉和遥感等应用中经常出现的密集器。随机优化因处理密集数据时的低内存成本和每次迭代复杂性而闻名。然而,现有随机CPD算法难以结合信号和数据分析中感兴趣的各种约束和规则化。许多此类算法的收敛性质也不清楚。在这项工作中,我们提出了具有约束/正则化的大规模CPD的随机优化框架。该框架在双重随机化时尚下工作,可以被视为\ textit {randomizedblock坐标下降}(BCD)和\ textit {随机近端梯度}(SPG)的明智组合。该算法具有轻量级更新和小内存占用,并且可以很好地扩展。此外,该框架具有相当大的灵活性 - 许多常用的正则化器和约束可以在所提出的方案下容易地处理。收敛性分析也支持这种方法。使用大规模密集张量的数值结果来展示所提出方法的有效性。
translated by 谷歌翻译
在这项工作中,我们报告了结合IEEE国际生物医学成像研讨会(ISBI)2016和国际医学影像计算机辅助干预会议(MICCAI)2017年组织的肝肿瘤分割基准(LITS)的设置和结果。将24种有效的最先进的肝脏和肝脏肿瘤分段算法应用于一组131个计算机断层扫描(CT)体积,具有不同类型的肿瘤对比度水平(高强度/低强度),组织异常(转移瘤)大小和不同程度的病变。已提交的算法已在70个未公开的卷上进行了测试。该数据集是与七家医院和研究机构合作创建的,由三位独立的放射科医师手动审查。我们发现没有一种算法对肝脏和肿瘤表现最佳。最佳肝脏分割算法的Dice评分为0.96(MICCAI),而对于肿瘤分割,最佳算法评估为0.67(ISBI)和0.70(MICCAI)。 LITS图像数据和手动注释继续通过在线评估系统公开提供,作为持续的基准测试资源。
translated by 谷歌翻译
由于Hashing在计算和存储方面的效率,已广泛应用于大规模多媒体数据的多模态检索。特别是近年来深度散射由于其完美的检索性能而受到前所未有的研究关注。然而,大多数现有的深度挖掘方法通过保留相似性关系而不利用语义标签来学习二进制哈希码,这导致不理想的二进制代码。在这项工作中,我们提出了一种新的Deep SemanticMultimodal Hashing Network(DSMHN),用于可扩展的多模态检索。在DSMHN中,通过明确地保留模态间相似性和模态内语义标签来联合学习两组模态特定的散列函数。具体地,假设所学习的哈希码对于任务特定的分类而言是最佳的,则通过将语义标签嵌入到所述哈希码上来联合训练两个流网络以学习哈希函数。与以前的深度散列方法不同,我们的深度散列框架可以灵活地与不同类型的损失函数集成。此外,调查thebit balance属性以生成二进制代码,每个bithaving $ 50 \%$概率为$ 1 $或$ -1 $。此外,通过同时利用特征表示学习,模态间相似性保持学习,语义标签保持学习和具有比特平衡约束的哈希函数学习,提出了一种统一的深度多模式哈希框架来学习紧凑和高质量的哈希码。我们在三种广泛使用的多模态检索数据集上进行了单峰和跨模态检索任务的大量实验。实验结果证明DSMHN明显优于最先进的方法。
translated by 谷歌翻译
事实证明,线性混合模型在众多应用中非常有用,例如,主题建模,聚类和源分离。作为线性混合模型的一个关键方面,在独立分量分析和约束矩阵分解等框架下,对模型参数的可识别性进行了研究。然而,当线性混合物被一个未知的非线性函数 - 在许多情况下是很好的动机和更现实的 - 来解决时 - 可识别性问题的研究要少得多。这项工作提出了一个非常基础的非线性混合模型的识别标准。现实世界的应用程序,并提供可识别性保证。提出了一种基于明智设计的神经网络的实际实现方案,实现了该标准,并提出了一种有效的学习算法。该方法的合成和实际数据有效性的数值结果。
translated by 谷歌翻译
尽管静态图像理解的深度学习取得了成功,但目前还不清楚视频中的时空建模最有效的网络架构是什么。在本文中,与现有的CNN + RNN或基于纯三维卷积的方法相比,我们探索了一种新的时空网络(StNet)架构,用于视频中的局部和全局空间 - 时间建模。特别地,StNet将N个连续视频帧堆叠成具有3N个通道的\ emph {超级图像},并在超级图像上应用2D卷积以捕获局部时空关系。 Tomodel全球时空关系,我们将时间卷积应用于局部时空特征图。具体来说,在StNet中提出了一种新颖的temporalXception块。它在视频的特征序列上采用单独的通道和时间卷积。 Kinetics数据集上的大量实验表明,我们的框架在动作识别方面优于几种最先进的方法,并且可以在识别准确性和模型复杂性之间取得令人满意的权衡。我们进一步证明了倾斜的视频呈现在UCF101数据集上的泛化性能。
translated by 谷歌翻译
人体重新识别确实是一个具有挑战性的视觉识别任务,而不是人体姿势变化,人体遮挡,摄像机视觉变化等的关键问题。为了解决这个问题,大多数最先进的方法都是基于深度卷积神经网络提出的。网络(CNN),其强大的功能学习能力和分类边界适应能力得到充分利用。虽然对人的重新识别至关重要,但如何构建有效的CNN基线模型尚未得到很好的研究。为了回答这个悬而未决的问题,我们从调整CNN架构和培训程序的角度提出了本文的3个良好实践。特别是,它们在全局池层之后添加批量规范化,仅使用一个完全连接的直接执行身份分类,并使用Adam作为优化器。对3种广泛使用的基准数据集的广泛实验表明,我们的命题基本上促进了CNNbaseline模型在没有任何其他高级领域知识或低级技术诀窍的情况下实现最先进的性能。
translated by 谷歌翻译
非负矩阵分解(NMF)已成为信号和数据分析的主力,由其模型简约性和可解释性引发。也许有点令人惊讶的是,对模型可识别性的理解 - 主题挖掘和高光谱成像等许多应用中可解释性的主要原因 - 直到近几年才相当有限。从2010年开始,NMF的可识别性研究取得了相当大的进展。 :信号处理(SP)和机器学习(ML)社区已经发现了许多有趣且重要的结果。 NMF可识别性在实践中的许多方面都有很大的影响,例如避免配方避免和性能保证算法设计。另一方面,没有教学论文从可识别性的角度介绍NMF。在本文中,我们旨在通过提供有关NMF模型可识别性的全面而深入的教程以及与算法和应用的连接来填补这一空白。本教程将帮助研究人员和研究生掌握NMF的本质和见解,从而避免典型的“陷阱”,这些常常是由于无法识别的NMF配方造成的。本文还将帮助从业者为自己的问题挑选/设计合适的因子化工具。
translated by 谷歌翻译