周等人提出了一个无人监督,轻质和高性能的单一对象追踪器,称为UHP-SOT。最近。作为一个扩展,我们在这项工作中介绍了一个增强版本并将其命名为UHP-SOT ++。基于基于鉴别相关滤波器的(基于DCF的)跟踪器的基础,在UHP-SOT和UHP-SOT ++中引入了两种新成分:1)背景运动建模和2)对象盒轨迹建模。 UHP-SOT和UHP-SOT ++之间的主要区别是来自三种模型的提案的融合策略(即DCF,背景运动和对象盒轨迹模型)。 UHP-SOT ++采用了一种改进的融合策略,可针对大规模跟踪数据集更加强大的跟踪性能。我们的第二件贡献在于通过在四个SOT基准数据集 - OTB2015,TC128,UAV123和LASOT上进行测试,对最先进的监督和无监督方法进行了广泛的评估。实验表明,UHP-SOT ++优于所有先前的无监督方法和几种深度学习(DL)方法,以跟踪准确性。由于UHP-SOT ++具有极小的模型大小,高跟踪性能和低计算复杂性(即使在I5 CPU上以20 fps运行,即使没有代码优化),则是资源实时对象跟踪中的理想解决方案 - 有限平台。基于实验结果,我们比较监督和无监督者的优缺点,并提供了一种新的视角,了解监督和无监督方法之间的性能差距,这是这项工作的第三次贡献。
translated by 谷歌翻译
神经运营商最近成为设计神经网络形式的功能空间之间的解决方案映射的流行工具。不同地,从经典的科学机器学习方法,以固定分辨率为输入参数的单个实例学习参数,神经运算符近似PDE系列的解决方案图。尽管他们取得了成功,但是神经运营商的用途迄今为止仅限于相对浅的神经网络,并限制了学习隐藏的管理法律。在这项工作中,我们提出了一种新颖的非局部神经运营商,我们将其称为非本体内核网络(NKN),即独立的分辨率,其特征在于深度神经网络,并且能够处理各种任务,例如学习管理方程和分类图片。我们的NKN源于神经网络的解释,作为离散的非局部扩散反应方程,在无限层的极限中,相当于抛物线非局部方程,其稳定性通过非本种载体微积分分析。与整体形式的神经运算符相似允许NKN捕获特征空间中的远程依赖性,而节点到节点交互的持续处理使NKNS分辨率独立于NKNS分辨率。与神经杂物中的相似性,在非本体意义上重新解释,并且层之间的稳定网络动态允许NKN的最佳参数从浅到深网络中的概括。这一事实使得能够使用浅层初始化技术。我们的测试表明,NKNS在学习管理方程和图像分类任务中占据基线方法,并概括到不同的分辨率和深度。
translated by 谷歌翻译
手语是聋人和听力受损社区中使用的沟通语言的主要形式。在听力障碍和听力社区之间进行简单互相的沟通,建立一个能够将口语翻译成手语的强大系统,反之亦然是基本的。为此,标志语言识别和生产是制作这种双向系统的两个必要零件。手语识别和生产需要应对一些关键挑战。在这项调查中,我们审查了使用深度学习的手语制作(SLP)和相关领域的最近进展。为了有更现实的观点来签署语言,我们介绍了聋人文化,聋人中心,手语的心理视角,口语和手语之间的主要差异。此外,我们介绍了双向手语翻译系统的基本组成部分,讨论了该领域的主要挑战。此外,简要介绍了SLP中的骨干架构和方法,并提出了拟议的SLP分类物。最后,介绍了SLP和绩效评估的一般框架,也讨论了SLP最近的发展,优势和限制,评论可能的未来研究的可能线条。
translated by 谷歌翻译
普通的卷积神经网络(CNNS)已被用于在过去几年中的各个域中实现最先进的性能,包括通过眼睛运动的生物识别认证。普通CNNS已经有许多相对较近的改进,包括残差网络(RESNET)和密集连接的卷积网络(DENSENET)。虽然这些网络主要是目标图像处理域,但它们可以很容易地修改以使用时间序列数据。我们采用DENSenet架构,通过眼睛运动来实现端到端的生物认证。我们将我们的模型与最相关的现有作品进行比较,包括当前最先进的工作。我们发现我们的模型实现了所有考虑的培训条件和数据集的最先进的性能。
translated by 谷歌翻译
自我监督最近在其新的图形学习前沿飙升。它有助于对下游任务有利的图表表示;但其成功可以遵守手工造工或经常昂贵的试验和错误的域名知识。即使是其最先进的代表性,图形对比学习(GraphCl),也不完全没有这些需求,因为GraphCL使用由Ad-hoc手册选择图数据增强的预制物反映。我们的工作旨在通过回答以下问题来推进GraphCl:如何代表图形增强视图的空间?在该空间之前可以依赖哪些原则?可以建立哪些框架,以便在对比学习中学习之前的串联?因此,我们在增强集中的预制离散延伸到图形生成器的参数空间之前的学习连续,假设图形Priors本身类似于图像歧管的概念,可以通过数据生成来学习。此外,为了形成由于先前的可读性而没有折叠的琐碎解决方案的对比视图,我们利用了信息最小化(Infomin)和信息瓶颈(InfoBN)的两个原则来规范学习的前提。最终,对比学习,Infomin和InfoBn有机融合到双级优化的一个框架中。我们的原则和自动化方法已被证明对艺术最先进的图形自我监督方法(包括Graphcl)的竞争力,包括小图形的基准;并且在大型图表上显示了更好的普遍性,而不诉诸人类专业知识或下游验证。我们的代码在https://github.com/shen-lab/graphcl_automated公开发布。
translated by 谷歌翻译
图形内核是历史上最广泛使用的图形分类任务的技术。然而,由于图的手工制作的组合特征,这些方法具有有限的性能。近年来,由于其性能卓越,图形神经网络(GNNS)已成为与下游图形相关任务的最先进的方法。大多数GNN基于消息传递神经网络(MPNN)框架。然而,最近的研究表明,MPNN不能超过Weisfeiler-Lehman(WL)算法在图形同构术中的力量。为了解决现有图形内核和GNN方法的限制,在本文中,我们提出了一种新的GNN框架,称为\ Texit {内核图形神经网络}(Kernnns),该框架将图形内核集成到GNN的消息传递过程中。通过卷积神经网络(CNNS)中的卷积滤波器的启发,KERGNNS采用可训练的隐藏图作为绘图过滤器,该绘图过滤器与子图组合以使用图形内核更新节点嵌入式。此外,我们表明MPNN可以被视为Kergnns的特殊情况。我们将Kergnns应用于多个与图形相关的任务,并使用交叉验证来与基准进行公平比较。我们表明,与现有的现有方法相比,我们的方法达到了竞争性能,证明了增加GNN的表现能力的可能性。我们还表明,KERGNNS中的训练有素的图形过滤器可以揭示数据集的本地图形结构,与传统GNN模型相比,显着提高了模型解释性。
translated by 谷歌翻译
广泛应用的密度峰聚类(DPC)算法使得直观的群集形成假设假设集群中心通常被具有较低局部密度的数据点包围,远离具有较高局部密度的其他数据点。然而,这种假设遭受一个限制,即在识别具有较低密度的簇时通常有问题,因为它们可以容易地合并到具有更高密度的其他簇中。结果,DPC可能无法识别具有变分密度的簇。为了解决这个问题,我们提出了一种变分浓度峰值聚类(VDPC)算法,该算法旨在系统地和自主地在具有各种类型的密度分布的数据集上执行聚类任务。具体而言,我们首先提出了一种新的方法,以确定所有数据点中的代表,并根据所确定的代表构建初始集群,以进一步分析集群财产。此外,我们根据其本地密度将所有数据点划分为不同的级别,并通过组合DPC和DBSCAN的优点来提出统一的聚类框架。因此,系统地处理跨越不同密度水平跨越不同密度水平的所有识别的初始簇以形成最终簇。为了评估所提出的VDPC算法的有效性,我们使用20个数据集进行广泛的实验,包括八个合成,六个现实世界和六个图像数据集。实验结果表明,VDPC优于两个经典算法(即,DPC和DBSCAN)和四种最先进的扩展DPC算法。
translated by 谷歌翻译
通过使用图像级分类掩模监督其学习过程,弱监督对象本地化(WSOL)放宽对对象本地化的密度注释的要求。然而,当前的WSOL方法遭受背景位置的过度激活,并且需要后处理以获得定位掩模。本文将这些问题归因于背景提示的不明显,并提出了背景感知分类激活映射(B-CAM),以便仅使用图像级标签同时学习对象和背景的本地化分数。在我们的B-CAM中,两个图像级功能,由潜在背景和对象位置的像素级别功能聚合,用于从对象相关的背景中净化对象功能,并表示纯背景样本的功能,分别。然后基于这两个特征,学习对象分类器和背景分类器,以确定二进制对象本地化掩码。我们的B-CAM可以基于提出的错开分类损失以端到端的方式培训,这不仅可以改善对象本地化,而且还抑制了背景激活。实验表明,我们的B-CAM在Cub-200,OpenImages和VOC2012数据集上优于一级WSOL方法。
translated by 谷歌翻译
处理聚类问题在数据统计数据统计,模式识别和图像处理中很重要。平均换档算法是一种公共无监督算法,广泛用于解决聚类问题。然而,平均移位算法受其巨额计算资源成本的限制。在以前的研究[10]中,我们提出了一种新型GPU加速的更快的平均移位算法,这大大加快了余弦嵌入的聚类问题。在本研究中,我们扩展并改进了以前的算法来处理欧几里德距离度量。不同于传统的基于GPU的平均移位算法,我们的算法采用新颖的种子选择和早期停止方法,这大大提高了计算速度并降低了GPU存储器消耗。在仿真测试中,在处理200k点聚类问题时,与基于最先进的GPU的平均换档算法相比,我们的算法达到了3次加速度,具有优化的GPU存储器消耗。此外,在本研究中,我们实现了一种用于更快的平均移位算法的即插即用模型,可以轻松地部署。 (即插即用型号可用:https://github.com/masqm/faster-mean-shift-euc)
translated by 谷歌翻译
Tiktok是一个受欢迎的新社交媒体,用户通过短视频剪辑表达自己。平台上的常见互动形式参与了“挑战”,这是用户迭代的歌曲和舞蹈。挑战传染可以通过复制范围来衡量,即用户上传他们参与挑战的视频。 Tiktok平台的唯一性,其中挑战内容和用户偏好都在不断发展,需要挑战和用户表示的组合。本文通过预测用户的参与调查Tiktok挑战的社会传染。我们提出了一种新的深度学习模型,深度学习模型,学习和组合潜在的用户和挑战表格,以执行此用户挑战预测任务。我们从Fortoupage,App的登陆页面上的12个趋势挑战收集超过7,000个视频的数据集,从1303名用户提供超过10,000个视频。进行了广泛的实验,结果表明,我们所提出的Deepballenger(F1 = 0.494)在预测任务中优于基线(F1 = 0.188)。
translated by 谷歌翻译