人类骨骼数据由于其背景鲁棒性和高效率而受到行动识别的越来越多。在基于骨架的动作识别中,图形卷积网络(GCN)已成为主流方法。本文分析了基于GCN的模型的基本因素 - 邻接矩阵。我们注意到,大多数基于GCN的方法基于人类天然骨架结构进行其邻接矩阵。根据我们以前的工作和分析,我们建议人类的自然骨骼结构邻接矩阵不适合基于骨架的动作识别。我们提出了一个新的邻接矩阵,该矩阵放弃了所有刚性邻居的连接,但使该模型可以适应地学习关节的关系。我们对两个基于骨架的动作识别数据集(NTURGBD60和FINEGYM)进行了验证模型进行广泛的实验和分析。全面的实验结果和分析表明,1)最广泛使用的人类天然骨骼结构邻接矩阵在基于骨架的动作识别中不适合; 2)所提出的邻接矩阵在模型性能,噪声稳健性和可传递性方面表现出色。
translated by 谷歌翻译
提出了一种称为误差损失网络(ELN)的新型模型,以构建监督学习的误差损失函数。 ELN的结构类似于径向基函数(RBF)神经网络,但其输入是误差样本,输出是与该误差样本相对应的损耗。这意味着ELN的非线性输入输出映射器会创建误差损失函数。拟议的ELN为大量错误损失函数提供了统一模型,其中包括一些信息理论学习(ITL)损失函数作为特殊情况。 ELN的激活函数,权重参数和网络大小可以从误差样本中进行预先确定或学到。在此基础上,我们提出了一个新的机器学习范式,其中学习过程分为两个阶段:首先,使用ELN学习损失函数;其次,使用学习的损失功能继续执行学习。提出了实验结果,以证明新方法的理想性能。
translated by 谷歌翻译
在本文中,我们将针对基于文本的描述的任意类别执行全新的计算机视觉任务,开放式全磁全面分割,该任务旨在执行全景分段(背景语义标签 +前景实例分段)。我们首先构建了一种基线方法,而无需填充或蒸馏以利用现有夹模型中的知识。然后,我们开发了一种新方法MaskClip,该方法是一种基于变压器的方法,该方法使用带有基于VIT的夹子主链的掩码查询来执行语义分割和对象实例分割。在这里,我们设计了一个相对的掩码注意力(RMA)模块,以将分割作为VIT夹模型的其他令牌。 MaskClip通过避免使用外部剪贴图像模型的暂停操作来裁剪图像贴片和计算功能,从而有效地有效地利用预训练的密集/局部剪辑功能。我们为开放式综合综合分割和最先进的结果获得了令人鼓舞的结果。我们显示具有自定义类别的MaskClip的定性插图。
translated by 谷歌翻译
贝叶斯优化(BO)是一种良好的方法,可以优化直接评估成本高昂的黑框函数。在本文中,我们解决了将专家知识纳入BO的问题,目的是进一步加速优化,到目前为止,该优化几乎没有得到关注。我们为这项任务设计了多任务学习体系结构,目的是共同吸引专家知识并最大程度地降低目标函数。特别是,这允许将专家知识转移到BO任务中。我们介绍了基于暹罗神经网络的特定体系结构,以处理来自成对查询的知识启发。具有模拟和实际人类专家的各种基准函数的实验表明,即使与目标函数相比,即使专家知识有偏见,提出的方法也会显着加速BO。
translated by 谷歌翻译
颜色和结构是结合形象的两个支柱。对神经网络识别的关键结构感兴趣,我们通过将颜色空间限制为几个位来隔离颜色的影响,并找到能够在此类约束下实现网络识别的结构。为此,我们提出了一个颜色量化网络Colorcnn,该网络通过最大程度地减少分类损失来学习在有限的颜色空间中构建图像。在Colorcnn的体系结构和见解的基础上,我们介绍了ColorCnn+,该+支持多种颜色空间大小的配置,并解决了以前的识别精度差的不良问题和在大型颜色空间下的不良视觉保真度。通过一种新颖的模仿学习方法,Colorcnn+学会了群集颜色,例如传统的颜色量化方法。这减少了过度拟合,并有助于在大颜色空间下的视觉保真度和识别精度。实验验证ColorCNN+在大多数情况下取得了非常有竞争力的结果,可以保留具有准确颜色的网络识别和视觉保真度的关键结构。我们进一步讨论关键结构和准确颜色之间的差异及其对网络识别的具体贡献。对于潜在应用,我们表明ColorCNN可以用作网络识别的图像压缩方法。
translated by 谷歌翻译
半监督的语义细分需要对未标记的数据进行丰富而强大的监督。一致性学习强制执行相同的像素在不同的增强视图中具有相似的特征,这是一个强大的信号,但忽略了与其他像素的关系。相比之下,对比学习考虑了丰富的成对关系,但是为像素对分配二进制阳性阴性监督信号可能是一个难题。在本文中,我们竭尽所能,并提出多视图相关性一致性(MVCC)学习:它考虑了自相关矩阵中的丰富成对关系,并将它们匹配到视图中以提供强大的监督。加上这种相关性一致性损失,我们提出了一个视图增强策略,可以保证不同观点之间的像素像素对应关系。在两个数据集上的一系列半监督设置中,我们报告了与最先进方法相比的竞争精度。值得注意的是,在CityScapes上,我们以1/8标记的数据达到76.8%的MIOU,比完全监督的Oracle差0.6%。
translated by 谷歌翻译
深度估计是在机器人手术和腹腔镜成像系统中进行图像引导干预的关键步骤。由于对于腹腔镜图像数据很难获得人均深度地面真相,因此很少将监督深度估计应用于手术应用。作为替代方案,已经引入了仅使用同步的立体图像对来训练深度估计器。但是,最近的工作集中在2D中的左右一致性上,而忽略了现实世界坐标中对象的宝贵固有3D信息,这意味着左右3D几何结构一致性尚未得到充分利用。为了克服这一限制,我们提出了M3Depth,这是一种自我监督的深度估计器,以利用3D几何结构信息隐藏在立体声对中,同时保持单眼推理。该方法还消除了在至少一个立体声图像中通过掩码看不见的边界区域的影响,以增强重叠区域中的左图和右图像之间的对应关系。密集实验表明,我们的方法在公共数据集和新获取的数据集上的以前的自我监督方法都大大优先,这表明在不同的样品和腹腔镜上都有良好的概括。
translated by 谷歌翻译
Twitter机器人检测是一项重要且有意义的任务。现有的基于文本的方法可以深入分析用户推文内容,从而实现高性能。但是,新颖的Twitter机器人通过窃取真正的用户的推文并用良性推文稀释恶意内容来逃避这些检测。这些新颖的机器人被认为以语义不一致的特征。此外,最近出现了利用Twitter图结构的方法,显示出巨大的竞争力。但是,几乎没有一种方法使文本和图形模式深入融合并进行了交互,以利用优势并了解两种方式的相对重要性。在本文中,我们提出了一个名为BIC的新型模型,该模型使文本和图形模式深入互动并检测到推文语义不一致。具体而言,BIC包含一个文本传播模块,一个图形传播模块,可分别在文本和图形结构上进行机器人检测,以及可证明有效的文本互动模块,以使两者相互作用。此外,BIC还包含一个语义一致性检测模块,以从推文中学习语义一致性信息。广泛的实验表明,我们的框架在全面的Twitter机器人基准上优于竞争基准。我们还证明了拟议的相互作用和语义一致性检测的有效性。
translated by 谷歌翻译
由于其在许多有影响力的领域中的广泛应用,归因网络上的图形异常检测已成为普遍的研究主题。在现实情况下,属性网络中的节点和边缘通常显示出不同的异质性,即不同类型的节点的属性显示出大量的多样性,不同类型的关系表示多种含义。在这些网络中,异常在异质性的各个角度上的表现通常与大多数不同。但是,现有的图异常检测方法不能利用归因网络中的异质性,这与异常检测高度相关。鉴于这个问题,我们提出了前方的提议:基于编码器解码器框架的异质性无监督图异常检测方法。具体而言,对于编码器,我们设计了三个关注级别,即属性级别,节点类型级别和边缘级别的关注,以捕获网络结构的异质性,节点属性和单个节点的信息。在解码器中,我们利用结构,属性和节点类型重建项来获得每个节点的异常得分。广泛的实验表明,与无监督环境中的艺术品相比,在几个现实世界中的异质信息网络上,前方的优势。进一步的实验验证了我们三重注意力,模型骨干和解码器的有效性和鲁棒性。
translated by 谷歌翻译
用用户涂鸦的可控图像合成是对计算机视觉社区感兴趣的主题。在本文中,我们第一次研究了不完整和原始人类绘画的影像现实主义图像合成问题。特别是,我们提出了一种新颖的方法Paint2Pix,该方法通过学习从不完整的人类绘画的绘图到其现实效果图的映射来预测(和适应用户想要从基本的笔触输入中绘制的内容)。当与自动绘画剂的最新作品结合使用时,我们表明Paint2Pix可用于从头开始进行渐进的图像合成。在此过程中,Paint2Pix允许新手用户逐步合成所需的图像输出,同时仅需要几乎没有粗的用户涂鸦来准确地引导合成过程的轨迹。此外,我们发现我们的方法还形成了一种令人惊讶的方便方法来进行真实的图像编辑,并允许用户通过仅添加几种位置良好的笔触来执行各种自定义细粒度编辑。补充视频和演示可从https://1jsingh.github.io/paint2pix获得
translated by 谷歌翻译