为了使视频模型能够在不同环境中无缝应用,已经提出了各种视频无监督的域适应性(VUDA)方法来提高视频模型的鲁棒性和可传递性。尽管模型鲁棒性有所改进,但这些VUDA方法仍需要访问源数据和源模型参数以进行适应,从而提高了严重的数据隐私和模型可移植性问题。为了应对上述问题,本文首先将Black-Box视频域的适应(BVDA)制定为更现实但具有挑战性的场景,在该场景中,仅作为Black-Box预测器提供了源视频模型。尽管在图像域中提出了一些针对黑框域适应性(BDA)的方法,但这些方法不能适用于视频域,因为视频模式具有更复杂的时间特征,难以对齐。为了解决BVDA,我们通过应用蒙版到混合策略和视频量的正则化:内部正规化和外部正规化,提出了一个新颖的内野和外部正规化网络(EXTERS),在剪辑和时间特征上执行,并进行外部正规化,同时将知识从从黑框预测变量获得的预测中提炼出来。经验结果表明,在各种跨域封闭设置和部分集合动作识别基准中,外部的最先进性能甚至超过了具有源数据可访问性的大多数现有视频域适应方法。
translated by 谷歌翻译
随着智能设备产生的数据快速增长以及物联网(IoT)时代的处理需求的指数激增,资源丰富的云中心已被用来应对这些挑战。为了减轻云中心的负担,边缘云计算卸载成为一个有前途的解决方案,因为通过将计算任务从云到边缘设备缩小计算任务可以改善性能和服务质量(QOS),从而缩短了数据源和计算之间的接近度。已经提出了几种Edge-Cloud计算卸载的优化模型,以考虑计算成本和异质通信成本。但是,没有共同考虑几个重要因素,例如任务的异质性,节点之间的负载平衡以及计算任务所产生的利润,这导致了本文提出的PECCO的利润和面向成本的计算。考虑到该模型本质上很难并且优化目标是无可分析的,我们提出了改进的蛾式优化器PECCO-MFI,该pecco-MFI解决了原始的moth-flame优化器的某些缺陷,并将其集成在边缘环境下。在优化边缘云环境下提议的任务卸载模型时,进行了全面的实验,以验证所提出的方法的出色性能。
translated by 谷歌翻译
在医学图像上,许多组织/病变可能模棱两可。这就是为什么一群临床专家通常会注释医疗细分以减轻个人偏见的原因。但是,这种临床常规也为机器学习算法的应用带来了新的挑战。如果没有确定的基础真相,将很难训练和评估深度学习模型。当从不同的级别收集注释时,一个共同的选择是多数票。然而,这样的策略忽略了分级专家之间的差异。在本文中,我们考虑使用校准的观察者间的不确定性来预测分割的任务。我们注意到,在临床实践中,医学图像分割通常用于帮助疾病诊断。受到这一观察的启发,我们提出了诊断优先的原则,该原则是将疾病诊断作为校准观察者间分段不确定性的标准。遵循这个想法,提出了一个名为诊断的诊断框架(DIFF)以估算从原始图像中进行诊断,从原始图像进行诊断。特别是,DIFF将首先学会融合多论者分段标签,以最大程度地提高单个地面真相疾病诊断表现。我们将融合的地面真相称为诊断第一基地真实(DF-GT)。我们验证了DIFF对三个不同的医学分割任务的有效性:对眼底图像的OD/OC分割,超声图像上的甲状腺结节分割以及皮肤镜图像上的皮肤病变分割。实验结果表明,拟议的DIFF能够显着促进相应的疾病诊断,这表现优于先前的最先进的多评论者学习方法。
translated by 谷歌翻译
卷积神经网络(CNN)已被证明在肺结核检测领域非常有效。但是,现有的基于CNN的肺结核检测方法缺乏捕获长期依赖性的能力,这对于全局信息提取至关重要。在计算机视觉任务中,非本地操作已被广泛使用,但是对于3D计算机断层扫描(CT)图像,计算成本可能很高。为了解决这个问题,我们提出了一个长的短切片网络(LSSANET),用于检测肺结核。特别是,我们开发了一种称为长短切片组(LSSG)的新的非本地机制,该机制将紧凑的非本地嵌入分裂为一个短距离切片,分组为一和长距离切片。这不仅减轻了计算负担,而且还可以在切片和整个功能图中保持长期依赖性。提出的LSSG易于使用,可以插入许多肺结核检测网络中。为了验证LSSANET的性能,我们将基于2D/3D CNN的几种最近提出的竞争检测方法进行比较。大规模PN9数据集的有希望的评估结果证明了我们方法的有效性。代码在https://github.com/ruixxxx/lssanet上。
translated by 谷歌翻译
最近,图神经网络显示了建模基于网络的推荐系统中复杂拓扑结构的优势。由于节点之间的各种相互作用以及来自各种类型的节点和边缘的大量语义,因此在多重异质网络中学习表达性节点表示的研究兴趣爆发。推荐系统中最重要的任务之一是预测特定边缘类型下两个节点之间的潜在连接(即关系)。尽管现有的研究利用明确的元数据来汇总邻居,但实际上,它们仅考虑了关系内部的元数据,因此无法通过相互关联信息来利用潜在的提升。此外,在各种关系下,尤其是在越来越多的节点和边缘类型的情况下,全面利用相互关系的元数据并不总是直接的。此外,两个节点之间不同关系的贡献很难衡量。为了应对挑战,我们提出了Hybridgnn,这是一种具有混合聚集流和分层的端到端GNN模型,以在多路复用方案中充分利用异质性。具体而言,Hybridgnn应用了一个随机的关系探索模块来利用不同关系之间的多重性属性。然后,我们的模型利用在关系内的元数据和随机探索下的混合聚集流以学习丰富的语义。为了探索不同聚合流的重要性并利用多重性属性,我们提出了一个新型的分层注意模块,该模块既利用了Metapath级别的注意力和关系级的关注。广泛的实验结果表明,与几个最先进的基线相比,Hybridgnn取得了最佳性能。
translated by 谷歌翻译
模仿学习从专家轨迹中学习政策。尽管据信专家数据对于模仿质量至关重要,但发现一种模仿学习方法,对抗性模仿学习(AIL)可以具有出色的性能。只需仅仅在一个专家轨迹上,即使在诸如运动控制之类的任务上,AIL也可以符合专家的性能。这种现象有两个神秘的要点。首先,为什么AIL只能使用几个专家轨迹表现良好?其次,尽管计划范围的时间长,但为什么AIL仍能保持良好的性能?在本文中,我们从理论上探讨了这两个问题。对于总基于差异的ail(称为TV-ail),我们的分析显示了一个无水平的模仿差距$ \ MATHCAL O(\ {\ {\ min \ {1,\ sqrt {| \ Mathcal S |/n} \})$在从运动控制任务中抽象的一类实例上。这里$ | \ Mathcal S | $是表格Markov决策过程的状态空间大小,而$ n $是专家轨迹的数量。我们强调了界限的两个重要特征。首先,在小样本制度中,这种界限都是有意义的。其次,这一界限表明,无论计划范围如何,电视填充的模仿缝隙最多都是1。因此,这种结合可以解释经验观察。从技术上讲,我们利用了电视填充中多阶段策略优化的结构,并通过动态编程提出了新的舞台耦合分析
translated by 谷歌翻译
本文解决了新型类别发现(NCD)的问题,该问题旨在区分大规模图像集中的未知类别。 NCD任务由于与现实世界情景的亲密关系而具有挑战性,我们只遇到了一些部分类和图像。与NCD上的其他作品不同,我们利用原型强调类别歧视的重要性,并减轻缺少新颖阶级注释的问题。具体而言,我们提出了一种新型的适应性原型学习方法,该方法由两个主要阶段组成:原型表示学习和原型自我训练。在第一阶段,我们获得了一个可靠的特征提取器,该功能提取器可以为所有具有基础和新颖类别的图像提供。该功能提取器的实例和类别歧视能力通过自我监督的学习和适应性原型来提高。在第二阶段,我们再次利用原型来整理离线伪标签,并训练类别聚类的最终参数分类器。我们对四个基准数据集进行了广泛的实验,并证明了该方法具有最先进的性能的有效性和鲁棒性。
translated by 谷歌翻译
对用户偏好的演变进行建模对于推荐系统至关重要。最近,已经研究并实现了基于图形的动态方法以供推荐使用,其中大多数侧重于用户稳定的长期偏好。但是,在实际情况下,用户的短期偏好会随着时间的流逝而动态发展。尽管存在试图捕获它的顺序方法,但是如何使用基于动态图的方法对短期偏好的演变进行建模尚未得到很好的认可。特别是:1)现有方法不会像顺序方法一样明确编码和捕获短期偏好的演变; 2)简单地使用最后几个交互不足以建模变化的趋势。在本文中,我们提出了连续时间顺序推荐(LSTSR)的长期短期偏好模型(LSTSR),以捕获动态图下短期偏好的演变。具体而言,我们明确编码短期优先偏好并通过内存机制进行优化,该内存机制具有三个关键操作:消息,汇总和更新。我们的内存机制不仅可以存储单跳信息,而且还可以通过在线新的交互触发。在五个公共数据集上进行的广泛实验表明,LSTSR始终优于各种线路上许多最先进的建议方法。
translated by 谷歌翻译
无监督的生成的虚拟人类具有各种外观和动画姿势对于创建3D人体化身和其他AR/VR应用非常重要。现有方法要么仅限于刚性对象建模,要么不生成,因此无法合成高质量的虚拟人类并使它们进行动画化。在这项工作中,我们提出了Avatargen,这是第一种不仅可以具有不同外观的非刚性人类产生的方法,而且还可以完全控制姿势和观点,同时仅需要2D图像进行训练。具体而言,它通过利用粗糙的人体模型作为代理将观察空间扭曲到规范空间下的标准头像,将最近的3D甘斯扩展到了人类的衣服。为了建模非刚性动力学,它引入了一个变形网络,以学习规范空间中的姿势依赖性变形。为了提高生成的人类化身的几何质量,它利用签名距离字段作为几何表示,从而可以从几何学学习上的身体模型中进行更直接的正则化。从这些设计中受益,我们的方法可以生成具有高质量外观和几何形状建模的动画人体化身,从而极大地表现了先前的3D gan。此外,它有能力用于许多应用,例如单视重构造,复活和文本引导的合成。代码和预培训模型将可用。
translated by 谷歌翻译
本文提出了一个新颖的分布(OOD)检测框架,名为MoodCat用于图像分类器。MoodCat掩盖了输入图像的随机部分,并使用生成模型将蒙版图像合成为在分类结果条件下的新图像中。然后,它计算原始图像与合成图像之间的语义差异。与现有的解决方案相比,MoodCat自然会使用拟议的面具和条件合成策略来学习分布数据的语义信息,这对于识别OOD至关重要。实验结果表明,MoodCat的表现优于最先进的OOD检测解决方案。
translated by 谷歌翻译