无监督域适应(UDA)解决了由于训练和测试集之间的域转换而导致的性能退化问题,这在计算机视觉应用中是常见的。大多数现有的UDA方法都是基于矢量形式的数据,尽管可视化应用中的典型数据或特征格式是多维张量。此外,目前的方法,包括深度网络方法,假设提供了丰富的标记源样本用于训练。然而,由于在实践中昂贵的注释成本,标记的源样本的数量总是有限的,使得观察到次优性能。在本文中,我们建议通过学习张量空间中的结构化字典来寻求多维数据的判别表示。字典分离特定于域的信息和特定于类的信息,以保证对域的鲁棒性。此外,开发了一种伪标签估计方案,在算法迭代中结合了判别分析,避免了外部分类器的设计。我们在具有有限源样本的不同数据集上执行广泛的结果。实验结果表明,所提出的方法优于最先进的方法。
translated by 谷歌翻译
光谱计算机断层扫描(CT)的潜在巨大优势是其能够提供准确的材料识别和定量组织信息。这有利于临床应用,如脑血管造影,早期肿瘤识别等。为了实现更高精度的材料成分和更高的材料图像质量,本文开发了基于字典学习的光谱CT图像域材料分解(DLIMD)。首先,我们从投影重建光谱CT图像,并通过从图像重建结果中选择基础材料的均匀区域来计算材料系数矩阵。其次,我们采用直接反演(DI)方法获得初始材料分解结果,并且通过K-SVD技术从标准化材料图像张量的模式-1展开中提取一组图像块,以组合联合字典。第三,通过构建DLIMD模型,训练有素的词典用于探索分解材料图像的相似性。第四,更多约束(即,体积保存和材料图中每个像素的界限)进一步整合到模型中以提高材料分解的准确性。最后,物理体模和临床前实验都用于评估所提出的DLIMD在材料中的性能。分解准确性,材料图像边缘保存和特征恢复。
translated by 谷歌翻译
在这项工作中,我们提出了一个名为Region-Aware Network(RANet)的新型框架,用于实现人体姿势估计的反混淆,包括重度遮挡,附近人和对称外观。具体地,我们提出的方法解决了人体姿势估计的三个关键方面,即数据增强,特征学习和预测融合。首先,我们提出基于分析的数据增强(PDA)来生成具有混淆纹理的丰富数据。其次,我们不仅提出特征金字塔干(FPS)模块在较低阶段容忍更好的低级特征;但也结合了有效区域提取(ERE)模块来研究更好的人体特异性特征。第三,我们引入级联投票融合(CVS)以明确地利用可见性来排除偏转的预测并实现最终的精确姿态估计。实验结果证明了我们的方法对现有技术的优越性,对两个流行的基准数据集(包括MPII和LSP)进行了重大改进。
translated by 谷歌翻译
如今,几乎所有的在线订单都是通过手机,平板电脑和电脑等屏蔽设备进行的。随着物联网(IoT)和智能家电的快速发展,越来越多的无屏智能设备,例如智能扬声器和智能冰箱,出现在我们的日常生活中。他们开辟了新的互动方式,可以提供良好的机会,以吸引新客户并增加销售。然而,并非所有的项目都适合无屏幕购物,因为一些项目的外观在消费者决策中起着重要作用。典型的例子包括衣服,娃娃,包和鞋子。在本文中,我们的目的是推断每个项目在消费者决策中的出现意义,并确定适合无屏幕购物的项目组。具体而言,我们将问题表述为一个分类任务,预测一个项目的外观对人们的影响有重大影响。为了解决这个问题,我们从三个不同的视图中提取特征,即项目的内在属性,项目图像和用户评论,并通过众包收集一组必要的标签。然后,我们提出了一个迭代的半监督学习框架,其中包含三个精心设计的损失函数。我们对从在线零售巨头JD.com收集的真实交易数据集进行了大量实验。实验结果验证了该方法的有效性。
translated by 谷歌翻译
神经编码是系统神经科学中的核心问题之一,用于理解大脑如何处理来自环境的刺激,而且,它也是设计脑机接口算法的基石,其中需要解码传入刺激以获得更好的物理设备性能。传统上,用于解码视觉细胞的感兴趣的神经信号已经集中在fMRI数据上。然而,我们的视觉感知在称为神经尖峰的事件方面以毫秒的快速时间尺度运行。到目前为止,很少有使用尖峰进行解码的研究。在这里,我们通过开发一种基于深度神经网络的新型解码框架来实现这一目标,该神经网络称为尖峰图像解码器(SID),用于从实验记录的视网膜神经节细胞群中重建自然视觉场景,包括静态图像和动态视频。 SID是端到端解码器,其一端是神经尖峰,另一端是图像,可以直接训练,以便以高度准确的方式从尖峰重建视觉场景。此外,我们通过使用MNIST,CIFAR10和CIFAR100的图像数据集显示SID可以推广到任意图像。此外,通过预先训练的SID,可以借助于编码器解码任何动态视频,以实现尖峰的实时编码和解码视觉场景。总之,我们的结果为人工视觉系统的神经形态计算提供了新的视角,例如作为基于事件的视觉相机和视觉神经假体。
translated by 谷歌翻译
在训练神经网络模型时,记忆越来越成为瓶颈。尽管如此,与减少推理的存储器要求的大量文献相比,降低训练的总体存储器需求的技术的研究较少。在本文中,我们研究了一些基本问题:训练神经网络实际需要多少内存?为了回答这个问题,我们分析了两个代表性深度学习基准的整体内存使用情况 - 用于图像分类的WideResNet模型和用于机器翻译的DynamicConv Transformer模型 - 并全面评估了减少训练记忆要求的四种标准技术:(1)强加模型上的稀疏性,(2)使用低精度,(3)微型化,和(4)梯度检查点。我们探讨了这些隔离技术如何影响训练的峰值记忆和最终模型的质量,并探讨结合这些技术时产生的记忆,准确性和计算权衡。使用这些技术的适当组合,我们证明了它有可能减少在CIFAR-10上训练WideResNet-28-2所需的内存高达60.7x,精度降低0.4%,并减少在IWSLT'14德语到英语翻译时traina DynamicConv模型所需的内存到8.7倍,BLEU得分下降0.15。
translated by 谷歌翻译
最初提出图灵测试来检查机器的行为是否与人类无法区分。最流行和最实用的图灵测试是CAMTCHA,它通过提供类似识别的问题来区分算法和人类。最近深度学习的发展显着提高了算法在解决CAPTCHA问题方面的能力,迫使CAPTCHA设计者增加问题的复杂性。本研究试图利用算法的局限性来设计易于解决的强大CAPTCHA问题,而不是设计算法和人类难以解决的问题。具体来说,我们的数据分析观察到人类和算法表现出对视觉失真的不同脆弱性:对抗性扰动对于对人类友好的算法非常烦人。我们有动力在基于字符的问题中采用对抗扰动图像进行稳健的CAPTCHA设计。提出了多目标攻击,集合对抗训练和图像预处理可微近似三个模块,以解决基于字符的CAPTCHA破解的特点。定性和定量实验结果证明了所提出的解决方案的有效性。我们希望这项研究可以引发围绕CAPTCHA设计中的adversarialattack /防御的讨论,并激发未来尝试将算法限制用于实际使用。
translated by 谷歌翻译
本文提出了一个名为LocalDeep-Feature Alignment(LDFA)的无监督深度学习框架,用于降维。我们为每个数据样本构建了邻居,并从邻域学习了一个局部Stacked ContractiveAuto-encoder(SCAE)来提取局部深度特征。接下来,我们利用仿射变换将每个邻域的局部深度特征与全局特征对齐。此外,我们从LDFA中推导出一种方法,将新数据样本明确映射到学习到的低维空间子空间。 LDFA方法的优点是它可以学习数据样本集的局部和全局特征:本地SCAE捕获数据集中包含的局部特征,而全局对齐过程将邻域之间的相互依赖性编码为最终的低维特征表示。数据可视化,聚类和分类的实验结果表明,LDFA方法与几种众所周知的降维技术具有竞争性,深度学习中的开发局部性是一个值得探讨的研究课题。
translated by 谷歌翻译
在这项工作中,我们解决了立体声诊断的在线自适应问题,其中包括不断地将深度网络适应于在不同于源训练集的环境中记录的目标视频。为了解决这个问题,我们提出了一种新颖的在线Meta。学习模型withAdaption(OMLA)。我们的提案基于两个主要贡献。首先,为了减少源和目标特征分布之间的域转换,我们引入了一个源自BatchNormalization的在线特征对齐程序。其次,我们设计了一种元学习方法,该方法利用特征对齐在在线学习环境中实现更快的收敛。此外,我们提出了一种元预训练算法,以便获得源数据集的初始网络权重,从而有助于对未来数据流的适应。实验中,我们表明OMLA和元预训练帮助模型更快地适应新环境。我们的建议是在已经建立的KITTI数据集上进行评估的,我们在这里展示了我们的在线方法与批量设置中训练的艺术算法的竞争状态。
translated by 谷歌翻译
排名是电子商务推荐系统的核心任务,旨在向用户提供有序的项目列表。通常,从标记的数据集中获取排名函数以优化全局性能,其产生每个单独项目的排名分数。但是,它可能是最优的,因为评分函数单独应用于每个项目,并且没有明确考虑项目之间的相互影响,以及用户偏好或意图的差异。因此,我们提出了一种用于电子商务推荐系统的个性化情境感知重新排序模型。通过直接使用现有的排名特征向量,可以容易地将所提出的重新排序模型作为后续模块进行排序。它通过使用变换器结构有效地编码列表中所有项目的信息来直接优化整个推荐列表。具体而言,Transformer应用自我关注机制,直接模拟整个列表中任何项目对之间的全局关系。除此之外,我们引入个性化嵌入来模拟不同用户的特征分布之间的差异。在线基准测试和现实世界在线电子商务系统的实验结果证明了所提出的重新排序模型的显着改进。
translated by 谷歌翻译