未经授权远程访问来自网络摄像机的流式视频的风险突显了对更强大的隐私保护的需求。为此,我们模拟了一个无镜头编码孔径(CA)相机作为外观编码器,即第一层隐私保护。我们的目标是从编码孔径视频中进行人类动作识别,其编码孔径掩模未知并且不需要重建。我们通过使用基于相位相关和对数极坐标变换的不可逆运动特征来插入第二层隐私保护。相位相关对转换进行编码,而对数极坐标变换对面内旋转和缩放进行编码。 Weshow翻译功能的关键属性是掩码不变的。该属性允许我们通过消除对特定掩模设计的依赖来简化分类器的训练。基于UCF和NTUdatasets子集的结果显示了我们系统的可行性。
translated by 谷歌翻译
计算机视觉的最新进展是由大数据集上的高容量模型驱动的。不幸的是,由于需要大量的人力,创建具有像素级标签的大型数据集的成本非常高。在本文中,我们提出了一种快速创建像素精确语义标签映射的方法,用于从现代计算机游戏中提取的图像。尽管商业游戏的源代码和内部操作是不可访问的,但我们表明图像补丁之间的关联可以从游戏和图形硬件之间的通信中重新构建。这使得能够快速传播由游戏合成的语义标签和跨图像,而无法访问源代码或内容。我们通过为照片级真实世界计算机游戏合成的2.5万个图像生成密集像素级语义注释来验证所呈现的方法。对语义分割数据集的实验表明,使用获取的数据来补充真实世界的图像可以显着提高准确性,并且所获取的数据可以减少手工标记的真实世界数据:使用游戏数据训练的模型只有1/3的CamVid训练集胜出模型训练完整的CamVid训练集。
translated by 谷歌翻译
Pixel-level labelling tasks, such as semantic segmentation, play a centralrole in image understanding. Recent approaches have attempted to harness thecapabilities of deep learning techniques for image recognition to tacklepixel-level labelling tasks. One central issue in this methodology is thelimited capacity of deep learning techniques to delineate visual objects. Tosolve this problem, we introduce a new form of convolutional neural networkthat combines the strengths of Convolutional Neural Networks (CNNs) andConditional Random Fields (CRFs)-based probabilistic graphical modelling. Tothis end, we formulate mean-field approximate inference for the ConditionalRandom Fields with Gaussian pairwise potentials as Recurrent Neural Networks.This network, called CRF-RNN, is then plugged in as a part of a CNN to obtain adeep network that has desirable properties of both CNNs and CRFs. Importantly,our system fully integrates CRF modelling with CNNs, making it possible totrain the whole deep network end-to-end with the usual back-propagationalgorithm, avoiding offline post-processing methods for object delineation. Weapply the proposed method to the problem of semantic image segmentation,obtaining top results on the challenging Pascal VOC 2012 segmentationbenchmark.
translated by 谷歌翻译
从有限的感官数据中恢复高质量图像是一项具有挑战性的计算机视觉问题,近年来受到了极大的关注。特别是,基于深度学习,从编码器到生成模型的解决方案特别有效。然而,相对较少的工作集中在这种重建的稳健性方面,即产生逼真的图像伪像(称为幻觉)和量化不确定性。在这项工作中,我们开发了实验方法来解决这些问题,利用基于变异的基于编码器的生成对抗网络(VAE-GAN)作为概率图像恢复算法。我们通过探索与生成的重建相关的方差,偏差和误差来评估模型的输出分布。此外,我们通过检查输出的雅可比行列相对于混叠输入来执行特征分析,以更准确地确定哪些输入分量可能导致恶化的输出质量。使用膝关节MRI图像的数据集进行实验,并且结果表明诸如采样率,采集模型和损失函数之类的因素影响模型的稳健性。我们还得出结论,明智地选择超参数可以导致MRI图像的强大恢复。
translated by 谷歌翻译
以批准选票为基础的委员会组建涉及汇总个人对选民的批准。选民提交候选人的批准,并将这些批准汇总在一起,以达到指定规模的最佳委员会。文献中提出了几种聚合技术,这些技术在它们优化的标准函数方面各不相同。选民对候选人的偏好取决于他/她对候选人适用性的看法。我们注意到候选人具有使他/她适合或以其他方式适合的属性。因此,批准属性并选择具有已批准属性的候选者是相关的。本文讨论了选民在属性上提交批准时的委员会选择问题。虽然基于属性的偏好在几种情况下得到解决,但是早先没有尝试过具有属性批准的委员会选择问题。 Wenote认为,将候选人批准理论扩展到属性审批委员会选择问题并非易事。在本文中,我们研究了这个问题的不同方面,并表明当考虑基于属性的批准时,现有的聚合不会满足一致性和合理表示。我们提出了一种新的聚合规则,它满足上述两个特性。我们还提出了委员会选择问题的其他分析。
translated by 谷歌翻译
多标签学习涉及具有多个类标签的数据分类。这与传统的分类问题形成对比,在传统的分类问题中,每个数据实例都有一个标签。由于输出空间的指数化,在特征和标签空间中利用内在信息已成为近年来研究的主要推动力,并且参数化和嵌入的使用已成为主要关注点。研究人员已经研究了嵌入的几个方面,包括标签嵌入,inmputembedding,降维和特征选择。这些方法在捕获其他内在属性(如标签相关性,局部不变性等)的能力方面相互矛盾。我们假设输入数据形成组,因此,标签矩阵显示非常规模式,因​​此对应于同一组中对象的标签有类似的稀疏性。在本文中,我们研究了标签与组信息的嵌入,目的是建立一个有效的多标签分类。我们假设存在可以嵌入特征向量和标签向量的低维空间。为了达到这个目的,我们解决了三个子问题: (1)标签组的识别; (2)将标签向量嵌入低秩空间,使各组的稀疏性特征保持不变; (3)确定将特征向量嵌入到同一组点上的线性映射,如在阶段2中,在低维空间中。我们将我们的方法与12个基准数据集上的七个众所周知的算法进行比较。 Ourexperimental分析表明我们提出的方法超级算法的多标签学习的优越性。
translated by 谷歌翻译
我们提出了一种系统,用于根据指定艺术家的风格生成歌词。该系统使用带有艺术字符串的变分自动编码器。我们提出了艺术家嵌入的预训练,其中包括由CNN分类器学习的表达,该分类器被训练以基于其歌曲剪辑的MEL谱图来预测艺术家。这项工作是结合歌曲的音频和文本模式的第一步,用于生成艺术家风格的歌词。我们的初步结果表明,利用频谱图分类器所表示的表示来初始化艺术家的嵌入是有益的。
translated by 谷歌翻译
单目头部姿势估计需要学习从人脸的输入图像计算姿势(偏转,俯仰,滚动)的内在欧拉角的模型。在野外为图像注释地面实况头部姿势角度是困难的并且需要临时拟合程序(其仅提供粗略和近似注释)。这强调了对在受控环境中捕获的数据进行处理并且在野外概括图像(具有不同的外观和面部照明)的方法的需要。大多数情况下,直接在输入图像上学习回归函数的深度学习方法都不能这样做。为此,我们建议在使用深度学习架构时使用更高级别的表示来回归头部姿势。更具体地说,我们以五个面部关键点(即左耳,右耳,左眼,右眼和鼻子)的2Dsoft定位热图图像的形式使用不确定性图,并将它们传递通过卷积神经网络以回归头部姿势。我们在两个具有挑战性的基准BIWI和AFLW上显示头部姿势估计结果,并且我们的方法在两个数据集上都超过了现有技术。
translated by 谷歌翻译
语言模型是许多NLP问题的核心,对研究人员来说总是很有意义。神经语言模型具有分布式表示和远程上下文的优点。凭借其允许在网络内循环信息的特定动态,“Recurrentneural network”(RNN)成为神经语言建模的理想范例。长短期记忆(LSTM)架构解决了标准RNN在建模远程环境中的不足之处。尽管存在过多的RNN变量,但是很少有可能在LSTM节点中添加多个存储器单元。在这里,我们提出了LSTM的多小区节点架构,并研究了神经语言建模的适用性。所提出的多单元LSTM语言模型在众所周知的PennTreebank(PTB)设置上优于最先进的结果。
translated by 谷歌翻译
当代基于深度学习的医学图像分割算法需要领域专家进行注释劳动时间。这些数据饥饿的深度模型在存在有限数量的标记数据的情况下执行次优。在本文中,我们使用最近的生成对抗网络概念提出了一个数据有效的学习框架;这使得深度神经网络在低注释机制中的表现明显优于其完全受监督的对应物。所提出的方法是我们之前工作的扩展,增加了新的无监督对抗性损失和基于结构化预测的体系结构。据我们所知,这项工作是基于对抗框架的医学图像分割结构化预测模型的第一次演示。虽然是通用的,但我们将视网膜眼底图像中的血管方法应用于血管。我们用极低的注释预算(当前注释大小的0.8 - 1.6%)进行实验。在OnDRIVE和STARE数据集中,所提出的方法优于我们以前的方法和其他完全监督的基准模型,具有显着的边际,特别是具有非常少的注释示例。此外,我们的系统研究研究提出了一些关键配方,用于成功训练基于编码器 - 解码器式网络架构的基于GAN的半监督算法。
translated by 谷歌翻译