我们提出了一个统一的多人姿态估计和跟踪框架。我们的框架由两个主要组成部分组成,即空间网和TemporalNet。SpatialNet在单个框架中完成身体部位检测和部分级数据关联,而TemporalNet组连续帧中的人类实例进入轨迹。具体地,除了身体部位检测热图之外,SpatialNet还预测用于身体部位关联的关键点嵌入(KE)和空间实例嵌入(SIE)。我们将分组程序建模为可微分姿态引导分组(PGG)模块,使整个部分检测和分组管道完全端到端可训练。 TemporalNet将关键点的空间分组扩展到人类实例的时间分组。来自两个连续帧的人类提议,TemporalNet利用人类嵌入(HE)中编码的bothappearance特征和时间实例嵌入(TIE)中体现的时间一致几何特征来进行鲁棒跟踪。大量实验证明了我们提出的模型的有效性。值得注意的是,我们在ICCV'17 PoseTrack数据集上展示了从65.4%到71.8%的多目标跟踪精度(MOTA)的最先进的姿态跟踪方法的实质性改进。
translated by 谷歌翻译
为了解决深度生成模型学习中的挑战(例如,变分自动编码器的瑕疵和训练生成对抗网络的不稳定性,我们提出了一种新的深度生成模型,名为Wasserstein-Wasserstein自动编码器(WWAE)。我们制定了WWAE的最小化目标分布和生成的分布之间的惩罚最佳传输。通过注意到潜在代码Z的先前$ P_Z $和聚合后验$ Q_Z $可以被高斯人很好地捕获,所提出的WWAE利用方形的Wasserstein的封闭形式 - 因此,WWAE不会受到采样负担的影响,并且通过利用重新参数化技巧在计算上是有效的。数值结果在多个基准数据集上进行了评估,包括MNIST,时尚-MNIST和CelebA表明WWAE学习得更好。结构比VAE和生成更好的视觉质量和更高的样本r FID得分超过VAE和GAN。
translated by 谷歌翻译
在本文中,我们提出了一种简单但有效的方法来解决从单个RGB图像估计物体的6D姿势的问题。我们的系统训练一个新颖的卷积神经网络,从2D检测系统返回的边界框内的部分图像中回归单位四元数,代表3D旋转。然后我们提出了一种算法,我们称之为BoundingBox方程,使用3Drotation和2D边界框高效准确地获得3D平移。考虑到四元数的四个元素的二次和等于1,我们添加一个归一化层来保持单位球上网络的输出,并为单位四元数回归提出一个特殊的损失函数。我们在LineMod数据上评估我们的方法,实验表明我们的方法优于基线和一些最先进的方法。
translated by 谷歌翻译
保护用户隐私是机器学习中的一个重要问题,正如2018年5月在欧盟(EU)推出通用数据保护法规(GDPR)所证明的那样.GDPR旨在让用户更好地控制他们的个人数据,这促使我们在不违反用户隐私的情况下通过数据共享来探索机器学习框架。为了实现这一目标,在本文中,我们提出了一种新的无损隐私保护树增强系统,称为SecureBoost,用于教学设置。该联合学习系统允许学习过程通过具有部分公共用户样本但不同特征集的多方联合进行,其对应于垂直分区的虚拟数据集。 SecureBoost的一个优点是它提供与非隐私保护方法相同的精度,同时不会泄露每个私有数据提供者的信息。我们理论上证明SecureBoost框架与将数据集中到一个地方的其他非联合梯度树提升算法一样准确。此外,除了安全性证明之外,我们还讨论了使协议完全安全所需的条件。
translated by 谷歌翻译
最近关于数据库自然语言接口(NLIDB)的工作引起了人们的极大关注。 NLIDB允许用户使用自然语言而不是类似SQL的查询语言来搜索数据库。在保存用户免于学习查询语言的同时,与NLIDB的多圈交互通常涉及多个查询,其中上下文信息对于理解用户的查询意图是至关重要的。在本文中,我们解决了典型的上下文理解问题,称为后续查询分析。尽管存在不公正性,但由于两个主要障碍,后续查询分析尚未得到很好的研究:后续查询场景的多种性质以及缺乏高质量的数据集。我们的工作总结了典型的后续查询场景,并在120个表格上提供了一个新的FollowUp数据集,其中包含$ 1000 $查询三元组。此外,我们提出了一种新方法FANDA,它考虑了查询的结构,并采用了弱监督的多边缘学习的排名模型。 。 FollowUp的实验结果证明了FANDA在多个指标上的多个基线的优越性。
translated by 谷歌翻译
矩阵完成的重点是从一小部分遗传元素中恢复矩阵,并已在计算机视觉中获得累积关注。许多以前的方法将此问题表述为低秩矩阵近似问题。最近,已经提出了截断的核范数作为传统核范数的替代,以更好地估计矩阵的等级。截断核范数正则化(TNNR)方法适用于实际场景。然而,它对截断的奇异值的数量的选择敏感并且需要多次迭代。因此,本文提出了一种称为双加权截断核范数正则化(DW-TNNR)的修正方法,该方法分别为矩阵的行和列分配不同的权重,以加速收敛,具有可接受的性能。与TNNR相比,DW-TNNR对截断奇异值的数量更加稳健。本文不是采用TNNR第二步中的迭代更新方案,而是设计了一种有效的策略,该策略以简洁的形式使用梯度下降方式,在优化中具有理论上的保证。对实际数据进行的充分实验证明,DW-TNNR具有良好的性能,并且在矩阵完成的速度和精度方面具有优势。
translated by 谷歌翻译
最近,低等级张量完成在恢复不完整的视觉数据方面变得越来越有吸引力。考虑到彩色图像或视频作为三维(3D)张量,现有的研究已经提出了张量核范数的几种定义。然而,它们是有限的并且可能不准确地接近张量的实际等级,并且它们在优化中没有明确地使用低等级属性。事实证明,最近提出的截断核范数(TNN)可以取代传统的核范数,作为矩阵秩的改进近似。在本文中,我们提出了一种称为张量截断核范数(T-TNN)的新方法,它提出了张量核范数的新定义。截断的核范数从矩阵情形扩展到张量情形。在TNN低效的帮助下,我们的方法提高了张量完成的效率。我们采用了先前提出的张量奇异值分解的定义,乘法器的交替方向法,以及我们算法中的加速近端梯度线搜索方法。对真实世界视频和图像的实质性实验表明,我们的方法的性能优于以前的方法。
translated by 谷歌翻译
医学活动,如诊断,药物治疗和实验室测试,以及这些活动之间的时间关系是临床研究的基本概念。然而,现有的关系数据模型单电子病历(EMR)缺乏对这些概念的明确和准确的语义定义。这导致查询构造的不便以及经常需要多表连接查询的查询执行的低效率。在本文中,我们提出了一个患者事件图(PatientEG)模型来捕捉EMR的特征。我们分别定义了五种医学实体,五种医学事件和五种时间关系。基于所提出的模型,我们还使用来自上海曙光医院的EMR构建了一个包含191,294个事件,3,429个不同实体和545,993个时间关系的PATEEG数据集。为了帮助重整化包含同义词,同义词和缩写的实体值,我们将它们与中国生物医学知识图链接起来。在PATEGE数据集的帮助下,我们能够方便地进行复杂的查询,用于临床研究,如辅助诊断和治疗效果分析。此外,我们提供SPARQL端点来访问PatientEG数据,并且数据集也可在线公开获取。此外,我们在我们的网站上列出了几个例外的SPARQL查询。
translated by 谷歌翻译
提出了一种从自然图像中去除文本的新方法。挑战是首先在笔划级别上准确地定位文本,然后用视觉上合理的背景替换它。与先前需要图像补丁来擦除场景文本的方法不同,我们的方法,即ensconce网络(EnsNet),可以在没有任何先验知识的情况下在单个图像上端到端地操作。整体结构是端到端的可训练FCN- ResNet-18网络与非传统的生成对抗网络(cGAN)。前者的特点是首先通过一种新颖的横向连接结构得到增强,然后通过四种精心设计的损失进行细化:多尺度回归损失和内容丢失,从而捕获不同层次特征的全局差异;纹理损失和全部变异损失,主要是为了填充文本区域并保留背景的真实性。后者是一种新颖的本地敏感的GAN,它专注地评估文本擦除区域的局部一致性。对合成图像和ICDAR 2013数据集的定性和定量敏感性实验都表明,EnsNet的每个组成部分都是实现良好性能所必需的。此外,我们的EnsNet在allmetrics方面可以显着优于以前最先进的方法。此外,在SMBNet数据集上进行的定性实验进一步证明了所提出的方法也可以很好地预处理对象(例如行人)去除任务。 EnsNet非常快,可以在i5-8600 CPU设备上以333 fps的速度进行预测。
translated by 谷歌翻译
目前大多数检测方法都采用锚框作为回归参考。但是,检测性能对锚箱的设置很敏感。锚箱的正确设置可能在不同的数据集中显着变化,这严重限制了检测器的普遍性。为了提高探测器的自适应性,本文提出了一种新的维度分解区域提议网络(DeRPN),可以完全取代传统的区域提议网络(RPN)。 DeRPNutilizes一个锚链机制,以独立匹配对象的宽度和高度,这有助于处理变体对象的形状。此外,平衡尺度敏感损耗旨在解决不同尺度物体的不平衡损失计算,这可以避免较小物体被较大物体淹没。在一般物体检测数据集(Pascal VOC 2007,2012和MS COCO)和场景文本检测数据集(ICDAR 2013和COCO-Text)上进行的综合实验都证明我们的DeRPN可以显着优于RPN。值得一提的是,所提出的DeRPN可以直接用于不同的模型,任务和数据集,而无需任何超参数或专门优化的修改,这进一步证明了它的适应性。该代码将在以下网址发布://github.com/HCIILAB/DeRPN。
translated by 谷歌翻译