通过推断培训数据中的潜在群体,最近的作品将不可用的注释不可用的情况引入不变性学习。通常,在大多数/少数族裔分裂下学习群体不变性在经验上被证明可以有效地改善许多数据集的分布泛化。但是,缺乏这些关于学习不变机制的理论保证。在本文中,我们揭示了在防止分类器依赖于培训集中的虚假相关性的情况下,现有小组不变学习方法的不足。具体来说,我们提出了两个关于判断这种充分性的标准。从理论和经验上讲,我们表明现有方法可以违反标准,因此未能推广出虚假的相关性转移。在此激励的情况下,我们设计了一种新的组不变学习方法,该方法构建具有统计独立性测试的组,并按组标签重新启动样本,以满足标准。关于合成数据和真实数据的实验表明,新方法在推广到虚假相关性转移方面显着优于现有的组不变学习方法。
translated by 谷歌翻译
基于深卷积神经网络(CNN)的面部识别表现出归因于提取的高判别特征的卓越精度性能。然而,经常忽略了深度学习模型(深度特征)提取的功能的安全性和隐私。本文提出了从深度功能中重建面部图像,而无需访问CNN网络配置作为约束优化问题。这种优化可最大程度地减少从原始面部图像中提取的特征与重建的面部图像之间的距离。我们没有直接解决图像空间中的优化问题,而是通过寻找GAN发电机的潜在向量来重新重新制定问题,然后使用它来生成面部图像。 GAN发电机在这个新颖的框架中起着双重作用,即优化目标和面部发电机的面部分布约束。除了新颖的优化任务之外,我们还提出了一条攻击管道,以基于生成的面部图像模拟目标用户。我们的结果表明,生成的面部图像可以达到最先进的攻击率在LFW上的最先进的攻击率在I型攻击下为0.1 \%。我们的工作阐明了生物识别部署,以符合隐私和安全政策。
translated by 谷歌翻译
我们建议以人为本的4D场景捕获(HSC4D)准确有效地创建一个动态的数字世界,其中包含大规模的室内场景,各种各样的人类动作以及人类与环境之间的丰富互动。 HSC4D仅使用车身安装的IMU和LIDAR,没有任何外部设备的限制和无图形地图,没有预构建的地图。考虑到IMU可以捕获人的姿势,但始终为长期使用而漂移,而LiDar对于全球本地化却是稳定的,但对于本地位置和方向而言,HSC4D使两个传感器通过联合优化和实现长期的有希望的结果相互补充。捕获。还探索了人与环境之间的关系,以使其相互作用更加现实。为了促进许多下游任务,例如AR,VR,机器人,自动驾驶等,我们提出了一个数据集,其中包含三个大型场景(1k-5k $ m^2 $),并具有准确的动态人类动作和位置。各种场景(攀岩馆,多层建筑,坡度等)以及挑战人类活动(锻炼,上下楼梯,攀岩等)展示了HSC4D的有效性和概括能力。数据集和代码可在http://www.lidarhumanmotion.net/hsc4d/上获得。
translated by 谷歌翻译
新兴的元应用需要人类手的可靠,准确和逼真的复制品,以便在物理世界中进行复杂的操作。虽然真实的人手代表了骨骼,肌肉,肌腱和皮肤之间最复杂的协调之一,但最先进的技术一致专注于仅建模手的骨架。在本文中,我们提出了Nimble,这是一种新型的参数手模型,其中包括缺少的密钥组件,将3D手模型带入了新的现实主义水平。我们首先在最近的磁共振成像手(MRI手)数据集上注释肌肉,骨骼和皮肤,然后在数据集中的单个姿势和受试者上注册一个体积模板手。敏捷由20个骨头组成,作为三角形网格,7个肌肉群作为四面体网眼和一个皮肤网。通过迭代形状的注册和参数学习,它进一步产生形状的混合形状,姿势混合形状和关节回归器。我们证明将敏捷性应用于建模,渲染和视觉推理任务。通过强制执行内部骨骼和肌肉以符合解剖学和运动学规则,Nimble可以使3D手动画为前所未有的现实主义。为了建模皮肤的外观,我们进一步构建了一个光度法,以获取高质量的纹理和正常地图,以模型皱纹和棕榈印刷。最后,敏捷还通过合成丰富的数据或直接作为推理网络中的可区分层来使基于学习的手姿势和形状估计受益。
translated by 谷歌翻译
眼科医生已经使用眼底图像筛选和诊断眼病。然而,不同的设备和眼科医生对眼底图像的质量产生了大的变化。低质量(LQ)降级的眼底图像在临床筛查中容易导致不确定性,并且通常会增加误诊的风险。因此,真实的眼底图像恢复值得研究。不幸的是,到目前为止,这项任务尚未探索真正的临床基准。在本文中,我们研究了真正的临床眼底图像恢复问题。首先,我们建立一个临床数据集,真实的眼底(RF),包括120个低质量和高质量(HQ)图像对。然后,我们提出了一种新型的变压器的生成对抗网络(RFRMANER)来恢复临床眼底图像的实际降级。我们网络中的关键组件是基于窗口的自我关注块(WSAB),其捕获非本地自我相似性和远程依赖性。为了产生更明显的令人愉悦的结果,介绍了一种基于变压器的鉴别器。在我们的临床基准测试中的广泛实验表明,所提出的rformer显着优于最先进的(SOTA)方法。此外,诸如船舶分割和光盘/杯子检测之类的下游任务的实验表明我们所提出的rformer益处临床眼底图像分析和应用。将发布数据集,代码和模型。
translated by 谷歌翻译
建模原子系统的能量和力是计算化学中的一个基本问题,有可能帮助解决世界上许多最紧迫的问题,包括与能源稀缺和气候变化有关的问题。这些计算传统上是使用密度函数理论进行的,这在计算上非常昂贵。机器学习有可能从天数或小时到秒从天数大幅提高这些计算的效率。我们建议球形通道网络(SCN)对原子能量和力进行建模。 SCN是一个图神经网络,节点代表原子并边缘其相邻原子。原子嵌入是使用球形谐波表示的一组球形函数,称为球形通道。我们证明,通过基于3D边缘方向旋转嵌入式,可以在保持消息的旋转模糊性的同时使用更多信息。虽然均衡性是理想的属性,但我们发现,通过在消息传递和聚合中放松这种约束,可以提高准确性。我们在大规模开放催化剂2020数据集中展示了最新的结果,这些数据集在能源和力量预测中,用于许多任务和指标。
translated by 谷歌翻译
降低(DR)在高维数据的视觉分析中起着至关重要的作用。 DR的主要目的是揭示隐藏的模式,这些模式位于固有的低维歧管上。但是,当歧管被某些有影响力的数据属性严重扭曲或隐藏时,DR通常会忽略重要模式。本文介绍了一个功能学习框架FEALM,旨在为非线性DR生成优化的数据投影集,以便在隐藏的歧管中捕获重要模式。这些投影产生了最大不同的最近邻居图,因此由此产生的DR结果显着差异。为了获得这种功能,我们设计了一种优化算法,并引入了一种新的图形差异度量,称为邻居形状差异。此外,我们开发交互式可视化,以帮助比较获得的DR结果和每个DR结果的解释。我们通过使用合成数据集和对现实世界数据集的多个案例研究进行实验来证明FEALM的有效性。
translated by 谷歌翻译
步态计划是一种通常应用于地面机器人的过程,例如四足机器人; Tilt-Rotor是一种新型的四型四个输入,不是其中之一。在控制倾斜 - 依赖反馈线性化的倾斜旋转时,预计倾斜角度(输入)将过度改变,这在应用程序中可能不会预期。为了帮助抑制倾斜角度的密集变化,在反馈线性化之前,将步态计划程序引入倾斜度。用户提前时间指定倾斜角度,而不是由控制规则给出。但是,基于这种情况,反馈线性化中的去耦矩阵对于某些态度,滚动角度和螺距角的组合可能是单数的。它阻碍了反馈线性化的进一步应用。因此,建立了两个彩色图定理,以最大程度地提高可接受的态度区域,在该区域中,滚动和音高的组合将产生可逆的去耦矩阵。然而,该定理过度限制了倾斜角度的选择,这可以排除一些可行的健壮步态。本文给出了广义的两个彩色图定理。所有健壮的步态都可以根据这种广义定理找到。分析了满足该广义的两个彩色图定理(违反两个彩色图定理)的三个步态的鲁棒性。结果表明,概括的两个颜色图定理完成了对倾斜旋转的稳健步态的搜索。
translated by 谷歌翻译
跨域推荐(CDR)可以帮助客户在不同域中找到更多令人满意的项目。现有的CDR模型主要使用普通用户或映射功能作为域之间的桥梁,但在充分利用跨域的额外知识方面的探索非常有限。在本文中,我们建议将CDR的知识图(kg)纳入,这使不同领域中的项目能够共享知识。为此,我们首先从Freebase KG构建了一个新的数据集AmazonKG4CDR和Amazon评论数据的一个子集(两个域对:电影音乐,电影书籍)。这个新的数据集有助于将知识与CDR内部和跨域项目桥接。然后,我们提出了一个新的框架,KG感知的神经集体矩阵分解(KG-NEUCMF),利用KG来丰富项目表示。它首先通过图形卷积自动编码器学习项目嵌入,以从kg中的相邻和高阶邻居中捕获域特异性和域一般知识。然后,我们最大程度地提高了从kg和用户项目矩阵中学到的项目嵌入之间的共同信息,以建立跨域关系以获得更好的CDR。最后,我们对新建的数据集进行了广泛的实验,并证明我们的模型明显优于表现最佳的基线。
translated by 谷歌翻译
图形神经网络(GNN)已被广泛用于表示图数据的表示。但是,对图形数据实际上获得多少性能GNN的理解有限。本文介绍了上下文弹出的GNN框架,并提出了两个平滑度指标,以测量从图形数据获得的信息的数量和质量。然后,一种称为CS-GNN的新型GNN模型旨在根据图的平滑度值改善图形信息的使用。证明CS-GNN比不同类型的真实图中现有方法获得更好的性能。
translated by 谷歌翻译