Devising procedures for auditing generative model privacy-utility tradeoff is an important yet unresolved problem in practice. Existing works concentrates on investigating the privacy constraint side effect in terms of utility degradation of the train on synthetic, test on real paradigm of synthetic data training. We push such understanding on privacy-utility tradeoff to next level by observing the privacy deregulation side effect on synthetic training data utility. Surprisingly, we discover the Utility Recovery Incapability of DP-CTGAN and PATE-CTGAN under privacy deregulation, raising concerns on their practical applications. The main message is Privacy Deregulation does NOT always imply Utility Recovery.
translated by 谷歌翻译
表格数据是信息时代的基础,并且已经进行了广泛的研究。最近的研究表明,基于神经的模型可有效学习表格数据的上下文表示。学习有效的上下文表示需要有意义的功能和大量数据。但是,当前的方法通常无法正确地从没有语义信息的功能中从功能中学习上下文表示。此外,由于数据集之间的差异,可以通过混合表格数据集扩大训练设置是很棘手的。为了解决这些问题,我们使用预先训练的语言模型来模拟表格数据,提出了一个新颖的框架PTAB。 PTAB通过三阶段处理来了解表格数据的上下文表示:模态转换(MT),掩盖语言微调(MF)和分类微调(CF)。我们使用预训练的模型(PTM)初始化模型,其中包含从大规模语言数据中学到的语义信息。因此,可以在微调阶段有效地学习上下文表示。此外,我们可以自然地混合文本化的表格数据,以扩大训练集以进一步改善表示形式学习。我们在八个流行的表格分类数据集上评估PTAB。实验结果表明,与最先进的基线(例如XGBoost)相比,我们的方法在监督的设置中取得了更好的AUC分数,并且在半监视设置下的方法优于对应方法。我们提出可视化结果,显示PTAB具有基于实例的解释性。
translated by 谷歌翻译
我们引入了基于高斯工艺回归和边缘化图内核(GPR-MGK)的探索性主动学习(AL)算法,以最低成本探索化学空间。使用高通量分子动力学模拟生成数据和图神经网络(GNN)以预测,我们为热力学性质预测构建了一个主动学习分子模拟框架。在特定的靶向251,728个烷烃分子中,由4至19个碳原子及其液体物理特性组成:密度,热能和汽化焓,我们使用AL算法选择最有用的分子来代表化学空间。计算和实验测试集的验证表明,只有313个(占总数的0.124 \%)分子足以训练用于计算测试集的$ \ rm r^2> 0.99 $的精确GNN模型和$ \ rm rm r^2>>实验测试集0.94 $。我们重点介绍了提出的AL算法的两个优点:与高通量数据生成和可靠的不确定性量化的兼容性。
translated by 谷歌翻译
人类运动转移是指合成的照片现实和时间连贯的视频,使一个人能够模仿他人的运动。但是,当前的合成视频遭受了序列帧的时间不一致,这些框架显着降低了视频质量,但远未通过像素域中的现有方法来解决。最近,由于图像合成方法的频率不足,一些有关DeepFake检测的作品试图区分频域中的自然图像和合成图像。尽管如此,从自然和合成视频之间的频域间隙方面的各个方面研究合成视频的时间不一致。在本文中,我们建议深入研究频率空间,以进行时间一致的人类运动转移。首先,我们对频域中的自然和合成视频进行了首次综合分析,以揭示单个帧的空间维度和视频的时间维度的频率差距。为了弥补自然视频和合成视频之间的频率差距,我们提出了一个新型的基于频率的人类运动转移框架,名为Fremotr,该框架可以有效地减轻空间伪像以及合成视频的时间不一致。 Fremotr探索了两个基于频率的新型正则化模块:1)频域外观正则化(FAR),以改善个人在单个帧中的外观和2)时间频率正则化(TFR),以确保相邻框架之间的时间一致性。最后,全面的实验表明,FremoTR不仅在时间一致性指标中产生卓越的性能,而且还提高了合成视频的框架级视觉质量。特别是,时间一致性指标比最新模型提高了近30%。
translated by 谷歌翻译
组织分割是病理检查的主要主机,而手动描述则过于繁重。为了协助这一耗时和主观的手动步骤,研究人员已经设计了自动在病理图像中分割结构的方法。最近,自动化机器和基于深度学习的方法主导了组织分割研究。但是,大多数基于机器和深度学习的方法都是使用大量培训样本进行监督和开发的,其中PixelWise注释很昂贵,有时无法获得。本文通过将端到端的深层混合模型与有限的指标集成以获取准确的语义组织分割,从而引入了一种新颖的无监督学习范式。该约束旨在在计算优化函数期间集中深层混合模型的组成部分。这样做,可以大大减少当前无监督学习方法中常见的多余或空的班级问题。通过对公共和内部数据集的验证,拟议的深度约束高斯网络在组织细分方面取得了更好的性能(Wilcoxon签名级测试)更好的性能(平均骰子得分分别为0.737和0.735),具有改善与其他现有的无监督分割方法相比。此外,该方法与完全监督的U-NET相比,提出的方法具有相似的性能(P值> 0.05)。
translated by 谷歌翻译
神经消息传递是用于图形结构数据的基本功能提取单元,它考虑了相邻节点特征在网络传播中从一层到另一层的影响。我们通过相互作用的粒子系统与具有吸引力和排斥力的相互作用粒子系统以及在相变建模中产生的艾伦 - 卡恩力进行建模。该系统是一个反应扩散过程,可以将颗粒分离为不同的簇。这会导致图形神经网络的艾伦 - 卡恩消息传递(ACMP),其中解决方案的数值迭代构成了消息传播。 ACMP背后的机制是颗粒的相变,该颗粒能够形成多群集,从而实现GNNS预测进行节点分类。 ACMP可以将网络深度推向数百个层,理论上证明了严格的dirichlet能量下限。因此,它提供了GNN的深层模型,该模型避免了GNN过度厚度的常见问题。具有高均匀难度的各种实际节点分类数据集的实验表明,具有ACMP的GNN可以实现最先进的性能,而不会衰减Dirichlet Energy。
translated by 谷歌翻译
可以用表面肌电图定制人类味道感觉。但是,在一个主题(源域)上培训的模式识别模型在其他主题(目标域)上不概括。为了提高使用SEMG数据开发的味觉感觉模型的普遍性和可转移性,在本研究中创新了两种方法:域正则化分析(DRCA)和与缩小质心(CPSC)的共形预测。在具有来自目标域的未标记数据的未标记数据中独立研究了这两种方法的有效性,并且在六个受试者上进行了相同的交叉用户适应管道。结果表明,与仅与源域数据培训的基线模型相比,DRCA改善了六个受试者的分类准确性;,虽然CPSC不保证准确性改进。此外,DRCA和CPSC的组合在六个受试者上呈现了统计学上显着的改进(P <0.05)。结合DRCA和CPSC的拟议策略表明其在解决SEMG的味觉识别应用中的交叉用户数据分布漂移方面的有效性。它还显示了更多交叉用户适应应用程序的潜力。
translated by 谷歌翻译
商业自主机器是一个蓬勃发展的扇区,它可能是下一个无处不在的计算平台,它是在个人计算机(PC),云计算和移动计算之后的。然而,缺少适用于自动机器的合适计算基板,许多公司被迫开发既不原则也不可扩展的临时计算解决方案。通过分析自动机器计算的需求,本文提出了数据流加速器体系结构(DAA),这是经典数据流原理的现代实例化,与自动机器软件的特性相匹配。
translated by 谷歌翻译
视频异常检测(VAD)在视频分析中一直是一个重要的主题。由于异常往往很少,它通常在半监督设置下解决,这需要使用纯正普通视频进行培训。为了避免疲惫的手动标签,我们受到人类感知异常的启发,并提出了一种使无人监督和端到端的VAD能够的主体框架。该框架基于两个关键观察:1)人类感知通常是局部的,即在感应异常时聚焦在局部前景及其背景下。因此,我们建议通过用通用知识定位前景,并设计一个区域本地化策略来利用本地背景。 2)经常发生的事件将塑造人类的常态定义,这激励我们设计了代理培训范式。它列举了一个深度神经网络(DNN)来学习使用未标记的视频的代理任务,并且经常发生的事件将在“模制”DNN中发挥主导作用。通过这种方式,培训损失差距将自动表现出很少看到的新颖事件作为异常。为了实施,我们探索各种代理任务以及经典和新兴DNN模型。对常用VAD基准的广泛评估使框架适用于不同代理任务或DNN模型,并证明其惊人的效果:它不仅优于现有的无监督解决方案,宽边值(8%至10%的AUROC增益),还达到了对最先进的半监督对手进行了可比或甚至卓越的性能。
translated by 谷歌翻译
Rankings are widely collected in various real-life scenarios, leading to the leakage of personal information such as users' preferences on videos or news. To protect rankings, existing works mainly develop privacy protection on a single ranking within a set of ranking or pairwise comparisons of a ranking under the $\epsilon$-differential privacy. This paper proposes a novel notion called $\epsilon$-ranking differential privacy for protecting ranks. We establish the connection between the Mallows model (Mallows, 1957) and the proposed $\epsilon$-ranking differential privacy. This allows us to develop a multistage ranking algorithm to generate synthetic rankings while satisfying the developed $\epsilon$-ranking differential privacy. Theoretical results regarding the utility of synthetic rankings in the downstream tasks, including the inference attack and the personalized ranking tasks, are established. For the inference attack, we quantify how $\epsilon$ affects the estimation of the true ranking based on synthetic rankings. For the personalized ranking task, we consider varying privacy preferences among users and quantify how their privacy preferences affect the consistency in estimating the optimal ranking function. Extensive numerical experiments are carried out to verify the theoretical results and demonstrate the effectiveness of the proposed synthetic ranking algorithm.
translated by 谷歌翻译