对于有效的人机组织,机器人能够与人类运营商分享视觉感知是重要的。在恶劣的远程协作设置中,可以利用诸如AutoEncoder的数据压缩技术以以紧凑的形式以潜在变量获得和发送数据。另外,为了确保即使在不稳定环境下的实时运行时间性能,需要任何时间估计方法,其可以从不完整的信息重建完整内容。在这种情况下,我们提出了一种潜在变量的归档方法,其元素部分地丢失。要实现AnyTime属性,只有少数变量维度,利用类别级的先前信息至关重要。无论每个训练数据点的标签如何,简单地假设变形自身额外器中使用的先前分布是各向同性的高斯。这种类型的扁平事先使得难以从类别级分布中执行估算。我们通过利用潜在空间中的特定类别的多模态之前分发来克服此限制。通过根据剩余元素查找特定模态,可以采样部分传输数据的缺失元素。由于该方法旨在使用部分元素进行任何时间估计,因此它也可以应用于数据过压缩。基于ModelNet和Pascal3D数据集的实验,所提出的方法在AutoEncoder和变形式自动探测器上始终如一地呈现出高达70%的数据丢失。
translated by 谷歌翻译
多模式学习是建立模型的框架,这些模型可以根据不同类型的方式进行预测。多模式学习中的重要挑战是通过这些表示从任意模式和跨模式产生的共同表示形式推断;但是,实现这一目标需要考虑多模式数据的异质性质。近年来,深层生成模型,即通过深层神经网络参数化的生成模型引起了很多关注,尤其是变异自动编码器,这些自动编码器适合于实现上述挑战,因为它们可以考虑异质性并推断出数据的良好表示。。因此,近年来已经提出了基于变异自动编码器的各种多模式生成模型,称为多模式深生成模型。在本文中,我们提供了对多模式深生成模型研究的分类调查。
translated by 谷歌翻译
统计模型是机器学习的核心,具有广泛适用性,跨各种下游任务。模型通常由通过最大似然估计从数据估计的自由参数控制。但是,当面对现实世界数据集时,许多模型运行到一个关键问题:它们是在完全观察到的数据方面配制的,而在实践中,数据集会困扰缺失数据。来自不完整数据的统计模型估计理论在概念上类似于潜在变量模型的估计,其中存在强大的工具,例如变分推理(VI)。然而,与标准潜在变量模型相比,具有不完整数据的参数估计通常需要估计缺失变量的指数 - 许多条件分布,因此使标准的VI方法是棘手的。通过引入变分Gibbs推理(VGI),是一种新的通用方法来解决这个差距,以估计来自不完整数据的统计模型参数。我们在一组合成和实际估算任务上验证VGI,从不完整的数据中估算重要的机器学习模型,VAE和标准化流程。拟议的方法,同时通用,实现比现有的特定模型特定估计方法竞争或更好的性能。
translated by 谷歌翻译
当前独立于域的经典计划者需要问题域和实例作为输入的符号模型,从而导致知识采集瓶颈。同时,尽管深度学习在许多领域都取得了重大成功,但知识是在与符号系统(例如计划者)不兼容的亚符号表示中编码的。我们提出了Latplan,这是一种无监督的建筑,结合了深度学习和经典计划。只有一组未标记的图像对,显示了环境中允许的过渡子集(训练输入),Latplan学习了环境的完整命题PDDL动作模型。稍后,当给出代表初始状态和目标状态(计划输入)的一对图像时,Latplan在符号潜在空间中找到了目标状态的计划,并返回可视化的计划执行。我们使用6个计划域的基于图像的版本来评估LATPLAN:8个插头,15个式嘴,Blockworld,Sokoban和两个LightsOut的变体。
translated by 谷歌翻译
基于自动编码器的降低订购建模(ROM)最近由于其捕获基本非线性特征的能力而引起了极大的关注。但是,两个关键缺点严重破坏了其对各种物理应用的可伸缩性:纠缠和无法解释的潜在变量(LVS)和潜在空间维度的眼罩确定。在这方面,本研究提出了仅使用$ \ beta $ - variational AutoCododer提取的可解释和信息密集型LV的物理感知ROM,在本文中被称为物理意识的LV。为了提取这些LV,它们的独立性和信息强度在二维跨音速基准问题中进行了定量检查。然后,对物理意识的LV的物理含义进行了彻底的研究,我们确认,使用适当的超参数$ \ beta $,它们实际上对应于训练数据集的生成因子,马赫数和攻击角度。据作者所知,我们的工作是第一个实际上确认$ \ beta $ variational自动编码器可以自动提取应用物理领域的物理生成因子。最后,将仅利用物理意识的LVS的物理学意识ROM与常规ROM进行了比较,并且成功验证了其有效性和效率。
translated by 谷歌翻译
We propose a novel method for 3D shape completion from a partial observation of a point cloud. Existing methods either operate on a global latent code, which limits the expressiveness of their model, or autoregressively estimate the local features, which is highly computationally extensive. Instead, our method estimates the entire local feature field by a single feedforward network by formulating this problem as a tensor completion problem on the feature volume of the object. Due to the redundancy of local feature volumes, this tensor completion problem can be further reduced to estimating the canonical factors of the feature volume. A hierarchical variational autoencoder (VAE) with tiny MLPs is used to probabilistically estimate the canonical factors of the complete feature volume. The effectiveness of the proposed method is validated by comparing it with the state-of-the-art method quantitatively and qualitatively. Further ablation studies also show the need to adopt a hierarchical architecture to capture the multimodal distribution of possible shapes.
translated by 谷歌翻译
近年来,深度学习(DL)方法的流行程度大大增加。尽管在图像数据的分类和操纵中证明了其最初的成功,但DL方法应用于生物医学科学中的问题的应用已显着增长。但是,生物医学数据集中缺失数据的较高流行率和复杂性对DL方法提出了重大挑战。在这里,我们在变化自动编码器(VAE)的背景下提供了对缺失数据的正式处理,这是一种普遍用于缩小尺寸,插补和学习复杂数据的潜在表示的流行无监督的DL体系结构。我们提出了一种新的VAE架构Nimiwae,这是第一个在训练时在输入功能中灵活解释可忽视和不可忽视的缺失模式之一。训练后,可以从缺失数据的后验分布中得出样本,可用于多个插补,从而促进高维不完整数据集的下游分析。我们通过统计模拟证明,我们的方法优于无监督的学习任务和插定精度的现有方法。我们以与12,000名ICU患者有关的EHR数据集的案例研究结束,该数据集具有大量诊断测量和临床结果,其中仅观察到许多特征。
translated by 谷歌翻译
近年来,深度学习(DL)方法的流行程度急剧增加,并且在生物医学科学中的监督学习问题中的应用显着增长。但是,现代生物医学数据集中缺失数据的较高流行率和复杂性对DL方法提出了重大挑战。在这里,我们在深入学习的广义线性模型的背景下,对缺失数据进行了正式处理,这是一种监督的DL架构,用于回归和分类问题。我们提出了一种新的体系结构,即\ textit {dlglm},这是第一个能够在训练时在输入功能和响应中灵活地说明忽略和不可忽视的缺失模式之一。我们通过统计模拟证明,我们的方法在没有随机(MNAR)缺失的情况下胜过现有的监督学习任务方法。我们从UCI机器学习存储库中对银行营销数据集进行了案例研究,在该数据集中我们预测客户是否基于电话调查数据订阅了产品。
translated by 谷歌翻译
一个著名的矢量定量变分自动编码器(VQ-VAE)的问题是,学识渊博的离散表示形式仅使用代码书的全部容量的一小部分,也称为代码书崩溃。我们假设VQ-VAE的培训计划涉及一些精心设计的启发式方法,这是这个问题的基础。在本文中,我们提出了一种新的训练方案,该方案通过新颖的随机去量化和量化扩展标准VAE,称为随机量化变异自动编码器(SQ-VAE)。在SQ-VAE中,我们观察到一种趋势,即在训练的初始阶段进行量化是随机的,但逐渐收敛于确定性量化,我们称之为自宣传。我们的实验表明,SQ-VAE在不使用常见启发式方法的情况下改善了代码书的利用率。此外,我们从经验上表明,在视觉和语音相关的任务中,SQ-VAE优于VAE和VQ-VAE。
translated by 谷歌翻译
Making sense of multiple modalities can yield a more comprehensive description of real-world phenomena. However, learning the co-representation of diverse modalities is still a long-standing endeavor in emerging machine learning applications and research. Previous generative approaches for multimodal input approximate a joint-modality posterior by uni-modality posteriors as product-of-experts (PoE) or mixture-of-experts (MoE). We argue that these approximations lead to a defective bound for the optimization process and loss of semantic connection among modalities. This paper presents a novel variational method on sets called the Set Multimodal VAE (SMVAE) for learning a multimodal latent space while handling the missing modality problem. By modeling the joint-modality posterior distribution directly, the proposed SMVAE learns to exchange information between multiple modalities and compensate for the drawbacks caused by factorization. In public datasets of various domains, the experimental results demonstrate that the proposed method is applicable to order-agnostic cross-modal generation while achieving outstanding performance compared to the state-of-the-art multimodal methods. The source code for our method is available online https://anonymous.4open.science/r/SMVAE-9B3C/.
translated by 谷歌翻译
对于许多应用科学来说,高维数据中缺少值的存在是无处不在的问题。许多可用的数据挖掘和机器学习方法的严重限制是它们无法处理部分缺失的值,因此结合插补和模型估计的集成方法对于下游分析至关重要。引入了一种称为EMFLOW的计算快速算法,该算法通过使用归一化流量(NF)模型,通过在线版本的期望最大化(EM)算法在潜在空间中执行插补,该模型将数据空间映射到潜在空间。提出的EMFLOW算法是迭代的,涉及更新在线EM和NF的参数。就算法收敛的预测准确性和速度而言,提供了高维多元和图像数据集的广泛实验结果,以说明EMFLOW的出色性能。我们为所有实验提供代码。
translated by 谷歌翻译
从高维观测数据中提取低维潜在空间对于在提取的潜在空间上构建具有世界模型的实时机器人控制器至关重要。但是,没有建立的方法可以自动调整潜在空间的尺寸,因为它发现了必要和充分的尺寸大小,即世界模型的最小实现。在这项研究中,我们分析并改善了基于Tsallis的变异自动编码器(Q-VAE),并揭示,在适当的配置下,它始终有助于使潜在空间稀疏。即使与最小的实现相比,预先指定的潜在空间的尺寸是多余的,这种稀疏也会崩溃不必要的尺寸,从而易于删除它们。我们通过提出的方法在实验中验证了稀疏性的好处,它可以轻松地使用需要六维状态空间的移动操纵器找到必要和足够的六个维度。此外,通过在提取的维度中学习的最低实现世界模型的计划,该提出的方法能够实时发挥最佳的动作序列,从而将达到的成就时间降低了约20%。随附的视频已上传到YouTube:https://youtu.be/-qjitrnxars上
translated by 谷歌翻译
异常检测是指识别偏离正常模式的观察,这是各个领域的活跃研究区域。最近,数据量表越来越多,复杂性和维度将传统的表示和基于统计的异常检测方法变得具有挑战性。在本文中,我们利用了高光谱图像异常检测的生成模型。 GIST是模拟正常数据的分布,而分布外样品可以被视为异常值。首先,研究了基于变分的基于异常的检测方法。理论上和经验地发现它们由于距离强烈的概念($ F $ -divergence)作为正则化而不稳定。其次,本文介绍了切片的Wasserstein距离,与F分歧相比,这是一种较弱的分布措施。然而,随机切片的数量难以估计真正的距离。最后,我们提出了一个投影的切片Wasserstein(PSW)基于AutoEncoder的异常筛选方法。特别是,我们利用计算友好的特征分解方法来找到切片高维数据的主成分。此外,我们所提出的距离可以用闭合形式计算,即使是先前的分布也不是高斯。在各种现实世界高光谱异常检测基准上进行的综合实验证明了我们提出的方法的卓越性能。
translated by 谷歌翻译
使用人工智能(AI)以意图创建舞蹈编舞仍在早期。有条件生成舞蹈序列的方法在遵循编舞特定的创意意图的能力上仍然有限,通常依靠外部提示或监督学习。同样,完全注释的舞蹈数据集罕见且劳动密集型。为了填补这一空白,并帮助深入学习作为编舞者的有意义的工具,我们提出了“ Pirounet”,这是一种半监督的条件性复发性自动编码器以及舞蹈标签网络应用程序。 Pirounet允许舞蹈专业人士使用自己的主观创意标签注释数据,并根据其美学标准生成新的编舞。得益于提议的半监督方法,PirOnet仅需要标记数据集的一小部分,通常以1%的订单为单位。我们展示了Pirounet的功能,因为它基于“ Laban Time努力”生成原始的编排,这是一个既定的舞蹈概念,描述了动作时间动态的意图。我们通过一系列定性和定量指标广泛评估了Pirounet的舞蹈创作,从而证实了其作为编舞工具的适用性。
translated by 谷歌翻译
我们提出了一种自我监督的方法,以解除高维数据变化的因素,该因素不依赖于基本变化概况的先验知识(例如,没有关于要提取单个潜在变量的数量或分布的假设)。在我们称为nashae的方法中,通过促进从所有其他编码元素中恢复的每个编码元素和恢复的元素的信息之间的差异,在标准自动编码器(AE)的低维潜在空间中完成了高维的特征分离。通过将其作为AE和回归网络合奏之间的Minmax游戏来有效地促进了分解,从而估算了一个元素,该元素以对所有其他元素的观察为条件。我们将我们的方法与使用现有的分离指标进行定量比较。此外,我们表明Nashae具有提高的可靠性和增加的能力来捕获学习潜在表示中的显着数据特征。
translated by 谷歌翻译
医疗数据集通常由噪声和缺失数据损坏。这些缺失的模式通常被认为是完全随机的,而是在医学场景中,现实是,这些模式由于在一些时间或数据被收集的不alaled的不均匀方式中被收集的传感器而发生突发。本文建议使用异构数据类型和使用顺序变化自动码器(VAES)来模拟医疗数据记录和突发的缺失数据。特别是,我们提出了一种新的方法,SHI-VAE,其扩展了VAE的能力,使VAE的顺序数据流缺失了观察。我们将我们的模型与精密护理单元数据库(ICU)中的最先进的解决方案进行比较和被动人类监测的数据集。此外,我们发现诸如RMSE的标准错误指标不能得出足够的决定性,以评估时间模型,并包括在我们分析地面真理和算中信号之间的互相关。我们表明Shi-VAE在使用两个指标方面实现了最佳性能,而不是GP-VAE模型的计算复杂性较低,这是用于医疗记录的最先进的方法。
translated by 谷歌翻译
近年来,拥抱集群研究中的表演学习的深度学习技术引起了广泛的关注,产生了一个新开发的聚类范式,QZ。深度聚类(DC)。通常,DC型号大写AutoEncoders,以了解促进聚类过程的内在特征。如今,一个名为变变AualEncoder(VAE)的生成模型在DC研究中得到了广泛的认可。然而,平原VAE不足以察觉到综合潜在特征,导致细分性能恶化。本文提出了一种新的DC方法来解决这个问题。具体地,生成的逆势网络和VAE被聚结成了一种名为Fusion AutoEncoder(FAE)的新的AutoEncoder,以辨别出更多的辨别性表示,从而使下游聚类任务受益。此外,FAE通过深度剩余网络架构实施,进一步提高了表示学习能力。最后,将FAE的潜在空间转变为由深密神经网络的嵌入空间,用于彼此从彼此拉出不同的簇,并将数据点折叠在单个簇内。在几个图像数据集上进行的实验证明了所提出的DC模型对基线方法的有效性。
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
创建和编辑3D对象的形状和颜色需要巨大的人类努力和专业知识。与3D接口中的直​​接操作相比,诸如草图和涂鸦之类的2D交互对用户通常更自然和直观。在本文中,我们提出了一个通用的多模式生成模型,该模型通过共享的潜在空间耦合2D模式和隐式3D表示。通过提出的模型,通过简单地通过潜在空间从特定的2D控制模式传播编辑,可以实现多功能3D生成和操纵。例如,通过绘制草图来编辑3D形状,通过绘画颜色在2D渲染上重新色彩,或者在一个或几个参考图像中生成特定类别的3D形状。与先前的作品不同,我们的模型不需要每个编辑任务进行重新训练或微调,并且在概念上也很简单,易于实现,对输入域移动的强大,并且可以在部分2D输入中进行多样化的重建。我们在灰度线草图和渲染颜色图像的两种代表性2D模态上评估了我们的框架,并证明我们的方法可以通过以下2D模态实现各种形状的操纵和生成任务。
translated by 谷歌翻译
We present a unified probabilistic model that learns a representative set of discrete vehicle actions and predicts the probability of each action given a particular scenario. Our model also enables us to estimate the distribution over continuous trajectories conditioned on a scenario, representing what each discrete action would look like if executed in that scenario. While our primary objective is to learn representative action sets, these capabilities combine to produce accurate multimodal trajectory predictions as a byproduct. Although our learned action representations closely resemble semantically meaningful categories (e.g., "go straight", "turn left", etc.), our method is entirely self-supervised and does not utilize any manually generated labels or categories. Our method builds upon recent advances in variational inference and deep unsupervised clustering, resulting in full distribution estimates based on deterministic model evaluations.
translated by 谷歌翻译