Muilti-Delicality数据在生物学中普遍存在,特别是我们进入了多OMICS时代,当我们可以测量来自不同方面(OMIC)的相同生物对象(单元)来提供更全面的洞察蜂窝系统。在处理此类多个OMICS数据时,第一步是确定不同模式之间的对应关系。换句话说,我们应该与与相同对象相对应的不同空格匹配数据。这个问题在单细胞多OMICS场景中特别具有挑战性,因为这种数据具有极高的尺寸。其次,匹配的单细胞多OMICS数据是罕见的且难以收集的。此外,由于实验环境的局限性,数据通常非常嘈杂。为了促进单细胞多OMICS研究,我们克服了上述挑战,提出了一种新颖的框架来对齐和集成单细胞RNA-SEQ数据和单细胞ATAC-SEQ数据。我们的方法可以通过在统一空间中有效地将上述数据与来自不同空间的高稀疏性和噪声从不同空间的噪声映射到低维歧管,使下游对准和直接集成。与其他最先进的方法相比,我们的方法在模拟和实际单细胞数据中执行更好。所提出的方法有助于单细胞多OMICS研究。对模拟数据集成的改进是显着的。
translated by 谷歌翻译
不完整的多视图聚类旨在通过使用来自多种模式的数据来增强聚类性能。尽管已经提出了几种研究此问题的方法,但以下缺点仍然存在:1)很难学习潜在的互补性但不使用标签信息而保持一致性的潜在表示; 2)因此,当完整的数据稀缺时,在不完整的数据中未能充分利用不完整数据中的隐藏信息会导致次优群集性能。在本文中,我们提出了与生成对抗网络(CIMIC-GAN)的对比度不完整的多视图图像聚类,该网络使用GAN填充不完整的数据并使用双对比度学习来学习完整和不完整的数据的一致性。更具体地说,考虑到多种方式之间的多样性和互补信息,我们将完整和不完整数据的自动编码表示为双对比度学习,以实现学习一致性。将gan集成到自动编码过程中不仅可以充分利用不完整数据的新功能,而且可以在存在高数据缺失率的情况下更好地概括该模型。在\ textColor {black} {四}广泛使用的数据集上进行的实验表明,cimic-gan优于最先进的不完整的多视图聚类方法。
translated by 谷歌翻译
Segmenting the fine structure of the mouse brain on magnetic resonance (MR) images is critical for delineating morphological regions, analyzing brain function, and understanding their relationships. Compared to a single MRI modality, multimodal MRI data provide complementary tissue features that can be exploited by deep learning models, resulting in better segmentation results. However, multimodal mouse brain MRI data is often lacking, making automatic segmentation of mouse brain fine structure a very challenging task. To address this issue, it is necessary to fuse multimodal MRI data to produce distinguished contrasts in different brain structures. Hence, we propose a novel disentangled and contrastive GAN-based framework, named MouseGAN++, to synthesize multiple MR modalities from single ones in a structure-preserving manner, thus improving the segmentation performance by imputing missing modalities and multi-modality fusion. Our results demonstrate that the translation performance of our method outperforms the state-of-the-art methods. Using the subsequently learned modality-invariant information as well as the modality-translated images, MouseGAN++ can segment fine brain structures with averaged dice coefficients of 90.0% (T2w) and 87.9% (T1w), respectively, achieving around +10% performance improvement compared to the state-of-the-art algorithms. Our results demonstrate that MouseGAN++, as a simultaneous image synthesis and segmentation method, can be used to fuse cross-modality information in an unpaired manner and yield more robust performance in the absence of multimodal data. We release our method as a mouse brain structural segmentation tool for free academic usage at https://github.com/yu02019.
translated by 谷歌翻译
Multi-view representation learning has developed rapidly over the past decades and has been applied in many fields. However, most previous works assumed that each view is complete and aligned. This leads to an inevitable deterioration in their performance when encountering practical problems such as missing or unaligned views. To address the challenge of representation learning on partially aligned multi-view data, we propose a new cross-view graph contrastive learning framework, which integrates multi-view information to align data and learn latent representations. Compared with current approaches, the proposed method has the following merits: (1) our model is an end-to-end framework that simultaneously performs view-specific representation learning via view-specific autoencoders and cluster-level data aligning by combining multi-view information with the cross-view graph contrastive learning; (2) it is easy to apply our model to explore information from three or more modalities/sources as the cross-view graph contrastive learning is devised. Extensive experiments conducted on several real datasets demonstrate the effectiveness of the proposed method on the clustering and classification tasks.
translated by 谷歌翻译
最近,自我监督的表示学习(SSRL)在计算机视觉,语音,自然语言处理(NLP)以及最近的其他类型的模式(包括传感器的时间序列)中引起了很多关注。自我监督学习的普及是由传统模型通常需要大量通知数据进行培训的事实所驱动的。获取带注释的数据可能是一个困难且昂贵的过程。已经引入了自我监督的方法,以通过使用从原始数据自由获得的监督信号对模型进行判别预训练来提高训练数据的效率。与现有的对SSRL的评论不同,该评论旨在以单一模式为重点介绍CV或NLP领域的方法,我们旨在为时间数据提供对多模式自我监督学习方法的首次全面审查。为此,我们1)提供现有SSRL方法的全面分类,2)通过定义SSRL框架的关键组件来引入通用管道,3)根据其目标功能,网络架构和潜在应用程序,潜在的应用程序,潜在的应用程序,比较现有模型, 4)查看每个类别和各种方式中的现有多模式技术。最后,我们提出了现有的弱点和未来的机会。我们认为,我们的工作对使用多模式和/或时间数据的域中SSRL的要求有了一个观点
translated by 谷歌翻译
自我监督学习(SSL)是一个新的范式,用于学习判别性表示没有标记的数据,并且与受监督的对手相比,已经达到了可比甚至最新的结果。对比度学习(CL)是SSL中最著名的方法之一,试图学习一般性的信息表示数据。 CL方法主要是针对仅使用单个传感器模态的计算机视觉和自然语言处理应用程序开发的。但是,大多数普遍的计算应用程序都从各种不同的传感器模式中利用数据。虽然现有的CL方法仅限于从一个或两个数据源学习,但我们提出了可可(Crockoa)(交叉模态对比度学习),这是一种自我监督的模型,该模型采用新颖的目标函数来通过计算多功能器数据来学习质量表示形式不同的数据方式,并最大程度地减少了无关实例之间的相似性。我们评估可可对八个最近引入最先进的自我监督模型的有效性,以及五个公共数据集中的两个受监督的基线。我们表明,可可与所有其他方法相比,可可的分类表现出色。同样,可可比其他可用标记数据的十分之一的基线(包括完全监督的模型)的标签高得多。
translated by 谷歌翻译
在3D动作识别中,存在骨骼模式之间的丰富互补信息。然而,如何建模和利用这些信息仍然是一个充满挑战的3D动作表示学习的问题。在这项工作中,我们将交叉模式相互作用作为双向知识蒸馏问题。不同于经典的蒸馏解决方案,这些解决方案将固定和预训练的教师的知识转移到学生中,在这项工作中,知识在模式之间不断更新和双向蒸馏。为此,我们提出了一个新的跨模式相互蒸馏(CMD)框架,并采用以下设计。一方面,引入了相邻的相似性分布来对每种模式中学习的知识进行建模,其中关系信息自然适合对比框架。另一方面,不对称的配置用于教师和学生来稳定蒸馏过程并在模式之间传递高信心信息。通过派生,我们发现以前作品中的跨模式阳性采矿可以被视为我们CMD的退化版本。我们对NTU RGB+D 60,NTU RGB+D 120和PKU-MMD II数据集执行了广泛的实验。我们的方法的表现优于现有的自我监督方法,并设置了一系列新记录。该代码可在以下网址找到:https://github.com/maoyunyao/cmd
translated by 谷歌翻译
哈希(Hashing)将项目数据投入二进制代码已显示出由于其储存量低和高查询速度而显示出跨模式检索的非凡人才。尽管在某些情况下取得了经验成功,但现有的跨模式散列方法通常不存在带有大量标记信息的数据时跨模式差距跨模式差距。为了避免以分裂和纠纷策略的激励,我们提出了深层的歧管散列(DMH),这是一种新颖的方法,是将半分配的无监督的交叉模式检索分为三个子问题,并建立一个简单而又简单而又又有一个简单的方法每个子问题的效率模型。具体而言,第一个模型是通过基于多种学习的半生数据补充的半生数据来构建的,用于获得模态不变的特征,而第二个模型和第三个模型旨在分别学习哈希码和哈希功能。在三个基准上进行的广泛实验表明,与最先进的完全配对和半成本无监督的跨模式散列方法相比,我们的DMH的优势。
translated by 谷歌翻译
本文从跨模式度量学习的角度来解决基于零点草图的图像检索(ZS-SBIR)问题。此任务具有两个特性:1)零拍摄设置需要具有良好的课堂紧凑性和识别新颖类别的课堂间差异的度量空间,而2)草图查询和照片库是不同的模态。从两个方面,公制学习视点益处ZS-SBIR。首先,它促进了深度度量学习(DML)中最近的良好实践的改进。通过在DML中结合两种基本学习方法,例如分类培训和成对培训,我们为ZS-SBIR设置了一个强大的基线。没有钟声和口哨,这种基线实现了竞争的检索准确性。其次,它提供了一个正确抑制模态间隙至关重要的洞察力。为此,我们设计了一种名为Domency Ippar Triplet硬挖掘(Mathm)的新颖方法。 Mathm增强了基线,具有三种类型的成对学习,例如跨模型样本对,模态样本对,以及它们的组合。\我们还设计了一种自适应加权方法,可以在动态训练期间平衡这三个组件。实验结果证实,Mathm根据强大的基线带来另一轮显着改进,并建立了新的最先进的性能。例如,在Tu-Berlin数据集上,我们达到了47.88 + 2.94%地图@全部和58.28 + 2.34%prip @ 100。代码将在:https://github.com/huangzongheng/mathm公开使用。
translated by 谷歌翻译
图像文本聚类(ITC)的目标是通过整合这些异质样品的多模式的互补和一致信息来找到正确的簇。但是,目前的大多数研究都根据理想的前提分析了ITC,即每种模式中的样本都是完整的。但是,在现实情况下,这种推定并不总是有效的。缺少的数据问题使图像文本特征学习性能退化,并最终会影响ITC任务中的概括能力。尽管已经提出了一系列方法来解决此不完整的图像文本群集问题(IITC),但仍然存在以下问题:1)大多数现有方法几乎不考虑异质特征域之间的明显差距。 2)对于缺少数据,很少保证由现有方法生成的表示形式适合聚类任务。 3)现有方法不利用内部和内部模式的潜在连接。在本文中,我们提出了一个聚类引起的生成不完整的图像文本聚类(CIGIT-C)网络,以应对上述挑战。更具体地说,我们首先使用特定于模态的编码器将原始功能映射到更独特的子空间。通过使用对抗生成网络在另一种模态上产生一种方式,可以彻底探索内部内部和模式之间的潜在连接。最后,我们使用两个KL DiverGence损失更新相应的模态特异性编码器。公共图像文本数据集的实验结果表明,建议的方法优于IITC作业更有效。
translated by 谷歌翻译
在不同工具或条件对给定现象的研究产生不同但相关的领域的情况下,多模式数据的整合提出了挑战。许多现有的数据集成方法假设整个数据集的域之间的一对一对应关系可能是不现实的。此外,现有的流形比对方法不适合数据包含特定区域区域的情况,即,对于其他域中的某个数据,没有一个对应物。我们提出了扩散传输对准(DTA),这是一种半监督的歧管比对方法,该方法利用仅几个点之间的先前对应知识来对齐域。通过构建扩散过程,DTA找到了从具有不同特征空间的两个异质域测量的数据之间的运输计划,通过假设,它们共享来自相同基础数据生成过程的相似几何结构。 DTA还可以以数据驱动的方式计算部分对齐,从而在仅在一个域中测量某些数据时会准确对齐。我们从经验上证明,DTA在该半监视设置中对齐多模式数据中的其他方法优于其他方法。我们还从经验上表明,DTA获得的对齐方式可以改善机器学习任务的性能,例如域适应性,域间特征映射和探索性数据分析,同时表现优于竞争方法。
translated by 谷歌翻译
The past two decades have seen increasingly rapid advances in the field of multi-view representation learning due to it extracting useful information from diverse domains to facilitate the development of multi-view applications. However, the community faces two challenges: i) how to learn robust representations from a large amount of unlabeled data to against noise or incomplete views setting, and ii) how to balance view consistency and complementary for various downstream tasks. To this end, we utilize a deep fusion network to fuse view-specific representations into the view-common representation, extracting high-level semantics for obtaining robust representation. In addition, we employ a clustering task to guide the fusion network to prevent it from leading to trivial solutions. For balancing consistency and complementary, then, we design an asymmetrical contrastive strategy that aligns the view-common representation and each view-specific representation. These modules are incorporated into a unified method known as CLustering-guided cOntrastiVE fusioN (CLOVEN). We quantitatively and qualitatively evaluate the proposed method on five datasets, demonstrating that CLOVEN outperforms 11 competitive multi-view learning methods in clustering and classification. In the incomplete view scenario, our proposed method resists noise interference better than those of our competitors. Furthermore, the visualization analysis shows that CLOVEN can preserve the intrinsic structure of view-specific representation while also improving the compactness of view-commom representation. Our source code will be available soon at https://github.com/guanzhou-ke/cloven.
translated by 谷歌翻译
我们从一组未配对的清晰和朦胧的图像中提供了实用的基于学习的图像飞行网络。本文提供了一种新的观点,可以将图像除去作为两类分离的因子分离任务,即清晰图像重建的任务相关因素以及与雾霾相关的分布的任务含量。为了在深度特征空间中实现这两类因素的分离,将对比度学习引入了一个自行车框架中,以通过指导与潜在因素相关的生成的图像来学习分离的表示形式。通过这种表述,提出的对比度拆除的脱掩护方法(CDD-GAN)采用负面发电机与编码器网络合作以交替进行更新,以产生挑战性负面对手的队列。然后,这些负面的对手是端到端训练的,以及骨干代表网络,以通过最大化对抗性对比损失来增强歧视性信息并促进因素分离性能。在培训期间,我们进一步表明,硬性负面例子可以抑制任务 - 无关紧要的因素和未配对的清晰景象可以增强与任务相关的因素,以便更好地促进雾霾去除并帮助图像恢复。对合成和现实世界数据集的广泛实验表明,我们的方法对现有的未配对飞行基线的表现良好。
translated by 谷歌翻译
图像文本检索(ITR)在桥接视觉和舌形式方面具有挑战性。对比度学习已被大多数先前的艺术所采用。除了有限的负面图像文本对外,约束学习的能力受到手动加权负对以及对外部知识的不认识的限制。在本文中,我们提出了新型耦合多样性敏感的动量约束学习(编码器),以改善跨模式表示。首先,发明了一种新颖的多样性对比度学习(DCL)体系结构。我们引入了两种模式的动态词典,以扩大图像文本对的比例,并且通过自适应负面对加权实现多样性敏感性。此外,编码器设计了两个分支。一个人从图像/文本中学习实例级的嵌入式,它还基于其嵌入为其输入图像/文本生成伪在线聚类标签。同时,另一个分支学会从常识知识图中查询以形成两种模式的概念级描述符。之后,两个分支都利用DCL来对齐跨模式嵌入空间,而额外的伪聚类标签预测损失则用于促进第二个分支的概念级表示学习。在两个流行的基准测试(即Mscoco和Flicker30k)上进行的广泛实验,验证编码器的表现明显优于最先进的方法。
translated by 谷歌翻译
聚类是一项基本的机器学习任务,在文献中已广泛研究。经典聚类方法遵循以下假设:数据通过各种表示的学习技术表示为矢量化形式的特征。随着数据变得越来越复杂和复杂,浅(传统)聚类方法无法再处理高维数据类型。随着深度学习的巨大成功,尤其是深度无监督的学习,在过去的十年中,已经提出了许多具有深层建筑的代表性学习技术。最近,已经提出了深层聚类的概念,即共同优化表示的学习和聚类,因此引起了社区的日益关注。深度学习在聚类中的巨大成功,最基本的机器学习任务之一以及该方向的最新进展的巨大成功所激发。 - 艺术方法。我们总结了深度聚类的基本组成部分,并通过设计深度表示学习和聚类之间的交互方式对现有方法进行了分类。此外,该调查还提供了流行的基准数据集,评估指标和开源实现,以清楚地说明各种实验设置。最后但并非最不重要的一点是,我们讨论了深度聚类的实际应用,并提出了应有的挑战性主题,应将进一步的研究作为未来的方向。
translated by 谷歌翻译
对于诊断各种疾病的诊断,对睡眠阶段进行分类至关重要。但是,现有的自动诊断方法主要采用“金标准”局部脑图(EEG)或医院中多摄像机仪(PSG)机器的其他单型模式传感信号,这些信号昂贵,导入且因此不适合保健点监测在家。为了在家中启用睡眠阶段监控,我们在本文中分析了红外视频与脑电图信号之间的关系,并提出了一项新任务:通过将有用的知识从EEG信号提炼到视觉视频,使用红外视频对睡眠阶段进行分类。为了为该应用程序建立可靠的跨模式基准,我们开发了一个新的数据集,称为通过红外视频和脑电图($ s^3ve $)看到您的睡眠阶段。 $ s^3ve $是一个大型数据集,包括用于睡眠阶段分类的同步红外视频和脑电图信号,包括105个主题和154,573个视频剪辑,长度超过1100小时。我们的贡献不仅限于数据集,而且还涉及一种新型的跨模式蒸馏基线模型,即结构感知的对比度蒸馏(SACD),以将脑电图知识提升为红外视频特征。 SACD在我们的$ S^3ve $和现有的跨模式蒸馏基准上都达到了最先进的表演。基准方法和基线方法都将被释放给社区。我们希望在睡眠阶段分类中提高更多注意力并促进更多的发展,更重要的是,从临床信号/媒体到传统媒体的跨模式蒸馏。
translated by 谷歌翻译
深度多视图聚类方法取得了显着的性能。然而,所有这些都未能考虑在多视图样本上的难度标签(训练样本的地面真理的不确定性),这可能导致非群体聚类网络在训练过程中陷入糟糕的本地Optima;更糟糕的是,多视图样本的难度标签始终不一致,但事实使其更具挑战性。在本文中,我们提出了一种新的深对抗性不一致的认知采样(DACE)方法,用于多视图逐行子空间聚类。提出了多视图二进制分类(简单或困难)丢失和特征相似性损失,共同学习二进制分类器和深度一致的特征嵌入网络,在多维型一致样本的难度标签上过度的对手Minimax游戏。我们开发了一种多视图认知采样策略,可从易于困难的多视图聚类网络训练中选择输入样本。然而,容易和难以样品的分布混合在一起,因此实现目标并不差。要解决它,我们可以定义具有理论保证的采样概率。基于此,一种金段机制进一步设计用于生成样本集边界,以通过栅极单元逐渐选择具有变化难度标签的样本,该门单元用于共同学习多视图常见渐进子空间和聚类网络以进行更高效聚类。四个现实世界数据集的实验结果证明了守护处的优越性。
translated by 谷歌翻译
在深度学习研究中,自学学习(SSL)引起了极大的关注,引起了计算机视觉和遥感社区的兴趣。尽管计算机视觉取得了很大的成功,但SSL在地球观测领域的大部分潜力仍然锁定。在本文中,我们对在遥感的背景下为计算机视觉的SSL概念和最新发展提供了介绍,并回顾了SSL中的概念和最新发展。此外,我们在流行的遥感数据集上提供了现代SSL算法的初步基准,从而验证了SSL在遥感中的潜力,并提供了有关数据增强的扩展研究。最后,我们确定了SSL未来研究的有希望的方向的地球观察(SSL4EO),以铺平了两个领域的富有成效的相互作用。
translated by 谷歌翻译
语义分割在广泛的计算机视觉应用中起着基本作用,提供了全球对图像​​的理解的关键信息。然而,最先进的模型依赖于大量的注释样本,其比在诸如图像分类的任务中获得更昂贵的昂贵的样本。由于未标记的数据替代地获得更便宜,因此无监督的域适应达到了语义分割社区的广泛成功并不令人惊讶。本调查致力于总结这一令人难以置信的快速增长的领域的五年,这包含了语义细分本身的重要性,以及将分段模型适应新环境的关键需求。我们提出了最重要的语义分割方法;我们对语义分割的域适应技术提供了全面的调查;我们揭示了多域学习,域泛化,测试时间适应或无源域适应等较新的趋势;我们通过描述在语义细分研究中最广泛使用的数据集和基准测试来结束本调查。我们希望本调查将在学术界和工业中提供具有全面参考指导的研究人员,并有助于他们培养现场的新研究方向。
translated by 谷歌翻译
无监督的视频域适应是一项实用但具有挑战性的任务。在这项工作中,我们第一次从脱离视图中解决了它。我们的关键想法是在适应过程中将与域相关的信息从数据中删除。具体而言,我们考虑从两组潜在因素中生成跨域视频,一个编码静态域相关信息,另一个编码时间和语义相关的信息。然后开发转移顺序的VAE(Transvae)框架以建模这种产生。为了更好地适应适应,我们进一步提出了几个目标,以限制Transvae中的潜在因素。与几种最先进的方法相比,对UCF-HMDB,小丑和Epic-Kitchens数据集进行了广泛的实验验证了Transvae的有效性和优势。代码可在https://github.com/ldkong1205/transvae上公开获取。
translated by 谷歌翻译