我们提出了一种针对半监督学习(SSL)的新颖方法,旨在克服关键字斑点(KWS)任务中训练和现实世界数据之间的分布变化。从训练数据分布的转移是现实世界中KWS任务的关键挑战:当在设备上部署新模型时,所接受数据的门控经历了分配的转变,从而使及时更新的问题通过后续部署进行了艰难。尽管发生了变化,我们假设标签上的边际分布不会改变。我们利用修改后的教师/学生培训框架,在该框架中使用未标记的数据增强了标记的培训数据。请注意,教师也无法访问新分布。为了通过人类和教师标记的数据有效地训练,我们根据信心启发式制定了教师标签策略,以减少教师模型的标签分布的熵;然后对数据进行采样以匹配标签上的边际分布。大规模实验结果表明,在远场音频训练的卷积神经网络(CNN),并根据不同分布绘制的远场音频进行评估,以相等的虚假拒绝获得了14.3%的虚假发现率(FDR)的相对相对提高。比率(FRR),同时在无分配变化下的FDR提高了5%。在从远场到近场音频的更严重的分布下,我们的方法在FRR时的FDR相对改善了52%,而原始FDR的相对相对相对提高了20%分配。
translated by 谷歌翻译
会话代理通常使用关键字发现(KWS)来启动与用户的语音交互。对于用户体验和隐私考虑,现有的KWS方法主要关注准确性,这通常可以以牺牲引入延迟为代价。为了解决这一权衡,我们提出了一种新的方法来控制KWS模型延迟,并在没有明确了解关键字端点的情况下将其推广到任何损失函数。通过单个可调的超参数,我们的方法使人们能够平衡目标应用程序的检测潜伏期和准确性。从经验上讲,我们表明,与现有方法相比,我们的方法在延迟限制下具有出色的性能。也就是说,与基线的最新面积相比,我们对固定延迟目标进行了实质性25 \%的相对错误接受改进。我们还表明,与交叉熵损失相比,当我们的方法与最大造成的损失结合使用时,我们能够在固定潜伏期时将相对错误接受提高25%。
translated by 谷歌翻译
我们为250k参数feedforward,流媒体,无状态关键字发现模型的所有组件的所有组件提出了一种新型的2阶段次级量化量化训练算法。对于第一阶段,我们使用tanh(。)在致密层的重量上使用非线性转换来调整最近提出的量化技术。在第二阶段,我们在网络的其余部分上使用线性量化方法,包括其他参数(偏见,增益,batchnorm),输入和激活。我们进行大规模实验,对26,000小时的去识别生产,远场和近场音频数据进行培训(对4,000小时的数据进行评估)。我们在两个嵌入式芯片组设置中组织结果:a)具有商品臂霓虹灯指令套件和8位容器,我们使用sub 8位权重(4、5、8位)和8位的精度,CPU和内存结果 - 网络其余部分的量化; b)具有现成的神经网络加速器,用于一系列重量位宽度(1和5位),同时提出准确性结果,我们预测记忆利用率的减少。在两种配置中,我们的结果都表明,提出的算法可以实现:a)以虚假拒绝率(FRR)的虚假检测率(FDR)在检测错误权衡(DET)曲线上具有完整浮点模型的操作点(det)曲线的奇偶校验。 ; b)计算和内存的显着降低,最大提高了CPU消耗量的3倍,并且记忆消耗改善了4倍以上。
translated by 谷歌翻译
半监督学习(SSL)的最新最新方法将一致性正则化与基于置信的伪标记结合在一起。为了获得高质量的伪标签,通常采用高置信度阈值。但是,已经表明,对于远离训练数据的样本,深网的基于软磁性的置信度得分可能很高,因此,即使是高信心不明的样品,伪标签也可能仍然不可靠。在这项工作中,我们提出了伪标记的新观点:而不是依靠模型信心,而是衡量未标记的样本是否可能是“分布”;即,接近当前的培训数据。为了对未标记的样本进行分类是“分布”还是“分发”,我们采用了分布外检测文献中的能量评分。随着培训的进行进展,更不标记的样品成为分配并有助于培训,标记和伪标记的数据可以更好地近似于真正的分布以改善模型。实验表明,我们的基于能量的伪标记方法,尽管从概念上讲简单,但在不平衡的SSL基准测试方面显着优于基于置信的方法,并在类平衡的数据上实现了竞争性能。例如,当不平衡比率高于50时,它会在CIFAR10-LT上产生4-6%的绝对准确性提高。当与最新的长尾SSL方法结合使用时,可以实现进一步的改进。
translated by 谷歌翻译
尽管半监督学习(SSL)的最新研究已经在单标签分类问题上取得了强劲的表现,但同样重要但毫无疑问的问题是如何利用多标签分类任务中未标记数据的优势。为了将SSL的成功扩展到多标签分类,我们首先使用说明性示例进行分析,以获得有关多标签分类中存在的额外挑战的一些直觉。基于分析,我们提出了一个基于百分比的阈值调整方案的百分位摩擦,以动态地改变训练期间每个类别的正和负伪标签的得分阈值,以及动态的未标记失误权重,从而进一步降低了从早期未标记的预测。与最近的SSL方法相比,在不丧失简单性的情况下,我们在Pascal VOC2007和MS-Coco数据集上实现了强劲的性能。
translated by 谷歌翻译
深度学习模型的最新发展,捕捉作物物候的复杂的时间模式有卫星图像时间序列(坐在),大大高级作物分类。然而,当施加到目标区域从训练区空间上不同的,这些模型差没有任何目标标签由于作物物候区域之间的时间位移进行。为了解决这个无人监督跨区域适应环境,现有方法学域不变特征没有任何目标的监督,而不是时间偏移本身。因此,这些技术提供了SITS只有有限的好处。在本文中,我们提出TimeMatch,一种新的无监督领域适应性方法SITS直接占时移。 TimeMatch由两个部分组成:1)时间位移的估计,其估计具有源极训练模型的未标记的目标区域的时间偏移,和2)TimeMatch学习,它结合了时间位移估计与半监督学习到一个分类适应未标记的目标区域。我们还引进了跨区域适应的开放式访问的数据集与来自欧洲四个不同区域的旁边。在此数据集,我们证明了TimeMatch优于所有竞争的方法,通过11%的在五个不同的适应情景F1-得分,创下了新的国家的最先进的跨区域适应性。
translated by 谷歌翻译
Semi-supervised learning (SSL) provides a powerful framework for leveraging unlabeled data when labels are limited or expensive to obtain. SSL algorithms based on deep neural networks have recently proven successful on standard benchmark tasks. However, we argue that these benchmarks fail to address many issues that SSL algorithms would face in real-world applications. After creating a unified reimplementation of various widely-used SSL techniques, we test them in a suite of experiments designed to address these issues. We find that the performance of simple baselines which do not use unlabeled data is often underreported, SSL methods differ in sensitivity to the amount of labeled and unlabeled data, and performance can degrade substantially when the unlabeled dataset contains out-ofdistribution examples. To help guide SSL research towards real-world applicability, we make our unified reimplemention and evaluation platform publicly available. 2 * Equal contribution 2 https://github.com/brain-research/realistic-ssl-evaluation 32nd Conference on Neural Information Processing Systems (NeurIPS 2018),
translated by 谷歌翻译
微创手术中的手术工具检测是计算机辅助干预措施的重要组成部分。当前的方法主要是基于有监督的方法,这些方法需要大量的完全标记的数据来培训监督模型,并且由于阶级不平衡问题而患有伪标签偏见。但是,带有边界框注释的大图像数据集通常几乎无法使用。半监督学习(SSL)最近出现了仅使用适度的注释数据训练大型模型的一种手段。除了降低注释成本。 SSL还显示出希望产生更强大和可推广的模型。因此,在本文中,我们在手术工具检测范式中介绍了半监督学习(SSL)框架,该框架旨在通过知识蒸馏方法来减轻培训数据的稀缺和数据失衡。在拟议的工作中,我们培训了一个标有数据的模型,该模型启动了教师学生的联合学习,在该学习中,学生接受了来自未标记数据的教师生成的伪标签的培训。我们提出了一个多级距离,在检测器的利益区域头部具有基于保证金的分类损失函数,以有效地将前景类别与背景区域隔离。我们在M2CAI16-Tool-locations数据集上的结果表明,我们的方法在不同的监督数据设置(1%,2%,5%,注释数据的10%)上的优越性,其中我们的模型可实现8%,12%和27的总体改善在最先进的SSL方法和完全监督的基线上,MAP中的%(在1%标记的数据上)。该代码可在https://github.com/mansoor-at/semi-supervise-surgical-tool-det上获得
translated by 谷歌翻译
最先进的自动语音识别(ASR)系统经过数以万计的标记语音数据训练。人类转录很昂贵且耗时。诸如转录的质量和一致性之类的因素可以极大地影响使用这些数据训练的ASR模型的性能。在本文中,我们表明我们可以通过利用最近的自学和半监督学习技术来培训强大的教师模型来生产高质量的伪标签。具体来说,我们仅使用(无监督/监督培训)和迭代嘈杂的学生教师培训来培训6亿个参数双向教师模型。该模型在语音搜索任务上达到了4.0%的单词错误率(WER),比基线相对好11.1%。我们进一步表明,通过使用这种强大的教师模型来生成用于训练的高质量伪标签,与使用人类标签相比,流媒体模型可以实现13.6%的相对减少(5.9%至5.1%)。
translated by 谷歌翻译
完全监督分类的问题是,它需要大量的注释数据,但是,在许多数据集中,很大一部分数据是未标记的。为了缓解此问题,半监督学习(SSL)利用了标记域上的分类器知识,并将其推送到无标记的域,该域具有与注释数据相似的分布。 SSL方法的最新成功至关重要地取决于阈值伪标记,从而对未标记的域的一致性正则化。但是,现有方法并未在训练过程中纳入伪标签或未标记样品的不确定性,这是由于嘈杂的标签或由于强大的增强而导致的分布样品。受SSL最近发展的启发,我们本文的目标是提出一个新颖的无监督不确定性意识的目标,依赖于核心和认识论不确定性量化。通过提出的不确定性感知损失功能,我们的方法优于标准SSL基准,在计算轻量级的同时,与最新的方法相匹配,或与最先进的方法相提并论。我们的结果优于复杂数据集(例如CIFAR-100和MINI-IMAGENET)的最新结果。
translated by 谷歌翻译
Positive-Unlabeled (PU) learning aims to learn a model with rare positive samples and abundant unlabeled samples. Compared with classical binary classification, the task of PU learning is much more challenging due to the existence of many incompletely-annotated data instances. Since only part of the most confident positive samples are available and evidence is not enough to categorize the rest samples, many of these unlabeled data may also be the positive samples. Research on this topic is particularly useful and essential to many real-world tasks which demand very expensive labelling cost. For example, the recognition tasks in disease diagnosis, recommendation system and satellite image recognition may only have few positive samples that can be annotated by the experts. These methods mainly omit the intrinsic hardness of some unlabeled data, which can result in sub-optimal performance as a consequence of fitting the easy noisy data and not sufficiently utilizing the hard data. In this paper, we focus on improving the commonly-used nnPU with a novel training pipeline. We highlight the intrinsic difference of hardness of samples in the dataset and the proper learning strategies for easy and hard data. By considering this fact, we propose first splitting the unlabeled dataset with an early-stop strategy. The samples that have inconsistent predictions between the temporary and base model are considered as hard samples. Then the model utilizes a noise-tolerant Jensen-Shannon divergence loss for easy data; and a dual-source consistency regularization for hard data which includes a cross-consistency between student and base model for low-level features and self-consistency for high-level features and predictions, respectively.
translated by 谷歌翻译
研究表明,当训练数据缺少注释时,对象检测器的性能下降,即稀疏注释数据。当代方法专注于缺少地面实话注释的代理,无论是伪标签的形式还是通过在训练期间重新称重梯度。在这项工作中,我们重新审视了稀疏注释物体检测的制定。我们观察到稀疏注释的物体检测可以被认为是区域级的半监督对象检测问题。在此洞察力上,我们提出了一种基于区域的半监督算法,它自动识别包含未标记的前景对象的区域。我们的算法然后以不同的方式处理标记和未标记的前景区域,在半监督方法中进行常见做法。为了评估所提出的方法的有效性,我们对普斯卡尔库尔和可可数据集的稀疏注释方法常用的五种分裂进行详尽的实验,并实现最先进的性能。除此之外,我们还表明,我们的方法在标准半监督设置上实现了竞争性能,证明了我们的方法的实力和广泛适用性。
translated by 谷歌翻译
半监督的对象检测在平均教师驱动的自我训练的发展中取得了重大进展。尽管结果有令人鼓舞,但在先前的工作中尚未完全探索标签不匹配问题,从而导致自训练期间严重确认偏见。在本文中,我们从两个不同但互补的角度(即分布级别和实例级别)提出了一个简单而有效的标签框架。对于前者,根据Monte Carlo采样,可以合理地近似来自标记数据的未标记数据的类分布。在这种弱监督提示的指导下,我们引入了一个重新分配卑鄙的老师,该老师利用自适应标签 - 分布意识到的信心阈值来生成无偏见的伪标签来推动学生学习。对于后一个,存在着跨教师模型的被忽视的标签分配歧义问题。为了解决这个问题,我们提出了一种新的标签分配机制,用于自我训练框架,即提案自我分配,该机制将学生的建议注入教师,并生成准确的伪标签,以相应地匹配学生模型中的每个建议。 MS-Coco和Pascal-VOC数据集的实验证明了我们提出的框架与其他最先进的框架相当优越。代码将在https://github.com/hikvision-research/ssod上找到。
translated by 谷歌翻译
我们提出了Parse,这是一种新颖的半监督结构,用于学习强大的脑电图表现以进行情感识别。为了减少大量未标记数据与标记数据有限的潜在分布不匹配,Parse使用成对表示对准。首先,我们的模型执行数据增强,然后标签猜测大量原始和增强的未标记数据。然后将其锐化的标签和标记数据的凸组合锐化。最后,进行表示对准和情感分类。为了严格测试我们的模型,我们将解析与我们实施并适应脑电图学习的几种最先进的半监督方法进行了比较。我们对四个基于公共EEG的情绪识别数据集,种子,种子IV,种子V和Amigos(价和唤醒)进行这些实验。该实验表明,我们提出的框架在种子,种子-IV和Amigos(Valence)中的标记样品有限的情况下,取得了总体最佳效果,同时接近种子V和Amigos中的总体最佳结果(达到第二好) (唤醒)。分析表明,我们的成对表示对齐方式通过减少未标记数据和标记数据之间的分布比对来大大提高性能,尤其是当每类仅1个样本被标记时。
translated by 谷歌翻译
理想情况下,应概遍的视觉学习算法,用于在新目标环境中部署时处理任何看不见的域移位;和数据效率,通过使用尽可能少的标签来降低开发成本。为此,我们研究半监督域泛化(SSDG),旨在使用多源,部分标记的培训数据学习域广泛的模型。我们设计了两个基准,涵盖了两个相关领域,即域泛化(DG)和半监督学习(SSL)开发的最先进方法。我们发现,通过设计无法处理未标记数据的DG方法,在SSDG中使用有限的标签表现不佳; SSL方法,尤其是FixMatch,获得更好的结果,但仍远离使用完整标签培训的基本vanilla模型。我们提出了一种简单的方法,一种简单的方法,将FixMatch扩展到SSDG的几个新成分:1)随机模型,用于减少稀缺标签的过度拟合,2)多视图一致性学习,用于增强域泛化。尽管设计简洁,StyleAtch可以实现SSDG的显着改进。我们希望我们的方法和全面的基准可以为未来的概括和数据高效学习系统进行铺平。源代码以\ url {https://github.com/kaiyangzhou/ssdg-benchmark}释放。
translated by 谷歌翻译
迄今为止,最强大的半监督对象检测器(SS-OD)基于伪盒,该盒子需要一系列带有微调超参数的后处理。在这项工作中,我们建议用稀疏的伪盒子以伪造的伪标签形式取代稀疏的伪盒。与伪盒相比,我们的密集伪标签(DPL)不涉及任何后处理方法,因此保留了更丰富的信息。我们还引入了一种区域选择技术,以突出关键信息,同时抑制密集标签所携带的噪声。我们将利用DPL作为密集老师的拟议的SS-OD算法命名。在可可和VOC上,密集的老师在各种环境下与基于伪盒的方法相比表现出卓越的表现。
translated by 谷歌翻译
在自主驾驶场景中,基于点云的主导云的3D对象检测器很大程度上依赖于大量准确标记的样品,但是,点云中的3D注释非常乏味,昂贵且耗时。为了减少对大量监督的依赖,已经提出了基于半监督的学习(SSL)方法。伪标记的方法通常用于SSL框架,但是,教师模型的低质量预测严重限制了其性能。在这项工作中,我们通过将教师模型增强到具有几种必要的设计的熟练培训模型,为半监督3D对象检测提出了一个新的伪标记框架。首先,为了改善伪标签的召回,提出了一个时空集合(Ste)模块来生成足够的种子盒。其次,为了提高召回框的精确度,基于群集的盒子投票(CBV)模块旨在从聚类的种子盒中获得汇总投票。这也消除了精致阈值选择伪标签的必要性。此外,为了减少训练期间错误的伪标记样本的负面影响,通过考虑智慧对比度学习(BCL)提出了软监督信号。在一次和Waymo数据集上验证了我们的模型的有效性。例如,一次,我们的方法将基线显着提高了9.51地图。此外,有了一半的注释,我们的模型在Waymo上的完整注释都优于Oracle模型。
translated by 谷歌翻译
半监督学习方法已成为对打击获得大量注释数据的挑战的活跃研究领域。为了提高半监督学习方法表现的目标,我们提出了一种新颖的框架,Hiematch,一种半监督方法,利用分层信息来降低标签成本并表现以及vanilla半监督学习方法。分层信息通常是具有细粒标签的粗标签(例如,啄木鸟)的粗标签(例如,啄木鸟)的现有知识(例如,柔软的啄木鸟或金朝啄木鸟)。但是,尚未探讨使用使用粗类标签来改进半监督技术的监督。在没有细粒度的标签的情况下,Himatch利用标签层次结构,并使用粗级标签作为弱监控信号。此外,Himatch是一种改进任何半熟的学习框架的通用方法,我们使用我们的结果在最近的最先进的技术Mixmatch和Fixmatch上展示了这一点。我们评估了在两个基准数据集,即CiFar-100和Nabirds上的Himatch疗效。与MixMatch相比,HOMACHACT可以在CIFAR-100上减少50%的粒度标签50%的用量,仅在前1个精度的边缘下降0.59%。代码:https://github.com/07agarg/hiermatch.
translated by 谷歌翻译
数据驱动的生成机器学习模型最近被出现为最有希望的新材料发现方法之一。虽然发电机型号可以产生数百万候选者,但训练快速准确的机器学习模型至关重要,以滤除具有所需特性的稳定,可合成的材料。然而,通过缺乏不稳定或不合益的样本严重阻碍了构建监督回归或分类筛查模型的努力,这通常不会收集和沉积在诸如ICSD和材料项目(MP)的材料数据库中。与此同时,这些数据库中有很多未标记的数据。在这里,我们提出了一个半监控的深度神经网络(TSDNN)模型,用于高性能形成能量和合成性预测,通过其独特的教师 - 学生双网络架构实现,并有效利用大量未标记数据。对于基于能量基于能量的稳定性筛选,与基线CGCNN回归模型相比,我们的半监控分类器实现了绝对的10.3 \%的准确性改进。对于合成性预测,我们的模型显着增加了基准PU学习从87.9 \%到97.9 \%的真正阳性率使用1/49型号参数。为了进一步证明我们模型的有效性,我们将我们的TSDNN-Energy和Tsdnn-InsteSizability模型与我们的Cubicgan发生器组合起来,以发现新型稳定的立方体结构。我们的模型中的1000个推荐的候选样品,其中512个具有由我们的DFT形成能量计算验证的负面形成能量。我们的实验结果表明,我们的半监督深度神经网络可以在大型生成材料设计中显着提高筛选准确性。
translated by 谷歌翻译
许多利用移动设备中的传感器的应用以及应用机器学习以提供新颖的服务。然而,诸如不同的用户,设备,环境和超参数之类的各种因素影响了这种应用的性能,从而使域移位(即,来自训练源数据集的目标用户的分发偏移)是一个重要问题。虽然最近的域适应技术试图解决这个问题,但各种因素之间的复杂相互作用通常会限制其有效性。我们认为,准确估算未训练的域中的性能可能会显着降低性能不确定性。我们呈现Dapper(域适配性能估计器),其估计目标域中的适应性能,只有未标记的目标数据。我们的直觉是目标数据上模型的输出提供了模型在目标域中的实际性能的线索。 Dapper不需要昂贵的标签成本,也不需要在部署后涉及额外的培训。与四个基线相比,我们与四个真实世界传感数据集进行了评估,表明,估计精度平均17%平均占据了基线的表现。此外,我们的On-Device实验表明,与基线相比,Dapper达到了多达216倍的计算开销。
translated by 谷歌翻译