带有嘈杂标签的训练深神经网络(DNN)实际上是具有挑战性的,因为不准确的标签严重降低了DNN的概括能力。以前的努力倾向于通过识别带有粗糙的小损失标准来减轻嘈杂标签的干扰的嘈杂数据来处理统一的denoising流中的零件或完整数据,而忽略了嘈杂样本的困难是不同的,因此是刚性和统一的。数据选择管道无法很好地解决此问题。在本文中,我们首先提出了一种称为CREMA的粗到精细的稳健学习方法,以分裂和串扰的方式处理嘈杂的数据。在粗糙水平中,干净和嘈杂的集合首先从统计意义上就可信度分开。由于实际上不可能正确对所有嘈杂样本进行分类,因此我们通过对每个样本的可信度进行建模来进一步处理它们。具体而言,对于清洁集,我们故意设计了一种基于内存的调制方案,以动态调整每个样本在训练过程中的历史可信度顺序方面的贡献,从而减轻了错误地分组为清洁集中的嘈杂样本的效果。同时,对于分类为嘈杂集的样品,提出了选择性标签更新策略,以纠正嘈杂的标签,同时减轻校正错误的问题。广泛的实验是基于不同方式的基准,包括图像分类(CIFAR,Clothing1M等)和文本识别(IMDB),具有合成或自然语义噪声,表明CREMA的优势和普遍性。
translated by 谷歌翻译
最近的研究利用稀疏的分类来预测高维大脑活动信号的分类变量,以暴露人类的意图和精神状态,从而自动选择模型训练过程中的相关特征。但是,现有的稀疏分类模型可能会容易出现由大脑记录固有的噪声引起的性能降解。为了解决这个问题,我们旨在在本研究中提出一种新的健壮和稀疏分类算法。为此,我们将CorrentRopy学习框架引入基于自动相关性的稀疏分类模型,并提出了一种新的基于Correntropy的鲁棒稀疏逻辑回归算法。为了证明所提出算法的上等大脑活性解码性能,我们在合成数据集,脑电图(EEG)数据集和功能磁共振成像(FMRI)数据集上对其进行了评估。广泛的实验结果证实,不仅提出的方法可以在嘈杂和高维分类任务中实现更高的分类精度,而且还将为解码方案选择那些更有信息的功能。将Correntropy学习方法与自动相关性测定技术相结合,将显着提高噪声的鲁棒性,从而导致更足够的稳健稀疏脑解码算法。它在现实世界中的大脑活动解码和脑部计算机界面中提供了一种更强大的方法。
translated by 谷歌翻译
无监督的域适应性(UDA)旨在使在标记的源域上训练的模型适应未标记的目标域。在本文中,我们提出了典型的对比度适应(PROCA),这是一种无监督域自适应语义分割的简单有效的对比度学习方法。以前的域适应方法仅考虑跨各个域的阶级内表示分布的对齐,而阶层间结构关系的探索不足,从而导致目标域上的对齐表示可能不像在源上歧视的那样容易歧视。域了。取而代之的是,ProCA将类间信息纳入班级原型,并采用以班级为中心的分布对齐进行适应。通过将同一类原型与阳性和其他类原型视为实现以集体为中心的分配对齐方式的负面原型,Proca在经典领域适应任务上实现了最先进的性能,{\ em i.e. text {and} synthia $ \ to $ cityScapes}。代码可在\ href {https://github.com/jiangzhengkai/proca} {proca}获得代码
translated by 谷歌翻译
最近,基于合成数据的实例分割已成为一种极其有利的优化范式,因为它利用模拟渲染和物理学来生成高质量的图像宣传对。在本文中,我们提出了一个并行预训练的变压器(PPT)框架,以完成基于合成数据的实例分割任务。具体而言,我们利用现成的预训练的视觉变压器来减轻自然数据和合成数据之间的差距,这有助于在下游合成数据场景中提供良好的概括,几乎没有样本。基于SWIN-B基的CBNET V2,基于SWINL的CBNET V2和SWIN-L基统一器用于并行特征学习,并且这三个模型的结果由像素级非最大最大抑制(NMS)算法融合来获得更强大的结果。实验结果表明,PPT在CVPR2022 AVA可访问性视觉和自主性挑战中排名第一,地图为65.155%。
translated by 谷歌翻译
现代视频对象分割(VOS)算法以顺序处理顺序实现了显着高的性能,而目前目前普遍的管道仍然表现出一些显而易见的不足,如累积误差,未知的鲁棒性或缺乏适当的解释工具。在本文中,我们将半监控视频对象分割问题放入循环工作流程中,并通过半监控VOS系统的固有循环属性来找到上面的缺陷。首先,循环机制包含在标准顺序流程中的循环机制可以产生更一致的像素 - 方识的表示。依赖于起始帧中的准确参考掩码,我们表明可以减轻错误传播问题。接下来,自然地将离线循环管道扩展到在线方式的简单梯度校正模块,可以突出显示结果的高频率和详细部分,以进一步提高分割质量,同时保持可行的计算成本。同时,这种校正可以保护网络免受干扰信号产生的严重性能下降。最后,我们基于梯度校正过程开发周期有效的接收领域(周期ERF),以提供新的视角,分析特定于对象的感兴趣区域。我们对Davis16,Davis17和Youtube-Vos有挑战性的基准进行全面的比较和详细分析,表明循环机制有助于提高分割质量,提高VOS系统的稳健性,并进一步提供不同VOS算法的定性比较和解释工作。该项目的代码可以在https://github.com/lyxok1/stm-trings找到
translated by 谷歌翻译
在视觉上丰富的文件(VRD)上的结构化文本理解是文档智能的重要组成部分。由于VRD中的内容和布局的复杂性,结构化文本理解是一项有挑战性的任务。大多数现有的研究将此问题与两个子任务结尾:实体标记和实体链接,这需要整体地了解令牌和段级别的文档的上下文。但是,很少的工作已经关注有效地从不同层次提取结构化数据的解决方案。本文提出了一个名为structext的统一框架,它对于处理两个子任务是灵活的,有效的。具体地,基于变压器,我们引入了一个段令牌对齐的编码器,以处理不同粒度水平的实体标记和实体链接任务。此外,我们设计了一种具有三个自我监督任务的新型预训练策略,以学习更丰富的代表性。 Structext使用现有屏蔽的视觉语言建模任务和新句子长度预测和配对框方向任务,以跨文本,图像和布局结合多模态信息。我们评估我们在分段级别和令牌级别的结构化文本理解的方法,并表明它优于最先进的同行,在Funsd,Srie和Ephoie数据集中具有显着优越的性能。
translated by 谷歌翻译
很少有动作识别旨在仅使用几个样本(支持)识别新颖的动作类(查询)。当前的大多数方法遵循公制学习范式,该范式学会比较视频之间的相似性。最近,已经观察到,直接测量这种相似性并不理想,因为不同的动作实例可能显示出独特的时间分布,从而导致查询和支持视频中严重的未对准问题。在本文中,我们从两个不同的方面释放了这个问题 - 行动持续时间的错位和动作演化错位。我们通过两阶段的动作对准网络(TA2N)顺序解决它们。第一阶段通过学习暂时的仿射变换来定位动作,该变换扭曲了每个视频功能的动作持续时间,同时否定了动作 - 欧元的功能(例如背景)。接下来,第二阶段协调查询功能通过执行时间重排和空间抵消预测来匹配支撑的时空动作演变。基准数据集上的广泛实验显示了该方法在实现最新性能方面的潜力,以获得几次动作识别。
translated by 谷歌翻译
Self-training (ST) has prospered again in language understanding by augmenting the fine-tuning of pre-trained language models when labeled data is insufficient. However, it remains challenging to incorporate ST into attribute-controllable language generation. Augmented by only self-generated pseudo text, generation models over-emphasize exploitation of the previously learned space, suffering from a constrained generalization boundary. We revisit ST and propose a novel method, DuNST to alleviate this problem. DuNST jointly models text generation and classification with a shared Variational AutoEncoder and corrupts the generated pseudo text by two kinds of flexible noise to disturb the space. In this way, our model could construct and utilize both pseudo text from given labels and pseudo labels from available unlabeled text, which are gradually refined during the ST process. We theoretically demonstrate that DuNST can be regarded as enhancing exploration towards the potential real text space, providing a guarantee of improved performance. Experiments on three controllable generation tasks show that DuNST could significantly boost control accuracy while maintaining comparable generation fluency and diversity against several strong baselines.
translated by 谷歌翻译
Predicting the health risks of patients using Electronic Health Records (EHR) has attracted considerable attention in recent years, especially with the development of deep learning techniques. Health risk refers to the probability of the occurrence of a specific health outcome for a specific patient. The predicted risks can be used to support decision-making by healthcare professionals. EHRs are structured patient journey data. Each patient journey contains a chronological set of clinical events, and within each clinical event, there is a set of clinical/medical activities. Due to variations of patient conditions and treatment needs, EHR patient journey data has an inherently high degree of missingness that contains important information affecting relationships among variables, including time. Existing deep learning-based models generate imputed values for missing values when learning the relationships. However, imputed data in EHR patient journey data may distort the clinical meaning of the original EHR patient journey data, resulting in classification bias. This paper proposes a novel end-to-end approach to modeling EHR patient journey data with Integrated Convolutional and Recurrent Neural Networks. Our model can capture both long- and short-term temporal patterns within each patient journey and effectively handle the high degree of missingness in EHR data without any imputation data generation. Extensive experimental results using the proposed model on two real-world datasets demonstrate robust performance as well as superior prediction accuracy compared to existing state-of-the-art imputation-based prediction methods.
translated by 谷歌翻译
从深度学习的迅速发展中受益,许多基于CNN的图像超分辨率方法已经出现并取得了更好的结果。但是,大多数算法很难同时适应空间区域和通道特征,更不用说它们之间的信息交换了。此外,注意力模块之间的信息交换对于研究人员而言甚至不太明显。为了解决这些问题,我们提出了一个轻量级的空间通道自适应协调,对多级改进增强网络(MREN)。具体而言,我们构建了一个空间通道自适应协调块,该块使网络能够在不同的接受场下学习空间区域和渠道特征感兴趣的信息。此外,在空间部分和通道部分之间的相应特征处理级别的信息在跳跃连接的帮助下交换,以实现两者之间的协调。我们通过简单的线性组合操作在注意模块之间建立了通信桥梁,以便更准确,连续地指导网络注意感兴趣的信息。在几个标准测试集上进行的广泛实验表明,我们的MREN在具有很少数量的参数和非常低的计算复杂性的其他高级算法上实现了优越的性能。
translated by 谷歌翻译