最近,已经开发了各种视觉变压器作为对远程依赖性建模的能力。在当前的基于变压器的主骨用于医疗图像分割的骨架中,卷积层被纯变压器替换,或者将变压器添加到最深的编码器中以学习全球环境。但是,从规模的角度来看,主要有两个挑战:(1)尺度内问题:在每个尺度中提取局部全球线索所缺乏的现有方法,这可能会影响小物体的信号传播; (2)尺度间问题:现有方法未能从多个量表中探索独特的信息,这可能会阻碍表示尺寸,形状和位置广泛的对象的表示形式学习。为了解决这些局限性,我们提出了一个新颖的骨干,即比例尺形式,具有两个吸引人的设计:(1)尺度上的尺度内变压器旨在将基于CNN的本地功能与每个尺度中的基于变压器的全球线索相结合,在行和列的全局依赖项上可以通过轻巧的双轴MSA提取。 (2)一种简单有效的空间感知尺度变压器旨在以多个尺度之间的共识区域相互作用,该区域可以突出跨尺度依赖性并解决复杂量表的变化。对不同基准测试的实验结果表明,我们的尺度形式的表现优于当前最新方法。该代码可公开可用:https://github.com/zjugivelab/scaleformer。
translated by 谷歌翻译
Information Extraction (IE) aims to extract structured information from heterogeneous sources. IE from natural language texts include sub-tasks such as Named Entity Recognition (NER), Relation Extraction (RE), and Event Extraction (EE). Most IE systems require comprehensive understandings of sentence structure, implied semantics, and domain knowledge to perform well; thus, IE tasks always need adequate external resources and annotations. However, it takes time and effort to obtain more human annotations. Low-Resource Information Extraction (LRIE) strives to use unsupervised data, reducing the required resources and human annotation. In practice, existing systems either utilize self-training schemes to generate pseudo labels that will cause the gradual drift problem, or leverage consistency regularization methods which inevitably possess confirmation bias. To alleviate confirmation bias due to the lack of feedback loops in existing LRIE learning paradigms, we develop a Gradient Imitation Reinforcement Learning (GIRL) method to encourage pseudo-labeled data to imitate the gradient descent direction on labeled data, which can force pseudo-labeled data to achieve better optimization capabilities similar to labeled data. Based on how well the pseudo-labeled data imitates the instructive gradient descent direction obtained from labeled data, we design a reward to quantify the imitation process and bootstrap the optimization capability of pseudo-labeled data through trial and error. In addition to learning paradigms, GIRL is not limited to specific sub-tasks, and we leverage GIRL to solve all IE sub-tasks (named entity recognition, relation extraction, and event extraction) in low-resource settings (semi-supervised IE and few-shot IE).
translated by 谷歌翻译
张量分解已被证明可以有效分析多维数据的结构。但是,这些方法中的大多数都需要一个关键参数:所需组件的数量。在CandeComp/Parafac分解(CPD)的情况下,该值称为规范等级,并极大地影响了结果的质量。现有方法使用启发式方法或贝叶斯方法通过反复计算CPD来估计该值,从而使它们在计算上非常昂贵。在这项工作中,我们提出了Frappe和Frappe:一种便宜的监督和一种自制的方法,可以估算张量的规范等级,而无需计算CPD。我们称坦率的监督称为Frappe,因为它使用了完全合成的训练集,而无需实际示例。我们评估了这些方法关于合成张量,已知等级的实际张量和卷积神经网络的重量张量的评估。我们表明,Frappe和Fell-Frappe在有效性和速度方面都提供了巨大的提高,各自的$ 15 \%$ $和$ 10 \%$ $ $ $ $ $改善的MAPE和$ 4000 \ times $和$ 13 \ times $ \ times $ $提高评估速度超过了最佳的评估速度 - 绩效基线。
translated by 谷歌翻译
条件分布是描述响应与预测因子之间关系的基本数量。我们提出了一种学习条件分布的Wasserstein生成方法。所提出的方法使用条件发生器将已知分布转换为目标条件分布。通过匹配涉及条件发生器和目标关节分布的联合分布估计条件发生器,使用Wassersein距离作为这些关节分布的差异测量。我们建立了所提出的方法产生的条件采样分布的非渐近误差,并表明它能够减轻维度的诅咒,假设数据分布被支持在低维集上。我们进行数值实验以验证提出的方法,并将其应用于条件采样生成,非参数条件密度估计,预测不确定性量化,二抗体响应数据,图像重构和图像生成的应用。
translated by 谷歌翻译
虽然U-Net在医学图像分割任务中取得了巨大的成功,但它缺乏明确模拟远程依赖性的能力。因此,视觉变压器最近被出现为替代分割结构,以便通过自我关注捕获远程相关性的先天能力(SA)。然而,变压器通常依赖于大规模的预训练并具有高的计算复杂性。此外,SA只能在单个样本内模拟自我亲和力,忽略整个数据集的潜在相关性。为了解决这些问题,我们提出了一种名为混合变压器模块(MTM)的新型变压器模块,用于同时和内部内部学习。 MTM首先通过我们设计精心设计的本地全球高斯加权自我关注(LGG-SA),有效地计算自我亲创。然后,它通过外部注意力(EA)挖掘数据样本之间的连接。通过使用MTM,我们构造一个名为混合变压器U-NET(MT-UNET)的U形模型,以进行准确的医学图像分割。我们在两个不同的公共数据集上测试我们的方法,实验结果表明,该方法达到了更好的性能,对其他最先进的方法进行了更好的性能。代码可在:https://github.com/dootmaan/mt-unet。
translated by 谷歌翻译