半监控视频对象分割(VOS)是指在近年来在第一帧中的注释中分割剩余帧中的目标对象,该帧近年来已经积极研究。关键挑战在于找到利用过去框架的时空上下文的有效方法来帮助学习当前帧的判别目标表示。在本文中,我们提出了一种具有专门设计的交互式变压器的新型暹罗网络,称为SITVOS,以实现从历史到当前帧的有效上下文传播。从技术上讲,我们使用变换器编码器和解码器单独处理过去的帧和当前帧,即,编码器从过去的帧中对目标对象的强大的时空上下文进行编码,而解码器将当前帧的特征嵌入为查询。从编码器输出检索目标。为了进一步增强目标表示,设计了一种特征交互模块(FIM)以促进编码器和解码器之间的信息流。此外,我们使用暹罗架构来提取过去和当前帧的骨干功能,它能够重用并且比现有方法更有效。三个挑战基准测试的实验结果验证了SITVOS在最先进的方法上的优越性。
translated by 谷歌翻译
现有场景文本识别(str)方法通常使用语言模型来优化通过视觉识别(VR)模型预测的1D字符序列的联合概率,该模型忽略了字符实例内和之间的视觉语义的2D空间上下文不概括为任意形状的场景文本。要解决此问题,我们首次尝试根据本文的视觉语义进行文本推理。从技术上讲,给定VR模型预测的字符分割映射,我们为每个实例构造一个子图,其中节点表示基于它们的空间相似度之间的节点中的像素和边缘。然后,这些子图通过其根节点顺序连接并合并到完整的图表中。基于此图,我们通过通过跨熵损失监督它来设计图表卷积网络以进行文本推理(GTR)。 GTR可以轻松插入代表性的STR模型,以提高其性能,因为较好的文本推理。具体而言,我们通过将GTR并将GTR与基于分段的STR基线中的语言模型并联的语言模型进行了构建模型,即,通过相互学习可以有效利用视觉语言互补性。 S-GTR在六个挑战性的STR基准上套装新的最先进的基准,并概括为多语言数据集。代码可用于https://github.com/adeline-cs/gtr。
translated by 谷歌翻译
深度神经网络(DNN)极大地促进了语义分割中的性能增益。然而,训练DNN通常需要大量的像素级标记数据,这在实践中收集昂贵且耗时。为了减轻注释负担,本文提出了一种自组装的生成对抗网络(SE-GAN)利用语义分割的跨域数据。在SE-GaN中,教师网络和学生网络构成用于生成语义分割图的自组装模型,与鉴别器一起形成GaN。尽管它很简单,我们发现SE-GaN可以显着提高对抗性训练的性能,提高模型的稳定性,这是由大多数普遍培训的方法共享的常见障碍。我们理论上分析SE-GaN并提供$ \ Mathcal o(1 / \ sqrt {n})$泛化绑定($ n $是培训样本大小),这表明控制了鉴别者的假设复杂性,以提高概括性。因此,我们选择一个简单的网络作为鉴别器。两个标准设置中的广泛和系统实验表明,该方法显着优于最新的最先进的方法。我们模型的源代码即将推出。
translated by 谷歌翻译
贝叶斯神经网络(BNNS)已成为缓解深度学习中过度自信预测的主要方法,但由于大量分布参数,它们经常遭受扩展问题。在本文中,我们发现在单独再培训时,深网络的第一层拥有多个不同的Optima。这表示当第一层由贝叶斯层改变时的大后差,这使我们能够设计空间融合BNN(STF-BNN),以便有效地将BNN缩放到大型模型:(1)首先常常培训一个神经网络网络从头开始实现快速训练; (2)第一层被转换为贝叶斯和通过采用随机变分推断推断,而其他层是固定的。与香草BNN相比,我们的方法可以大大减少训练时间和参数的数量,这有助于高效地缩放BNN。我们进一步提供了对概括性和缓解STF-BNN过度限制的能力的理论保障。综合实验表明,STF-BNN(1)实现了最先进的性能,以进行预测和不确定量化; (2)显着提高对抗性鲁棒性和隐私保护; (3)大大降低了培训时间和内存成本。
translated by 谷歌翻译
复合值的神经网络(CVNNS)已广泛应用于各种领域,尤其是信号处理和图像识别。然而,很少有作品关注CVNN的泛化,尽管它至关重要,以确保CVNNS在看不见的数据上的性能至关重要。本文是第一项工作,证明了复杂的神经网络的泛化。束缚尺度具有光谱复杂性,其主导因子是重量矩阵的光谱范数产物。此外,我们的工作为训练数据顺序时为CVNN提供了泛化,这也受光谱复杂度的影响。从理论上讲,这些界限通过Maey Sparsification Lemma和Dudley熵整体来源。经验上,我们通过在不同的数据集上培训复杂的卷积神经网络进行实验:Mnist,FashionMnist,CiFar-10,CiFar-100,微小想象成和IMDB。 Spearman的秩序相关系数和这些数据集上的相应P值给出了由权重矩阵光谱规范产品测量的网络的光谱复杂度,与概括能力有统计学显着的相关性。
translated by 谷歌翻译
多模式融合和多任务学习是机器学习中的两个重要主题。尽管进展丰富了富有成果,但两种问题的现有方法仍然脆弱,仍然是同样的挑战 - 它仍然是困境的,以便整合跨模式(RESP.TASK)的共同信息。同时保留每个模态的特定模式(RESP。任务)。此外,虽然它们实际上与彼此密切相关,但在相同的方法框架之前很少探讨多模式融合和多任务学习。在本文中,我们提出了频道交换网络(CEN),它是自适应,无参数的,更重要的是,适用于多模式融合和多任务学习。在其核心,CEN动态交换不同模式的子网之间的频道。具体地,信道交换过程是通过训练期间批量归一化(BN)缩放因子的大小来自指导的单独信道重要性。对于致密图像预测的应用,CEN的有效性由四种不同的场景测试:多模式融合,循环多模式融合,多任务学习和多式联多任务学习。通过RGB-D数据和通过多域输入的图像转换对语义分割的广泛实验验证了与当前最先进的方法相比我们CEN的有效性。还进行了详细的消融研究,从而证明了我们提出的每个组件的优势。
translated by 谷歌翻译
Detection Transformer (DETR) and Deformable DETR have been proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance as previous complex hand-crafted detectors. However, their performance on Video Object Detection (VOD) has not been well explored. In this paper, we present TransVOD, the first end-to-end video object detection system based on spatial-temporal Transformer architectures. The first goal of this paper is to streamline the pipeline of VOD, effectively removing the need for many hand-crafted components for feature aggregation, e.g., optical flow model, relation networks. Besides, benefited from the object query design in DETR, our method does not need complicated post-processing methods such as Seq-NMS. In particular, we present a temporal Transformer to aggregate both the spatial object queries and the feature memories of each frame. Our temporal transformer consists of two components: Temporal Query Encoder (TQE) to fuse object queries, and Temporal Deformable Transformer Decoder (TDTD) to obtain current frame detection results. These designs boost the strong baseline deformable DETR by a significant margin (2 %-4 % mAP) on the ImageNet VID dataset. TransVOD yields comparable performances on the benchmark of ImageNet VID. Then, we present two improved versions of TransVOD including TransVOD++ and TransVOD Lite. The former fuses object-level information into object query via dynamic convolution while the latter models the entire video clips as the output to speed up the inference time. We give detailed analysis of all three models in the experiment part. In particular, our proposed TransVOD++ sets a new state-of-the-art record in terms of accuracy on ImageNet VID with 90.0 % mAP. Our proposed TransVOD Lite also achieves the best speed and accuracy trade-off with 83.7 % mAP while running at around 30 FPS on a single V100 GPU device. Code and models will be available for further research.
translated by 谷歌翻译
链路预测在知识图中起着重要作用,这是许多人工智能任务的重要资源,但它通常受不完整的限制。在本文中,我们提出了知识图表BERT for Link预测,名为LP-BERT,其中包含两个培训阶段:多任务预训练和知识图微调。预训练策略不仅使用掩码语言模型(MLM)来学习上下文语料库的知识,还引入掩模实体模型(MEM)和掩模关系模型(MRM),其可以通过预测语义来学习三元组的关系信息基于实体和关系元素。结构化三维关系信息可以转换为非结构化语义信息,可以将其与上下文语料库信息一起集成到培训模型中。在微调阶段,灵感来自对比学习,我们在样本批量中进行三样式的负面取样,这大大增加了负采样的比例,同时保持训练时间几乎不变。此外,我们提出了一种基于Triples的逆关系的数据增强方法,以进一步增加样本分集。我们在WN18RR和UMLS数据集上实现最先进的结果,特别是HITS @ 10指示器从WN18RR数据集上的先前最先进的结果提高了5 \%。
translated by 谷歌翻译
作为混合成像技术,光声显微镜(PAM)成像由于激光强度的最大允许暴露,组织中超声波的衰减以及换能器的固有噪声而受到噪声。去噪是降低噪声的后处理方法,并且可以恢复PAM图像质量。然而,之前的去噪技术通常严重依赖于数学前导者以及手动选择的参数,导致对不同噪声图像的不令人满意和慢的去噪能,这极大地阻碍了实用和临床应用。在这项工作中,我们提出了一种基于深度学习的方法,可以从PAM图像中除去复杂的噪声,没有数学前导者,并手动选择不同输入图像的设置。注意增强的生成对抗性网络用于提取图像特征并去除各种噪声。在合成和实际数据集上证明了所提出的方法,包括幻影(叶静脉)和体内(小鼠耳血管和斑马鱼颜料)实验。结果表明,与先前的PAM去噪方法相比,我们的方法在定性和定量上恢复图像时表现出良好的性能。此外,为256次\ times256 $像素的图像实现了0.016 s的去噪速度。我们的方法对于PAM图像的去噪有效和实用。
translated by 谷歌翻译
青光眼是可能导致盲目的眼科疾病之一,早期检测和治疗非常重要。眼底图像和光学相干性断层扫描(OCT)图像均为广泛使用的诊断青光眼的方式。然而,现有的青光眼分级方法主要利用单一的方式,忽略眼底和OCT之间的互补信息。在本文中,我们提出了一个有效的多种式监督对比的对比学习框架,名为Corolla,用于青光眼分级。通过层分割以及厚度计算和投影,从原始OCT卷中提取视网膜厚度图,并用作更换的模态,导致更有效的计算,内存使用较少。鉴于医学图像样本的高结构和分布相似之处,我们采用了监督的对比学习,以提高模型的歧视力,更好地融合。此外,对成对的眼底图像和厚度图的特征级融合以提高诊断精度。在Gamma DataSet上,与最先进的方法相比,我们的Corolla框架达到了压倒性的青光眼分级性能。
translated by 谷歌翻译