虽然现代自动语音识别(ASR)系统可以实现高性能,但它们可能会产生削弱读者体验并对下游任务造成伤害的错误。为了提高ASR假设的准确性和可靠性,我们提出了一种用于语音识别器的跨模型后处理系统,其中1)熔断来自不同方式的声学特征和文本特征,2)接合置信度估计器和多个误差校正器任务学习时尚和3)统一纠错和话语抑制模块。与单模或单任务模型相比,我们提出的系统被证明更有效和高效。实验结果表明,我们的后处理系统导致对工业ASR系统的单扬声器和多扬声器语音相对降低的10%相对减少,每个令牌约为1.7ms延迟确保在流语音识别中可以接受后处理引入的额外延迟。
translated by 谷歌翻译
将低分辨率(LR)图像恢复到超分辨率(SR)图像具有正确和清晰的细节是挑战。现有的深度学习工作几乎忽略了图像的固有结构信息,这是对SR结果的视觉感知的重要作用。在本文中,我们将分层特征开发网络设计为探测并以多尺度特征融合方式保持结构信息。首先,我们提出了在传统边缘探测器上的交叉卷积,以定位和代表边缘特征。然后,交叉卷积块(CCBS)设计有功能归一化和渠道注意,以考虑特征的固有相关性。最后,我们利用多尺度特征融合组(MFFG)来嵌入交叉卷积块,并在层次的层次上开发不同尺度的结构特征的关系,调用名为Cross-SRN的轻量级结构保护网络。实验结果表明,交叉SRN通过准确且清晰的结构细节实现了对最先进的方法的竞争或卓越的恢复性能。此外,我们设置了一个标准,以选择具有丰富的结构纹理的图像。所提出的跨SRN优于所选择的基准测试的最先进的方法,这表明我们的网络在保存边缘具有显着的优势。
translated by 谷歌翻译
实现通用语言情报是自然语言处理的长期目标,标准评估基准发挥基本和指导作用。我们认为,对于通用语言智能评估,基准本身需要全面和系统。为此,我们提出了Cuge,一种中文语言理解和生成评估基准,具有以下特征:(1)分层基准框架,其中数据集主要选择和组织语言能力 - 任务数据集层次结构。 (2)多级评分策略,其中基于分层框架提供了不同级别的模型性能。为了促进CUGE,我们提供了一个公共排行榜,可以自定义,以支持灵活的模型判断标准。代表性预先训练的语言模型的评估结果表明了对通用语言智能的完善的充足空间。 Cuge在Cuge.baai.ac.cn上公开提供。
translated by 谷歌翻译
对于医学图像分割,想象一下,如果仅使用源域中的MR图像训练模型,它的性能如何直接在目标域中进行CT图像?这种设置,即概括的跨模块分割,拥有其临床潜力,其比其他相关设置更具挑战性,例如域适应。为实现这一目标,我们本文通过利用在我们更广泛的分割期间利用增强的源相似和源不同的图像来提出新的双标准化模块。具体而言,给定单个源域,旨在模拟未经证明的目标域中可能的外观变化,我们首先利用非线性变换来增加源相似和源不同的图像。然后,为了充分利用这两种类型的增强,我们所提出的基于双重定量的模型采用共享骨干但独立的批量归一化层,用于单独归一化。之后,我们提出了一种基于风格的选择方案来自动选择测试阶段的适当路径。在三个公开可用的数据集上进行了广泛的实验,即Brats,跨型心脏和腹部多器官数据集表明我们的方法优于其他最先进的域概括方法。
translated by 谷歌翻译
我们提出了一种新的零射多帧图像恢复方法,用于去除连续帧中变化的不需要的障碍物(例如降雨,雪和莫尔图案)。它有三个阶段:变压器预训练,零射恢复和硬贴片细化。使用预先训练的变压器,我们的模型能够在真实图像信息和阻碍元件之间讲述运动差异。对于零拍摄图像恢复,我们设计了一种由暹罗变换器,编码器和解码器构建的新型模型,称为暹罗。每个变压器具有时间关注层和几个自我注意层,以捕获多个帧的时间和空间信息。只有在去噪任务上进行预训练(自我监督),Siamtrans在三个不同的低级视觉任务中测试了三种不同的低级视觉任务(派生,发誓和Desnowing)。与相关方法相比,我们的表现效果最佳,甚至优于具有监督学习的表现。
translated by 谷歌翻译
由不同形状和非线性形状变化引起的机器官的大变形,对医学图像配准产生了重大挑战。传统的注册方法需要通过特定变形模型迭代地优化目标函数以及细致的参数调谐,但在具有大变形的图像中具有有限的能力。虽然基于深度学习的方法可以从输入图像到它们各自的变形字段中的复杂映射,但它是基于回归的,并且容易被卡在局部最小值,特别是当涉及大变形时。为此,我们呈现随机策划者 - 演员 - 评论家(SPAC),这是一种新的加强学习框架,可以执行逐步登记。关键概念通过每次步骤连续地翘曲运动图像,以最终与固定图像对齐。考虑到在传统的强化学习(RL)框架中处理高维连续动作和状态空间有挑战性,我们向标准演员 - 评论家模型引入了一个新的概念“计划”,这是低维度,可以促进演员生成易于高维行动。整个框架基于无监督的培训,并以端到端的方式运行。我们在几个2D和3D医学图像数据集上评估我们的方法,其中一些包含大变形。我们的经验结果强调了我们的工作实现了一致,显着的收益和优于最先进的方法。
translated by 谷歌翻译
训练无模型的深度加强学习模型来解决图像到图像转换是困难的,因为它涉及高维连续状态和动作空间。在本文中,我们借鉴了最近的最大熵增强学习框架成功的灵感来设计用于挑战连续控制问题,在包括图像表示,产生和控制的高维连续空间上开发随机策略。这种方法的核心是随机演员 - 执行程序 - 批评者 - 评论家(SAEC),这是一个违法的演员 - 评论家模型,具有额外的excator来生成现实图像。具体地,该actor通过随机潜行动作侧重于高级表示和控制策略,以及明确地指示执行器生成用于操纵状态的低级动作。关于若干图像到图像转换任务的实验已经证明了在面对高维连续空间问题时所提出的SAEC的有效性和稳健性。
translated by 谷歌翻译
域概括(DG)最近引起了人的重新识别(REID)的巨大关注。它旨在使在多个源域上培训的模型概括到未经看不见的目标域。虽然实现了有前进的进步,但现有方法通常需要要标记的源域,这可能是实际REID任务的重大负担。在本文中,我们通过假设任何源域都有任何标签可以调查Reid的无监督域泛化。为了解决这个具有挑战性的设置,我们提出了一种简单高效的域特定的自适应框架,并通过设计在批处理和实例归一化技术上的自适应归一化模块实现。在此过程中,我们成功地产生了可靠的伪标签来实现培训,并根据需要增强模型的域泛化能力。此外,我们表明,我们的框架甚至可以应用于在监督域泛化和无监督域适应的环境下改进人员Reid,展示了关于相关方法的竞争性能。对基准数据集进行了广泛的实验研究以验证所提出的框架。我们的工作的重要性在于它表明了对人Reid的无监督域概括的潜力,并为这一主题进一步研究了一个强大的基线。
translated by 谷歌翻译
我们呈现高动态范围神经辐射字段(HDR-NERF),以从一组低动态范围(LDR)视图的HDR辐射率字段与不同的曝光。使用HDR-NERF,我们能够在不同的曝光下生成新的HDR视图和新型LDR视图。我们方法的关键是模拟物理成像过程,该过程决定了场景点的辐射与具有两个隐式功能的LDR图像中的像素值转换为:RADIACE字段和音调映射器。辐射场对场景辐射(值在0到+末端之间的值变化),其通过提供相应的射线源和光线方向来输出光线的密度和辐射。 TONE MAPPER模拟映射过程,即在相机传感器上击中的光线变为像素值。通过将辐射和相应的曝光时间送入音调映射器来预测光线的颜色。我们使用经典的卷渲染技术将输出辐射,颜色和密度投影为HDR和LDR图像,同时只使用输入的LDR图像作为监控。我们收集了一个新的前瞻性的HDR数据集,以评估所提出的方法。综合性和现实世界场景的实验结果验证了我们的方法不仅可以准确控制合成视图的曝光,还可以用高动态范围呈现视图。
translated by 谷歌翻译
我们探讨了在联邦学习(FL)中选择性地忘记了训练的CNN分类模型的类别的问题。鉴于用于培训的数据不能在FL全球范围内访问,我们的见解探测到每个通道的内部影响。通过由不同频道激活的特征图的可视化,我们观察到不同的信道对图像分类中的不同类别具有不同的贡献。灵感来自于此,我们提出了一种擦洗模型清除特定类别的信息的方法。该方法不需要从划痕中删除,也不需要全局访问用于培训的数据。相反,我们介绍了术语频率逆文档频率(TF-IDF)的概念来量化信道的类别辨别。具有高TF-IDF分数的频道对目标类别具有更多的歧视,因此需要修剪以unlorn。通道修剪之后是微调过程,以恢复修剪模型的性能。在CIFAR10数据集上进行评估,我们的方法加速了8.9倍为Reset Model的Insheryning的速度,并且对于从头开始的再循环而没有降级的VGG模型的7.9倍。对于CIFAR100数据集,Speedups分别为9.9x和8.4x。我们设想这项工作作为符合法律和道德标准的互补块。
translated by 谷歌翻译