卷积神经网络(CNNS)在许多实际应用中成功了。但是,它们的高计算和存储要求通常使它们难以在资源受限的设备上部署。为了解决这个问题,已经提出了许多修剪算法用于CNN,但大多数人不能将CNNS提交给合理的水平。在本文中,我们提出了一种基于递归最小二乘(RLS)优化的训练和修剪CNN的新颖算法。在为某些时期培训CNN之后,我们的算法组合了逆输入自相关矩阵和权重矩阵,以按层评估和修剪不重要的输入通道或节点层。然后,我们的算法将继续培训修剪的网络,并且在修剪的网络恢复旧网络的完整性能之前,不会进行下一次修剪。此外,对于CNN,所提出的算法可用于前馈神经网络(FNN)。在MNIST,CIFAR-10和SVHN数据集上的三个实验表明,我们的算法可以实现更合理的修剪,并且具有比其他四个流行的修剪算法更高的学习效率。
translated by 谷歌翻译
机器学习算法通常假设培训和测试示例是从相同的分布中汲取的。然而,分发转移是现实世界应用中的常见问题,并且可以在测试时间造成模型急剧执行。在本文中,我们特别考虑域移位和亚泊素班次的问题(例如,不平衡数据)。虽然先前的作品通常会寻求明确地将模型的内部表示和预测器进行明确,以成为域不变的,但我们旨在规范整个功能而不限制模型的内部表示。这导致了一种简单的基于混合技术,它通过名为LISA的选择性增强来学习不变函数。 Lisa选择性地用相同的标签而单独地插值样本,但不同的域或具有相同的域但不同的标签。我们分析了线性设置,从理论上展示了LISA如何导致较小的最差组错误。凭经验,我们研究了LISA对从亚本化转变到域移位的九个基准的有效性,我们发现LISA一直以其他最先进的方法表达。
translated by 谷歌翻译
由于缺乏培训数据和异质知识来源,知识接地的对话系统是挑战的。由于培训数据中涵盖的有限主题,现有系统在不良主题上表现不佳。此外,异构知识源使系统概括到其他任务的系统,因为不同知识表示中的知识来源需要不同的知识编码器。为了解决这些挑战,我们呈现插头,将不同知识来源均匀化为知识接地的对话生成任务的统一知识来源的语言模型。插头在对话生成任务上进行预先培训,调节统一的基本知识表示。它可以通过一些培训示例概括到不同下游知识接地的对话一代任务。两个基准测试的实证评估表明,我们的模型越好跨越不同的知识接地任务。它可以在完全监督的设置下实现具有最先进的方法的可比性,并且显着优于零拍摄和少量拍摄设置中的其他方法。
translated by 谷歌翻译
视觉变压器最近由于其在各种计算机视觉任务上的出色表现而引发了医学图像分析领域的新浪潮。但是,最近的基于混合/变压器的方法主要集中于变形金刚在捕获长期依赖性方面的好处,同时忽略了其艰巨的计算复杂性,高培训成本和冗余依赖性的问题。在本文中,我们建议对变形金刚进行自适应修剪进行医学图像分割,并提出轻巧有效的混合网络表达式。据我们所知,这是针对医学图像分析任务修剪变压器修剪的第一项工作。 Apformer的关键特征主要是自我监督的自我注意力(SSA),以改善依赖性建立的收敛性,高斯 - 优先相对位置嵌入(GRPE),以促进学习位置信息的学习,并自适应修剪以消除冗余计算和感知信息。具体而言,SSA和GRPE分别考虑了良好的依赖分布和高斯热图分布,作为自我注意事项和嵌入位置的先验知识,以减轻变压器的训练并为以下修剪操作奠定坚实的基础。然后,通过调整栅极控制参数以降低复杂性和性能改进来执行自适应变压器修剪,无论是查询和依赖性方面的修剪,都可以执行。在两个广泛使用的数据集上进行了广泛的实验,证明了Apformer对具有更少参数和较低GFLOPS的最新方法的显着分割性能。更重要的是,通过消融研究,我们证明了自适应修剪可以作为插头-N-play模块,以改善其他基于混合的混合/变压器方法。代码可从https://github.com/xianlin7/apformer获得。
translated by 谷歌翻译
卷积神经网络(CNN),是基于深度学习的医学图像分析的最普遍的体系结构,在功能上仍受其固有的电感偏见和不充分的接收场的限制。旨在解决这个问题的变压器由于其出色的捕获长期依赖的能力而引起了自然语言处理和计算机视觉的爆炸性关注。但是,最新的基于变压器的医学图像分割方法直接将香草变压器作为基于CNN的方法中的辅助模块应用于辅助模块,从而导致由于变压器中刚性贴片分配方案而导致严重的细节损失。为了解决这个问题,我们提出了C2FTRANS,这是一种新型的多尺度架构,将医学图像分割作为粗到精细的过程。 C2FTRAN主要由跨尺度的全局变压器(CGT)组成,该变压器(CGT)解决了CNN中的局部上下文相似性和边界感知的局部变压器(BLT),该局部变压器(BLT)克服了通过变压器中的刚性贴片分配带来的边界不确定性。具体而言,CGT在三个不同的小规模特征图上建立全球依赖性,以获得具有可接受的计算成本的丰富全球语义特征,而BLT通过在熵的指导下适应围绕边界的窗口来捕获中端依赖性,以降低计算复杂性并最小化最小基于大规模特征地图的详细损失。三个公共数据集的广泛实验结果证明了C2FTRAN的卓越性能与基于CNN的最新基于CNN和基于变压器的方法具有更少的参数和较低的拖失术。我们认为,C2Ftrans的设计将进一步激发未来在开发高效和轻量级变压器以进行医学图像细分方面的工作。本文的源代码可在https://github.com/xianlin7/c2ftrans上公开获得。
translated by 谷歌翻译
目的是对临床文本去识别的自然语言处理(NLP)模型的评估取决于临床注释的可用性,临床注释通常由于隐私问题而受到限制。 NLP沙盒是一种通过采用联合模型到数据的方法来减轻NLP模型缺乏数据和评估框架的方法。这使得无偏见的联合模型评估无需共享多个机构的敏感数据。材料和方法我们利用Synapse协作框架,容器化软件和OpenAPI Generator来构建NLP沙盒(NLPSANDBOX.IO)。我们使用来自三个机构的数据评估了两个最先进的NLP去识别注释模型Philter和Neuroner。我们使用来自外部验证站点的数据进一步验证了模型性能。结果我们通过去识别临床模型评估证明了NLP沙箱的有用性。外部开发人员能够将其模型纳入NLP沙盒模板中,并提供用户体验反馈。讨论我们证明了使用NLP沙箱对临床文本去识别模型进行多站点评估的可行性,而无需共享数据。标准化模型和数据模式可以使模型传输和实现平稳。为了概括NLP沙箱,数据所有者和模型开发人员需要进行工作,以开发合适和标准化的模式,并调整其数据或模型以适合模式。结论NLP沙箱降低了利用临床数据进行NLP模型评估的障碍,并促进了联合会的NLP模型的联合,多站点,无偏见的评估。
translated by 谷歌翻译
航空图像中的微小对象检测(TOD)是具有挑战性的,因为一个小物体只包含几个像素。最先进的对象探测器由于缺乏判别特征的监督而无法为微小对象提供令人满意的结果。我们的主要观察结果是,联合度量(IOU)及其扩展的相交对微小物体的位置偏差非常敏感,这在基于锚固的探测器中使用时会大大恶化标签分配的质量。为了解决这个问题,我们提出了一种新的评估度量标准,称为标准化的Wasserstein距离(NWD)和一个新的基于排名的分配(RKA)策略,以进行微小对象检测。提出的NWD-RKA策略可以轻松地嵌入到各种基于锚的探测器中,以取代标准的基于阈值的检测器,从而大大改善了标签分配并为网络培训提供了足够的监督信息。在四个数据集中测试,NWD-RKA可以始终如一地提高微小的对象检测性能。此外,在空中图像(AI-TOD)数据集中观察到显着的嘈杂标签,我们有动力将其重新标记并释放AI-TOD-V2及其相应的基准。在AI-TOD-V2中,丢失的注释和位置错误问题得到了大大减轻,从而促进了更可靠的培训和验证过程。将NWD-RKA嵌入探测器中,检测性能比AI-TOD-V2上的最先进竞争对手提高了4.3个AP点。数据集,代码和更多可视化可在以下网址提供:https://chasel-tsui.g​​ithub.io/ai/ai-tod-v2/
translated by 谷歌翻译
步态描绘了个人独特而区别的步行模式,并已成为人类识别最有希望的生物识别特征之一。作为一项精细的识别任务,步态识别很容易受到许多因素的影响,并且通常需要大量完全注释的数据,这些数据是昂贵且无法满足的。本文提出了一个大规模的自我监督基准,以通过对比度学习进行步态识别,旨在通过提供信息丰富的步行先验和各种现实世界中的多样化的变化,从大型的无标记的步行视频中学习一般步态代表。具体而言,我们收集了一个由1.02m步行序列组成的大规模的无标记的步态数据集gaitu-1m,并提出了一个概念上简单而经验上强大的基线模型步态。在实验上,我们在四个广泛使用的步态基准(Casia-B,Ou-Mvlp,Grew and Grew and Gait3d)上评估了预训练的模型,或者在不转移学习的情况下。无监督的结果与基于早期模型和基于GEI的早期方法相当甚至更好。在转移学习后,我们的方法在大多数情况下都超过现有方法。从理论上讲,我们讨论了步态特异性对比框架的关键问题,并提供了一些进一步研究的见解。据我们所知,Gaitlu-1M是第一个大规模未标记的步态数据集,而GaitSSB是第一种在上述基准测试基准上取得显着无监督结果的方法。 GaitSSB的源代码将集成到OpenGait中,可在https://github.com/shiqiyu/opengait上获得。
translated by 谷歌翻译
盲人面部修复(BFR)旨在从低品质的图像中恢复高质量的面部图像,并通常求助于面部先验,以改善恢复性能。但是,当前的方法仍然遇到两个主要困难:1)如何在不进行大规模调整的情况下得出强大的网络体系结构; 2)如何从一个网络中的多个面部先验捕获互补信息以提高恢复性能。为此,我们提出了一个面部修复搜索网络(FRSNET),以适应我们指定的搜索空间内的合适特征提取体系结构,这可以直接有助于恢复质量。在FRSNET的基础上,我们通过多个学习方案进一步设计了多个面部先验搜索网络(MFPSNET)。 MFPSNET最佳地从不同的面部先验中提取信息,并将信息融合到图像特征中,以确保保留外部指导和内部特征。通过这种方式,MFPSNet充分利用了语义级别(解析图),几何级别(面部热图),参考级别(面部词典)和像素级(降级图像)信息,从而产生忠实且逼真的图像。定量和定性实验表明,MFPSNET在合成和现实世界数据集上对最先进的BFR方法表现出色。这些代码可公开可用:https://github.com/yyj1ang/mfpsnet。
translated by 谷歌翻译
联合学习(FL),使不同的医疗机构或客户能够在没有数据隐私泄漏的情况下进行协作培训模型,最近在医学成像社区中引起了极大的关注。尽管已经对客户间数据异质性进行了彻底的研究,但由于存在罕见疾病,阶级失衡问题仍然不足。在本文中,我们提出了一个新型的FL框架,用于医学图像分类,尤其是在处理罕见疾病的数据异质性方面。在Fedrare中,每个客户在本地训练一个模型,以通过客户内部监督对比度学习提取高度分离的潜在特征,以进行分类。考虑到有限的稀有疾病数据,我们建立了积极的样本队列以进行增强(即数据重采样)。 Fedrare中的服务器将从客户端收集潜在功能,并自动选择最可靠的潜在功能作为发送给客户的指南。然后,每个客户都会通过局部间的对比损失共同训练,以使其潜在特征与完整课程的联合潜在特征保持一致。通过这种方式,跨客户的参数/特征差异有效地最小化,从而可以更好地收敛和性能改进。关于皮肤病变诊断的公共可用数据集的实验结果表明,Fedrare的表现出色。在四个客户没有罕见病样本的10客户联合环境下,Fedrare的平均水平准确度平均增长了9.60%和5.90%,与FedAvg和FedAvg的基线框架和FedArt方法分别相比。考虑到在临床情况下存在罕见疾病的董事会,我们认为Fedrare将使未来的FL框架设计受益于医学图像分类。本文的源代码可在https://github.com/wnn2000/fedrare上公开获得。
translated by 谷歌翻译