由于稀疏神经网络通常包含许多零权重,因此可以在不降低网络性能的情况下潜在地消除这些不必要的网络连接。因此,设计良好的稀疏神经网络具有显着降低拖鞋和计算资源的潜力。在这项工作中,我们提出了一种新的自动修剪方法 - 稀疏连接学习(SCL)。具体地,重量被重新参数化为可培训权重变量和二进制掩模的元素方向乘法。因此,由二进制掩模完全描述网络连接,其由单位步进函数调制。理论上,从理论上证明了使用直通估计器(STE)进行网络修剪的基本原理。这一原则是STE的代理梯度应该是积极的,确保掩模变量在其最小值处收敛。在找到泄漏的Relu后,SoftPlus和Identity Stes可以满足这个原理,我们建议采用SCL的身份STE以进行离散面膜松弛。我们发现不同特征的面具梯度非常不平衡,因此,我们建议将每个特征的掩模梯度标准化以优化掩码变量训练。为了自动训练稀疏掩码,我们将网络连接总数作为我们的客观函数中的正则化术语。由于SCL不需要由网络层设计人员定义的修剪标准或超级参数,因此在更大的假设空间中探讨了网络,以实现最佳性能的优化稀疏连接。 SCL克服了现有自动修剪方法的局限性。实验结果表明,SCL可以自动学习并选择各种基线网络结构的重要网络连接。 SCL培训的深度学习模型以稀疏性,精度和减少脚波特的SOTA人类设计和自动修剪方法训练。
translated by 谷歌翻译
在联合学习(FL)问题中,客户采样在训练算法的收敛速度中起着关键作用。然而,虽然是FL中的一个重要问题,但客户采样缺乏研究。在本文中,我们提出了在线学习,使用强盗反馈框架来了解FL中的客户采样问题。通过调整在线随机镜血清序列算法,以最小化梯度估计的方差,我们提出了一种新的自适应客户端采样算法。此外,我们使用在线集合方法和加倍技巧来自动选择算法中的调整参数。从理论上讲,我们将动态遗憾与比较器相结合,作为理论上最佳采样序列;我们还包括在我们的上限中的该序列的总变化,这是对问题的内在难度的自然度量。据我们所知,这些理论贡献对现有文献进行了新颖。此外,通过实施合成和真实数据实验,我们展示了我们所提出的算法在广泛使用的统一采样中的优势以及以前研究的其他在线学习的采样策略的实证证据。我们还检查其对调谐参数的选择的鲁棒性。最后,我们讨论其可能的延伸,而无需更换和个性化的流动。虽然原始目标是解决客户的采样问题,但这项工作在随机梯度下降和随机坐标序列方法上具有更大的应用。
translated by 谷歌翻译
本文介绍了Thuee团队的语音识别系统,用于IARPA Open自动语音识别挑战(OpenASR21),并进行了进一步的实验探索。我们在受限和受约束的训练条件下取得了出色的成果。对于受限的训练条件,我们基于标准混合体系结构构建基本ASR系统。为了减轻摄影库(OOV)的问题,我们使用针对OOV和潜在的新单词的素式至phoneme(G2P)技术扩展了发音词典。采用了标准的声学模型结构,例如CNN-TDNN-F和CNN-TDNN-F-A。此外,还应用了多种数据增强技术。对于约束训练条件,我们使用自我监督的学习框架WAV2VEC2.0。我们在公开可用的预训练XLSR-53的基础上使用连接式时间分类(CTC)标准进行各种微调技术。我们发现,在将WAV2VEC2.0预训练的模型应用于基于编码器的CTC/CTC/COATION ASR体系结构时,前端特征提取器在将WAV2VEC2.0预训练的模型应用时起着重要作用。通过将目标语言用作为前端功能提取器使用的CTC模型填充可以实现额外的改进。
translated by 谷歌翻译
变压器的注意机制有效地从输入序列中提取相关信息。然而,自我注意力的二次复杂性W.R.T序列长度会产生沉重的计算和记忆负担,尤其是对于长序列的任务。现有的加速器在这些任务中面临性能退化。为此,我们建议Salo为长序列提供杂交稀疏注意机制。Salo包含一个数据调度程序,将混合稀疏注意模式映射到硬件和空间加速器上,以执行有效的注意力计算。我们表明,与GPU和CPU实施相比,Salo平均达到17.66 X和89.33倍的速度,即典型的工作负载,即Longformer和VIL。
translated by 谷歌翻译
这项工作研究了标签平滑(LS)和知识蒸馏(KD)之间的兼容性。解决这一论文陈述的当代发现采取二分法的观点:Muller等。 (2019)和Shen等。 (2021b)。至关重要的是,没有努力理解和解决这些矛盾的发现,留下了原始问题 - 顺利还是不平稳教师网络? - 未得到答复。我们工作的主要贡献是对系统扩散的发现,分析和验证是缺失的概念,这在理解和解决这些矛盾的发现方面具有重要作用。这种系统的扩散基本上削减了从LS训练的老师蒸馏的好处,从而使KD在升高的温度无效时使KD呈现。我们的发现得到了大规模实验,分析和案例研究的全面支持,包括图像分类,神经机器翻译和紧凑的学生蒸馏任务,这些任务跨越了多个数据集和教师 - 学生架构。根据我们的分析,我们建议从业者使用具有低温转移的LS训练的老师来实现高性能学生。代码和型号可在https://keshik6.github.io/revisiting-ls-kd-compatibility/
translated by 谷歌翻译
多模式的细粒情感分析最近由于其广泛的应用而引起了人们的关注。但是,现有的多模式细颗粒情感数据集最关注注释文本中的细粒元素,但忽略图像中的元素,这导致视觉内容中的细粒度元素没有得到应有的全部关注。在本文中,我们提出了一个新的数据集,即多模式方面类别情感分析(MACSA)数据集,其中包含超过21k的文本图像对。该数据集为文本和视觉内容提供细粒度的注释,并首先将方面类别用作枢轴,以对齐两种模态之间的细粒元素。基于我们的数据集,我们提出了多模式ACSA任务和基于多模式的对齐模型(MGAM),该模型(MGAM)采用了细粒度的跨模式融合方法。实验结果表明,我们的方法可以促进基线比较,以实现该语料库的未来研究。我们将使数据集和代码公开可用。
translated by 谷歌翻译
检测有益特征交互在推荐系统中至关重要,现有方法通过检查所有可能的特征交互来实现这一目标。但是,检查所有可能的高阶特征相互作用的成本是过于良好的(随着阶的增加而呈指数增长)。因此,现有方法仅检测有限的顺序(例如,最多四个功能的组合)有益特征交互,这可能会错过高于限制的订单的有益特征相互作用。在本文中,我们提出了一个名为HIRS的高图神经网络模型。 HIRS是直接产生任意订单的有益特征相互作用并相应地进行建议预测的第一项工作。生成的特征交互的数量可以指定比所有可能的交互的数量小得多,因此我们的模型承认运行时间要低得多。为了获得有效的算法,我们利用了有益特征相互作用的三种特性,并提出了基于深入的Infomax的方法来指导相互作用的产生。我们的实验结果表明,就建议准确性而言,HIRS的效果优于最先进的算法。
translated by 谷歌翻译
心电图(ECG)是一种简单的非侵入性措施,用于识别与心律失常相关的问题,例如称为心律失常的不规则心跳。尽管人工智能和机器学习被用于广泛的与医疗保健相关的应用程序和数据集中,但近年来已经提出了许多使用深度学习方法的心律失常分类器。但是,可以从中构建和评估机器学习模型的可用数据集的尺寸通常很小,并且缺乏通知的公共ECG数据集很明显。在本文中,我们提出了一个深入的转移学习框架,旨在在小型培训数据集上执行分类。提出的方法是根据AAMI EC57标准,用MIT-BIH心律失常数据集微调通用图像分类器RESNET-18。本文进一步研究了许多现有的深度学习模型,这些模型未能避免根据AAMI建议泄漏数据。我们比较不同的数据拆分方法如何影响模型性能。这项比较研究表明,在使用包括MIT-BIH心律失常数据集在内时,心律不齐分类的未来工作应遵循AAMI EC57标准。
translated by 谷歌翻译
由于物体的异质尺度,肾脏病理图像的全面语义分割具有挑战性。例如,在整个幻灯片图像(WSI)上,肾小球的横截面区域的距离可能比周围毛细管的64倍,这使得以相同尺度上的同一贴片对两个对象进行分割是不切实际的。为了解决这个缩放问题,先前的研究通常已经训练了多个分割网络,以匹配异质组织类型的最佳像素分辨率。这种多网络解决方案是资源密集型的,无法对组织类型之间的空间关系进行建模。在本文中,我们提出了Omni-Seg+网络,这是一种通过单个神经网络实现多对象(六种组织类型)和多尺度(5倍至40倍尺度)的多尺度(5倍至40倍尺度)的动态神经网络。本文的贡献是三个方面的:(1)提出了一种新型的量表感知控制器,以将动态神经网络从单尺度到多尺度推广; (2)引入了伪标签的半监督一致性正规化,以建模未经注释的组织类型的尺度相关性成单个端到端的学习范式; (3)直接将在人类肾脏图像训练的模型中直接应用于小鼠肾脏图像,而无需再培训,就可以证明高尺度感知的概括。通过从三种不同分辨率下从六种组织类型中学习的约150,000个人类病理图像斑块,我们的方法根据人类的视觉评估和图像词的评估(即空间转录组学)获得了卓越的分割性能。官方实施可在https://github.com/ddrrnn123/omni-seg上获得。
translated by 谷歌翻译
人类可以利用先前的经验,并从少数示威活动中学习新颖的任务。与旨在通过更好的算法设计来快速适应的离线元强化学习相反,我们研究了建筑归纳偏见对少量学习能力的影响。我们提出了一个基于及时的决策变压器(提示-DT),该变压器利用了变压器体系结构和及时框架的顺序建模能力,以在离线RL中实现少量适应。我们设计了轨迹提示,其中包含少量演示的片段,并编码特定于任务的信息以指导策略生成。我们在五个Mujoco控制基准中进行的实验表明,提示-DT是一个强大的少数学习者,而没有对看不见的目标任务进行任何额外的填充。提示-DT的表现优于其变体和强大的元线RL基线,只有一个轨迹提示符只包含少量时间段。提示-DT也很健壮,可以提示长度更改并可以推广到分布(OOD)环境。
translated by 谷歌翻译