本文提出了一种具有多个循环训练的训练方法,可在低位量化的卷积神经网络(CNN)中实现增强性能。量化是获得轻量级CNN的流行方法,其中使用预审计模型的初始化被广泛用于克服低分辨率量化中的降解性能。但是,实际值及其低位量化量之间的大量量化错误在获得复杂网络和大型数据集的可接受性能方面遇到了困难。所提出的训练方法在多个量化步骤中轻轻地将验证模型的知识传达给了低位量化模型。在每个量化步骤中,模型的训练重量用于初始化下一个模型的权重,而量化位深度减少了一个。随着量化位深度的微小变化,可以弥合性能差距,从而提供更好的权重初始化。在循环训练中,在训练低位量化模型后,其训练的权重用于初始化其准确模型要训练。通过以迭代方式使用精确模型的更好的训练能力,该方法可以在每个循环中为低位量化模型产生增强的训练重量。值得注意的是,训练方法可以分别提高ImageNet数据集上的二进制RESNET-18的TOP-1和前5个精度,分别为5.80%和6.85%。
translated by 谷歌翻译
在本文中,提出了一个绿色,量化的FL框架,该框架在本地培训和上行链路传输中代表具有有限精度水平的数据。在这里,有限的精度级别是通过使用量化的神经网络(QNN)来捕获的,该神经网络(QNN)以固定精确格式量化权重和激活。在考虑的FL模型中,每个设备训练其QNN并将量化的训练结果传输到基站。严格得出了局部训练和传输的能量模型。为了同时最大程度地减少能耗和交流的数量,相对于本地迭代的数量,选定设备的数量以及本地培训和传输的精确级别,在确保融合的同时,提出了多目标优化问题目标准确性约束。为了解决此问题,相对于系统控制变量,分析得出所提出的FL系统的收敛速率。然后,该问题的帕累托边界被表征为使用正常边界检查方法提供有效的解决方案。通过使用NASH讨价还价解决方案并分析派生的收敛速率,从两个目标之间平衡了两种目标之间的权衡的洞察力。仿真结果表明,与代表完全精确的数据相比,提出的FL框架可以减少能源消耗,直到收敛高达52%。
translated by 谷歌翻译
稀疏激活的变压器(例如专家的混合物(MOE))由于其极端的缩放能力而引起了极大的兴趣,这可以使模型大小的急剧增加而没有大幅增加计算成本。为了实现这一目标,MOE模型用变压器中的Experts子层取代了前馈子层,并使用门控网络将每个令牌路由到其指定的专家。由于对此类模型进行有效培训的共同实践需要在不同的机器上分发专家和代币,因此这种路由策略通常会产生巨大的跨机器通信成本,因为代币及其分配的专家可能居住在不同的机器中。在本文中,我们提出了\ emph {门控辍学},它允许代币忽略门控网络并留在其本地机器,从而减少了交叉机器的通信。与传统辍学类似,我们还表明,门控辍学在训练过程中具有正规化效果,从而改善了概括性能。我们验证了对多语言机器翻译任务中门控辍学的有效性。我们的结果表明,门控辍学可改善具有更快的壁式时间收敛速率的最先进的MOE模型,并为各种模型尺寸和数据集提供更好的BLEU分数。
translated by 谷歌翻译
现代卷积神经网络(CNNS)具有大规模的相同卷积块,因此,已经提出了跨越这些块的参数的递归共享,以减少参数的数量。然而,Naive的参数共享构成了许多挑战,例如有限的代表性功率和递归参数的消失/爆炸梯度问题。在本文中,我们提出了一种递归卷积块设计和训练方法,其中分离和学习递归和基于递归部分或过滤器的基础,同时在训练期间有效地避免消失/爆炸梯度问题。我们表明,可以通过强制执行滤波器基础的元素来控制笨拙的消失/爆炸梯度问题,并且经验证明所提出的正交正规化在训练期间提高了梯度的流动。实验结果对图像分类和对象检测表明,我们的方法与以前的参数共享方法不同,不交易性能,以节省参数,并始终如一地优于聚参数化的对应网络。这种卓越的性能表明,所提出的递归卷积块设计和正交正常化不仅可以防止性能下降,而且还一致地提高表示能力,而递归地共享大量参数。
translated by 谷歌翻译
作为一个与现实世界互动的虚拟世界,元媒体封装了我们对下一代互联网的期望,同时带来了新的关键绩效指标(KPIS)。常规的超级可靠和低延迟通信(URLLC)可以满足绝大多数客观服务KPI,但是很难为用户提供个性化的荟萃服务体验。由于提高经验质量(QOE)可以被视为当务之急的KPI,因此URLLC朝向下一代URLLC(XURLLC),以支持基于图形技术的荟萃分析。通过将更多资源分配给用户更感兴趣的虚拟对象,可以实现更高的QoE。在本文中,我们研究了元服务提供商(MSP)和网络基础架构提供商(INP)之间的相互作用,以部署Metaverse Xurllc服务。提供了最佳合同设计框架。具体而言,将最大化的MSP的实用程序定义为元用户的QOE的函数,同时确保INP的激励措施。为了建模Metaverse Xurllc服务的Qoe,我们提出了一个名为Meta Immersion的新颖指标,该指标既包含了客观网络KPI和元用户的主观感觉。使用用户对象注意级别(UOAL)数据集,我们开发并验证了注意力吸引人的渲染能力分配方案以改善QOE。结果表明,与常规的URLLC相比,Xurllc平均提高了20.1%的QoE改善。当总资源有限时,QoE改进的比例较高,例如40%。
translated by 谷歌翻译
测试时间适应(TTA)是一个新兴范式,可解决培训和测试阶段之间的分布变化,而无需其他数据采集或标签成本;仅使用未标记的测试数据流进行连续模型适应。以前的TTA方案假设测试样本是独立的,并且分布相同(i.i.d.),即使它们在应用程序方案中通常在时间上相关(non-i.i.d。),例如自动驾驶。我们发现,在这种情况下,大多数现有的TTA方法急剧失败。由此激励,我们提出了一种新的测试时间适应方案,该方案对非I.I.D具有强大的态度。测试数据流。我们的新颖性主要是两倍:(a)纠正分布样本的归一化的实例感知批归归量表(IABN),以及(b)模拟I.I.D.的预测均衡储层采样(PBRS)。来自非i.i.d的数据流。以班级平衡的方式流式传输。我们对各种数据集的评估,包括现实世界非i.i.d。流,表明所提出的强大TTA不仅优于非i.i.d的最先进的TTA算法。设置,但也可以实现与I.I.D.下的这些算法相当的性能。假设。
translated by 谷歌翻译
目的:分类器传输通常带有数据集偏移。为了克服它们,必须采用在线策略。对于实际应用,必须考虑用于适应批处理学习算法(例如SVM)的计算资源的局限性。方法:我们审查并比较了在线学习的几种策略与SVM。我们专注于限制存储培训数据大小的数据选择策略[...]主要结果:对于不同的数据移动,不同的标准是合适的。对于合成数据,将所有样品添加到所考虑的样品库中的性能通常比其他标准差得多。特别是,仅添加错误分类的样本表现出色。在这里,当其他标准没有得到很好的选择时,平衡标准非常重要。对于转移设置,结果表明,最佳策略取决于转移过程中漂移的强度。添加全部并删除最古老的样品会导致最佳性能,而对于较小的漂移,仅添加SVM的潜在新支持向量就足以减少处理资源。意义:对于基于脑电图模型的BCIS,使用了校准会话中的数据,先前的录制会话,甚至是与一个或其他主题的录音会话进行培训。学习模型的这种转移通常会降低性能,因此可以从在线学习中受益,从而适应了像已建立的SVM这样的分类器。我们表明,通过使用正确的数据选择标准组合,可以适应分类器并在很大程度上提高性能。此外,在某些情况下,可以通过使用特殊样本的子集更新并保留一小部分样品来训练分类器来加快处理并节省计算。
translated by 谷歌翻译
我们为机器人素描剂提供了一个自动学习框架,该框架能够同时学习基于中风的渲染和运动控制。我们将机器人的草图问题提出为深度分离的分层增强学习;独立学习了基于中风的渲染和电动机控制的两种政策,以实现绘画的子任务,并在合作进行现实世界绘图时形成层次结构。没有手工制作的特征,绘制序列或轨迹以及逆运动学,该方法将从刮擦上训练机器人素描剂。我们用带有2F抓手的6多机器人臂进行了实验,以素描涂鸦。我们的实验结果表明,这两个策略成功地学习了子任务并合作绘制目标图像。此外,通过不同的绘图工具和表面来检查鲁棒性和灵活性。
translated by 谷歌翻译
数据到文本(D2T)生成是从结构化输入生成文本的任务。我们观察到,当重复两次相同的目标句子时,基于变压器(T5)模型会产生由结构化输入的非对称句子组成的输出。换句话说,这些句子的长度和质量不同。我们称这种现象为“不对称产生”,并在D2T生成中利用了这一现象。生成不对称句子后,我们将使用无重复的目标添加输出的第一部分。随着渐进式编辑(PROEDIT)进行,召回增加。因此,此方法比在编辑之前更好地涵盖了结构化输入。证明是提高D2T生成性能的一种简单但有效的方法,它在Totto数据集中实现了新的状态结果
translated by 谷歌翻译
由于其在生物医学领域中的重要性,因此对癌症的早期发现进行了广泛的探索。在用于回答这个生物学问题的不同类型的数据中,由于对宿主免疫系统在肿瘤生物学中的作用的增长,基于T细胞受体(TCR)的研究受到了最近的关注。但是,患者和多个TCR序列之间的一对一对应关系阻碍了研究人员简单地采用经典的统计/机器学习方法。最近有尝试在多个实例学习(MIL)的上下文中对这种类型的数据进行建模。尽管使用TCR序列将MIL在癌症检测中采用了新的应用,并且在几种肿瘤类型中表现出了足够的表现,但仍然有改善的空间,尤其是对于某些癌症类型。此外,该应用程序未对可解释的神经网络模型进行全面研究。在本文中,我们提出了基于稀疏注意(Minn-SA)的多个实例神经网络,以增强癌症检测和解释性的性能。稀疏的注意力结构在每个袋子中散发出非信息的实例,可以与跳过连接结合使用可解释性和更好的预测性能。我们的实验表明,与现有的MIL方法相比,Minn-SA在ROC曲线(AUC)得分下的最高面积(AUC)得分平均得分。此外,我们从估计的注意力中观察到Minn-SA可以鉴定出对同一T细胞库中肿瘤抗原的特异性TCR。
translated by 谷歌翻译