基于变压器的语言模型利用注意机制在几乎所有自然语言处理(NLP)任务中进行大量绩效改进。在其他几个领域也广泛研究了类似的关注结构。尽管注意力机制可显着增强模型的性能,但其二次复杂性阻止了长序列的有效处理。最近的工作着重于消除计算效率低下的缺点,并表明基于变压器的模型仍然可以在没有注意力层的情况下达到竞争结果。一项开创性的研究提出了FNET,该研究将注意力层取代了变压器编码器体系结构中的傅立叶变换(FT)。 FNET通过消除注意机制的计算负担来加速训练过程,在加速训练过程的同时,实现了有关原始变压器编码器模型的竞争性能。但是,FNET模型忽略了FT的基本特性,可以利用经典信号处理,以进一步提高模型效率。我们提出了不同的方法,以有效地部署FT在变压器编码器模型中。我们提出的架构具有较少的模型参数,较短的培训时间,较少的内存使用情况以及一些额外的性能改进。我们通过对共同基准的广泛实验来证明这些改进。
translated by 谷歌翻译
图形自动编码器在嵌入基于图的数据集方面有效。大多数图形自动编码器体系结构都具有较浅的深度,这些深度限制了它们捕获由多支架隔开的节点之间有意义关系的能力。在本文中,我们提出了残留的变分图自动编码器Resvgae,这是一种具有多个残差模块的深度变分图自动编码器模型。我们表明,我们的多个残差模块,具有残差连接的卷积层,提高了图自动编码器的平均精度。实验结果表明,与其他最先进的方法相比,我们提出的剩余模块的模型优于没有残留模块的模型,并获得了相似的结果。
translated by 谷歌翻译