关于多模式情绪识别的最新作品转向端到端模型,该模型可以提取与两阶段管道相比,目标任务监督的特定任务特征。但是,以前的方法仅模拟文本和声学和视觉方式之间的特征相互作用,而忽略了捕获声学和视觉方式之间的特征相互作用。在本文中,我们提出了多模式的端到端变压器(ME2ET),该变压器可以有效地对低级和高级水平的文本,声学和视觉方式之间的三模式特征进行建模。在低水平,我们提出了进行性三模式的注意,可以通过采用两次通行策略来对三模式特征相互作用进行建模,并可以进一步利用这种相互作用,以通过降低输入令牌来显着降低计算和记忆复杂性长度。在高水平上,我们引入了三模式特征融合层,以明确汇总三种模式的语义表示。 CMU-MOSEI和IEMOCAP数据集的实验结果表明,ME2ET实现了最新性能。进一步的深入分析证明了拟议的渐进三模式关注的有效性,效率和解释性,这可以帮助我们的模型实现更好的性能,同时显着降低计算和记忆成本。我们的代码将公开可用。
translated by 谷歌翻译
可重新配置的智能表面(RIS)可以显着增强TERA-HERTZ大量多输入多输出(MIMO)通信系统的服务覆盖范围。但是,获得有限的飞行员和反馈信号开销的准确高维通道状态信息(CSI)具有挑战性,从而严重降低了常规空间分裂多次访问的性能。为了提高针对CSI缺陷的鲁棒性,本文提出了针对RIS辅助TERA-HERTZ多用户MIMO系统的基于深度学习的(DL)基于速率的多访问(RSMA)方案。具体而言,我们首先提出了基于DL的混合数据模型驱动的RSMA预编码方案,包括RIS的被动预编码以及模拟主动编码和基本站(BS)的RSMA数字活动预码。为了实现RIS的被动预码,我们提出了一个基于变压器的数据驱动的RIS反射网络(RRN)。至于BS的模拟主动编码,我们提出了一个基于匹配器的模拟预编码方案,因为BS和RIS采用了Los-Mimo天线阵列结构。至于BS的RSMA数字活动预码,我们提出了一个低复杂性近似加权的最小均方误差(AWMMSE)数字编码方案。此外,为了更好地编码性能以及较低的计算复杂性,模型驱动的深层展开的主动编码网络(DFAPN)也是通过将所提出的AWMMSE方案与DL相结合的。然后,为了在BS处获得准确的CSI,以实现提高光谱效率的RSMA预编码方案,我们提出了一个CSI采集网络(CAN),具有低飞行员和反馈信号开销,下行链接飞行员的传输,CSI在此处使用CSI的CSI反馈。 (UES)和BS处的CSI重建被建模为基于变压器的端到端神经网络。
translated by 谷歌翻译
尽管在产生流利的文本方面取得了进步,但现有的预训练模型倾向于在产生诸如故事和新闻之类的叙述时将不连贯的事件序列附加到相关实体上。我们猜想,这些问题是由将实体表示为浅表词的静态嵌入而导致的,同时忽略了对其不断变化的状态建模,即随着文本的展开,即它们所携带的信息。因此,我们将变压器模型扩展到动态执行实体状态更新和叙事生成的句子实现。我们提出了一个对比框架,以在离散空间中学习状态表示,并将其他注意层插入解码器中以更好地利用这些状态。两个叙述数据集的实验表明,与有意义的实体状态的指导相比,我们的模型可以产生更多的连贯和多样化的叙事。
translated by 谷歌翻译
视频综合孔径雷达(视频 - 萨尔)图像之间的移动目标阴影总是被低散射背景和混乱的噪音干扰,从而导致移动目标阴影检测跟踪性能不良。为了解决这个问题,这封信提出了一个名为SBN-3D-SD的暗影 - 背景3D空间隔离方法,以提高阴影显着性,以提高视频 - 萨尔移动目标影像阴影检测跟踪性能。
translated by 谷歌翻译
蛋白质是人类生命的重要组成部分,其结构对于功能和机制分析很重要。最近的工作表明了AI驱动方法对蛋白质结构预测的潜力。但是,新模型的开发受到数据集和基准测试培训程序的限制。据我们所知,现有的开源数据集远不足以满足现代蛋白质序列相关研究的需求。为了解决这个问题,我们介绍了具有高覆盖率和多样性的第一个百万级蛋白质结构预测数据集,称为PSP。该数据集由570K真实结构序列(10TB)和745K互补蒸馏序列(15TB)组成。此外,我们还提供了该数据集上SOTA蛋白结构预测模型的基准测试训练程序。我们通过参与客串比赛验证该数据集的实用程序进行培训,我们的模特赢得了第一名。我们希望我们的PSP数据集以及培训基准能够为AI驱动的蛋白质相关研究提供更广泛的AI/生物学研究人员社区。
translated by 谷歌翻译
预训练是在各种下游任务上转移学习的广泛采用的起点。对彩票假说(LTH)的最新研究表明,这种巨大的预训练模型可以用极稀疏的子网(又称匹配子网络)代替,而无需牺牲可传递性。但是,实际的安全 - 重要应用程序通常在标准转移之外提出了更具挑战性的要求,这也要求这些子网克服对抗性脆弱性。在本文中,我们制定了一个更严格的概念,双赢彩票,其中预训练模型的位置可以在各种下游任务上独立传输,以在两个标准下达到相同的标准和可靠的概括正如完整的预培训模型可以做到的那样,对抗性训练制度。我们全面检查了各种训练机制,发现强大的预训练倾向于制作出更少的双赢彩票,其性能优于标准对应物。例如,在下游CIFAR-10/100数据集上,我们识别出具有标准的,快速的对抗性和对抗性预训练的双赢匹配子网,以89.26%/73.79%,89.26%/79.03%和91.41%的匹配培训。 /83.22%稀疏。此外,我们观察到获得的双赢彩票票可以在实用数据限制(例如1%和10%)下游方案下传输的数据效率更高。我们的结果表明,彩票票务方案以及数据限制的转移设置可以扩大稳健的预训练的好处。代码可在https://github.com/vita-group/double-win-lth上找到。
translated by 谷歌翻译
Twitter机器人检测已成为打击错误信息,促进社交媒体节制并保持在线话语的完整性的越来越重要的任务。最先进的机器人检测方法通常利用Twitter网络的图形结构,在面对传统方法无法检测到的新型Twitter机器人时,它们表现出令人鼓舞的性能。但是,现有的Twitter机器人检测数据集很少是基于图形的,即使这些基于图形的数据集也遭受有限的数据集量表,不完整的图形结构以及低注释质量。实际上,缺乏解决这些问题的大规模基于图的Twitter机器人检测基准,严重阻碍了基于图形的机器人检测方法的开发和评估。在本文中,我们提出了Twibot-22,这是一个综合基于图的Twitter机器人检测基准,它显示了迄今为止最大的数据集,在Twitter网络上提供了多元化的实体和关系,并且与现有数据集相比具有更好的注释质量。此外,我们重新实施35代表性的Twitter机器人检测基线,并在包括Twibot-22在内的9个数据集上进行评估,以促进对模型性能和对研究进度的整体了解的公平比较。为了促进进一步的研究,我们将所有实施的代码和数据集巩固到Twibot-22评估框架中,研究人员可以在其中始终如一地评估新的模型和数据集。 Twibot-22 Twitter机器人检测基准和评估框架可在https://twibot22.github.io/上公开获得。
translated by 谷歌翻译
近年来,自我监督学习(SSL)已广泛探索。特别是,生成的SSL在自然语言处理和其他AI领域(例如BERT和GPT的广泛采用)中获得了新的成功。尽管如此,对比度学习 - 严重依赖结构数据的增强和复杂的培训策略,这是图SSL的主要方法,而迄今为止,生成SSL在图形上的进度(尤其是GAES)尚未达到潜在的潜力。正如其他领域所承诺的。在本文中,我们确定并检查对GAE的发展产生负面影响的问题,包括其重建目标,训练鲁棒性和错误指标。我们提出了一个蒙版的图形自动编码器Graphmae,该图可以减轻这些问题,以预处理生成性自我监督图。我们建议没有重建图形结构,而是提议通过掩盖策略和缩放余弦误差将重点放在特征重建上,从而使GraphMae的强大训练受益。我们在21个公共数据集上进行了大量实验,以实现三个不同的图形学习任务。结果表明,Graphmae-A简单的图形自动编码器具有仔细的设计-CAN始终在对比度和生成性最新基准相比,始终产生优于性的表现。这项研究提供了对图自动编码器的理解,并证明了在图上的生成自我监督预训练的潜力。
translated by 谷歌翻译
在本文中,我们制定了一个潜在的有价值的全景深度完成(PDC)任务,因为全景3D摄像机通常会产生360 {\ deg}深度,而在复杂场景中缺少数据。它的目标是从原始的稀疏图像和全景RGB图像中恢复密集的全景深度。为了处理PDC任务,我们训练一个深度网络,该网络将深度和图像作为密集的全景深度恢复的输入。但是,由于其非凸目标函数,它需要面对网络参数的具有挑战性的优化问题。为了解决这个问题,我们提出了一种简单而有效的方法,称为m {^3} pt:多模式掩盖的预训练。具体而言,在预训练期间,我们同时覆盖了全景RGB图像和通过共享随机掩码的稀疏深度的斑块,然后重建掩盖区域中的稀疏深度。据我们所知,这是我们第一次在多模式视觉任务中展示蒙版预训练的有效性,而不是蒙版自动编码器(MAE)解决的单模式任务。与MAE进行微调完全丢弃了预训练的解码器部分,在我们的M $^{3} $ pt中的预训练和微调阶段之间没有建筑差异,因为它们在预测密度方面只有不同,这有可能使转移学习更加方便和有效。广泛的实验验证了三个全景数据集上M {^3} PT的有效性。值得注意的是,我们在RMSE中平均将最先进的基线提高了26.2%,MRE的51.7%,MAE为49.7%,在三个基准数据集中将RMSelog的RMSelog在37.5%中提高了37.5%。
translated by 谷歌翻译
近年来,卷积神经网络(CNNS)已成功应用于单个目标跟踪任务。通常,训练深层CNN模型需要众多标记的训练样本,并且这些样品的数量和质量直接影响训练模型的代表性能力。然而,这种方法在实践中是限制性的,因为手动标记了这么大的训练样本是耗时的并且非常昂贵。在本文中,我们提出了一种用于深度视觉跟踪的主动学习方法,其选择和注释未标记的样本以培训深度CNNS模型。在主动学习的指导下,基于受过训练的深CNN模型的跟踪器可以实现竞争性跟踪性能,同时降低标签成本。更具体地,为了确保所选样本的多样性,我们提出了一种基于多帧协作的主动学习方法,以选择应该是并且需要注释的那些训练样本。同时,考虑到这些所选样本的代表性,我们采用基于平均最近邻距离的最近邻差异距离筛选隔离样本和低质量样品。因此,基于我们的方法选择的训练样本子集仅需要一个给定的预算来维持整个样本集的多样性和代表性。此外,我们采用TVERSKY亏损来改进跟踪器的边界框估计,这可以确保跟踪器实现更准确的目标状态。广泛的实验结果证实,我们的积极学习的跟踪器(ALT)与七个最具挑战性评估基准的最先进的跟踪器相比,与最先进的跟踪器相比,实现了竞争性的跟踪精度和速度。
translated by 谷歌翻译