大型未标记语料库上的预训练的变压器语言模型已产生了最新的最先进的结果,从而导致了自然语言处理,有机分子设计和蛋白质序列的产生。但是,尚未应用这种模型来学习无机材料的组成模式。在这里,我们使用在ICSD,OQMD中存放的材料和材料项目数据库中扩展的公式培训了七种现代变压器模型(GPT,GPT-2,GPT-2,GPT-NEO,GPT-NEO,GPT-J,BLMM,BART和ROBERTA) 。六个不同的数据集,具有/输出非电荷 - 中性或平衡的电负性样品用于对性能进行基准测试,并发现现代变压器模型的产生偏见,以生成材料组成的生成设计。我们的广泛实验表明,基于因果语言模型的材料变形金刚可以产生高达97.54 \%的化学有效材料组合物,即充电中性,而91.40 \%的电负性平衡,与基线相比,它的富集高6倍以上伪随机抽样算法。这些模型还表现出了很高的新颖性,并且它们在新材料发现中的潜力已经证明了它们的能力恢复了留出的材料。我们还发现,可以通过使用精选的训练集(例如高带盖材料)训练模型来量身定制生成的样品的性能。我们的实验还表明,不同模型在生成样品的属性方面都有自己的喜好,并且其运行时间复杂性差异很大。我们已经应用了材料变压器模型来发现一套使用DFT计算验证的新材料。
translated by 谷歌翻译
有说服力的战略认可任务要求该系统根据对话识别说服者的采用策略。但是,以前的方法主要集中在上下文信息上,关于纳入心理反馈,即说服的情绪以预测策略知之甚少。在本文中,我们提出了一个跨渠道反馈记忆网络(CFO-NET),以利用情感反馈来迭代地衡量策略的潜在好处,并将其纳入上下文感知的对话信息中。具体而言,CFO-NET设计一个反馈内存模块,包括策略池和反馈池,以获得情感感知的策略表示。该策略池旨在存储历史策略,反馈池是根据反馈情感信息获得更新的策略权重。此外,开发了跨通道融合预测指标,以在情绪感知的策略表示与情境意识的对话信息之间进行相互互动,以供战略识别。 \ textsc {clesuasionforgood}上的实验结果确认,提出的模型CFO-NET可有效地将M-F1的性能从61.74提高到65.41。
translated by 谷歌翻译
本文通过控制功能级别的RGB图像和深度图之间的消息,介绍了RGB-D显着对象检测的新型深神经网络框架,并探索有关RGB和深度特征的远程语义上下文和几何信息推断出明显的对象。为了实现这一目标,我们通过图神经网络和可变形的卷积制定动态消息传播(DMP)模块,以动态学习上下文信息,并自动预测消息传播控制的过滤权重和亲和力矩阵。我们将该模块进一步嵌入基于暹罗的网络中,分别处理RGB图像和深度图,并设计多级特征融合(MFF)模块,以探索精制的RGB和深度特征之间的跨级信息。与六个基准数据集上用于RGB-D显着对象检测的17种最先进的方法相比,实验结果表明,我们的方法在定量和视觉上都优于其他所有方法。
translated by 谷歌翻译
智能辅助系统可以导航盲人,但其中大多数只能给出非直觉的提示或效率低下的指导。基于计算机视觉和颤振的编码,本文提出了一个交互式系统,为盲人提供直观的空间认知。与基于语音提示的传统听觉反馈策略不同,本文首先引入了一种振动编码的反馈方法,该方法利用了触觉神经途径,并使用户能够与操纵辅助设备以外的对象进行交互。基于此策略,3D空间对象定位采用了基于RGB-D摄像机的可穿戴视觉模块,这有助于在真实环境中进行准确的感知和快速对象定位。目标盲人的实验结果表明,与主流语音及时反馈方案相比,纤维触觉反馈将任务的完成时间降低了25%。拟议的对象定位系统提供了更直观的空间导航和舒适的耐磨性,以提供盲目帮助。
translated by 谷歌翻译
先前的深视频压缩方法仅使用单一运动补偿策略,并且很少采用来自传统标准(例如H.264/h.265)的模式预测技术来进行运动和残留压缩。在这项工作中,我们首先提出了一个粗到精细的(C2F)深视频压缩框架,以进行更好的运动补偿,其中我们以粗到良好的方式进行了两次运动估计,压缩和补偿。我们的C2F框架可以实现更好的运动补偿结果,而不会显着增加位成本。观察高优势网络中的高优势信息(即平均值和方差值)包含不同斑块的判别统计信息,我们还提出了两种有效的超优先指导模式预测方法。具体而言,使用高优势信息作为输入,我们建议两个模式预测网络分别预测最佳块分辨率,以进行更好的运动编码,并决定是否从每个块中跳过剩余信息以进行更好的剩余编码,而无需引入额外的位置,同时带来可忽略的额外计算成本。全面的实验结果表明,配备了新的高位指导模式预测方法,我们提出的C2F视频压缩框架实现了HEVC,UVG和MCL-JCV数据集的最新性能。
translated by 谷歌翻译
节点分类是基于图形的基本任务,旨在预测未标记的节点的类别,对于哪种图形神经网络(GNN)是最新方法。在当前的GNN中,培训节点(或培训样本)在整个培训过程中得到平等的治疗。但是,样品的质量根据图结构而变化很大。因此,GNN的性能可能会受到两种类型的低质量样本的损害:(1)位于连接相邻类的类边界附近的类间节点。这些节点的表示缺乏其相应类的典型特征。由于GNN是数据驱动的方法,因此对这些节点进行培训可能会降低准确性。 (2)标记的节点。在实际图中,节点通常被错误标记,这会大大降低GNN的鲁棒性。为了减轻低质量样品的有害效果,我们提出clnode(用于节点分类的课程学习),该cl虫根据其质量自动调整样品的权重。具体而言,我们首先设计了基于邻里的难度测量器来准确测量样品的质量。随后,基于这些测量值,我们采用培训调度程序来调整每个训练时期的样本权重。为了评估clnode的有效性,我们通过将其应用于四个代表性的骨干GNN来进行广泛的实验。六个现实世界网络上的实验结果表明,clnode是一个通用框架,可以与各种GNN结合使用,以提高其准确性和鲁棒性。
translated by 谷歌翻译
3D点云的卷积经过广泛研究,但在几何深度学习中却远非完美。卷积的传统智慧在3D点之间表现出特征对应关系,这是对差的独特特征学习的内在限制。在本文中,我们提出了自适应图卷积(AGCONV),以供点云分析的广泛应用。 AGCONV根据其动态学习的功能生成自适应核。与使用固定/各向同性核的解决方案相比,AGCONV提高了点云卷积的灵活性,有效,精确地捕获了不同语义部位的点之间的不同关系。与流行的注意力体重方案不同,AGCONV实现了卷积操作内部的适应性,而不是简单地将不同的权重分配给相邻点。广泛的评估清楚地表明,我们的方法优于各种基准数据集中的点云分类和分割的最新方法。同时,AGCONV可以灵活地采用更多的点云分析方法来提高其性能。为了验证其灵活性和有效性,我们探索了基于AGCONV的完成,DeNoing,Upsmpling,注册和圆圈提取的范式,它们与竞争对手相当甚至优越。我们的代码可在https://github.com/hrzhou2/adaptconv-master上找到。
translated by 谷歌翻译
自我监督学习的一个重要目标是使模型预训练能够从几乎无限的数据中受益。但是,一种最近变得流行的方法,即掩盖图像建模(MIM),被怀疑无法从较大的数据中受益。在这项工作中,我们通过广泛的实验打破了这一误解,数据量表从10 \%imagenet-1k到完整的Imagenet-22K,型号的尺寸从4,900万到10亿,培训长度从125k迭代到500k迭代迭代范围不等。我们的研究表明:(i)蒙版的图像建模也要求对较大的数据进行要求。我们观察到,非常大的模型被相对较小的数据过度。 (ii)培训的时间长度。接受掩盖图像建模训练的大型模型可以从更多的数据中受益,并具有更长的培训。 (iii)预训练中的验证损失是衡量模型在多个任务上进行微调的表现的好指标。该观察结果使我们能够预先评估预训练的模型,而无需对下游任务进行昂贵的试用和错误评估。我们希望我们的发现能够从缩放能力方面提高对蒙版图像建模的理解。
translated by 谷歌翻译
近年来,Experts(MOE)的混合物已成为一种有前途的深度学习技术,可以将模型能力扩展为万亿多个参数,同时通过稀疏计算降低计算成本。虽然MoE开设了一个非常大的模型的新领域,但由于MOE的动态性质与系统的静态平行性/管道层之间的不匹配,因此其数以千计的GPU的实现受到限制。我们提出了Tutel,这是一种具有动态自适应并行性和管道的高度可扩展的堆栈设计和实现。 TUTEL在运行时提供自适应并行性切换和自适应管道,分别达到1.74倍和2.00倍的单MOE层加速度。我们还提出了一种用于MOE通信速度的新颖的二维层次结构算法,该算法的表现超过了2,048 GPU的先前最先前的最新时间。 Tutel汇总了所有技术,最终在16 GPU和2,048 GPU上分别提供了4.96倍和5.75倍的加速度,分别通过Fairseq:Meta的Facebook AI AI研究序列到序列工具Kit(Tutel(Tutel)(Tutel)(Tutel)(现在由Fairseq部分采用)。 Tutel源代码可在公共场所获得:https://github.com/microsoft/tutel。我们的评估表明,Tutel有效,有效地运行了一个基于现实的MOE模型,名为Swinv2-Moe,建立在Swin Transformer V2上,这是一种最先进的计算机视觉体系结构。在效率方面,Tutel加速了Swinv2-MoE,在FairSeq的训练和推理中分别达到1.55倍和2.11倍的速度。关于有效性,SWINV2-MOE模型在预训练和下游计算机视觉任务(例如可可对象检测)方面都比对应的密度密度模型都达到了卓越的精度,这表明Tutel准备对端到端现实世界模型训练的准备就绪和推理。 Swinv2-Moe在https://github.com/microsoft/swin-transformer中开放。
translated by 谷歌翻译
对话(ERC)任务中的情感识别旨在预测对话中话语的情感标签。由于说话者之间的依赖性是复杂而动态的,这包括言论和言论者间的依赖性,因此说话者特定信息的建模是ERC中的至关重要的作用。尽管现有的研究人员提出了各种说话者互动建模的方法,但他们不能共同探索动态的言论和言论者的依赖性,从而导致对上下文的理解不足并进一步阻碍情绪预测。为此,我们设计了一种新颖的扬声器建模方案,该方案以动态方式共同探索言论和言论者的依赖性。此外,我们为ERC提出了一个演讲者引导的编码编码器(SGED)框架,该框架完全利用了说话者信息来解码情感。我们使用不同的现有方法作为我们框架的对话上下文编码器,显示了提出的框架的高扩展性和灵活性。实验结果证明了SGED的优势和有效性。
translated by 谷歌翻译