适当地识别和处理具有显着多参考(MR)特征的分子和材料对于在虚拟高通量筛选(VHT)中实现高数据保真度至关重要。然而,使用单一功能的近似密度泛函理论(DFT)进行大多数VHT。尽管发展了许多MR诊断,但这种诊断的单一价值的程度表明了对化学性质预测的MR效应不是很好的。我们评估超过10,000个过渡金属配合物(TMC)的MR诊断方法,并与有机分子中的那些进行比较。我们透露,只有一些MR诊断程序可在这些材料空间上转移。通过研究MR特征对涉及多个潜在能量表面的化学性质(即,MR效应)的影响(即绝热自旋分裂,$ \ DELTA E_ \ MATHRM {HL} $和电离潜力,IP),我们观察到这一点先生效应的取消超过积累。 MR特征的差异比预测物业预测中MR效应的先生特征的总程度更重要。通过这种观察,我们建立转移学习模型,直接预测CCSD(T)-Level绝热$ \ Delta e_ \ Mathrm {H-L} $和IP从较低的理论。通过将这些模型与不确定量化和多级建模相结合,我们引入了一种多管策略,可将数据采集加速至少三个,同时实现鲁棒VHT的化学精度(即1 kcal / mol)。
translated by 谷歌翻译
机器学习(ML) - 基卡化的发现需要大量的高保真数据来揭示预测结构性质关系。对于对材料发现的兴趣的许多性质,数据生成的具体性和高成本导致数据景观几乎没有人居住和可疑质量。开始克服这些限制的数据驱动技术包括在密度函数理论中使用共识,开发新功能或加速电子结构理论,以及检测到计算要求苛刻的方法是最必要的。当无法可靠地模拟属性时,大型实验数据集可用于培训ML模型。在没有手动策策的情况下,越来越复杂的自然语言处理和自动图像分析使得可以从文献中学习结构性质关系。在这些数据集上培训的模型将随着社区反馈而改善。
translated by 谷歌翻译
由于暴露偏见,大多数现有的自然语言产生(NLG)模型通过最大化的可能性目标训练了推理阶段的文本结果不佳。在本文中,为了解决此问题,我们重新审视生成的框架,并提出了用于文本生成任务的联合发电机库(JGR)培训算法。在JGR中,生成器模型是通过最大化两个目标来训练的:训练语料库的可能性和排名者模型给出的预期奖励。同时,Ranker模型从发电机模型中获取输入样本,并学会了将优质样本与生成池区分开来。发电机和排名模型交替优化,直到收敛为止。在实证研究中,提出的JGR模型在五个公共基准测试中实现了新的最先进的表现,涵盖了三项大众一代任务:摘要,问题生成和回答生成。我们将在https://github.com/microsoft/advnlg上提供代码,数据和模型。
translated by 谷歌翻译
在本文中,我们提出了一个全面的点云语义分割网络,该网络汇总了本地和全球多尺度信息。首先,我们提出一个角度相关点卷积(ACPCONV)模块,以有效地了解点的局部形状。其次,基于ACPCONV,我们引入了局部多规模拆分(MSS)块,该块从一个单个块中连接到一个单个块中的特征,并逐渐扩大了接受场,这对利用本地上下文是有益的。第三,受HRNET的启发,在2D图像视觉任务上具有出色的性能,我们构建了一个针对Point Cloud的HRNET,以学习全局多尺度上下文。最后,我们介绍了一种融合多分辨率预测并进一步改善点云语义分割性能的点上的注意融合方法。我们在几个基准数据集上的实验结果和消融表明,与现有方法相比,我们提出的方法有效,能够实现最先进的性能。
translated by 谷歌翻译
具有平均社会认知水平的人类可以仅根据非语言交流信号(例如,目光,手势,姿势和上下文信息)来推断他人的信念。这种预测人类信念和意图的社会认知能力对于确保安全的人类机器人互动和协作比以往任何时候都更为重要。本文使用了心理理论(TOM)和对象文本关系的结合知识来研究在禁止语言交流的环境中增强人与自主系统之间协作的方法。我们提出了一个新颖而富有挑战性的多模式视频数据集,用于评估人工智能(AI)系统在对象文化场景中预测人类信念状态方面的能力。所提出的数据集包括对人类信念的精确标记状态基地真实和​​多模式输入,这些输入复制了人类感知捕获的所有非语言交流输入。我们通过现有的深度学习模型进一步评估数据集,并提供有关各种输入模式和对象语言关系对基线模型性能的影响的新见解。
translated by 谷歌翻译
主动扬声器检测(ASD)系统是用于分析多对话对话的重要模块。他们的目的是在任何给定时间都在视觉场景中检测哪些扬声器或没有说话。关于ASD的现有研究不同意主动演讲者的定义。我们阐明了这项工作的定义,需要在音频和视觉演讲活动之间进行同步。这种定义的澄清是由我们的广泛实验激发的,我们发现现有的ASD方法无法在模拟视听同步建模时无法将非同步视频分类为主动语言。为了解决这个问题,我们提出了一种跨模式对比度学习策略,并在注意模块中应用位置编码,以使受监督的ASD模型利用同步提示。实验结果表明,我们的模型可以成功地检测出不同步的口语,因为它不说话,以解决当前模型的局限性。
translated by 谷歌翻译
尖峰神经网络(SNNS)是一种实用方法,可以通过模拟神经元对时间信息的杠杆作用来进行更高的数据有效学习。在本文中,我们提出了时间通道联合注意(TCJA)架构单元,这是一种有效的SNN技术,依赖于注意机制,通过有效地沿空间和时间维度沿着尖峰序列的相关性来实现。我们的基本技术贡献在于:1)通过采用挤压操作,将尖峰流压缩为平均矩阵,然后使用具有高效1-D卷积的两种局部注意机制来建立时间和渠道关系,以在频道和渠道关系中进行特征提取灵活的时尚。 2)利用交叉卷积融合(CCF)层在时间范围和通道范围之间建模相互依赖性,从而破坏了两个维度的独立性,并实现了特征之间的相互作用。通过共同探索和重新启用数据流,我们的方法在所有测试的主流静态和神经形态数据集上,在包括时尚量的所有测试的主流静态数据集上,最高可先进的(SOTA)高达15.7% ,CIFAR10-DVS,N-Caltech 101和DVS128手势。
translated by 谷歌翻译
随着深度学习的兴起,视频对象细分(VOS)取得了重大进展。但是,仍然存在一些棘手的问题,例如,类似的对象很容易混淆,很难找到微小的对象。为了解决这些问题并进一步提高VOS的性能,我们为这项任务提出了一个简单而有效的解决方案。在解决方案中,我们首先分析YouTube-VOS数据集的分布,并通过引入公共静态和视频分割数据集来补充数据集。然后,我们改善了具有不同特征的三个网络体系结构,并训练多个网络以学习视频中对象的不同特征。之后,我们使用一种简单的方法来集成所有结果,以确保不同的模型相互补充。最后,进行了微妙的后处理,以确保具有精确边界的准确视频对象分割。 YouTube-VOS数据集的大量实验表明,该建议的解决方案在YouTube-VOS 2022测试集上以86.1%的总分达到了最先进的性能,这是YouTube视频对象细分的第五名-VOS挑战2022。
translated by 谷歌翻译
实际上,寻求帮助通常比搜索整个空间更有效,以找到一个未知位置的对象。我们提出了一个学习框架,该框架使代理商能够在此类具体的视觉导航任务中积极寻求帮助,其中反馈将其视为目标的位置。为了模仿老师可能并不总是在场的现实情况,我们提出了一项培训课程,而反馈并不总是可用。我们制定了目标的不确定性度量,并使用经验结果表明,通过这种方法,代理商将在没有反馈时保持有效的帮助,同时保持强大的帮助。
translated by 谷歌翻译
近年来,具有两个较高架构的视觉语言(VL)模型主导了视觉表示的学习。当前的VL模型要么使用轻型Uni-Modal编码器,并在交叉模式编码器中同时提取,对齐和融合这两种模态,或者将最后一层的Uni-Modal-Modal特征直接馈入顶部的交叉模式编码器,而忽略了语义深度单模式编码器中不同级别的信息。两种方法都可能限制视觉表示学习和限制模型性能。在本文中,我们介绍了多个桥梁层,该层在Uni-Modal编码器的顶层和跨模式编码器的每一层之间建立了连接。这可以在不同语义级别的视觉和文本表示之间进行全面的自下而上相互作用,从而导致更有效的跨模式对齐和融合。我们提出的桥梁可以预先训练,仅需$ 4 $ m的图像,可以在各种下游视觉语言任务上实现最先进的性能。在VQAV2 Test-STD集合中,Bridge-Tower的准确性为$ 78.73 \%$,与以前的最先进的仪表型号相同的the Art仪表均优于先前的最先进的仪表\%$ $,并且几乎没有其他参数,并且几乎没有其他参数和其他参数计算成本。值得注意的是,当进一步扩展模型时,桥梁可以达到81.15美元\%$的准确性,超过了在较大的数据集中预先训练的模型。代码可在https://github.com/microsoft/bridgetower上找到。
translated by 谷歌翻译