最近,大多数手写的数学表达识别(HMER)方法采用编码器 - 编码器网络,该网络直接从具有注意机制的公式图像中直接预测标记序列。但是,此类方法可能无法准确读取具有复杂结构的公式或生成长的标记序列,因为由于写作样式或空间布局的差异很大,注意结果通常是不准确的。为了减轻此问题,我们为HMER提出了一个名为Counting-Aware-Aware网络(CAN)的非常规网络,该网络共同优化了两个任务:HMER和符号计数。具体而言,我们设计了一个弱监督的计数模块,该模块可以预测每个符号类的数量,而无需符号级别的位置注释,然后将其插入HMER的典型基于注意力的编码器模型。在基准数据集上进行的实验验证了关节优化和计数结果既有益于纠正编码器模型的预测误差,又可以始终如一地胜过最先进的方法。特别是,与HMER的编码器模型相比,提议的计数模块引起的额外时间成本是边缘的。源代码可从https://github.com/lbh1024/can获得。
translated by 谷歌翻译
一击生成域Adaption旨在仅使用一个参考图像将一个预训练的发电机传输到一个新域中。但是,适用的生成器(i)要生成从预训练的生成器继承的多种图像,而(ii)(ii)忠实地获取参考图像的特定领域特定属性和样式,这仍然非常具有挑战性。在本文中,我们提出了一种新颖的单发性生成域适应方法,即Difa,用于多元化和忠实的适应。对于全球级别的适应,我们利用参考图像的剪辑嵌入与源图像的平均嵌入之间的差异来限制目标发生器。对于本地级别的适应,我们引入了一个细心的样式损失,该损失将每个适应图像的中间令牌与参考图像的相应令牌保持一致。为了促进多样化的生成,引入了选择性的跨域一致性,以选择和保留域共享属性,以编辑潜在的$ \ MATHCAL {W}+$ $空间来继承预训练的生成器的多样性。广泛的实验表明,我们的方法在定量和定性上都优于最先进的实验,尤其是对于大域间隙的情况。此外,我们的DIFA可以轻松地扩展到零击生成域的适应性,并具有吸引力的结果。代码可从https://github.com/1170300521/difa获得。
translated by 谷歌翻译
手写数学表达识别(HMER)是具有许多潜在应用的挑战性任务。 HMER的最新方法通过编码器架构实现了出色的性能。但是,这些方法符合“从一个字符到另一个字符”进行预测的范式,由于数学表达式或厌恶的手写的复杂结构,这不可避免地会产生预测错误。在本文中,我们为HMER提出了一种简单有效的方法,该方法是第一个将语法信息纳入编码器编码器网络的方法。具体而言,我们提出了一组语法规则,用于将每个表达式的乳胶标记序列转换为一个解析树。然后,我们将标记序列预测建模为具有深神经网络的树遍布过程。通过这种方式,提出的方法可以有效地描述表达式的语法上下文,从而减轻HMER的结构预测错误。在三个基准数据集上的实验表明,与先前的艺术相比,我们的方法实现了更好的识别性能。为了进一步验证我们方法的有效性,我们创建了一个大规模数据集,该数据集由从一万个作家中获取的100k手写数学表达图像组成。该工作的源代码,新数据集和预培训的模型将公开可用。
translated by 谷歌翻译
扩散模型是一类深入生成模型,在具有密集理论建立的各种任务上显示出令人印象深刻的结果。尽管与其他最先进的模型相比,扩散模型的样本合成质量和多样性令人印象深刻,但它们仍然遭受了昂贵的抽样程序和次优可能的估计。最近的研究表明,对提高扩散模型的性能的热情非常热情。在本文中,我们对扩散模型的现有变体进行了首次全面综述。具体而言,我们提供了扩散模型的第一个分类法,并将它们分类为三种类型,即采样加速增强,可能性最大化的增强和数据将来增强。我们还详细介绍了其他五个生成模型(即变异自动编码器,生成对抗网络,正常流量,自动回归模型和基于能量的模型),并阐明扩散模型与这些生成模型之间的连接。然后,我们对扩散模型的应用进行彻底研究,包括计算机视觉,自然语言处理,波形信号处理,多模式建模,分子图生成,时间序列建模和对抗性纯化。此外,我们提出了与这种生成模型的发展有关的新观点。
translated by 谷歌翻译
图表卷积网络(GCNS)已经实现了最近处理各种图形结构数据的显着学习能力。通常,由于传统GCNS中的图形卷积是Laplacian平滑的特殊形式,因此,Deep GCN不起作用很好,因此使不同节点的表示无法区分。在文献中,在GCN中采用多尺度信息来增强GCN的表现力。但是,过度平滑现象作为GCN的关键问题仍有待解决和调查。在本文中,我们通过将自我注意机制和多尺度信息结合到GCNS设计中,提出了两种新的多尺度GCN框架。我们的方法大大提高了GCNS模型的计算效率和预测准确性。对两个节点分类和图表分类的广泛实验证明了几种最先进的GCNS的有效性。值得注意的是,提出的两个架构可以有效地减轻GCN的过平滑问题,而我们的模型层甚至可以增加到64美元。
translated by 谷歌翻译
图表卷积网络(GCN)是一种强大的模型,在各种图形结构数据学习任务中逐渐研究。然而,为了减轻过平滑的现象,并处理异构图形结构数据,GCN模型的设计仍然是要调查的重要问题。在本文中,我们通过利用堆叠和聚合的思想提出一种名为SSTAGCN(简化堆叠的GCN)的新型GCN,这是用于解决异构图数据的自适应一般框架。具体来说,我们首先使用堆叠的基础模型来提取图形的节点特征。随后,采用诸如平均值,关注和投票技术的聚合方法来进一步增强节点特征提取的能力。此后,节点特征被认为是输入并馈入vanilla GCN模型。此外,明确地解析了所提出的模型的理论泛化结合分析。广泛的3美元公共引用网络和另外3美元的异质表格数据进行了广泛的实验,证明了拟议的艺术技术的效果和效率。值得注意的是,所提出的SSTAGCN可以有效地减轻GCN的过平滑问题。
translated by 谷歌翻译
关于信息检索的许多最新研究集中在如何从一项任务(通常具有丰富的监督数据)转移到有限的其他各种任务,并隐含地假设可以从一个任务概括到所有其余的任务。但是,这忽略了这样一个事实,即有许多多样化和独特的检索任务,每个任务都针对不同的搜索意图,查询和搜索域。在本文中,我们建议使用几乎没有散热的检索,每个任务都有一个简短的描述和一些示例。为了扩大一些示例的功能,我们提出了针对检索器(即将到来)的及时基本查询生成,该查询将大型语言模型(LLM)作为几个弹片查询生成器,并根据生成的数据创建特定于任务的检索器。通过LLM的概括能力提供动力,即要来源使得可以仅基于一些示例{没有自然问题或MS MARCO来训练%问题生成器或双重编码器,就可以仅基于一些示例{没有}来创建特定于任务的端到端检索。出乎意料的是,LLM提示不超过8个示例,允许双重编码器在MARCO(例如Colbert V2)上训练的大量工程模型平均在11个检索套件中超过1.2 NDCG。使用相同生成数据的进一步培训标准尺寸的重新级别可获得5.0点NDCG的改进。我们的研究确定,查询产生比以前观察到的更有效,尤其是在给出少量特定于任务知识的情况下。
translated by 谷歌翻译
视频时间基础(VTG)的目标是根据自然语言(NL)描述在未修剪视频中定位时间矩。由于现实世界的应用程序提供了永无止境的视频流,因此它提出了对长形视频的时间基础的需求,这导致了两个主要挑战:(1)长视频长度使得很难处理整个视频而不减少样本速率并导致高计算负担; (2)随着候选时间的增加数量,准确的多模式对准更具挑战性。为了应对这些挑战,我们提出了一个有效的以窗户为中心的粗略对齐框架,它可以灵活地处理具有较高推理速度的长格式视频输入,并通过我们的新颖的Choce-Fine Muly-Fine增强了时间基础模态对齐框架。具体来说,我们通过滑动窗口方法将长视频将长视频切成候选窗口。 Cone(1)以窗户为中心,通过对比度学习和通过对NL查询相关的候选窗口进行过滤来学习窗口间的(粗粒)语义差异,并且(2)执行内部(罚款) - 使用强大的对比视力文本预训练模型的强大多模式对齐能力对候选力矩进行排名。长期视频的两个大规模VTG基准测试的广泛实验始终显示出可观的性能增长(MAD的3.13%至6.87%,从10.46%到EGO4D-NLQ上的10.46%至13.46%),并且Cone在两个数据集上都可以达到SOTA结果。分析揭示了组件的有效性和长期视频接地的效率较高,因为我们的系统在EGO4D-NLQ上提高了2倍的推理速度,而在MAD上提高了15倍的速度,同时保持了锥体的SOTA性能。
translated by 谷歌翻译
深度学习已在数据科学和自然科学领域进行了重要应用。一些研究将深层神经网络与动态系统联系起来,但网络结构仅限于残留网络。众所周知,残留网络可以被视为动态系统的数值离散化。在本文中,我们回到了经典的网络结构,并证明香草馈电网络也可能是动态系统的数值离散化,其中网络的宽度等于输入和输出的维度。我们的证明是基于泄漏 - RELU函数的属性和求解微分方程的分裂方法的数值技术。我们的结果可以为理解前馈神经网络的近似特性提供新的观点。
translated by 谷歌翻译
基于会话的建议旨在根据持续的会话预测用户的下一个行为。先前的作品是将会话建模为一系列项目的变量长度,并学习单个项目和汇总会话的表示。最近的研究应用了图形神经网络,具有注意机制,通过将会话建模为图形结构化数据来捕获复杂的项目过渡和依赖性。但是,他们仍然在数据和学习方法方面面临着根本的挑战,例如稀疏监督信号和会议中的嘈杂互动,从而导致次优性能。在本文中,我们提出了SR-GCL,这是一个基于会话建议的新型对比学习框架。作为对比学习的关键组成部分,我们提出了两种全球环境增强的数据增强方法,同时保持原始会话的语义。与其他最先进的方法相比,两个现实世界电子商务数据集的广泛实验结果证明了SR-GCL的优势。
translated by 谷歌翻译