虽然现代自动语音识别(ASR)系统可以实现高性能,但它们可能会产生削弱读者体验并对下游任务造成伤害的错误。为了提高ASR假设的准确性和可靠性,我们提出了一种用于语音识别器的跨模型后处理系统,其中1)熔断来自不同方式的声学特征和文本特征,2)接合置信度估计器和多个误差校正器任务学习时尚和3)统一纠错和话语抑制模块。与单模或单任务模型相比,我们提出的系统被证明更有效和高效。实验结果表明,我们的后处理系统导致对工业ASR系统的单扬声器和多扬声器语音相对降低的10%相对减少,每个令牌约为1.7ms延迟确保在流语音识别中可以接受后处理引入的额外延迟。
translated by 谷歌翻译
现有场景文本识别(str)方法通常使用语言模型来优化通过视觉识别(VR)模型预测的1D字符序列的联合概率,该模型忽略了字符实例内和之间的视觉语义的2D空间上下文不概括为任意形状的场景文本。要解决此问题,我们首次尝试根据本文的视觉语义进行文本推理。从技术上讲,给定VR模型预测的字符分割映射,我们为每个实例构造一个子图,其中节点表示基于它们的空间相似度之间的节点中的像素和边缘。然后,这些子图通过其根节点顺序连接并合并到完整的图表中。基于此图,我们通过通过跨熵损失监督它来设计图表卷积网络以进行文本推理(GTR)。 GTR可以轻松插入代表性的STR模型,以提高其性能,因为较好的文本推理。具体而言,我们通过将GTR并将GTR与基于分段的STR基线中的语言模型并联的语言模型进行了构建模型,即,通过相互学习可以有效利用视觉语言互补性。 S-GTR在六个挑战性的STR基准上套装新的最先进的基准,并概括为多语言数据集。代码可用于https://github.com/adeline-cs/gtr。
translated by 谷歌翻译
这项工作介绍了一个简单的视觉变压器设计,作为对象本地化和实例分段任务的强大基线。变压器最近在图像分类任务中展示了竞争性能。为了采用对象检测和密集的预测任务,许多作品从卷积网络和高度定制的Vit架构继承了多级设计。在这种设计背后,目标是在计算成本和多尺度全球背景的有效聚合之间进行更好的权衡。然而,现有的作品采用多级架构设计作为黑匣子解决方案,无清楚地了解其真正的益处。在本文中,我们全面研究了三个架构设计选择对vit - 空间减少,加倍的频道和多尺度特征 - 并证明了vanilla vit架构可以在没有手动的多尺度特征的情况下实现这一目标,保持原始的Vit设计哲学。我们进一步完成了缩放规则,以优化模型的准确性和计算成本/型号大小的权衡。通过在整个编码器块中利用恒定的特征分辨率和隐藏大小,我们提出了一种称为通用视觉变压器(UVIT)的简单而紧凑的VIT架构,可实现COCO对象检测和实例分段任务的强劲性能。
translated by 谷歌翻译
愚弄深度神经网络(DNN)与黑匣子优化已成为一种流行的对抗攻击方式,因为DNN的结构先验知识始终是未知的。尽管如此,最近的黑匣子对抗性攻击可能会努力平衡其在解决高分辨率图像中产生的对抗性示例(AES)的攻击能力和视觉质量。在本文中,我们基于大规模的多目标进化优化,提出了一种关注引导的黑盒逆势攻击,称为LMOA。通过考虑图像的空间语义信息,我们首先利用注意图来确定扰动像素。而不是攻击整个图像,减少了具有注意机制的扰动像素可以有助于避免维度的臭名臭氧,从而提高攻击性能。其次,采用大规模的多目标进化算法在突出区域中遍历降低的像素。从其特征中受益,所产生的AES有可能在人类视力不可知的同时愚弄目标DNN。广泛的实验结果已经验证了所提出的LMOA在ImageNet数据集中的有效性。更重要的是,与现有的黑匣子对抗性攻击相比,产生具有更好的视觉质量的高分辨率AE更具竞争力。
translated by 谷歌翻译
基于宽高的情绪分析(ABSA)是一种细粒度的情绪分析任务。为了更好地理解长期复杂的句子,并获得准确的方面的信息,这项任务通常需要语言和致辞知识。然而,大多数方法采用复杂和低效的方法来结合外部知识,例如,直接搜索图形节点。此外,尚未彻底研究外部知识和语言信息之间的互补性。为此,我们提出了一个知识图形增强网络(kgan),该网络(kgan)旨在有效地将外部知识与明确的句法和上下文信息纳入。特别是,kgan从多个不同的角度来看,即基于上下文,语法和知识的情绪表示。首先,kgan通过并行地了解上下文和句法表示,以完全提取语义功能。然后,KGAN将知识图形集成到嵌入空间中,基于该嵌入空间,基于该嵌入空间,通过注意机制进一步获得了方面特异性知识表示。最后,我们提出了一个分层融合模块,以便以本地到全局方式补充这些多视图表示。关于三个流行的ABSA基准测试的广泛实验证明了我们康复的效果和坚固性。值得注意的是,在罗伯塔的预用模型的帮助下,Kggan实现了最先进的性能的新记录。
translated by 谷歌翻译
ELO评级系统被广泛采用来评估(国际象棋)游戏和体育运动者的技能。最近,它还集成到了评估计算机化AI代理的性能时的机器学习算法中。然而,精确估计ELO评级(对于顶级球员)通常需要许多轮竞争,这可能是昂贵的。在本文中,为了提高ELO评估的样本效率(对于顶级球员),我们提出了一种有效的在线匹配调度算法。具体而言,我们通过Dueling Birits框架识别并匹配顶级播放器并将强盗算法定制到ELO的梯度更新。我们表明它减少了每一步记忆和时间复杂度来恒定,与需要$ O(t)$时间的传统似然最大化方法相比。我们的算法对$ \ tilde {o}(\ sqrt {t})$,Sublinear在竞争回合的数量中有遗憾的保证,并且已经扩展到多维ELO评级,用于处理风情游戏。我们经验证明我们的方法在各种游戏任务上实现了卓越的收敛速度和时间效率。
translated by 谷歌翻译
股票运动预测(SMP)旨在预测上市公司的股份量股份,由于金融市场的挥发性,这是一个具有挑战性的任务。最近的财务研究表明,动量溢出效应在股票波动中发挥着重要作用。然而,以前的研究通常只学习相关公司之间的简单连接信息,这不可避免地未能模仿真实金融市场中上市公司的复杂关系。为了解决这个问题,我们首先建立一个更全面的市场知识图(MKG),其中包含有限的公司,包括上市公司及其相关的高管,以及包括明确关系和隐性关系的混合关系。之后,我们提出了一种新颖的双重关注网络,以了解基于构造的MKG用于库存预测的势头溢出信号。对九个SOTA基线构建数据集的实证实验表明,所提出的丹林公司能够改善与构造的MKG的库存预测。
translated by 谷歌翻译
公平机器学习旨在减轻模型预测的偏见,这对于关于诸如种族和性别等敏感属性的某些群体的偏见。在许多现有的公平概念中,反事实公平通过比较来自原始数据和反事实的预测来衡量因因果角度来源的模型公平。在反事实上,该个人的敏感属性值已被修改。最近,少数作品将反事实公平扩展到图数据,但大多数忽略了可能导致偏差的以下事实:1)每个节点邻居的敏感属性可能会影响预测w.r.t.这个节点; 2)敏感属性可能会导致其他特征和图形结构。为了解决这些问题,在本文中,我们提出了一种新颖的公平概念 - 图形反应性公平,这考虑了上述事实领导的偏差。要学习对图形反事实公平的节点表示,我们提出了一种基于反事实数据增强的新颖框架。在此框架中,我们生成对应于每个节点和邻居敏感属性的扰动的反应性。然后,我们通过最大限度地减少从原始图表中学到的表示与每个节点的反事实之间的差异来执行公平性。合成和真实图的实验表明,我们的框架优于图形反事实公平性的最先进的基线,并且还实现了可比的预测性能。
translated by 谷歌翻译
我们研究数据集假设允许求解离线双人零和Markov游戏。在与离线单代理马尔可夫决策过程的鲜明对比中,我们表明单一策略浓度假设不足以在离线双球零和马尔可夫游戏中学习纳什均衡(NE)战略。另一方面,我们提出了一个名为单侧浓度的新假设,并设计了一种悲观型算法,可在此假设下提供有效的。此外,我们表明单方面浓度假设是学习网元策略所必需的。此外,我们的算法可以实现Minimax样本复杂性,而对于两个广泛研究的设置,可以进行任何修改:数据集具有均匀浓度假设和基于转向的马尔可夫游戏。我们的工作是了解离线多智能经纪增强学习的重要初步步骤。
translated by 谷歌翻译
现有的分布式协作多智能体增强学习(MARL)框架通常假设通过共识算法估计全球奖励的无向协调图和通信图。这种框架可能导致昂贵的通信成本,并且由于全球共识的要求,可扩展性差。在这项工作中,我们使用定向协调图研究Marls,并提出了一种分布式RL算法,其中本地策略评估基于本地值函数。通过与其邻居通过定向的学习诱导的通信图来实现每个代理的本地值函数,而不使用任何共识算法。采用基于参数扰动的零顺序优化(动物园)方法来实现梯度估计。通过与现有的基于动物园的RL算法进行比较,我们表明我们提出的分布式RL算法可确保高可扩展性。示出了分布式资源分配示例来说明我们算法的有效性。
translated by 谷歌翻译