在过去的几十年中,由于其在广泛的应用中,现场文本认可从学术界和实际用户获得了全世界的关注。尽管在光学字符识别方面取得了成就,但由于诸如扭曲或不规则布局等固有问题,现场文本识别仍然具有挑战性。大多数现有方法主要利用基于复发或卷积的神经网络。然而,虽然经常性的神经网络(RNN)通常由于顺序计算而遭受慢的训练速度,并且遇到消失的梯度或瓶颈,但CNN在复杂性和性能之间衡量折衷。在本文中,我们介绍了SAFL,一种基于自我关注的神经网络模型,具有场景文本识别的焦点损失,克服现有方法的限制。使用焦损而不是负值对数似然有助于模型更多地关注低频样本训练。此外,为应对扭曲和不规则文本,我们在传递到识别网络之前,我们利用空间变换(STN)来纠正文本。我们执行实验以比较拟议模型的性能与七个基准。数值结果表明,我们的模型实现了最佳性能。
translated by 谷歌翻译
高度动态的移动ad-hoc网络(MANET)仍然是开发和部署强大,高效和可扩展的路由协议的最具挑战性环境之一。在本文中,我们提出了DeepCQ +路由协议,以一种新颖的方式将新兴的多代理深度增强学习(Madrl)技术集成到现有的基于Q学习的路由协议及其变体中,并在各种拓扑结构中实现了持续更高的性能和移动配置。在保持基于Q学习的路由协议的整体协议结构的同时,DeepCQ +通过精心设计的Madrl代理替换静态配置的参数化阈值和手写规则,使得不需要这些参数的配置。广泛的模拟表明,与其基于Q学习的对应物相比,DeptCQ +产生的端到端吞吐量显着增加了端到端延迟(跳数)的明显劣化。在定性方面,也许更重要的是,Deepcq +在许多情况下维持了非常相似的性能提升,即在网络尺寸,移动条件和交通动态方面没有接受过培训。据我们所知,这是Madrl框架的第一次成功应用MANET路由问题,即使在训练有素的场景范围之外的环境中,即使在训练范围之外的环境中也能够高度的可扩展性和鲁棒性。这意味着我们的基于Marl的DeepCQ +设计解决方案显着提高了基于Q学习的CQ +基线方法的性能,以进行比较,并提高其实用性和解释性,因为现实世界的MANET环境可能会在训练范围的MANET场景之外变化。讨论了进一步提高性能和可扩展性的增益的额外技术。
translated by 谷歌翻译
域适应(DA)从严格的理论作品中获益,研究其富有识别特征和各个方面,例如学习领域 - 不变的表示及其权衡。然而,由于多个源域的参与和训练期间目标域的潜在不可用的域,因此似乎不是这种源DA和域泛化(DG)设置的情况非常复杂和复杂。在本文中,我们为目标一般损失开发了新的上限,吸引我们来定义两种域名不变的表示。我们进一步研究了利弊以及执行学习每个领域不变的表示的权衡。最后,我们进行实验检查这些陈述的权衡,以便在实践中提供有关如何使用它们的实践提示,并探索我们发达理论的其他有趣性质。
translated by 谷歌翻译
人类的情感认可是人工智能的积极研究领域,在过去几年中取得了实质性的进展。许多最近的作品主要关注面部区域以推断人类的情感,而周围的上下文信息没有有效地利用。在本文中,我们提出了一种新的深网络,有效地识别使用新的全球局部注意机制的人类情绪。我们的网络旨在独立地从两个面部和上下文区域提取特征,然后使用注意模块一起学习它们。以这种方式,面部和上下文信息都用于推断人类的情绪,从而增强分类器的歧视。密集实验表明,我们的方法超越了最近的最先进的方法,最近的情感数据集是公平的保证金。定性地,我们的全球局部注意力模块可以提取比以前的方法更有意义的注意图。我们网络的源代码和培训模型可在https://github.com/minhnhatvt/glamor-net上获得
translated by 谷歌翻译
我们提出了对形式文件的任意查询的价值检索,以减少处理表格的人力努力。与以前的方法不同,仅解决一个固定的字段项,我们的方法基于对表单的布局和语义的理解,预测任意查询的目标值。为了进一步提高模型性能,我们提出了一种简单的文档语言建模(SimpleDLM)策略,以提高对大型模型预培训的文档理解。实验结果表明,我们的方法显着优于我们的基线,而SimpleDLM进一步提高了我们的价值检索的性能约为17 \%F1分数与最先进的预训练方法相比。代码将公开可用。
translated by 谷歌翻译
通常承认,巨额(培训)数据的可用性是人工智能(AI)最近进步的最重要因素之一。但是,数据集通常用于狭窄的AI子区域中的特定任务,并且没有统一的方式来管理和访问它们。这不仅在培训或部署机器学习模型时创造了不必要的开销,但也限制了对数据的理解,这对于以数据为中心的AI非常重要。在本文中,我们向不同数据集的统一框架展示了我们的愿景,以便可以轻松地集成和查询,例如,使用标准查询语言。我们在持续的工作中展示了这一点,为计算机愿景中的数据集创建了一个框架,并在不同的场景中显示了它的优势。我们的演示可在https://vision.semkg.org中获得。
translated by 谷歌翻译
本文提出了第二版的头部和颈部肿瘤(Hecktor)挑战的概述,作为第24届医学图像计算和计算机辅助干预(Miccai)2021的卫星活动。挑战由三个任务组成与患有头颈癌(H&N)的患者的PET / CT图像的自动分析有关,专注于oropharynx地区。任务1是FDG-PET / CT图像中H&N主肿瘤肿瘤体积(GTVT)的自动分割。任务2是来自同一FDG-PET / CT的进展自由生存(PFS)的自动预测。最后,任务3与任务2的任务2与参与者提供的地面真理GTVT注释相同。这些数据从六个中心收集,总共325个图像,分为224个培训和101个测试用例。通过103个注册团队和448个结果提交的重要参与,突出了对挑战的兴趣。在第一任务中获得0.7591的骰子相似度系数(DSC),分别在任务2和3中的0.7196和0.6978的一致性指数(C-Index)。在所有任务中,发现这种方法的简单性是确保泛化性能的关键。 PFS预测性能在任务2和3中的比较表明,提供GTVT轮廓对于实现最佳结果,这表明可以使用完全自动方法。这可能避免了对GTVT轮廓的需求,用于可重复和大规模的辐射瘤研究的开头途径,包括千元潜在的受试者。
translated by 谷歌翻译
不观察到的混淆是观测数据的因果效应估计的主要障碍。仪器变量(IVS)广泛用于存在潜在混淆时的因果效应估计。利用标准IV方法,当给定的IV有效时,可以获得无偏估计,但标准IV的有效性要求是严格和不可能的。已经提出了通过调节一组观察变量(称为条件IV的调节装置)来放松标准IV的要求。然而,用于查找条件IV的调节集的标准需要完整的因果结构知识或指向的非循环图(DAG),其代表观察到和未观察的变量的因果关系。这使得无法发现直接从数据设置的调节。在本文中,通过利用潜在变量的因果推断中的最大祖先图(MAGS),我们提出了一种新型的MAG中的IV,祖先IV,并开发了支持给定祖传的调节装置的数据驱动的发现iv在mag。基于该理论,我们在MAG和观测数据中开发了一种与祖先IV的非偏见因果效应估计的算法。与现有IV方法相比,对合成和实际数据集的广泛实验表明了算法的性能。
translated by 谷歌翻译
据报道,传感器嵌入式手套系统需要仔细,耗时和精确的校准,以获得一致的可用数据。我们已经开发出低成本,基于Flex传感器的智能手套系统,可能是对数据手套的共同限制的弹性。该系统利用Arduino基础的微控制器以及每个手指上的单个柔性传感器。从Arduinos模拟到数字转换器的反馈可用于推断对象尺寸特性,每个单独的手指的反应相对于掌握物体的尺寸和形状不同。在这项工作中,我们在统计上区分了不同的半径的统计差异的静止物体,无论手套用户引入的变化如何。使用我们的传感器嵌入式手套系统,我们根据智能手套的每根手指的触觉传感器响应探索了物体分类的实用性。从五个手指平均柔性传感器读数中的每一个计算平均值的估计标准误差。与文献一致,我们发现物体形状,尺寸和柔性传感器读数之间存在系统的依赖性。当比较相同半径的球形和圆柱形物体时,从至少一个手指输出的传感器从至少一个手指输出。当传感各种尺寸的球体和气缸时,所有五个手指对每个形状具有明显不同的反应。我们认为,我们的发现可以用于机器学习模型,用于实时对象识别。
translated by 谷歌翻译
少量对象检测(FSOD)是计算机视觉中快速生长的领域。它包括查找给定的一组类的所有出现,只有每个类的少数注释的示例。已经提出了许多方法来解决这一挑战,其中大部分是基于注意机制。然而,各种经典对象检测框架和培训策略使方法之间的性能比较困难。特别是对于基于关注的FSOD方法,比较不同关注机制对性能的影响是费力的。本文旨在填补这种缺点。为此,提出了一种灵活的框架,以允许实施文献中可用的大部分注意技术。要正确介绍这样的框架,首先提供了对现有FSOD方法的详细审查。然后在框架内重新实现一些不同的关注机制,并与固定的所有其他参数进行比较。
translated by 谷歌翻译