由于字体,大小,颜色和方向的各种文本变化,任意形状的场景文本检测是一项具有挑战性的任务。大多数现有基于回归的方法求助于回归文本区域的口罩或轮廓点以建模文本实例。但是,回归完整的口罩需要高训练的复杂性,并且轮廓点不足以捕获高度弯曲的文本的细节。为了解决上述限制,我们提出了一个名为TextDCT的新颖的轻巧锚文本检测框架,该框架采用离散的余弦变换(DCT)将文本掩码编码为紧凑型向量。此外,考虑到金字塔层中训练样本不平衡的数量,我们仅采用单层头来进行自上而下的预测。为了建模单层头部的多尺度文本,我们通过将缩水文本区域视为正样本,并通过融合来介绍一个新颖的积极抽样策略,并通过融合来设计特征意识模块(FAM),以实现空间意识和规模的意识丰富的上下文信息并关注更重要的功能。此外,我们提出了一种分割的非量最大抑制(S-NMS)方法,该方法可以过滤低质量的掩模回归。在四个具有挑战性的数据集上进行了广泛的实验,这表明我们的TextDCT在准确性和效率上都获得了竞争性能。具体而言,TextDCT分别以每秒17.2帧(FPS)和F-measure的F-MEASIE达到85.1,而CTW1500和Total-Text数据集的F-Measure 84.9分别为15.1 fps。
translated by 谷歌翻译
联合学习(FL)可以培训全球模型,而无需共享存储在多个设备上的分散的原始数据以保护数据隐私。由于设备的能力多样化,FL框架难以解决Straggler效应和过时模型的问题。此外,数据异质性在FL训练过程中会导致全球模型的严重准确性降解。为了解决上述问题,我们提出了一个层次同步FL框架,即Fedhisyn。 Fedhisyn首先根据其计算能力将所有可​​用的设备簇分为少数类别。经过一定的本地培训间隔后,将不同类别培训的模型同时上传到中央服务器。在单个类别中,设备根据环形拓扑会相互传达局部更新的模型权重。随着环形拓扑中训练的效率更喜欢具有均匀资源的设备,基于计算能力的分类减轻了Straggler效应的影响。此外,多个类别的同步更新与单个类别中的设备通信的组合有助于解决数据异质性问题,同时达到高精度。我们评估了基于MNIST,EMNIST,CIFAR10和CIFAR100数据集的提议框架以及设备的不同异质设置。实验结果表明,在训练准确性和效率方面,Fedhisyn的表现优于六种基线方法,例如FedAvg,脚手架和Fedat。
translated by 谷歌翻译
由生物学进化的动机,本文通过类比与经过验证的实践进化算法(EA)相比,解释了视觉变压器的合理性,并得出了两者都具有一致的数学表述。然后,我们受到有效的EA变体的启发,我们提出了一个新型的金字塔饮食式主链,该主链仅包含拟议的\ emph {ea-ea-lase transformer}(eat)块,该块由三个残留零件组成,\ ie,\ emph {多尺度区域聚集}(msra),\ emph {global and local互动}(GLI)和\ emph {feed-forward Network}(ffn)模块,以分别建模多尺度,交互和个人信息。此外,我们设计了一个与变压器骨架对接的\ emph {与任务相关的头}(TRH),以更灵活地完成最终信息融合,并\ emph {reviv} a \ emph {调制变形MSA}(MD-MSA),以动态模型模型位置。关于图像分类,下游任务和解释性实验的大量定量和定量实验证明了我们方法比最新方法(SOTA)方法的有效性和优越性。 \例如,我们的手机(1.8m),微小(6.1m),小(24.3m)和基地(49.0m)型号达到了69.4、78.4、83.1和83.9的83.9 TOP-1仅在Imagenet-1 K上接受NAIVE训练的TOP-1食谱; Eatformer微型/小型/基本武装面具-R-CNN获得45.4/47.4/49.0盒AP和41.4/42.9/44.2掩膜可可检测,超过当代MPVIT-T,SWIN-T,SWIN-T和SWIN-S,而SWIN-S则是0.6/ 1.4/0.5盒AP和0.4/1.3/0.9掩码AP分别使用较少的拖鞋;我们的Eatformer-small/base在Upernet上获得了47.3/49.3 MIOU,超过Swin-T/S超过2.8/1.7。代码将在\ url {https://https://github.com/zhangzjn/eatformer}上提供。
translated by 谷歌翻译
为了更好地利用搜索日志和建模用户的行为模式,提出了许多点击模型来提取用户的隐式交互反馈。大多数传统点击模型都是基于概率图形模型(PGM)框架,该框架需要手动设计的依赖项,并且可能会过度简化用户行为。最近,提出了基于神经网络的方法来通过增强表达能力并允许灵活的依赖性来提高用户行为的预测准确性。但是,他们仍然遭受数据稀疏性和冷启动问题的困扰。在本文中,我们提出了一个新颖的图形增强点击模型(GraphCM),用于Web搜索。首先,我们将每个查询或文档视为顶点,并分别针对查询和文档提出新颖的均匀图构造方法,以完全利用会议内和会议间信息,以解决稀疏性和冷启动问题。其次,在考试假设之后,我们分别对吸引力估计量和检查预测值进行了建模,以输出吸引力得分和检查概率,在该分数中,应用图形神经网络和邻居相互作用技术用于提取在预构建的同质图中编码的辅助信息。最后,我们将组合功能应用于将考试概率和吸引力得分整合到点击预测中。在三个现实世界会话数据集上进行的广泛实验表明,GraphCM不仅胜过了最先进的模型,而且还可以在解决数据稀疏性和冷启动问题方面取得卓越的性能。
translated by 谷歌翻译
为了根据用户的隐式交互反馈提供点击模拟或相关性估计,在近年来,单击模型进行了很多研究。大多数点击模型都集中在用户行为上,指向单个列表。但是,随着用户界面设计(UI)设计的开发,结果页面上显示的项目的布局往往是多块(即多列表)样式而不是单个列表,这需要不同的假设来建模用户行为模型更精确地。存在桌面上下文中多块页面的单击模型,但是由于不同的互动方式,结果类型,尤其是多块演示样式,因此无法直接应用于移动方案。特别是,多块移动页面通常可以分解为基本垂直块和水平块的交织,从而导致典型的F形式。为了减轻桌面和移动上下文之间的多块页面上的差距,我们进行了用户吸引人的学习研究,并确定用户的顺序浏览,block skip和F-Shape页面上的比较模式。这些发现导致了新型的F形点击模型(FSCM)的设计,该模型是多块移动页面的一般解决方案。首先,我们为每个页面构建一个有向的无环图(DAG),每个项目都被视为顶点,每个边缘表示用户可能的检查流。其次,我们建议分别对用户的顺序(顺序浏览,块跳过)和非序列(比较)行为提出DAG结构的GRU和比较模块。最后,我们将GRU状态和比较模式结合在一起,以执行用户点击预测。与基线模型相比,大型现实世界数据集上的实验验证了FSCM对用户行为预测的有效性。
translated by 谷歌翻译
作为一个新兴的安全学习范式,在利用跨机构私人数据中,垂直联合学习(VFL)有望通过启用广告商和发布者私人拥有的补充用户属性的联合学习来改善广告模型。但是,将其应用于广告系统有两个关键的挑战:a)标记的重叠样本的有限规模,b)实时跨机构服务的高成本。在本文中,我们提出了一个半监督的拆卸框架VFED-SSD,以减轻这两个限制。我们确定:i)广告系统中有大量未标记的重叠数据,ii)我们可以通过分解联合模型来保持模型性能和推理成本之间的平衡。具体而言,我们开发了一个自制任务匹配的配对检测(MPD),以利用垂直分区的未标记数据并提出拆分知识蒸馏(SplitKD)架构,以避免跨机构服务。对三个工业数据集的实证研究表现出我们方法的有效性,在本地部署模式和联合部署模式下,所有数据集的中位数AUC分别提高了0.86%和2.6%。总体而言,我们的框架为实时展示广告提供了一种有效的联邦增强解决方案,其部署成本和大量绩效提升。
translated by 谷歌翻译
从自然语言监督中学习视觉表示,最近在许多开创性的作品中表现出了巨大的希望。通常,这些具有语言的视觉模型表现出对各种数据集和任务的强大可传递性。但是,由于缺乏易于使用的评估工具包和公共基准,评估这些模型的可转让性仍然很具有挑战性。为了解决这个问题,我们构建了高级版(评估语言的视觉任务级传输),这是用于评估(预训练)语言增强视觉模型的第一个基准和工具包。升华由三个组成部分组成。 (i)数据集。作为下游评估套件,它由20个图像分类数据集和35个对象检测数据集组成,每个数据集都用外部知识来增强。 (ii)工具包。开发了自动高参数调谐工具包,以促进下游任务的模型评估。 (iii)指标。多种评估指标用于测量样品效率(零射击和少量)和参数效率(线性探测和完整模型微调)。我们在https://computer-vision-in-the-wild.github.io/elevater/上公开发布leverater
translated by 谷歌翻译
仅国家模仿学习的最新进展将模仿学习的适用性扩展到现实世界中的范围,从而减轻了观察专家行动的需求。但是,现有的解决方案只学会从数据中提取州对行动映射策略,而无需考虑专家如何计划到目标。这阻碍了利用示威游行并限制政策的灵活性的能力。在本文中,我们介绍了解耦政策优化(DEPO),该策略优化(DEPO)明确将策略脱离为高级状态计划者和逆动力学模型。借助嵌入式的脱钩策略梯度和生成对抗训练,DEPO可以将知识转移到不同的动作空间或状态过渡动态,并可以将规划师推广到无示威的状态区域。我们的深入实验分析表明,DEPO在学习最佳模仿性能的同时学习通用目标状态计划者的有效性。我们证明了DEPO通过预训练跨任务转移的吸引力,以及与各种技能共同培训的潜力。
translated by 谷歌翻译
在恢复低分辨率灰度图像的实际应用中,我们通常需要为目标设备运行三个单独的图像着色,超分辨率和Dows采样操作。但是,该管道对于独立进程是冗余的并且低效,并且可以共享一些内部特征。因此,我们提出了一种有效的范例来执行{s} {s} {c} olorization和{s} Uper分辨率(SCS),并提出了端到端的SCSNet来实现这一目标。该方法由两部分组成:用于学习颜色信息的彩色分支,用于采用所提出的即插即用\ EMPH {金字塔阀跨关注}(PVCATTN)模块来聚合源和参考图像之间的特征映射;和超分辨率分支集成颜色和纹理信息以预测使用设计的\ emph {连续像素映射}(CPM)模块的目标图像来预测连续放大率的高分辨率图像。此外,我们的SCSNet支持对实际应用更灵活的自动和参照模式。丰富的实验证明了我们通过最先进的方法生成真实图像的方法的优越性,例如,平均降低了1.8 $ \ Depararrow $和5.1 $ \ Downarrow $相比,与自动和参照模式的最佳分数相比,分别在拥有更少的参数(超过$ \ \倍$ 2 $ \ dovearrow $)和更快的运行速度(超过$ \ times $ 3 $ \ Uprarow $)。
translated by 谷歌翻译
心肌活力的评估对于患有心肌梗塞的患者的诊断和治疗管理是必不可少的,并且心肌病理学的分类是本评估的关键。这项工作定义了医学图像分析的新任务,即进行心肌病理分割(MYOPS)结合三个序列的心脏磁共振(CMR)图像,该图像首次与Mycai 2020一起在Myops挑战中提出的。挑战提供了45个配对和预对准的CMR图像,允许算法将互补信息与三个CMR序列组合到病理分割。在本文中,我们提供了挑战的详细信息,从十五个参与者的作品调查,并根据五个方面解释他们的方法,即预处理,数据增强,学习策略,模型架构和后处理。此外,我们对不同因素的结果分析了结果,以检查关键障碍和探索解决方案的潜力,以及为未来的研究提供基准。我们得出结论,虽然报告了有前途的结果,但研究仍处于早期阶段,在成功应用于诊所之前需要更深入的探索。请注意,MyOPS数据和评估工具继续通过其主页(www.sdspeople.fudan.edu.cn/zhuangxiahai/0/myops20 /)注册注册。
translated by 谷歌翻译