组成零射击学习(CZSL)旨在识别训练过程中从可见状态和物体形成的看不见的构图。由于与不同对象纠缠的视觉外观中相同的状态可能是不同的,因此CZSL仍然是一项艰巨的任务。某些方法使用两个训练有素的分类器识别状态和对象,忽略了对象与状态之间的相互作用的影响;其他方法试图学习状态对象组成的联合表示,从而导致可见和看不见的组成集之间的域间隙。在本文中,我们提出了一种新颖的暹罗对比度嵌入网络(场景)(代码:https://github.com/xduxyli/scen-master),以实现看不见的构图识别。考虑到状态与物体之间的纠缠,我们将视觉特征嵌入了暹罗对比度空间中,以分别捕获它们的原型,从而减轻了状态与物体之间的相互作用。此外,我们设计了一个状态过渡模块(STM),以增加训练组成的多样性,从而提高识别模型的鲁棒性。广泛的实验表明,我们的方法在三个具有挑战性的基准数据集(包括最近提出的C-QGA数据集)上的最先进方法大大优于最先进的方法。
translated by 谷歌翻译
在本文中,我们介绍了人际内和人际关系网络(I^2R-NET),以进行多人姿势估计。它涉及两个基本模块。首先,人类内部关系模块在一个人身上运行,旨在捕获人类内部依赖性。其次,人际关系模块考虑了多个实例之间的关系,并着重于捕获人间的相互作用。人际关系间的关系模块可以通过减少特征图的分辨率来设计非常轻巧,但学习有用的关系信息以显着提高人类内部关系模块的性能。即使没有铃铛和哨子,我们的方法也可以竞争或胜过当前的比赛获胜者。我们对可可,人群和ochuman数据集进行了广泛的实验。结果表明,所提出的模型超过了所有最新方法。具体而言,所提出的方法在众群数据集上达到了77.4%的AP和Ochuman数据集上的67.8%AP,从而超过了现有方法的大幅度优于较大的利润率。此外,消融研究和可视化分析还证明了我们的模型的有效性。
translated by 谷歌翻译
作为一个新兴的安全学习范式,在利用跨机构私人数据中,垂直联合学习(VFL)有望通过启用广告商和发布者私人拥有的补充用户属性的联合学习来改善广告模型。但是,将其应用于广告系统有两个关键的挑战:a)标记的重叠样本的有限规模,b)实时跨机构服务的高成本。在本文中,我们提出了一个半监督的拆卸框架VFED-SSD,以减轻这两个限制。我们确定:i)广告系统中有大量未标记的重叠数据,ii)我们可以通过分解联合模型来保持模型性能和推理成本之间的平衡。具体而言,我们开发了一个自制任务匹配的配对检测(MPD),以利用垂直分区的未标记数据并提出拆分知识蒸馏(SplitKD)架构,以避免跨机构服务。对三个工业数据集的实证研究表现出我们方法的有效性,在本地部署模式和联合部署模式下,所有数据集的中位数AUC分别提高了0.86%和2.6%。总体而言,我们的框架为实时展示广告提供了一种有效的联邦增强解决方案,其部署成本和大量绩效提升。
translated by 谷歌翻译
蛋白质通过折叠到特定的3D结构来执行生物学功能。为了准确地模拟蛋白质结构,应仔细考虑氨基酸(例如侧链扭转角度和氨基酸际方向)之间的总体几何拓扑和局部细粒关系。在这项工作中,我们提出了定向的体重神经网络,以更好地捕获不同氨基酸之间的几何关系。我们的新框架将单个重量从标量扩大到3D定向矢量,支持经典和SO(3)的丰富几何操作(3) - 表示特征,在其上,我们构建了一个可用于处理氨基酸的感知器单元信息。此外,我们还引入了一条蛋白质上的范式传递范式,以将定向权重的感知器插入现有的图形神经网络中,从而显示出在全球尺度上保持SO(3) - 均衡性方面的较高多功能性。实验表明,与经典的神经网络和(全球)模棱两可的网络相比,我们的网络在表示几何关系方面具有更好的表现力。它还在与蛋白质3D结构有关的各种计算生物学应用上实现最新性能。
translated by 谷歌翻译
与准确性和计算成本具有密切关系的图像分辨率在网络培训中发挥了关键作用。在本文中,我们观察到缩小图像保留相对完整的形状语义,但是失去了广泛的纹理信息。通过形状语义的一致性和纹理信息的脆弱的启发,我们提出了一个名为时间性解决方案递减的新颖培训策略。其中,我们在时域中随机将训练图像降低到较小的分辨率。在使用缩小图像和原始图像的替代训练期间,图像中的不稳定纹理信息导致纹理相关模式与正确标签之间的相关性较弱,自然强制执行模型,以更多地依赖于稳健的形状属性。符合人类决策规则。令人惊讶的是,我们的方法大大提高了卷积神经网络的计算效率。在Imagenet分类上,使用33%的计算量(随机将培训图像随机降低到112 $ \倍112美元)仍然可以将resnet-50从76.32%提高到77.71%,并使用63%的计算量(随机减少在50%时期的训练图像到112 x 112)可以改善resnet-50至78.18%。
translated by 谷歌翻译
在这项工作中,我们开发了一种数学模型和用于鱼类机器人的机器人模板的仿真平台,即磁性,模块化,过度的机器人($ \ MU $机器人)。通过这个平台,我们通过加固学习系统地探索了设计和流体参数对游泳性能的影响。数学模型由两个相互作用的子系统,机器人动力学和流体动力学组成,并且流体动力学模型由反应性组分(加压和压力)和电阻部件(阻力和摩擦力)组成,然后为导出键而流动化机器人流体相互作用的“控制参数”。 $ \ mu $机器人通过控制谐波电压信号控制的磁执行器驱动,通过基于EM的政策超参数探索(EPHE)进行了优化,以最大化游泳速度。通过改变控制参数,通过ephe模拟和优化具有不同机器人模板变化的36例具有不同机器人模板变化(致动(NOA)和刚度)和流体动力学参数。结果表明,优化的Gaits(即,沿着身体的行波波的波长与模板变化和流体动力学参数无关。较高的NOA产生更高的速度,但每体长度较低,然而,每体长度的增益和较低的速度降低。身体和尾鳍步态动态由流体添加质量,弹簧和致动扭矩之间的相互作用,具有可忽略的流体电阻阻力的贡献。相比之下,推力产生由作用在尾鳍上的压力,因为稳定的游泳是由电阻力和压力之间的平衡导致的,从增加的群众和身体阻力的少量贡献。因此,添加质量力仅通过尾部动力学间接影响推力生成和游泳速度。
translated by 谷歌翻译
更好的准确性和效率权衡在对象检测中是一个具有挑战性的问题。在这项工作中,我们致力于研究对象检测的关键优化和神经网络架构选择,以提高准确性和效率。我们调查了无锚策略对轻质对象检测模型的适用性。我们增强了骨干结构并设计了颈部的轻质结构,从而提高了网络的特征提取能力。我们改善标签分配策略和损失功能,使培训更稳定和高效。通过这些优化,我们创建了一个名为PP-Picodet的新的实时对象探测器系列,这在移动设备的对象检测上实现了卓越的性能。与其他流行型号相比,我们的模型在准确性和延迟之间实现了更好的权衡。 Picodet-s只有0.99m的参数达到30.6%的地图,它是地图的绝对4.8%,同时与yolox-nano相比将移动CPU推理延迟减少55%,并且与Nanodet相比,MAP的绝对改善了7.1%。当输入大小为320时,它在移动臂CPU上达到123个FPS(使用桨Lite)。Picodet-L只有3.3M参数,达到40.9%的地图,这是地图的绝对3.7%,比yolov5s更快44% 。如图1所示,我们的模型远远优于轻量级对象检测的最先进的结果。代码和预先训练的型号可在https://github.com/paddlepaddle/paddledentions提供。
translated by 谷歌翻译
视觉和听觉信息对于确定视频中的显着区域都是有价值的。深度卷积神经网络(CNN)展示了应对视听显着性预测任务的强大能力。由于各种因素,例如拍摄场景和天气,源训练数据和目标测试数据之间通常存在适度的分布差异。域差异导致CNN模型目标测试数据的性能降解。本文提前尝试解决视听显着性预测的无监督域适应问题。我们提出了一种双重域交流学习算法,以减轻源数据和目标数据之间的域差异。首先,建立了一个特定的域歧视分支,以对齐听觉功能分布。然后,这些听觉功能通过跨模式自我发项模块融合到视觉特征中。设计了其他域歧视分支,以减少视觉特征的域差异和融合视听特征所隐含的视听相关性的差异。公共基准测试的实验表明,我们的方法可以减轻域差异引起的性能降解。
translated by 谷歌翻译
随着移动摄影技术的迅速发展,主要的手机制造商正在争先恐后地提高设备的拍摄能力和软件的照片美化算法。但是,智能设备和算法的改进不能取代人类的主观摄影技术。在本文中,我们提出了图像的美学语言指导(ALG)。我们根据指导规则是基于摄影模板还是指导图像,将ALG分为ALG-T和ALG-I。无论是ALG-T还是ALG-I,我们都会从三个颜色,照明和图像组成的属性中指导摄影。输入图像和摄影模板或指导图像之间的三个属性的差异用自然语言描述,即美学自然语言指导(ALG)。另外,由于景观图像和肖像图像之间的照明和组成差异,我们将输入图像分为景观图像和肖像图像。 ALG-T和ALG-I分别针对两种类型的输入图像(景观图像和肖像图像)进行美学指导。
translated by 谷歌翻译
面部视频中心率的估计在医疗和健身行业中有许多应用。此外,它在游戏领域也变得有用。已经提出了几种方法,可以从面部视频中无缝获得心率,但是这些方法在处理运动和照明工件方面存在问题。在这项工作中,我们使用用户的光谱反射率提出了一个可靠的人力资源估计框架,这使运动和照明干扰变得强大。我们采用基于学习的深度框架,例如更快的RCNNS来执行面部检测,而不是先前方法使用的中提琴琼斯算法。我们在Mahnob HCI数据集上评估了我们的方法,发现所提出的方法能够超越先前的方法。从面部视频中估计心率在医疗和健身行业中有许多应用。此外,它在游戏领域也变得有用。已经提出了几种方法,可以从面部视频中无缝获得心率,但是这些方法在处理运动和照明工件方面存在问题。在这项工作中,我们使用用户的光谱反射率提出了一个可靠的人力资源估计框架,这使运动和照明干扰变得强大。我们采用基于学习的深度框架,例如更快的RCNNS来执行面部检测,而不是先前方法使用的中提琴算法。我们在MAHNOB HCI数据集上评估了我们的方法,发现所提出的方法能够超过以前的方法。
translated by 谷歌翻译