基于自我关注机制的顶部,视觉变压器最近在各种视觉任务上表现出显着的性能。虽然实现出色的性能,但它们仍然需要相对密集的计算成本,随着斑块的数量,自我关注头和变压器块增加而剧烈缩放。在本文中,我们争辩说,由于图像的变化大,因此它们对贴片之间的长距离依赖性建模的需要不同。为此,我们介绍了一个Adavit,一个自适应计算框架,学习在每次输入的基础上派生在整个骨干内的修补程序,自我注意力头和变压器块的使用策略,旨在提高视觉变压器的推理效率图像识别的最小精度降低。以端到端的方式与变压器骨架一起优化,轻量级决策网络连接到骨架上,以便在飞行中产生决定。关于ImageNet的广泛实验表明,与最先进的视觉变压器相比,我们的方法对效率的提高超过了2倍的效率,只有0.8%的准确性,实现了在不同的计算预算上的良好效率/准确性权衡权衡。我们进一步对学习使用政策进行了定量和定性分析,并对视觉变压器的冗余提供了更多的见解。
translated by 谷歌翻译
在各种图形相关的任务中出现了计算两个图之间的距离/相似性的图形相似性测量。最近的基于学习的方法缺乏可解释性,因为它们直接将两个图之间的交互信息转换为一个隐藏的向量,然后将其映射到相似性。为了解决这个问题,这项研究提出了图形相似性学习的端到端更容易解释的范式,并通过最大的常见子图推理(INFMC)命名相似性计算。我们对INFMCS的关键见解是相似性评分与最大公共子图(MCS)之间的牢固相关性。我们隐含地推断MC获得标准化的MCS大小,其监督信息仅在训练过程中的相似性得分。为了捕获更多的全局信息,我们还使用图形卷积层堆叠一些香草变压器编码层,并提出一种新颖的置换不变的节点位置编码。整个模型非常简单却有效。全面的实验表明,INFMC始终优于用于图形分类和回归任务的最先进基线。消融实验验证了提出的计算范式和其他组件的有效性。同样,结果的可视化和统计数据揭示了INFMC的解释性。
translated by 谷歌翻译
在本文中,我们为Rademacher复杂性和I.I.D.深度学习的概括误差开发了一些新颖的界限。和马尔可夫数据集。新的Rademacher复杂性和概括范围紧密至$ O(1/\ sqrt {n})$,其中$ n $是训练集的大小。对于某些神经网络结构,它们可能会在深度$ l $中呈指数衰减。塔格兰(Talagrand)在功能空间和深层神经网络之间进行高维映射的收缩引理的开发是对这项工作的关键技术贡献。
translated by 谷歌翻译
基于深度学习(DL)的医学图像分类和细分是诊断当前COVID 19的变异病毒的紧急研究主题。在肺的Covid-19计算机断层扫描(CT)图像中,地面玻璃浊度是需要专业诊断的最常见发现。基于这种情况,一些研究人员提出了相关的DL模型,这些模型可以在缺乏专业知识时取代诊所的专业诊断专家。但是,尽管DL方法在医学图像处理中具有惊人的性能,但有限的数据集可能是发展人类级别诊断准确性的挑战。此外,深度学习算法面临着将三个甚至多个维度分类的医学图像分类和分割的挑战,并保持高精度率。因此,有了确保高水平的准确性,我们的模型可以将患者的CT图像分为三种类型:正常,肺炎和covid。随后,两个数据集用于分割,其中一个数据集甚至只有有限的数据(20例)。我们的系统将分类模型和分割模型结合在一起,建立在RESNET50和3D U-NET算法的基础上。通过使用不同的数据集进行喂食,将根据分类结果进行感染区域的共vid图像分割。我们的模型通过3种类型的肺部病变分类达到94.52%的准确性:卷,肺炎和正常。对于将来的医疗用途,将模型嵌入医疗设施可能是一种有效的方法,可以协助或替代医生诊断,因此,在COVID-19情况下,更广泛的变异病毒问题也可以成功解决。
translated by 谷歌翻译
变压器的扎实结果使它们在各种自然语言和视觉任务中占上风。作为变压器中的默认组件,层归一化(LN)将每个令牌内的激活归一化,以增强稳健性。但是,LN需要在推理以及除法和平方根操作中进行直接统计计算,从而导致硬件效率低下。更重要的是,用其他硬件有效的标准化方案(例如,批发归一化)代替LN会导致性能较低,甚至在训练中崩溃。我们发现,这种困境是由激活统计的异常行为引起的,包括对迭代的大波动和跨层的极端异常值。为了解决这些问题,我们提出了统一的归一化(UN),可以通过与其他线性操作融合并在LN上实现可比性的性能来加快推断。联合国通过量身定制的波动平滑策略校准激活和梯度统计来努力提高性能。同时,采用自适应离群过滤策略来避免在本文中在理论上证明并在实验上验证的训练中崩溃。我们证明,通过对语言和视觉任务进行广泛的实验,联合国可以成为LN的有效替代品。此外,我们评估了我们方法在GPU上的效率。配备了联合国的变压器享受约31%的推理速度和近18%的记忆力减少。代码将在https://github.com/hikvision-research/unified-normalization上发布。
translated by 谷歌翻译
由于数据可用性的偏见,基于学习的学生建模的传统方法对代表性不足的学生群体的推广不佳。在本文中,我们提出了一种方法,用于预测其在线学习活动中的学生表现,以优化与种族和性别等不同人口组的推论准确性。在我们的方法中,基于联合学习的最新基础,单个学生子组的个性化模型是从在所有学生模型中通过元学级更新汇总的全球模型得出的,该模型通过说明亚组异质性。为了了解学生活动的更好代表,我们通过一种自我监督的行为预处理方法来增强我们的方法,该方法利用了多种学生行为方式(例如,访问教授视频和在论坛上的参与),并在模型中包括神经网络注意力聚合阶段。通过从在线课程中对三个现实世界数据集进行实验,我们证明我们的方法在预测所有子组的学生学习成果方面对现有的学生建模基准进行了实质性改进。对最终学生嵌入的视觉分析证实,我们的个性化方法确实确定了不同亚组中的不同活动模式,与基准相比其更强的推理能力一致。
translated by 谷歌翻译
联合学习(FL)是一种使用跨设备分布的数据训练模型的技术。差异隐私(DP)为敏感数据提供了正式的隐私保证。我们的目标是在使用FL和DP保护隐私的同时,在计算受限设备上训练大型神经网络语言模型(NNLM)。但是,随着模型大小的增长,引入模型的DP噪声增加,这通常会阻止收敛。我们提出了部分嵌入更新(PEU),这是一种新颖的技术,可以通过降低有效载荷大小来降低噪声。此外,我们采用低级适应(LORA)和噪声对比估计(NCE)来减少计算受限设备上大型模型的记忆需求。这种技术的组合使得可以在保留准确性和隐私的同时训练大型唱机语言模型。
translated by 谷歌翻译
我们提出了场景运动的新颖双流表示,将光流分​​解为由摄像机运动引起的静态流场和另一个由场景中对象的运动引起的动态流场。基于此表示形式,我们提出了一个动态的大满贯,称为Deflowslam,它利用图像中的静态和动态像素来求解相机的姿势,而不是像其他动态SLAM系统一样简单地使用静态背景像素。我们提出了一个动态更新模块,以一种自我监督的方式训练我们的Deflowslam,其中密集的束调节层采用估计的静态流场和由动态掩码控制的权重,并输出优化的静态流动场的残差,相机姿势的残差,和反度。静态和动态流场是通过将当前图像翘曲到相邻图像来估计的,并且可以通过将两个字段求和来获得光流。广泛的实验表明,在静态场景和动态场景中,Deflowslam可以很好地推广到静态和动态场景,因为它表现出与静态和动态较小的场景中最先进的Droid-Slam相当的性能,同时在高度动态的环境中表现出明显优于Droid-Slam。代码和数据可在项目网页上找到:\ urlstyle {tt} \ textColor {url_color} {\ url {https://zju3dv.github.io/deflowslam/}}}。
translated by 谷歌翻译
人际关系的阻塞和深度歧义使估计单眼多人的3D姿势是以摄像头为中心的坐标,这是一个具有挑战性的问题。典型的自上而下框架具有高计算冗余,并具有额外的检测阶段。相比之下,自下而上的方法的计算成本较低,因为它们受人数的影响较小。但是,大多数现有的自下而上方法将以摄像头3D为中心的人姿势估计视为两个无关的子任务:2.5D姿势估计和以相机为中心的深度估计。在本文中,我们提出了一个统一模型,该模型利用这两个子任务的相互益处。在框架内,稳健结构的2.5D姿势估计旨在基于深度关系识别人际遮挡。此外,我们开发了一种端到端几何感知的深度推理方法,该方法利用了2.5D姿势和以摄像头为中心的根深度的相互益处。该方法首先使用2.5D姿势和几何信息来推断向前通行证中以相机为中心的根深度,然后利用根深蒂固,以进一步改善向后通过的2.5D姿势估计的表示。此外,我们设计了一种自适应融合方案,该方案利用视觉感知和身体几何形状来减轻固有的深度歧义问题。广泛的实验证明了我们提出的模型比广泛的自下而上方法的优越性。我们的准确性甚至与自上而下的同行竞争。值得注意的是,我们的模型比现有的自下而上和自上而下的方法快得多。
translated by 谷歌翻译
我们提出了一个新颖的圆锥视觉探针仪框架,称为PVO,以对场景的运动,几何形状和泛型分割信息进行更全面的建模。 PVO在统一的视图中模拟视觉探光仪(VO)和视频全景分割(VPS),从而使这两个任务能够相互促进。具体来说,我们将一个泛型更新模块引入VO模块,该模块在图像泛型分段上运行。该泛型增强的VO模块可以通过调整优化的相机姿势的权重来修剪相机姿势估计中动态对象的干扰。另一方面,使用摄像头姿势,深度和光流,通过将当前帧的圆形分割结果融合到相邻框架中,从而提高了VO-增强VPS模块,从而提高了分割精度。模块。这两个模块通过反复的迭代优化互相贡献。广泛的实验表明,PVO在视觉景观和视频综合分割任务中的最先进方法均优于最先进的方法。代码和数据可在项目网页上找到:\ urlstyle {tt} \ textColor {url_color} {\ url {https://zju3dv.github.io/pvo/pvo/}}}。
translated by 谷歌翻译