语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
在过去的几年中,基于卷积的神经网络(CNN)的人群计数方法已取得了有希望的结果。但是,对于准确的计数估计,量表变化问题仍然是一个巨大的挑战。在本文中,我们提出了一个多尺度特征聚合网络(MSFANET),可以在某种程度上减轻此问题。具体而言,我们的方法由两个特征聚合模块组成:短聚合(Shortagg)和Skip Contregation(Skipagg)。 Shortagg模块聚集了相邻卷积块的特征。其目的是制作具有从网络底部逐渐融合的不同接收场的功能。 Skipagg模块将具有小型接受场的特征直接传播到具有更大接收场的特征。它的目的是促进特征与大小接收场的融合。尤其是,Skipagg模块引入了Swin Transformer块中的本地自我注意力特征,以结合丰富的空间信息。此外,我们通过考虑不均匀的人群分布来提出基于局部和全球的计数损失。在四个具有挑战性的数据集(Shanghaitech数据集,UCF_CC_50数据集,UCF-QNRF数据集,WorldExpo'10数据集)上进行了广泛的实验,这表明与先前的先前的尚未实行的方法相比,提出的易于实现的MSFANET可以实现有希望的结果。
translated by 谷歌翻译
变压器在自然语言处理中的成功最近引起了计算机视觉领域的关注。由于能够学习长期依赖性,变压器已被用作广泛使用的卷积运算符的替代品。事实证明,这种替代者在许多任务中都取得了成功,其中几种最先进的方法依靠变压器来更好地学习。在计算机视觉中,3D字段还见证了使用变压器来增加3D卷积神经网络和多层感知器网络的增加。尽管许多调查都集中在视力中的变压器上,但由于与2D视觉相比,由于数据表示和处理的差异,3D视觉需要特别注意。在这项工作中,我们介绍了针对不同3D视觉任务的100多种变压器方法的系统和彻底审查,包括分类,细分,检测,完成,姿势估计等。我们在3D Vision中讨论了变形金刚的设计,该设计使其可以使用各种3D表示形式处理数据。对于每个应用程序,我们强调了基于变压器的方法的关键属性和贡献。为了评估这些方法的竞争力,我们将它们的性能与12个3D基准测试的常见非转化方法进行了比较。我们通过讨论3D视觉中变压器的不同开放方向和挑战来结束调查。除了提出的论文外,我们的目标是频繁更新最新的相关论文及其相应的实现:https://github.com/lahoud/3d-vision-transformers。
translated by 谷歌翻译
基于干涉视觉的导航(IVISNAV)是一种用于自主接近操作的新型光电传感器。 ivisnav采用激光发射结构化的信标,并通过测量传输激光脉冲的相变的变化来精确地表征六个自由度相对运动速率。 Ivisnav的嵌入式软件包必须有效地处理高频动力学,以进行健壮的感应和估计。本文开发了一种新的嵌入式系统,用于基于最小二乘的速率估计。所得系统能够与光子学连接并在现场可编程的门数阵列中实现估计算法。嵌入式软件包被证明是使用有限的精度算术进行高速计算的硬件/软件共同设计估计程序。将有限精度FPGA硬件设计的准确性与MATLAB上算法的浮点软件评估进行了比较,以基于其性能和与错误度量的统计一致性。实施结果证明了使用IVISNAV进行高速接近导航的FPGA计算功能的实用性。
translated by 谷歌翻译
我们开发了一种贝叶斯方法,以预测从具有多通道(即多维张量)结构的多个来源收集的数据的连续或二元结果。作为一个激励示例,我们将来自多个'Omics源的分子数据考虑在多个发育时间点上测量,作为恒河猴模型中早期铁缺乏症(ID)的预测指标。我们在系数上使用具有低级别结构的线性模型来捕获多路依赖性,并在每个源分别对系数的方差进行建模以推断其相对贡献。共轭先验促进了有效的吉布斯采样算法以进行后推理,假设有正常误差的连续结果或具有概率链接的二元结果。模拟表明,我们的模型在错误分类速率和估计系数与真实系数的相关性方面的性能如预期的,在考虑到不同来源的不同信号大小时,通过合并多路结构和适度的增长,可以通过稳定的性能增长。此外,它为我们的激励应用提供了可靠的ID猴子分类。以R代码形式的软件可在https://github.com/biostatskim/bayesmsmw上获得。
translated by 谷歌翻译
开放式杂货店是一家杂货店,客户不必排队等待。开发这样的系统并不是微不足道的,因为它面临着认识到人的动态和巨大流动的挑战。特别是,可以有效地将每个快照分配给相应客户的聚类方法对于系统至关重要。为了解决无公开结帐杂货店中的独特挑战,我们提出了一种有效的人群聚类方法。具体而言,我们首先提出一个拥挤的子图(CSG),以将大规模和连续数据流之间的关系定位。 CSG由拟议的选择链接 - 重量(plw)策略构建,\ textbf {picks}基于时间空间信息的节点,\ textbf {links}通过轨迹信息和\ textbf {comute} links}链接由拟议的von mises-fisher(VMF)相似性度量。然后,为了确保该方法适应动态和看不见的人的流程,我们提出了图形卷积网络(GCN),采用简单的最近邻居(NN)策略,以准确地聚集CSG的实例。 GCN被采用以将功能投射到低维可分离空间中,而NN能够快速在动态人流动下为此空间产生结果。实验结果表明,在这种情况下,提出的方法优于其他替代算法。实际上,整个系统已被实施并部署在几个现实的开放式杂货中。
translated by 谷歌翻译
如今,大规模数据集的大型培训大型模型已成为深度学习的关键主题。具有较高表示能力和可传递性的预训练模型取得了巨大的成功,并在自然语言处理和2D视觉中占据了许多下游任务。但是,鉴于有限的训练数据相对不便,因此将这种预处理的调整范式促进这种预处理的调整范式是非平凡的。在本文中,我们提供了一个新的观点,即利用3D域中的预训练的2D知识来解决此问题,以新颖的点对像素来调整预训练的图像模型,以较小的参数成本提示点云分析。遵循促使工程的原理,我们将点云转换为具有几何形状的投影和几何学吸引着色的色彩图像,以适应预训练的图像模型,在点云分析的端到端优化期间,其权重冻结了任务。我们进行了广泛的实验,以证明与提议的点对像素提示合作,更好的预训练图像模型将导致在3D视觉中始终如一地表现更好的性能。享受图像预训练领域的繁荣发展,我们的方法在Scanobjectnn的最困难环境中获得了89.3%的精度,超过了传统的点云模型,具有较少的可训练参数。我们的框架在模型网分类和塑形部分分割方面还表现出非常具竞争力的性能。代码可从https://github.com/wangzy22/p2p获得
translated by 谷歌翻译
复杂物理系统的高保真模拟在时空尺度上昂贵且无法访问。最近,人们对利用深度学习来增强基于粗粒的模拟来增强科学数据的兴趣越来越大,这是廉价的计算费用,并保留了令人满意的解决方案精度。但是,现有的主要工作集中在数据驱动的方法上,这些方法依赖丰富的培训数据集并缺乏足够的身体约束。为此,我们提出了一个通过物理知识学习的新颖而有效的时空超分辨率框架,灵感来自部分微分方程(PDES)中的时间和空间衍生物之间的独立性。一般原则是利用时间插值来进行流量估计,然后引入卷积转递的神经网络以学习时间细化。此外,我们采用了具有较大激活的堆叠残留块,并带有像素舍式的子像素层进行空间重建,其中特征提取是在低分辨率的潜在潜在空间中进行的。此外,我们考虑在网络中严重施加边界条件以提高重建精度。结果表明,通过广泛的数值实验,与基线算法相比,该方法的卓越有效性和效率。
translated by 谷歌翻译
视觉变压器的最新进展在基于点产生自我注意的新空间建模机制驱动的各种任务中取得了巨大成功。在本文中,我们表明,视觉变压器背后的关键要素,即输入自适应,远程和高阶空间相互作用,也可以通过基于卷积的框架有效地实现。我们介绍了递归封闭式卷积($ \ textit {g}^\ textit {n} $ conv),该卷积{n} $ conv)与封闭的卷积和递归设计执行高阶空间交互。新操作是高度灵活和可定制的,它与卷积的各种变体兼容,并将自我注意的两阶相互作用扩展到任意订单,而无需引入大量额外的计算。 $ \ textit {g}^\ textit {n} $ conv可以用作插件模块,以改善各种视觉变压器和基于卷积的模型。根据该操作,我们构建了一个名为Hornet的新型通用视觉骨干家族。关于ImageNet分类,可可对象检测和ADE20K语义分割的广泛实验表明,大黄蜂的表现优于Swin变形金刚,并具有相似的整体体系结构和训练配置的明显边距。大黄蜂还显示出对更多训练数据和更大模型大小的有利可伸缩性。除了在视觉编码器中的有效性外,我们还可以将$ \ textit {g}^\ textit {n} $ conv应用于特定于任务的解码器,并始终通过较少的计算来提高密集的预测性能。我们的结果表明,$ \ textIt {g}^\ textit {n} $ conv可以成为视觉建模的新基本模块,可有效结合视觉变形金刚和CNN的优点。代码可从https://github.com/raoyongming/hornet获得
translated by 谷歌翻译
深度学习(DL)模型的功能可以通过模型提取被盗,其中攻击者通过利用原始模型的预测API来获得替代模型。在这项工作中,我们提出了一种称为Dynamarks的新型水印技术,以保护DL模型的知识产权(IP)免受黑箱设置中的模型提取攻击。与现有方法不同,Dynamarks不会改变原始模型的训练过程,而是通过基于推理运行时的某些秘密参数从原始模型预测API中动态更改输出响应来将水印嵌入替代模型中。时尚MNIST,CIFAR-10和Imagenet数据集的实验结果证明了Dynamarks方案对水印替代模型的功效,同时保留了部署在边缘设备中的原始模型的准确性。此外,我们还执行实验,以评估Dynamarks对各种水印策略的鲁棒性,从而使DL模型所有者可以可靠地证明模型所有权。
translated by 谷歌翻译