具有更多数据,计算和参数的缩放语言模型在自然语言处理方面取得了重大进展。例如,由于缩放,GPT-3能够在内心学习任务上实现强烈结果。但是,培训这些大密度模型需要大量的计算资源。在本文中,我们提出并开发了名为Glam(通用语言模型)的语言模型系列,它使用稀疏激活的专家架构来规模模型容量,同时与致密变体相比,也产生显着更少的训练成本。最大的Glam具有1.2万亿参数,比GPT-3大约为7倍。它仅消耗了用于训练GPT-3的1/3的能量,并且需要一半的计算拖鞋进行推理,同时仍然在29个NLP任务中实现更好的整体零射击和一次性性能。
translated by 谷歌翻译
我们呈现GSPMD,一种用于公共机器学习计算的自动,基于编译的并行化系统。它允许用户以与单个设备的方式相同的方式编写程序,然后通过关于如何分发Tensors的一些注释来提供提示,基于哪个GSPMD将并行化计算。其分区的表示简单尚不一般,允许它在各种模型上表达并行性的不同或混合范式。GSPMD基于有限的用户注释为每个运算符的分区Inventing,使得缩放现有的单设备程序方便。它解决了生产使用的几种技术挑战,允许GSPMD实现50%至62%的计算利用率,用于高达2048个云TPUv3核心,适用于高达1万亿参数的模型。
translated by 谷歌翻译
错误传播是在线半监控视频对象分段中的一般但重要的问题。我们的目标是通过具有高可靠性的校正机制来抑制误差传播。关键洞察力是用可靠的线索解开传统掩模传播过程的校正。我们介绍了两个调制器,传播和校正调制器,根据本地时间相关性和可靠的引用,在目标帧嵌入中分别对目标帧嵌入进行分别执行频道 - WIES重新校准。具体地,我们用级联的传播校正方案组装调制器。这避免了通过传播调制器来覆盖可靠校正调制器的效果。尽管具有地面真理标签的参考帧提供可靠的提示,但它可能与目标帧非常不同,并引入不确定或不完全相关的相关性。我们通过向维护池补充可靠的功能补丁来增强参考线索,从而为调制器提供更全面和表现力的对象表示。此外,可靠性滤波器设计成检索可靠的贴片并将其传递在后续帧中。我们的模型在YouTube-VOS18 / 19和Davis17-Val /测试基准上实现了最先进的性能。广泛的实验表明,通过充分利用可靠的指导,校正机制提供了相当大的性能增益。代码可用:https://github.com/jerryx1110/rpcmvos。
translated by 谷歌翻译
基于学习的边缘检测有很强地监督的是用像素 - 明智的注释进行了强烈监督,这是手动获取的乏味。我们研究了自我训练边缘检测问题,利用了未开发的大型未标记图像数据集。我们设计具有多层正规化和自学的自我监督框架。特别地,我们强加了一个一致性正则化,该正则化强制执行来自多个层中的每一个的输出,以对输入图像及其扰动的对应物一致。我们采用L0平滑作为“扰动”,以鼓励在自我监督学习集群假设之后展示展示突出边界的边缘预测。同时,通过伪标签进行多层监督,网络训练,该伪标签与罐头边缘初始化,然后通过网络迭代地改进,因为培训进行了。正规化和自我教学共同实现了精确和召回的良好平衡,导致对监督方法的显着提升,在目标数据集中轻质细化。此外,我们的方法展示了强大的交叉数据集普遍性。例如,与现有的方法相比,在看不见的数据集上测试时,OCS的ODS提高了4.8%和5.8%。
translated by 谷歌翻译
Vision-Language(V + L)预先润廓模型通过了解图像和文本之间的对齐来支持多媒体应用程序取得了巨大成功。虽然现有的视觉预押模型主要专注于了解文本中的图像或实体中的对象,但它们通常会忽略事件级别的对齐及其参数结构。 %在这项工作中,我们提出了一种对比的学习框架来强制执行愿景 - 语言预押模型来理解事件和相关参数(参与者)角色。为此,我们利用文本信息提取技术来获得事件结构知识,并利用多个提示函数来通过操纵事件结构来对比难度的负面描述。我们还基于最佳传输来设计事件图对齐损耗以捕获事件参数结构。此外,我们收集了一个大型活动的数据集(106,875张图片),用于预磨平,这提供了更具挑战性的图像检索基准,以评估对复杂冗长的句子的理解。实验表明,我们的零射剪辑事件优于在多媒体事件提取中的参数提取中的最先进的监督模型,从而实现了事件提取中的5±绝对f得分增益,以及显着改进零拍摄设置下的各种下游任务。
translated by 谷歌翻译
在持续学习的SSLAD-TRACK 3B挑战中,我们提出了与变压器(COLT)继续学习的方法。与卷积神经网络相比,我们发现变压器遭受灾难性遗忘的损失。我们方法的主要原则是用旧知识蒸馏和头部扩展策略装备基于变压器的特征提取器来竞争灾难性的遗忘。在本报告中,我们首先介绍了对象检测的持续学习的整体框架。然后,我们分析了解决我们解决方案中灾难性遗址的关键要素对效果。我们的方法在SSLAD-TRACK 3B挑战测试集上实现70.78映射。
translated by 谷歌翻译
自然语言界面(NLIS)为用户提供了一种方便的方式来通过自然语言查询交互分析数据。然而,交互式数据分析是一种苛刻的过程,特别是对于新手数据分析师。从不同域探索大型和复杂的数据集时,数据分析师不一定有足够的关于数据和应用域的知识。它使他们无法有效地引起一系列查询并广泛导出理想的数据洞察力。在本文中,我们使用Step-Wise查询推荐模块开发NLI,以帮助用户选择适当的下一步探索操作。该系统采用数据驱动方法,以基于其查询日志生成用户兴趣的应用域的逐步语义相关和上下文感知的查询建议。此外,该系统可帮助用户将查询历史和结果组织成仪表板以传达发现的数据洞察力。通过比较用户学习,我们表明我们的系统可以促进比没有推荐模块的基线更有效和系统的数据分析过程。
translated by 谷歌翻译
文档级关系提取(DRE)旨在识别两个实体之间的关系。实体可以对应于超越句子边界的多个提升。以前很少有研究已经调查了提及集成,这可能是有问题的,因为库鲁弗提到对特定关系没有同样有贡献。此外,事先努力主要关注实体级的推理,而不是捕获实体对之间的全局相互作用。在本文中,我们提出了两种新颖的技术,上下文指导的集成和交互推理(CGM2IR),以改善DRE。而不是简单地应用平均池,而是利用上下文来指导在加权和方式中的经验提升的集成。另外,对实体对图的相互作用推理在实体对图上执行迭代算法,以模拟关系的相互依赖性。我们在三个广泛使用的基准数据集中评估我们的CGM2IR模型,即Docred,CDR和GDA。实验结果表明,我们的模型优于以前的最先进的模型。
translated by 谷歌翻译
ELO评级系统被广泛采用来评估(国际象棋)游戏和体育运动者的技能。最近,它还集成到了评估计算机化AI代理的性能时的机器学习算法中。然而,精确估计ELO评级(对于顶级球员)通常需要许多轮竞争,这可能是昂贵的。在本文中,为了提高ELO评估的样本效率(对于顶级球员),我们提出了一种有效的在线匹配调度算法。具体而言,我们通过Dueling Birits框架识别并匹配顶级播放器并将强盗算法定制到ELO的梯度更新。我们表明它减少了每一步记忆和时间复杂度来恒定,与需要$ O(t)$时间的传统似然最大化方法相比。我们的算法对$ \ tilde {o}(\ sqrt {t})$,Sublinear在竞争回合的数量中有遗憾的保证,并且已经扩展到多维ELO评级,用于处理风情游戏。我们经验证明我们的方法在各种游戏任务上实现了卓越的收敛速度和时间效率。
translated by 谷歌翻译
在恢复低分辨率灰度图像的实际应用中,我们通常需要为目标设备运行三个单独的图像着色,超分辨率和Dows采样操作。但是,该管道对于独立进程是冗余的并且低效,并且可以共享一些内部特征。因此,我们提出了一种有效的范例来执行{s} {s} {c} olorization和{s} Uper分辨率(SCS),并提出了端到端的SCSNet来实现这一目标。该方法由两部分组成:用于学习颜色信息的彩色分支,用于采用所提出的即插即用\ EMPH {金字塔阀跨关注}(PVCATTN)模块来聚合源和参考图像之间的特征映射;和超分辨率分支集成颜色和纹理信息以预测使用设计的\ emph {连续像素映射}(CPM)模块的目标图像来预测连续放大率的高分辨率图像。此外,我们的SCSNet支持对实际应用更灵活的自动和参照模式。丰富的实验证明了我们通过最先进的方法生成真实图像的方法的优越性,例如,平均降低了1.8 $ \ Depararrow $和5.1 $ \ Downarrow $相比,与自动和参照模式的最佳分数相比,分别在拥有更少的参数(超过$ \ \倍$ 2 $ \ dovearrow $)和更快的运行速度(超过$ \ times $ 3 $ \ Uprarow $)。
translated by 谷歌翻译