我们提出了一种称为基本的组合缩放方法,可在ImageNet ILSVRC-2012验证集上实现85.7%的前1个零点精度,超越了最佳发布的零拍模型 - 剪辑并对齐 - 达9.3%。我们的基本模式还显示出鲁棒性基准的显着改进。例如,在5个测试集中,具有自然分布换档,如想象的 - {A,R,V2,素描}和ObjectNet,我们的车型实现了83.7%的前1个平均精度,只有一个小幅度从其原始的想象精度下降。为实现这些结果,我们扩大了剪辑的对比学习框架,并在三个方面对齐:数据大小,型号大小和批量大小。我们的数据集具有6.6B噪声图像文本对,比对齐的4倍,比夹子大16倍。我们最大的型号具有3B重量,参数比为3.75倍,拖鞋比对齐和夹子更大。我们的批量尺寸为65536,比剪辑的2倍,4倍超过对齐。缩放的主要挑战是我们的加速器的内存有限,如GPU和TPU。因此,我们提出了一种在线渐变缓存的简单方法来克服这个限制。
translated by 谷歌翻译
联邦学习(FL)变得流行,并在训练大型机器学习(ML)模型的情况下表现出很大的潜力,而不会使所有者的原始数据曝光。在FL中,数据所有者可以根据其本地数据培训ML模型,并且仅将模型更新发送到模型更新,而不是原始数据到模型所有者进行聚合。为了提高模型准确性和培训完成时间的学习绩效,招募足够的参与者至关重要。同时,数据所有者是理性的,可能不愿意由于资源消耗而参与协作学习过程。为了解决这些问题,最近有各种作品旨在激励数据业主贡献其资源。在本文中,我们为文献中提出的经济和游戏理论方法提供了全面的审查,以设计刺激数据业主参加流程培训过程的各种计划。特别是,我们首先在激励机制设计中常用的佛罗里达州的基础和背景,经济理论。然后,我们审查博弈理论和经济方法应用于FL的激励机制的应用。最后,我们突出了一些开放的问题和未来关于FL激励机制设计的研究方向。
translated by 谷歌翻译
收集与特定API方法相关的API示例,用法和提及在诸如堆栈溢出之类的场地上的讨论中不是一个微不足道的问题。它需要努力正确认识讨论是否指的是开发人员/工具正在搜索的API方法。线程的内容包括描述API方法在讨论中的参与和包含API调用的代码片段中的文本段落,可以参考给定的API方法。利用此观察,我们开发FacOS,一种特定于背景算法,可以在讨论中捕获段落和代码片段的语义和语法信息。FACOS将基于语法的单词的分数与来自Codebert的精细调整的预测模型的分数相结合。Facos在F1分数方面将最先进的方法击败了13.9%。
translated by 谷歌翻译
在本文中,我们呈现了Bartpho的两个版本Bartpho-symlable和Bartpho-Word,这是第一个为越南语预先培训的公共大规模单声道序列到序列模型。Bartpho使用“大”架构和序列序列去噪的预训练方案,因此特别适用于生成NLP任务。我们开展实验,以将我们的巴特照片与竞争对手MBART进行比较,以越南文本摘要的下游任务,表明:在自动和人类评估中,Bartpho优于强大的基线MBART并改善了最先进的。我们释放巴特诺以促进未来的生成越南NLP任务的研究和应用。我们的Bartpho模型可公开提供:https://github.com/vinairesearch/bartpho
translated by 谷歌翻译
在本文中,我们提出了一种在贝叶斯神经网络中执行近似高斯推理(Tagi)的分析方法。该方法使得后尺寸矢量和对角线协方差矩阵的分析高斯推断用于重量和偏差。提出的方法具有$ \ mathcal {o}(n)$的计算复杂性,与参数$ n $的数量,并且对回归和分类基准测试的测试确认,对于相同的网络架构,它匹配依赖于梯度背交的现有方法的性能。
translated by 谷歌翻译