Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
目的:分类器传输通常带有数据集偏移。为了克服它们,必须采用在线策略。对于实际应用,必须考虑用于适应批处理学习算法(例如SVM)的计算资源的局限性。方法:我们审查并比较了在线学习的几种策略与SVM。我们专注于限制存储培训数据大小的数据选择策略[...]主要结果:对于不同的数据移动,不同的标准是合适的。对于合成数据,将所有样品添加到所考虑的样品库中的性能通常比其他标准差得多。特别是,仅添加错误分类的样本表现出色。在这里,当其他标准没有得到很好的选择时,平衡标准非常重要。对于转移设置,结果表明,最佳策略取决于转移过程中漂移的强度。添加全部并删除最古老的样品会导致最佳性能,而对于较小的漂移,仅添加SVM的潜在新支持向量就足以减少处理资源。意义:对于基于脑电图模型的BCIS,使用了校准会话中的数据,先前的录制会话,甚至是与一个或其他主题的录音会话进行培训。学习模型的这种转移通常会降低性能,因此可以从在线学习中受益,从而适应了像已建立的SVM这样的分类器。我们表明,通过使用正确的数据选择标准组合,可以适应分类器并在很大程度上提高性能。此外,在某些情况下,可以通过使用特殊样本的子集更新并保留一小部分样品来训练分类器来加快处理并节省计算。
translated by 谷歌翻译
对于机器人应用来说,人类的方法非常重要。在介绍的研究中,我们实施了多模式的人类机器人互动(HRI)方案,其中模拟机器人通过语音和手势与其人类伴侣进行交流。机器人口头宣布其意图,并使用指向手势选择适当的动作。反过来,人类合作伙伴会评估机器人的口头公告(意图)是否与机器人选择的动作(指向手势)相匹配。对于机器人的口头公告与机器人的相应动作选择不符的情况,我们预计人类脑电图(EEG)中与错误相关的电位(ERRP)。实时记录了人类对机器人动作的固有评估,在脑电图中显而易见,在线连续分段并异步分类。对于功能选择,我们提出了一种方法,该方法允许向前和向后滑动窗口组合以训练分类器。我们在9个受试者中达到了91%的平均分类性能。正如预期的那样,我们还观察到受试者之间的变异性相对较高。将来,将扩展提出的特征选择方法,以允许自定义功能选择。为此,将自动选择向前和后滑动窗口的最佳组合,以说明分类性能中受试者间的可变性。此外,我们计划使用ERRP在互动增强学习中使用ERRP在错误情况下明显的固有人类错误评估来改善多模式的人类机器人相互作用。
translated by 谷歌翻译
域适应(DA)最近在医学影像社区提出了强烈的兴趣。虽然已经提出了大量DA技术进行了用于图像分割,但大多数这些技术已经在私有数据集或小公共可用数据集上验证。此外,这些数据集主要解决了单级问题。为了解决这些限制,与第24届医学图像计算和计算机辅助干预(Miccai 2021)结合第24届国际会议组织交叉模态域适应(Crossmoda)挑战。 Crossmoda是无监督跨型号DA的第一个大型和多级基准。挑战的目标是分割参与前庭施瓦新瘤(VS)的后续和治疗规划的两个关键脑结构:VS和Cochleas。目前,使用对比度增强的T1(CET1)MRI进行VS患者的诊断和监测。然而,使用诸如高分辨率T2(HRT2)MRI的非对比度序列越来越感兴趣。因此,我们创建了一个无人监督的跨模型分段基准。训练集提供注释CET1(n = 105)和未配对的非注释的HRT2(n = 105)。目的是在测试集中提供的HRT2上自动对HRT2进行单侧VS和双侧耳蜗分割(n = 137)。共有16支球队提交了评估阶段的算法。顶级履行团队达成的表现水平非常高(最佳中位数骰子 - vs:88.4%; Cochleas:85.7%)并接近完全监督(中位数骰子 - vs:92.5%;耳蜗:87.7%)。所有顶级执行方法都使用图像到图像转换方法将源域图像转换为伪目标域图像。然后使用这些生成的图像和为源图像提供的手动注释进行培训分割网络。
translated by 谷歌翻译
对于在线视频实例分段(VI),以有效的方式充分利用来自先前帧的信息对于实时应用是必不可少的。最先前的方法遵循一个两级方法,需要额外的计算,例如RPN和Roialign,并且在VI中的所有子任务中没有完全利用视频中的可用信息。在本文中,我们提出了一种基于网格结构特征表示构建的在线VI的新颖单级框架。基于网格的功能允许我们使用完全卷积的网络进行实时处理,并且还可以轻松地重用和共享不同组件内的功能。我们还介绍了从可用帧中聚合信息的协同操作模块,以便丰富VI中所有子任务的功能。我们的设计充分利用了以高效的方式为所有任务的网格形式提供了以前的信息,我们在YouTube上实现了新的最先进的准确性(38.6 AP和36.9 AP)和速度(40.0fps) - 2019年和2021年在线VIS方法之间的数据集。
translated by 谷歌翻译
随着各个领域的深度学习的巨大成功,图形神经网络(GNNS)也成为图形分类的主要方法。通过全局读出操作,只会聚合所有节点(或节点群集)表示,现有的GNN分类器获得输入图的图级表示,并使用表示来预测其类标签。但是,这种全局聚合不考虑每个节点的结构信息,这导致全局结构的信息丢失。特别地,它通过对所有节点表示来强制执行分类器的相同权重参数来限制辨别力;在实践中,他们中的每一个都有助于不同于其结构语义的目标类别。在这项工作中,我们提出了结构性语义读数(SSREAD)来总结位置级节点表示,这允许为分类模拟特定位置的权重参数,以及有效地捕获与全局结构相关的图形语义。给定输入图,SSREAD旨在通过使用其节点与结构原型之间的语义对齐来识别结构上有意义的位置,该结构原型编码每个位置的原型特征。结构原型经过优化,以最小化所有训练图的对准成本,而其他GNN参数训练以预测类标签。我们的实验结果表明,SSREAD显着提高了GNN分类器的分类性能和可解释性,同时兼容各种聚合函数,GNN架构和学习框架。
translated by 谷歌翻译
最近的趋势表明,一般的模型,例如BERT,GPT-3,剪辑,在规模上广泛的数据训练,已经显示出具有单一学习架构的各种功能。在这项工作中,我们通过在大尺度上培训通用用户编码器来探讨通用用户表示学习的可能性。我们展示了扩展法在用户建模区域中持有,其中训练错误将作为幂律规模的幂级,具有计算量。我们的对比学习用户编码器(CLUE),优​​化任务 - 不可知目标,并且所产生的用户嵌入式延伸我们对各种下游任务中的可能做些什么。 Clue还向其他域和系统展示了巨大的可转移性,因为在线实验上的性能显示在线点击率(CTR)的显着改进。此外,我们还调查了如何根据扩展因子,即模型容量,序列长度和批量尺寸来改变性能如何变化。最后,我们讨论了线索的更广泛影响。
translated by 谷歌翻译
通过计算机断层扫描(CT)检测到的肾上腺(肾上腺肿块)中肿块病变的准确分类对于诊断和患者管理很重要。肾上腺肿块可能是良性或恶性肿瘤,良性肿块的患病率有所不同。基于卷积神经网络(CNN)的分类方法是最大程度地提高大型医学成像训练数据集中阶层差异的最新方法。由于质量病变的大小,CNN的应用,在肾上腺肿块上的应用是具有挑战性的,这是具有挑战性的。我们开发了一个深度的多尺度相似网络(DMRN),以克服这些局限性,并杠杆配对的CNN来评估阶层内相似性。我们使用多尺度功能嵌入来改善类间的可分离性,通过迭代地组合在输入的不同尺度上产生的互补信息以创建结构化特征描述符。我们用随机采样的配对肾上腺肿块增强了训练数据,以减少训练数据不平衡的影响。我们使用229张CT扫描肾上腺肿块患者进行评估。在五倍的交叉验证中,与最先进的方法相比,我们的方法的结果最好(准确性89.52%)(p <0.05)。我们对ImageClef 2016竞赛数据集进行了医学子图分类的竞争数据集进行了普遍分析,该数据集由30个类别的6,776张图像和4,166张图像组成的培训集组成。与现有方法相比,我们的方法获得了更好的分类性能(精度为85.90%),并且与需要额外培训数据的方法相比(准确性降低1.47%)相比具有竞争力。我们在CT上的DMRN亚分类肾上腺肿块,优于最先进的方法。
translated by 谷歌翻译
We survey 146 papers analyzing "bias" in NLP systems, finding that their motivations are often vague, inconsistent, and lacking in normative reasoning, despite the fact that analyzing "bias" is an inherently normative process. We further find that these papers' proposed quantitative techniques for measuring or mitigating "bias" are poorly matched to their motivations and do not engage with the relevant literature outside of NLP. Based on these findings, we describe the beginnings of a path forward by proposing three recommendations that should guide work analyzing "bias" in NLP systems. These recommendations rest on a greater recognition of the relationships between language and social hierarchies, encouraging researchers and practitioners to articulate their conceptualizations of "bias"-i.e., what kinds of system behaviors are harmful, in what ways, to whom, and why, as well as the normative reasoning underlying these statements-and to center work around the lived experiences of members of communities affected by NLP systems, while interrogating and reimagining the power relations between technologists and such communities. Anne H. Charity Hudley. 2017. Language and Racialization. In Ofelia García, Nelson Flores, and Massimiliano Spotti, editors, The Oxford Handbook of Language and Society. Oxford University Press. Won Ik Cho, Ji Won Kim, Seok Min Kim, and Nam Soo Kim. 2019. On measuring gender bias in translation of gender-neutral pronouns. In Proceedings of the Workshop on Gender Bias in Natural Language Processing, pages 173-181, Florence, Italy.
translated by 谷歌翻译
Participants in political discourse employ rhetorical strategies -- such as hedging, attributions, or denials -- to display varying degrees of belief commitments to claims proposed by themselves or others. Traditionally, political scientists have studied these epistemic phenomena through labor-intensive manual content analysis. We propose to help automate such work through epistemic stance prediction, drawn from research in computational semantics, to distinguish at the clausal level what is asserted, denied, or only ambivalently suggested by the author or other mentioned entities (belief holders). We first develop a simple RoBERTa-based model for multi-source stance predictions that outperforms more complex state-of-the-art modeling. Then we demonstrate its novel application to political science by conducting a large-scale analysis of the Mass Market Manifestos corpus of U.S. political opinion books, where we characterize trends in cited belief holders -- respected allies and opposed bogeymen -- across U.S. political ideologies.
translated by 谷歌翻译