当网络条件恶化时,视频会议系统的用户体验差,因为当前的视频编解码器根本无法在极低的比特率下运行。最近,已经提出了几种神经替代方案,可以使用每个框架的稀疏表示,例如面部地标信息,以非常低的比特率重建说话的头视频。但是,这些方法在通话过程中具有重大运动或遮挡的情况下会产生不良的重建,并且不会扩展到更高的分辨率。我们设计了Gemino,这是一种基于新型高频条件超分辨率管道的新型神经压缩系统,用于视频会议。 Gemino根据从单个高分辨率参考图像中提取的信息来增强高频细节(例如,皮肤纹理,头发等),为每个目标框架的一个非常低分辨率的版本(例如,皮肤纹理,头发等)。我们使用多尺度体系结构,该体系结构在不同的分辨率下运行模型的不同组件,从而使其扩展到可与720p相当的分辨率,并且我们个性化模型以学习每个人的特定细节,在低比特率上实现了更好的保真度。我们在AIORTC上实施了Gemino,这是WEBRTC的开源Python实现,并表明它在A100 GPU上实时在1024x1024视频上运行,比比特率的比特率低于传统的视频Codecs,以相同的感知质量。
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
Rates of missing data often depend on record-keeping policies and thus may change across times and locations, even when the underlying features are comparatively stable. In this paper, we introduce the problem of Domain Adaptation under Missingness Shift (DAMS). Here, (labeled) source data and (unlabeled) target data would be exchangeable but for different missing data mechanisms. We show that when missing data indicators are available, DAMS can reduce to covariate shift. Focusing on the setting where missing data indicators are absent, we establish the following theoretical results for underreporting completely at random: (i) covariate shift is violated (adaptation is required); (ii) the optimal source predictor can perform worse on the target domain than a constant one; (iii) the optimal target predictor can be identified, even when the missingness rates themselves are not; and (iv) for linear models, a simple analytic adjustment yields consistent estimates of the optimal target parameters. In experiments on synthetic and semi-synthetic data, we demonstrate the promise of our methods when assumptions hold. Finally, we discuss a rich family of future extensions.
translated by 谷歌翻译
我们介绍了在打开集标签偏移(OSL)下进行域适应的问题,该标签分布可以任意更改,并且在部署期间可能会到达新类,但是类别条件分布p(x | y)是域不变的。 OSLS在标签转移和未标记(PU)学习下适应域的域名。学习者的目标是两个方面:(a)估计目标标签分布,包括新颖的班级; (b)学习目标分类器。首先,我们建立了确定这些数量的必要条件。其次,在标签转移和PU学习方面的进步中,我们提出了针对利用黑盒预测变量的两项任务的实用方法。与典型的开放式域适应(OSDA)问题不同,该问题往往不适合且仅适合启发式方法,OSLS提供了一个适合原则性机械的良好问题。关于视觉,语言和医学数据集的众多半合成基准测试的实验表明,我们的方法始终超过OSDA基线,实现目标域精度的10--25%提高。最后,我们分析了提出的方法,建立了与真正的标签边缘和收敛到高斯设置中线性模型的最佳分类器的有限样本收敛性。代码可在https://github.com/acmi-lab/open-set-label-shift上找到。
translated by 谷歌翻译
培训和评估语言模型越来越多地要求构建元数据 - 多样化的策划数据收集,并具有清晰的出处。自然语言提示最近通过将现有的,有监督的数据集转换为多种新颖的预处理任务,突出了元数据策划的好处,从而改善了零击的概括。尽管将这些以数据为中心的方法转化为生物医学语言建模的通用域文本成功,但由于标记的生物医学数据集在流行的数据中心中的代表性大大不足,因此仍然具有挑战性。为了应对这一挑战,我们介绍了BigBio一个由126个以上的生物医学NLP数据集的社区库,目前涵盖12个任务类别和10多种语言。 BigBio通过对数据集及其元数据进行程序化访问来促进可再现的元数据策划,并与当前的平台兼容,以及时工程和端到端的几个/零射击语言模型评估。我们讨论了我们的任务架构协调,数据审核,贡献指南的过程,并概述了两个说明性用例:生物医学提示和大规模,多任务学习的零射门评估。 BigBio是一项持续的社区努力,可在https://github.com/bigscience-workshop/biomedical上获得。
translated by 谷歌翻译
语音信号的多分辨率光谱特征代表大脑通过将皮质细胞调整为不同光谱和时间调制的方式来感知声音。这些功能会产生语音信号的较高维度表示。本文的目的是评估语音信号的听觉皮层表示对这些相应信号的估计发音特征的贡献。自从获得语音信号的声学特征的发音特征一直是不同语音社区感兴趣的主题,我们研究了将语音信号作为声学特征的多分辨率表示的可能性。我们使用威斯康星州X射线微束(XRMB)的清洁语音信号数据库来训练馈送前进的深神经网络(DNN),以估计六个区域变量的关节轨迹。使用适当的量表和速率向量参数选择了最佳的多分辨率光谱特征来训练模型,以获得最佳性能模型。实验与地面真相变量的相关性达到0.675。我们将该语音反演系统的性能与使用MEL频率曲线系数(MFCC)进行的先前实验进行了比较。
translated by 谷歌翻译
现实世界机器学习部署的特点是源(训练)和目标(测试)分布之间的不匹配,可能导致性能下降。在这项工作中,我们研究了仅使用标记的源数据和未标记的目标数据来预测目标域精度的方法。我们提出了平均阈值的置信度(A​​TC),一种实用的方法,用于了解模型的置信度的阈值,预测精度作为模型置信度超过该阈值的未标记示例的分数。 ATC优于多种模型架构的先前方法,分发班次类型(例如,由于综合损坏,数据集再现或新颖的群体)和数据集(野外,想象成,品种,CNIST)。在我们的实验中,ATC估计目标性能$ 2 $ 2美元 - 比以前的方法更准确地获得4美元。我们还探讨了问题的理论基础,证明通常,识别精度与识别最佳预测因子一样难以识别,因此,任何方法的功效都依赖于(可能是未列区)假设对移位的性质。最后,在一些玩具分布中分析了我们的方法,我们提供了有关其工作时的见解。
translated by 谷歌翻译
社交媒体,职业运动和视频游戏正在推动实时视频流的快速增长,在抽搐和YouTube Live等平台上。自动流媒体经验非常易于短时间级网络拥塞,因为客户端播放缓冲区通常不超过几秒钟。不幸的是,识别这些流和测量他们的QoE进行网络管理是具有挑战性的,因为内容提供商在很大程度上使用相同的交付基础设施来用于实时和视频点播(VOD)流,并且不能提供数据包检查技术(包括SNI / DNS查询监控)始终区分两者。在本文中,我们设计,构建和部署康复:基于网络级行为特征的实时视频检测和QoE测量的机器学习方法。我们的贡献是四倍:(1)我们从抽搐和YouTube分析约23,000个视频流,并在其流量配置文件中识别区分实时和按需流的关键功能。我们将我们的交通迹线释放为公众的开放数据; (2)我们开发基于LSTM的二进制分类器模型,该模型将Live从按需流实时区分,在提供商的高度超过95%的准确度; (3)我们开发了一种方法,估计实时流动流动的QoE度量,分辨率和缓冲率分别分别为93%和90%的总体精度; (4)最后,我们将我们的解决方案原型,将其培训在实验室中,并在服务于7,000多名订阅者的Live ISP网络中部署它。我们的方法提供了ISP,具有细粒度的可视性,进入实时视频流,使它们能够测量和改善用户体验。
translated by 谷歌翻译
本文研究了基于Laplacian Eigenmaps(Le)的基于Laplacian EIGENMAPS(PCR-LE)的主要成分回归的统计性质,这是基于Laplacian Eigenmaps(Le)的非参数回归的方法。 PCR-LE通过投影观察到的响应的向量$ {\ bf y} =(y_1,\ ldots,y_n)$ to to changbood图表拉普拉斯的某些特征向量跨越的子空间。我们表明PCR-Le通过SoboLev空格实现了随机设计回归的最小收敛速率。在设计密度$ P $的足够平滑条件下,PCR-le达到估计的最佳速率(其中已知平方$ l ^ 2 $ norm的最佳速率为$ n ^ { - 2s /(2s + d) )} $)和健美的测试($ n ^ { - 4s /(4s + d)$)。我们还表明PCR-LE是\ EMPH {歧管Adaptive}:即,我们考虑在小型内在维度$ M $的歧管上支持设计的情况,并为PCR-LE提供更快的界限Minimax估计($ n ^ { - 2s /(2s + m)$)和测试($ n ^ { - 4s /(4s + m)$)收敛率。有趣的是,这些利率几乎总是比图形拉普拉斯特征向量的已知收敛率更快;换句话说,对于这个问题的回归估计的特征似乎更容易,统计上讲,而不是估计特征本身。我们通过经验证据支持这些理论结果。
translated by 谷歌翻译
只给出了积极的例子和未标记的例子(来自正面和负数),我们可能希望估计准确的正面与负分类器。正式地,该任务分为两个子任务:(i)混合比例估计(MPE) - 确定未标记数据中的正例的分数; (ii)PU-Learning - 鉴于这样的估计,学习所需的正面与负分类器。不幸的是,两个问题的古典方法在高维设置中分解。与此同时,最近提出的启发式缺乏理论一致性,并效力依赖于近双车调谐。在本文中,我们提出了两种简单的技术:最好的箱估计(BBE)(用于MPE);而有条件的价值忽略风险(CVIR),对PU学习的简单目标。这两种方法都主导了先前的方法,并且对于BBE,我们建立正式保证,每当我们可以培训模型来干净地分离出一小部分积极示例的担保。我们的最终算法(TED)$ ^ N $,两种程序之间交替,显着改善了我们的混合比例估计器和分类器
translated by 谷歌翻译