许多具有某种形式听力损失的人认为唇读是他们日常交流的主要模式。但是,寻找学习或提高唇部阅读技能的资源可能具有挑战性。由于对与同行和言语治疗师的直接互动的限制,Covid $ 19 $流行的情况进一步加剧了这一点。如今,Coursera和Udemy等在线MOOCS平台已成为多种技能开发的最有效培训形式。但是,在线口头资源很少,因为创建这样的资源是一个广泛的过程,需要数月的手动努力来记录雇用的演员。由于手动管道,此类平台也受到词汇,支持语言,口音和扬声器的限制,并且使用成本很高。在这项工作中,我们研究了用合成生成的视频代替真实的人说话视频的可能性。合成数据可用于轻松合并更大的词汇,口音甚至本地语言以及许多说话者。我们提出了一条端到端的自动管道,以使用最先进的通话标题视频发电机网络,文本到语音的模型和计算机视觉技术来开发这样的平台。然后,我们使用仔细考虑的口头练习进行了广泛的人类评估,以验证我们设计平台针对现有的唇读平台的质量。我们的研究具体地指出了我们方法开发大规模唇读MOOC平台的潜力,该平台可能会影响数百万听力损失的人。
translated by 谷歌翻译
双打在电影业中起着必不可少的作用。他们代替了演员在危险的特技场景或同一演员扮演多个角色的场景中代替。后来,Double的脸被演员的脸部和表达式取代,并用昂贵的CGI技术手动表达,耗资数百万美元,花了几个月的时间才能完成。一种自动化,廉价且快速的方法可以是使用旨在将身份从源面部视频(或图像)交换为目标面部视频的面部交换技术。但是,这种方法无法保留演员对场景上下文重要的源表达式。 %对场景必不可少的。在电影院中必不可少的%。为了应对这一挑战,我们介绍了视频对视频(V2V)面部扫描,这是一项可以保留面部交换的新任务(1)源(演员)面部视频的身份和表达方式和(2)背景和目标(双重)视频的姿势。我们提出了一个V2V面部交换系统Cownoff,该系统通过学习强大的混合操作来运行,以根据上述约束来合并两个面部视频。它首先将视频减少到量化的潜在空间,然后将它们混合在减少的空间中。对抗以一种自我监督的方式进行了训练,并坚决应对V2V面部交换的非平凡挑战。如实验部分所示,面对面的表现明显优于定性和定量的交替方法。
translated by 谷歌翻译
COVID-19的大流行提出了对多个领域决策者的流行预测的重要性,从公共卫生到整个经济。虽然预测流行进展经常被概念化为类似于天气预测,但是它具有一些关键的差异,并且仍然是一项非平凡的任务。疾病的传播受到人类行为,病原体动态,天气和环境条件的多种混杂因素的影响。由于政府公共卫生和资助机构的倡议,捕获以前无法观察到的方面的丰富数据来源的可用性增加了研究的兴趣。这尤其是在“以数据为中心”的解决方案上进行的一系列工作,这些解决方案通过利用非传统数据源以及AI和机器学习的最新创新来增强我们的预测能力的潜力。这项调查研究了各种数据驱动的方法论和实践进步,并介绍了一个概念框架来导航它们。首先,我们列举了与流行病预测相关的大量流行病学数据集和新的数据流,捕获了各种因素,例如有症状的在线调查,零售和商业,流动性,基因组学数据等。接下来,我们将讨论关注最近基于数据驱动的统计和深度学习方法的方法和建模范式,以及将机械模型知识域知识与统计方法的有效性和灵活性相结合的新型混合模型类别。我们还讨论了这些预测系统的现实部署中出现的经验和挑战,包括预测信息。最后,我们重点介绍了整个预测管道中发现的一些挑战和开放问题。
translated by 谷歌翻译
我们在一般的非线性函数近似下研究无奖励增强学习(RL),并在各种标准结构假设下建立样品效率和硬度结果。从积极的一面来看,我们提出了在最小的结构假设下进行样品有效奖励探索的Rfolive(无奖励橄榄)算法,该假设涵盖了先前研究的线性MDPS的设置(Jin等,2020b),线性完整性(线性完整性)( Zanette等人,2020b)和低级MDP,具有未知的表示(Modi等,2021)。我们的分析表明,以前针对后两个设置的易学性或可及性假设在统计上对于无奖励探索而言并不是必需的。在负面方面,我们为在线性完整性假设下的无奖励和奖励意识探索提供统计硬度结果时,当基础特征未知时,显示了低级别和线性完整性设置之间的指数分离。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
深度学习已经变得过于复杂,并且在解决图像分类,对象检测等若干古典问题方面享有恒星的成功。已经提出了几种解释这些决定的方法。由于它们不利用模型的内部来解释该决定,为生成显着性图产生显着性图的方法特别感到很有趣。大多数黑匣子方法扰乱了输入并观察输出的变化。我们将显着的图形制定为顺序搜索问题,并利用加强学习(RL)来累积来自输入图像的证据,最强烈地支持分类器的决策。这种战略鼓励智能地搜索扰动,这将导致高质量的解释。虽然成功的黑匣子解释方法需要依靠重计算并遭受小的样本近似,但我们的方法学到的确定性政策使得在推理期间更有效。三个基准数据集的实验证明了在不损害性能的情况下推动了推理时间的提议方法的优越性。项目页面:https://cvir.github.io/projects/rexl.html
translated by 谷歌翻译
Lipreading或视觉上识别扬声器的嘴巴运动中的演讲是一个具有挑战性和精神上的税务任务。不幸的是,多种医疗条件强迫人们在日常生活中取决于这项技能,以获得必要的沟通。患有肌营养的侧面硬化(ALS)的患者经常丧失肌肉控制,因此它们能够通过唇部运动产生言语并进行通信。现有的大型数据集不会专注于医疗患者或与个人相关的个性化词汇。收集患者的大规模数据集,需要培训Mod-Ern数据饥饿的深度学习模型,然而,非常具有挑战性。在这项工作中,我们将个性化网络提出仅使用单次示例来利用ALS患者。我们依靠综合产生的唇部运动来增加一次性场景。基于变分编码器的域适配技术用于桥接实际综合域间隙。我们的方法显着提高和实现了高度的高度,精度为83.2%,而患者的可比方法可达62.6%。除了评估我们在ALS患者身上的方法外,我们还将其扩展到凭借在唇部运动中广泛依赖的听力损害的人们扩展。
translated by 谷歌翻译
State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual concept. Learning directly from raw text about images is a promising alternative which leverages a much broader source of supervision. We demonstrate that the simple pre-training task of predicting which caption goes with which image is an efficient and scalable way to learn SOTA image representations from scratch on a dataset of 400 million (image, text) pairs collected from the internet. After pre-training, natural language is used to reference learned visual concepts (or describe new ones) enabling zero-shot transfer of the model to downstream tasks. We study the performance of this approach by benchmarking on over 30 different existing computer vision datasets, spanning tasks such as OCR, action recognition in videos, geo-localization, and many types of fine-grained object classification. The model transfers non-trivially to most tasks and is often competitive with a fully supervised baseline without the need for any dataset specific training. For instance, we match the accuracy of the original ResNet-50 on ImageNet zero-shot without needing to use any of the 1.28 million training examples it was trained on. We release our code and pre-trained model weights at https://github.com/OpenAI/CLIP.
translated by 谷歌翻译
低级MDP已成为研究强化学习中的表示和探索的重要模型。有了已知的代表,存在几种无模型的探索策略。相反,未知表示设置的所有算法都是基于模型的,因此需要对完整动力学进行建模。在这项工作中,我们介绍了低级MDP的第一个无模型表示学习算法。关键的算法贡献是一个新的Minimax表示学习目标,我们为其提供具有不同权衡的变体,其统计和计算属性不同。我们将这一表示的学习步骤与探索策略交织在一起,以无奖励的方式覆盖状态空间。所得算法可证明样品有效,并且可以适应一般函数近似以扩展到复杂的环境。
translated by 谷歌翻译
We introduce Argoverse 2 (AV2) - a collection of three datasets for perception and forecasting research in the self-driving domain. The annotated Sensor Dataset contains 1,000 sequences of multimodal data, encompassing high-resolution imagery from seven ring cameras, and two stereo cameras in addition to lidar point clouds, and 6-DOF map-aligned pose. Sequences contain 3D cuboid annotations for 26 object categories, all of which are sufficiently-sampled to support training and evaluation of 3D perception models. The Lidar Dataset contains 20,000 sequences of unlabeled lidar point clouds and map-aligned pose. This dataset is the largest ever collection of lidar sensor data and supports self-supervised learning and the emerging task of point cloud forecasting. Finally, the Motion Forecasting Dataset contains 250,000 scenarios mined for interesting and challenging interactions between the autonomous vehicle and other actors in each local scene. Models are tasked with the prediction of future motion for "scored actors" in each scenario and are provided with track histories that capture object location, heading, velocity, and category. In all three datasets, each scenario contains its own HD Map with 3D lane and crosswalk geometry - sourced from data captured in six distinct cities. We believe these datasets will support new and existing machine learning research problems in ways that existing datasets do not. All datasets are released under the CC BY-NC-SA 4.0 license.
translated by 谷歌翻译