智能论文笔记

HARP: Autoregressive Latent Video Prediction with High-Fidelity Image Generator

Younggyo Seo , Kimin Lee , Fangchen Liu , Stephen James , Pieter Abbeel

分类：计算机视觉

2022-09-15

视频预测是一个重要但充满挑战的问题。负担着生成未来框架和学习环境动态的任务。最近，通过将视频预测分为两个子问题：预训练图像生成器模型，随后学习图像生成器的潜在空间中的自动回归预测模型，可以将视频预测分为两个子问题，从而成为强大的视频预测工具。。但是，成功产生高保真性和高分辨率视频尚待观察。在这项工作中，我们研究了如何培训自回归潜在的潜在视频预测模型，能够预测高保真的未来帧，并对现有模型进行最小的修改，并产生高分辨率（256x256）视频。具体而言，我们通过使用因果变压器模型采用高保真图像发生器（VQ-GAN）来扩展先前的模型，并引入TOP-K采样和数据增强的其他技术，以进一步提高视频预测质量。尽管简单起见，但提出的方法仍可以在标准视频预测基准的最新方法中实现竞争性能，而参数较少，并在复杂和大规模数据集上实现了高分辨率的视频预测。视频可从https://sites.google.com/view/harp-videos/home获得。

translated by 谷歌翻译

Asymmetry Disentanglement Network for Interpretable Acute Ischemic Stroke Infarct Segmentation in Non-Contrast CT Scans

Haomiao Ni , Yuan Xue , Kelvin Wong , John Volpi , Stephen T. C. Wong , James Z. Wang , Xiaolei Huang

分类：计算机视觉

2022-06-30

非对比度CT（NCCT）图像中准确的梗塞分割是迈向计算机辅助急性缺血性中风（AIS）评估的关键步骤。在临床实践中，脑半球的双侧对称比较通常用于定位病理异常。最近的研究探索了不对称的协助AIS分割。但是，在评估其对AIS的贡献时，大多数以前基于对称性的工作都混合了不同类型的不对称性。在本文中，我们提出了一个新型的不对称分解网络（ADN），以自动将NCCT中的病理不对称性和内在的解剖不对称分离，以进行更有效和可解释的AIS分割。 ADN首先基于输入NCCT进行不对称分解，该输入nccts产生不同类型的3D不对称图。然后生成合成的，固有的 - 敏化补偿和病理 - 空气 - 对称盐的NCCT体积，后来用作分割网络的输入。 ADN的培训结合了领域知识，并采用了组织型意识到的正则化损失函数，以鼓励临床上敏感的病理不对称提取。加上无监督的3D转换网络，ADN在公共NCCT数据集上实现了最新的AIS分割性能。除了出色的表现外，我们认为学到的临床可解剖的不对称图也可以为更好地理解AIS评估提供见解。我们的代码可从https://github.com/nihaomiao/miccai22_adn获得。

translated by 谷歌翻译

Masked World Models for Visual Control

Younggyo Seo , Danijar Hafner , Hao Liu , Fangchen Liu , Stephen James , Kimin Lee , Pieter Abbeel

分类：机器人 | 人工智能 | 计算机视觉 | 机器学习

2022-06-28

基于视觉模型的增强学习（RL）有可能从视觉观察中实现样品有效的机器人学习。然而，当前的方法通常会训练单个模型端到端，以学习视觉表示和动态，因此难以准确地对机器人和小物体之间的相互作用进行建模。在这项工作中，我们介绍了一个基于视觉模型的RL框架，该框架将视觉表示学习和动态学习取消。具体而言，我们训练具有卷积层和视觉变压器（VIT）的自动编码器，以重建具有掩盖卷积特征的像素，并学习一个潜在的动力学模型，该模型在自动编码器的表示形式上运行。此外，为了编码与任务相关的信息，我们为自动编码器引入了辅助奖励预测目标。我们使用环境互动收集的在线样本不断更新自动编码器和动态模型。我们证明，我们的去耦方法在Meta-World和rlbench的各种视觉机器人任务上实现了最先进的表现，例如，我们在Meta-World的50个视觉机器人操作任务上实现了81.7％的成功率，而元世界则达到了81.7％基线达到67.9％。代码可在项目网站上找到：https：//sites.google.com/view/mwm-rl。

translated by 谷歌翻译

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

Aarohi Srivastava , Abhinav Rastogi , Abhishek Rao , Abu Awal Md Shoeb , Abubakar Abid , Adam Fisch , Adam R. Brown , Adam Santoro , Aditya Gupta , Adrià Garriga-Alonso

分类：自然语言处理 | 人工智能 | 机器学习 | (统计)机器学习

2022-06-09

语言模型既展示了定量的改进，又展示了新的定性功能，随着规模的增加。尽管它们具有潜在的变革性影响，但这些新能力的特征却很差。为了为未来的研究提供信息，为破坏性的新模型能力做准备，并改善社会有害的效果，至关重要的是，我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战，我们介绍了超越模仿游戏基准（Big Bench）。 Big Bench目前由204个任务组成，由132家机构的442位作者贡献。任务主题是多样的，从语言学，儿童发展，数学，常识性推理，生物学，物理学，社会偏见，软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号，Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为，跨越了数百万到数十亿个参数。此外，一个人类专家评估者团队执行了所有任务，以提供强大的基准。研究结果包括：模型性能和校准都随规模改善，但绝对的术语（以及与评估者的性能相比）；在模型类中的性能非常相似，尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分，而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标；社交偏见通常会随着含糊不清的环境而随着规模而增加，但这可以通过提示来改善。

translated by 谷歌翻译

Patch-based Object-centric Transformers for Efficient Video Generation

Wilson Yan , Ryo Okumura , Stephen James , Pieter Abbeel

分类：计算机视觉 | 机器学习

2022-06-08

在这项工作中，我们介绍了基于补丁的以对象为中心的视频变压器（POVT），这是一种基于区域的新型视频生成体系结构，利用以对象为中心的信息来有效地对视频中的时间动态进行建模。我们在视频预测中通过自回旋变压器在压缩视频的离散潜在空间中进行了先前的工作，并通过边界框进行了更改，以增加对象以对象为中心的信息。由于以对象为中心表示的更好的可压缩性，我们可以通过允许模型仅访问对象信息以获取更长的视野时间信息来提高训练效率。当对以对象为中心的各种困难数据集进行评估时，我们的方法可与其他视频生成模型更好或相等的性能，同时在计算上更有效和可扩展。此外，我们表明我们的方法能够通过边界框操作执行以对象为中心的可控性，这可能有助于下游任务，例如视频编辑或视觉计划。示例可在https://sites.google.com/view/povt-public} {https://sites.google.com/view/povt-public获取

translated by 谷歌翻译

On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning

Zhao Mandi , Pieter Abbeel , Stephen James

分类：机器学习 | 人工智能 | 计算机视觉 | 机器人

2022-06-07

智能代理人应该有能力利用先前学习的任务中的知识，以便快速有效地学习新任务。元学习方法已成为实现这一目标的流行解决方案。然而，迄今为止，元强化学习（META-RL）算法仅限于具有狭窄任务分布的简单环境。此外，预处理的范式随后进行了微调以适应新任务，这是一种简单而有效的解决方案，这些解决方案是监督和自我监督的学习。这使质疑元学习方法的好处在加强学习中的好处，这通常是以高复杂性为代价的。因此，我们研究了包括Procgen，rlbench和Atari在内的各种基于视觉的基准测试中的元RL方法，在这些基准测试中，对完全新颖的任务进行了评估。我们的发现表明，当对不同任务（而不是相同任务的不同变化）评估元学习方法时，对新任务进行微调的多任务预处理也相同或更好，或者更好，比用meta进行元数据。测试时间适应。这对于将来的研究令人鼓舞，因为多任务预处理往往比Meta-RL更简单和计算更便宜。从这些发现中，我们主张评估未来的Meta-RL方法在更具挑战性的任务上，并包括以简单但强大的基线进行微调预处理。

translated by 谷歌翻译

Sim-to-Real 6D Object Pose Estimation via Iterative Self-training for Robotic Bin Picking

Kai Chen , Rui Cao , Stephen James , Yichuan Li , Yun-Hui Liu , Pieter Abbeel , Qi Dou

分类：机器人 | 人工智能 | 计算机视觉 | 机器学习

2022-04-14

在本文中，我们提出了一个迭代的自我训练框架，用于SIM到现实的6D对象姿势估计，以促进具有成本效益的机器人抓钩。给定bin选择场景，我们建立了一个光真实的模拟器来合成丰富的虚拟数据，并使用它来训练初始姿势估计网络。然后，该网络扮演教师模型的角色，该模型为未标记的真实数据生成了姿势预测。有了这些预测，我们进一步设计了一个全面的自适应选择方案，以区分可靠的结果，并将它们作为伪标签来更新学生模型以估算真实数据。为了不断提高伪标签的质量，我们通过将受过训练的学生模型作为新老师并使用精致的教师模型重新标记实际数据来迭代上述步骤。我们在公共基准和新发布的数据集上评估了我们的方法，分别提高了11.49％和22.62％的方法。我们的方法还能够将机器人箱的成功成功提高19.54％，这表明了对机器人应用的迭代SIM到现实解决方案的潜力。

translated by 谷歌翻译

Reinforcement Learning with Action-Free Pre-Training from Videos

Younggyo Seo , Kimin Lee , Stephen James , Pieter Abbeel

分类：计算机视觉 | 人工智能

2022-03-25

最近无监督的预训练方法已证明通过学习多个下游任务的有用表示，对语言和视觉域有效。在本文中，我们研究了这种无监督的预训练方法是否也可以有效地基于视觉的增强学习（RL）。为此，我们介绍了一个框架，该框架学习了通过视频的生成预训练来理解动态的表示形式。我们的框架由两个阶段组成：我们预先培训无动作的潜在视频预测模型，然后利用预训练的表示形式在看不见的环境上有效地学习动作条件的世界模型。为了在微调过程中纳入其他动作输入，我们引入了一种新的体系结构，该结构将动作条件潜在预测模型堆叠在预先训练的无动作预测模型之上。此外，为了更好地探索，我们提出了一种基于视频的内在奖励，以利用预培训的表示。我们证明，在各种操纵和运动任务中，我们的框架显着改善了基于视力的RL的最终性能和样本效率。代码可在https://github.com/younggyoseo/apv上找到。

translated by 谷歌翻译

DeepStroke: An Efficient Stroke Screening Framework for Emergency Rooms with Multimodal Adversarial Deep Learning

Tongan Cai , Haomiao Ni , Mingli Yu , Xiaolei Huang , Kelvin Wong , John Volpi , James Z. Wang , Stephen T. C. Wong

分类：计算机视觉 | 人工智能

2021-09-24

在急诊室（ER）环境中，中风分类或筛查是一个普遍的挑战。由于MRI的慢速吞吐量和高成本，通常会进行快速CT而不是MRI。在此过程中通常提到临床测试，但误诊率仍然很高。我们提出了一个新型的多模式深度学习框架，深沉的中风，以通过识别较小的面部肌肉不协调的模式来实现计算机辅助中风的存在评估，并使怀疑急性环境中的中风的患者无能为力。我们提出的深雷克斯（Deepstroke）在中风分流器中容易获得一分钟的面部视频数据和音频数据，用于局部面部瘫痪检测和全球语音障碍分析。采用了转移学习来减少面部侵蚀偏见并提高普遍性。我们利用多模式的横向融合来结合低水平和高级特征，并为关节训练提供相互正则化。引入了新型的对抗训练以获得无身份和中风的特征。与实际急诊室患者进行的视频ADIO数据集进行的实验表明，与分类团队和ER医生相比，中风的表现要优于最先进的模型，并且取得更好的性能，比传统的敏感性高出10.94％，高7.37％的精度高出7.37％。当特异性对齐时，中风分类。同时，每个评估都可以在不到六分钟的时间内完成，这表明该框架的临床翻译潜力很大。

translated by 谷歌翻译

Pointer Sentinel Mixture Models

Stephen Merity , Caiming Xiong , James Bradbury , Richard Socher

分类：

2016-09-26

Recent neural network sequence models with softmax classifiers have achieved their best language modeling performance only with very large hidden states and large vocabularies. Even then they struggle to predict rare or unseen words even if the context makes the prediction unambiguous. We introduce the pointer sentinel mixture architecture for neural sequence models which has the ability to either reproduce a word from the recent context or produce a word from a standard softmax classifier. Our pointer sentinel-LSTM model achieves state of the art language modeling performance on the Penn Treebank (70.9 perplexity) while using far fewer parameters than a standard softmax LSTM. In order to evaluate how well language models can exploit longer contexts and deal with more realistic vocabularies and larger corpora we also introduce the freely available WikiText corpus. 1

translated by 谷歌翻译