智能论文笔记

Anticipating the Unseen Discrepancy for Vision and Language Navigation

Yujie Lu , Huiliang Zhang , Ping Nie , Weixi Feng , Wenda Xu , Xin Eric Wang , William Yang Wang

分类：计算机视觉 | 自然语言处理

2022-09-10

视觉导航要求代理商遵循自然语言说明以达到特定目标。可见的环境和看不见的环境之间的巨大差异使代理商概括良好的挑战。先前的研究提出了数据增强方法，以明确或隐式地减轻数据偏见并提供概括的改进。但是，他们试图记住增强的轨迹，并在测试时忽略在看不见的环境下的分布变化。在本文中，我们提出了一个看不见的差异，预期视力和语言导航（戴维斯），该差异通过鼓励测试时间的视觉一致性来概括为看不见的环境。具体来说，我们设计了：1）半监督框架戴维斯（Davis），该框架利用类似的语义观测来利用视觉一致性信号。 2）一个两阶段的学习程序，鼓励适应测试时间分布。该框架增强了模仿和强化学习的基本混合物与动量形成对比，以鼓励在联合训练阶段和测试时间适应阶段对类似观察的稳定决策。广泛的实验表明，戴维斯在R2R和RXR基准上实现了与先前最先进的VLN基线相比，取得了模型不合命源性的改进。我们的源代码和数据是补充材料。

translated by 谷歌翻译

ZoomNAS: Searching for Whole-body Human Pose Estimation in the Wild

Lumin Xu , Sheng Jin , Wentao Liu , Chen Qian , Wanli Ouyang , Ping Luo , Xiaogang Wang

分类：计算机视觉

2022-08-23

本文调查了2D全身人类姿势估计的任务，该任务旨在将整个人体（包括身体，脚，脸部和手）局部定位在整个人体上。我们提出了一种称为Zoomnet的单网络方法，以考虑到完整人体的层次结构，并解决不同身体部位的规模变化。我们进一步提出了一个称为Zoomnas的神经体系结构搜索框架，以促进全身姿势估计的准确性和效率。Zoomnas共同搜索模型体系结构和不同子模块之间的连接，并自动为搜索的子模块分配计算复杂性。为了训练和评估Zoomnas，我们介绍了第一个大型2D人类全身数据集，即可可叶全体V1.0，它注释了133个用于野外图像的关键点。广泛的实验证明了Zoomnas的有效性和可可叶v1.0的重要性。

translated by 谷歌翻译

QC-ODKLA: Quantized and Communication-Censored Online Decentralized Kernel Learning via Linearized ADMM

Ping Xu , Yue Wang , Xiang Chen , Zhi Tian

分类：机器学习

2022-08-04

本文着重于通过分散网络的在线内核学习。网络中的每个代理都会在本地接收连续流数据，并协同工作以学习一个非线性预测函数，该功能在复制的内核希尔伯特空间中相对于所有代理的总瞬时成本而言是最佳的。为了规避传统在线内核学习中维度问题的诅咒，我们利用随机功能（RF）映射将非参数内核学习问题转换为RF空间中的固定长度参数。然后，我们建议通过线性化ADMM（ODKLA）有效地解决在线分散的内核内核学习问题，提出一个名为在线分散内核学习的新颖学习框架。为了进一步提高沟通效率，我们在通信阶段添加了量化和审查策略，并开发了量化和通信的ODKLA（QC-ODKLA）算法。从理论上讲，我们证明了Odkla和Qc-odkla都可以在$ t $ time插槽上实现最佳的Sublinear后悔$ \ Mathcal {O}（\ sqrt {t}）$。通过数值实验，我们评估了所提出方法的学习效率，沟通和计算效率。

translated by 谷歌翻译

Pose for Everything: Towards Category-Agnostic Pose Estimation

Lumin Xu , Sheng Jin , Wang Zeng , Wentao Liu , Chen Qian , Wanli Ouyang , Ping Luo , Xiaogang Wang

分类：计算机视觉

2022-07-21

2D姿势估计的现有作品主要集中在某个类别上，例如人，动物和车辆。但是，有许多应用程序方案需要检测看不见的对象类的姿势/关键点。在本文中，我们介绍了类别不稳定姿势估计（CAPE）的任务，该任务旨在创建一个姿势估计模型，能够检测仅给出一些具有关键点定义的样本的任何类别对象的姿势。为了实现这一目标，我们将姿势估计问题作为关键点匹配问题制定，并设计一个新颖的Cape框架，称为姿势匹配网络（POMNET）。提出了基于变压器的关键点交互模块（KIM），以捕获不同关键点之间的交互以及支持图像和查询图像之间的关系。我们还介绍了多类姿势（MP-100）数据集，该数据集是包含20K实例的100个对象类别的2D姿势数据集，并且经过精心设计用于开发CAPE算法。实验表明，我们的方法的表现优于其他基线方法。代码和数据可在https://github.com/luminxu/pose-for-venthing上找到。

translated by 谷歌翻译

CGAR: Critic Guided Action Redistribution in Reinforcement Leaning

Tairan Huang , Xu Li , Hao Li , Mingming Sun , Ping Li

分类：机器学习

2022-06-23

培训游戏强化学习代理需要与环境进行多次互动。无知的随机探索可能会导致浪费时间和资源。减轻这种浪费至关重要。正如本文所述，在非政策演员评论家算法的设置下，我们证明，评论家可以带来更多的预期折扣奖励，而不是至少与演员相等。因此，评论家预测的Q值是一个更好的信号，可以重新分发最初从演员预测的政策分布中采样的动作。本文介绍了新的评论家指导行动重新分布（CGAR）算法，并在Openai Mujoco任务上进行了测试。实验结果表明，我们的方法提高了样本效率并实现最先进的性能。我们的代码可以在https://github.com/tairanhuang/cgar上找到。

translated by 谷歌翻译

Factuality Enhanced Language Models for Open-Ended Text Generation

Nayeon Lee , Wei Ping , Peng Xu , Mostofa Patwary , Mohammad Shoeybi , Bryan Catanzaro

分类：自然语言处理 | 人工智能 | 机器学习

2022-06-09

预审前的语言模型（LMS）易于生成具有非事实信息的文本。在这项工作中，我们测量并提高了开放式文本生成的大规模LMS的事实准确性。我们设计了FactualityPrompts测试集和指标，以衡量LM世代的事实。基于此，我们研究了参数尺寸范围从126m到530b不等的LMS的事实准确性。有趣的是，我们发现较大的LM比较小的LM更为事实，尽管先前的研究表明，在误解方面较大的LMS可能不太真实。此外，开放式文本生成中流行的采样算法（例如，顶级P）可能会损害由于每个采样步骤中引入的“均匀随机性”，因此损害了事实。我们提出的事实核采样算法会动态适应随机性，以改善发电的事实，同时保持质量。此外，我们分析了从事实文本语料库（例如Wikipedia）学习实体之间正确关联的标准培训方法的效率低下。我们提出了一种事实增强的培训方法，该方法使用topicprefix更好地意识到事实和句子完成作为培训目标，这可以大大减少事实错误。

translated by 谷歌翻译

CO^3: Cooperative Unsupervised 3D Representation Learning for Autonomous Driving

Runjian Chen , Yao Mu , Runsen Xu , Wenqi Shao , Chenhan Jiang , Hang Xu , Zhenguo Li , Ping Luo

分类：计算机视觉 | 机器人

2022-06-08

室内场景云的无监督对比学习取得了巨大的成功。但是，室外场景中无监督的学习点云仍然充满挑战，因为以前的方法需要重建整个场景并捕获对比度目标的部分视图。这在带有移动物体，障碍物和传感器的室外场景中是不可行的。在本文中，我们提出了CO^3，即合作对比度学习和上下文形状的预测，以无监督的方式学习3D表示室外景点云。与现有方法相比，Co^3具有几种优点。（1）它利用了从车辆侧和基础架构侧来的激光点云来构建差异，但同时维护对比度学习的通用语义信息，这比以前的方法构建的视图更合适。（2）在对比度目标的同时，提出了形状上下文预测作为预训练目标，并为无监督的3D点云表示学习带来了更多与任务相关的信息，这在将学习的表示形式转移到下游检测任务时是有益的。（3）与以前的方法相比，CO^3学到的表示形式可以通过不同类型的LIDAR传感器收集到不同的室外场景数据集。（4）CO^3将一次和Kitti数据集的当前最新方法提高到2.58地图。代码和模型将发布。我们认为Co^3将有助于了解室外场景中的LiDar Point云。

translated by 谷歌翻译

Dynamic Token Normalization Improves Vision Transformer

Wenqi Shao , Yixiao Ge , Zhaoyang Zhang , Xuyuan Xu , Xiaogang Wang , Ying Shan , Ping Luo

分类：计算机视觉 | 人工智能

2021-12-05

视觉变压器（VIV）及其变体（例如，Swin，PVT）在各种计算机视觉任务中取得了巨大的成功，这是由于他们学习远程语境信息的能力。层标准化（LN）是这些模型中的必要成分。然而，我们发现普通LN在不同位置处的令牌幅度，因为它标准化每个令牌内的嵌入物。变压器难以捕获诱导偏压，例如用LN的图像中的位置上下文。我们通过提出新的标准化器，称为动态令牌归一化（DTN）来解决这个问题，其中归一化在每个令牌（令牌）和跨不同的标记（令牌互补）中执行归一化。 DTN有几个优点。首先，它基于统一的制定，因此可以代表各种现有的归一化方法。其次，DTN学习在令牌内部和令牌间的互联网上标准化令牌，使变换器能够捕获全局上下文信息和本地位置上下文。 {第三，通过简单地更换LN层，DTN可以容易地插入各种视觉变压器，例如VIT，SWIN，PVT，Levit，T2T-VIT，BIGBIRD和REPLERER。广泛的实验表明，配备DTN的变压器始终如一地优于基线模型，具有最小的额外参数和计算开销。例如，DTN优于0.5 \％$ 0.5 \％$ - $ 1.2 \％$ 1.2 \％$ top-1在Imagenet上的准确性，超过1.2 $ - $ 1.4 $ box ap在Coco基准测试的对象检测中，达到2.3 \％$ - $ 3.9 \％$ mce在ImageNet-C上的鲁棒性实验，在远程竞技场上长浪列表中的0.5 \％$ 0.8 \％$ 0.8 \％。}代码将在\ url {https://github.com/wqshao126/dtn}公开。

translated by 谷歌翻译

Unsupervised Domain Adaptive Person Re-Identification via Human Learning Imitation

Yang Peng , Ping Liu , Yawei Luo , Pan Zhou , Zichuan Xu , Jingen Liu

分类：计算机视觉

2021-11-28

由于其高实用价值，无监督的域自适应人员重新识别受到显着的关注。在过去几年中，通过遵循聚类和FineTuning范式，研究人员建议利用他们的师生框架，以减少不同人重新识别数据集之间的域间差距。受到最近的教师学生框架基于方法的启发，它试图通过使学生从教师直接复制行为来模仿人类学习过程，或者选择可靠的学习材料，我们建议进行进一步的探索，以模仿不同方面的人类学习过程，\ Texit {IE}，自适应更新学习材料，选择性地模仿教师行为，分析学习材料结构。探索的三个组件共同合作，构成了一个新的无监督域自适应人重新识别的方法，称为人类学习仿框架。三个基准数据集的实验结果证明了我们提出的方法的功效。

translated by 谷歌翻译

Contrastive Attention for Automatic Chest X-ray Report Generation

Fenglin Liu , Changchang Yin , Xian Wu , Shen Ge , Yuexian Zou , Ping Zhang , Xu Sun

分类：计算机视觉 | 自然语言处理

2021-06-13

最近，胸部X射线报告生成，旨在自动生成给定的胸部X射线图像的描述，已得到越来越多的研究兴趣。胸部X射线报告生成的关键挑战是准确捕获和描述异常区域。在大多数情况下，普通区域主导整个胸部X射线图像，并且这些普通区域的相应描述主导了最终报告。由于这种数据偏差，基于学习的模型可能无法参加异常区域。在这项工作中，为了有效地捕获和描述异常区域，我们提出了对比的注意（CA）模型。 CA模型而不是仅专注于电流输入图像，而是将电流输入图像与正常图像进行比较以蒸馏对比信息。获得的对比信息可以更好地代表异常区域的视觉特征。根据公共IU-X射线和模仿-CXR数据集的实验，将我们的CA纳入几个现有型号可以在大多数指标上提升它们的性能。此外，根据分析，CA型号可以帮助现有的模型更好地参加异常区域，并提供更准确的描述，这对可解释的诊断至关重要。具体而言，我们在两个公共数据集上实现最先进的结果。

translated by 谷歌翻译