智能论文笔记

RARR: Researching and Revising What Language Models Say, Using Language Models

Luyu Gao , Zhuyun Dai , Panupong Pasupat , Anthony Chen , Arun Tejasvi Chaganty , Yicheng Fan , Vincent Y. Zhao , Ni Lao , Hongrae Lee , Da-Cheng Juan

分类：自然语言处理 | 人工智能 | 机器学习

2022-10-17

Language models (LMs) now excel at many tasks such as few-shot learning, question answering, reasoning, and dialog. However, they sometimes generate unsupported or misleading content. A user cannot easily determine whether their outputs are trustworthy or not, because most LMs do not have any built-in mechanism for attribution to external evidence. To enable attribution while still preserving all the powerful advantages of recent generation models, we propose RARR (Retrofit Attribution using Research and Revision), a system that 1) automatically finds attribution for the output of any text generation model and 2) post-edits the output to fix unsupported content while preserving the original output as much as possible. When applied to the output of several state-of-the-art LMs on a diverse set of generation tasks, we find that RARR significantly improves attribution while otherwise preserving the original input to a much greater degree than previously explored edit models. Furthermore, the implementation of RARR requires only a handful of training examples, a large language model, and standard web search.

translated by 谷歌翻译

Identifying Auxiliary or Adversarial Tasks Using Necessary Condition Analysis for Adversarial Multi-task Video Understanding

Stephen Su , Samuel Kwong , Qingyu Zhao , De-An Huang , Juan Carlos Niebles , Ehsan Adeli

分类：计算机视觉 | 人工智能

2022-08-22

近年来，人们对多任务学习的兴趣越来越多。在这项工作中，我们通过合并模型应在模型不应该执行的两项辅助任务的两种辅助任务和对抗性任务中，提出了多任务学习的广义概念。我们采用必要的条件分析（NCA）作为数据驱动的方法来确定这些任务应该属于哪个类别。我们的新颖拟议框架，对抗性多任务神经网络（AMT），对NCA确定的对抗性任务进行惩罚，由NCA确定为场景识别在整体视频理解（HVU）数据集中，以改善动作识别。这更颠覆了一个普遍的假设，即应始终鼓励模型在多任务学习中完成所有任务。同时，AMT仍然保留多任务学习作为现有方法的概括的所有好处，并将对象识别作为辅助任务来帮助行动识别。我们介绍了HVU的两个具有挑战性的场景不变的测试分裂，其中对模型进行了对训练中未遇到的动作场合共发生的评估。我们表明，我们的方法将准确性提高了约3％，并鼓励模型参与动作功能，而不是相关的偏见场景功能。

translated by 谷歌翻译

Mid-level Representation Enhancement and Graph Embedded Uncertainty Suppressing for Facial Expression Recognition

Jie Lei , Zhao Liu , Zeyu Zou , Tong Li , Xu Juan , Shuaiwei Wang , Guoyu Yang , Zunlei Feng

分类：计算机视觉 | 人工智能

2022-07-27

面部表达是传达人类情绪状态和意图的重要因素。尽管在面部表达识别任务（FER）任务中已经取得了显着进步，但由于表达模式的巨大变化和不可避免的数据不确定性而引起的挑战仍然存在。在本文中，我们提出了中级表示增强（MRE）和嵌入图形抑制（GUS）的图表，以解决这些问题。一方面，引入MRE是为了避免表达表示学习以有限数量的高度歧视模式主导。另一方面，引入GUS以抑制表示空间中的特征歧义。所提出的方法不仅具有更强的概括能力来处理表达模式的不同变化，而且具有更强的稳健性来捕获表达表示。对AFF-WILD2的实验评估已验证了该方法的有效性。

translated by 谷歌翻译

A Hybrid Learning and Optimization Framework to Achieve Physically Interactive Tasks with Mobile Manipulators

Jianzhuang Zhao , Alberto Giammarino , Edoardo Lamon , Juan M. Gandarias , Elena De Momi , Arash Ajoudani

分类：机器人

2022-03-28

本文为复杂和物理互动的任务提供了用于移动操纵器的混合学习和优化框架。该框架利用了入学型物理接口，以获得直观而简化的人类演示和高斯混合模型（GMM）/高斯混合物回归（GMR），以根据位置，速度和力剖面来编码和生成学习的任务要求。接下来，使用GMM/GMR生成的所需轨迹和力剖面，通过用二次程序加强能量箱增强笛卡尔阻抗控制器的阻抗参数可以在线优化，以确保受控系统的消极性。进行了两个实验以验证框架，将我们的方法与两种恒定刚度（高和低）的方法进行了比较。结果表明，即使在存在诸如意外的最终效应碰撞等干扰的情况下，该方法在轨迹跟踪和生成的相互作用力方面都优于其他两种情况。

translated by 谷歌翻译

End-to-End Active Speaker Detection

Juan Leon Alcazar , Moritz Cordes , Chen Zhao , Bernard Ghanem

分类：计算机视觉

2022-03-27

主动扬声器检测（ASD）问题的最新进展基于两个阶段的过程：特征提取和时空上下文集合。在本文中，我们提出了一个端到端的ASD工作流程，在其中共同学习特征学习和上下文预测。我们的端到端可训练网络同时学习了多模式的嵌入和汇总时空上下文。这会导致更合适的功能表示，并改善了ASD任务的性能。我们还介绍了交织的图神经网络（IGNN）块，该块根据ASD问题中的上下文主要来源分割消息。实验表明，IGNN块的汇总特征更适合ASD，从而导致最先进的性能。最后，我们设计了一种弱监督的策略，该策略表明也可以通过使用视听数据来解决ASD问题，但仅依赖于音频注释。我们通过对音频信号与可能的声源（扬声器）之间的直接关系进行建模以及引入对比度损失来实现这一目标。该项目的所有资源将在以下网址提供：https：//github.com/fuankarion/end-to-end-end-asd。

translated by 谷歌翻译

Natural language processing to identify lupus nephritis phenotype in electronic health records

Yu Deng , Jennifer A. Pacheco , Anh Chung , Chengsheng Mao , Joshua C. Smith , Juan Zhao , Wei-Qi Wei , April Barnado , Chunhua Weng , Cong Liu

分类：机器学习

2021-12-20

Systemic Lupus红斑（SLE）是一种罕见的自身免疫疾病，其特征是令人无法预测的耀斑和缓解的速度，具有不同的表现形式。狼疮性肾炎，SLE用于器官损伤和死亡率的主要疾病表现之一，是卢布斯分类标准的关键组成部分。因此，准确地鉴定电子健康记录（EHRS）中的狼疮性肾炎将使大型队列观察研究和临床试验有益于患者人口的表征对于招聘，研究设计和分析至关重要。可以通过程序代码和结构化数据来认可狼疮肾炎，例如实验室测试。然而，记录狼疮肾炎的其他关键信息，例如来自肾脏活检和先前的医学史叙事的组织学报告，需要复杂的文本处理，以从病理报告和临床笔记中挖掘信息。在这项研究中，我们开发了使用EHR数据识别鉴定狼疮肾炎的血管肾炎，而不使用自然语言处理（NLP）。我们开发了四种算法：仅使用结构化数据（基线算法）和使用不同NLP模型的三种算法的规则的算法。这三种NLP模型基于正则化逻辑回归，并使用不同的特征集，包括积极提及概念独特标识符（Cue），耐备的外观数量，以及三个部件的混合物。基线算法和最佳执行的NLP算法在Vanderbilt University Center（VUMC）的数据集上验证了外部验证。我们最佳地执行来自结构化数据，正则表达式概念和映射的特征的NLP模型，与基线狼疮性肾炎算法相比，在NMEDW（0.41 VS 0.79）和VUMC（0.62 VS 0.96）数据集中有所改善。

translated by 谷歌翻译

MAD: A Scalable Dataset for Language Grounding in Videos from Movie Audio Descriptions

Mattia Soldan , Alejandro Pardo , Juan León Alcázar , Fabian Caba Heilbron , Chen Zhao , Silvio Giancola , Bernard Ghanem

分类：计算机视觉 | 人工智能

2021-12-01

近期和越来越越来越多的视频 - 语言研究的兴趣已经推动了大规模数据集的开发，可实现数据密集型机器学习技术。相比之下，在评估这些数据集的适应性时，已经进行了有限的努力进行视频 - 语言接地任务。最近的作品已经开始发现这些数据集中的重大限制，这表明最先进的技术通常会过度地覆盖到隐藏的数据集偏差。在这项工作中，我们呈现MAD（电影音频描述），这是一种新颖的基准，从扩充现有视频数据集的范式，其中包含文本注释，并专注于爬行和对齐主流电影的可用音频描述。 MAD包含超过384,000个自然语言句子，该句子接地为超过1,200小时的视频，并且在视频 - 语言接地数据集中展示目前诊断的偏差显着减少。疯狂的收集策略使新颖且更具挑战性的视频 - 语言接地版本，其中短时间时刻（通常秒长）必须在多样化的长型视频中准确地接地，可以持续长达三个小时。

translated by 谷歌翻译

Adaptive Multi-receptive Field Spatial-Temporal Graph Convolutional Network for Traffic Forecasting

Xing Wang , Juan Zhao , Lin Zhu , Xu Zhou , Zhao Li , Junlan Feng , Chao Deng , Yong Zhang

分类：机器学习 | 人工智能

2021-11-01

移动网络流量预测是日常网络操作中的关键功能之一。商业移动网络大，异质，复杂，动态。这些内在特征使得移动网络流量预测远离诸如最近的高级算法，例如基于Graph卷积网络的预测方法和各种关注机制，也已经证明是在车辆交通预测中成功的。在本文中，我们将问题作为空间序列预测任务。我们提出了一种新的深度学习网络架构，自适应多接收领域空间 - 时间图卷积网络（AMF-STGCN），以模拟移动基站的交通动态。 AMF-STGCN扩展了GCN（1）在移动网络中联合建模的复杂空间 - 时间依赖性，（2）应用注意机制捕获异构基站的各种接收领域，（3）基于完全连接的额外解码器引入额外的解码器深网络以多阶段预测征服错误传播挑战。来自两个不同域的四个真实数据集的实验一致地显示AMF-STGCN优于最先进的方法。

translated by 谷歌翻译

Towards Computer-Vision Based Vineyard Navigation for Quadruped Robots

Lee Milburn , Juan Gamba , Claudio Semini

分类：机器人

2023-01-02

There is a dramatic shortage of skilled labor for modern vineyards. The Vinum project is developing a mobile robotic solution to autonomously navigate through vineyards for winter grapevine pruning. This necessitates an autonomous navigation stack for the robot pruning a vineyard. The Vinum project is using the quadruped robot HyQReal. This paper introduces an architecture for a quadruped robot to autonomously move through a vineyard by identifying and approaching grapevines for pruning. The higher level control is a state machine switching between searching for destination positions, autonomously navigating towards those locations, and stopping for the robot to complete a task. The destination points are determined by identifying grapevine trunks using instance segmentation from a Mask Region-Based Convolutional Neural Network (Mask-RCNN). These detections are sent through a filter to avoid redundancy and remove noisy detections. The combination of these features is the basis for the proposed architecture.

translated by 谷歌翻译

Ithaca. A Tool for Integrating Fuzzy Logic in Unity

Alfonso Tejedor Moreno , Jose A. Piedra-Fernandez , Juan Jesus Ojeda-Castelo , Luis Iribarne

分类：人工智能

2023-01-01

Ithaca is a Fuzzy Logic (FL) plugin for developing artificial intelligence systems within the Unity game engine. Its goal is to provide an intuitive and natural way to build advanced artificial intelligence systems, making the implementation of such a system faster and more affordable. The software is made up by a C\# framework and an Application Programming Interface (API) for writing inference systems, as well as a set of tools for graphic development and debugging. Additionally, a Fuzzy Control Language (FCL) parser is provided in order to import systems previously defined using this standard.

translated by 谷歌翻译