智能论文笔记

What Do NLP Researchers Believe? Results of the NLP Community Metasurvey

Julian Michael , Ari Holtzman , Alicia Parrish , Aaron Mueller , Alex Wang , Angelica Chen , Divyam Madaan , Nikita Nangia , Richard Yuanzhe Pang , Jason Phang

分类：自然语言处理 | 人工智能

2022-08-26

我们介绍了NLP社区Metasurvey的结果。从2022年5月到2022年6月，该调查引起了关于有争议的问题的意见，包括该领域的行业影响，对AGI和道德规范的关注。我们的结果将具体数字置于几个争议中：例如，受访者几乎完全将有关人工通用智能的重要性的问题分为一半，语言模型是否理解语言以及语言结构的必要性以及解决NLP问题的必要性。此外，调查提出了元问题，要求受访者预测调查响应的分布。这不仅使我们不仅可以深入了解NLP研究人员所拥有的各种信念，还可以揭示社区预测与现实不符的错误社会学信念。我们在各种问题上发现这种不匹配。除其他结果外，社区大大高估了其对基准的实用性的信念，以及扩展解决现实世界中问题的潜力，同时低估了其对语言结构，归纳偏见和跨学科科学重要性的信念。

translated by 谷歌翻译

Towards Inclusive HRI: Using Sim2Real to Address Underrepresentation in Emotion Expression Recognition

Saba Akhyani , Mehryar Abbasi Boroujeni , Mo Chen , Angelica Lim

分类：计算机视觉

2022-08-15

与人类相互作用的机器人和人造代理应该能够在没有偏见和不平等的情况下这样做，但是众所周知，面部感知系统对某些人来说比其他人的工作更差。在我们的工作中，我们旨在建立一个可以以更透明和包容的方式感知人类的系统。具体而言，我们专注于对人脸的动态表达，由于隐私问题以及面部本质上可识别的事实，这很难为广泛的人收集。此外，从互联网收集的数据集不一定代表一般人群。我们通过提供SIM2REAL方法来解决这个问题，在该方法中，我们使用一套3D模拟的人类模型，使我们能够创建一个可审核的合成数据集覆盖1）在六种基本情绪之外，代表性不足的面部表情（例如混乱）； 2）种族或性别少数群体； 3）机器人可能在现实世界中遇到人类的广泛视角。通过增强包含包含4536个样本的合成数据集的123个样本的小型动态情感表达数据集，我们在自己的数据集上的准确性提高了15％，与外部基准数据集的11％相比，我们的精度为11％，与同一模型体系结构的性能相比没有合成训练数据。我们还表明，当体系结构的特征提取权重从头开始训练时，这一额外的步骤专门针对种族少数群体的准确性。

translated by 谷歌翻译

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

Aarohi Srivastava , Abhinav Rastogi , Abhishek Rao , Abu Awal Md Shoeb , Abubakar Abid , Adam Fisch , Adam R. Brown , Adam Santoro , Aditya Gupta , Adrià Garriga-Alonso

分类：自然语言处理 | 人工智能 | 机器学习 | (统计)机器学习

2022-06-09

语言模型既展示了定量的改进，又展示了新的定性功能，随着规模的增加。尽管它们具有潜在的变革性影响，但这些新能力的特征却很差。为了为未来的研究提供信息，为破坏性的新模型能力做准备，并改善社会有害的效果，至关重要的是，我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战，我们介绍了超越模仿游戏基准（Big Bench）。 Big Bench目前由204个任务组成，由132家机构的442位作者贡献。任务主题是多样的，从语言学，儿童发展，数学，常识性推理，生物学，物理学，社会偏见，软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号，Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为，跨越了数百万到数十亿个参数。此外，一个人类专家评估者团队执行了所有任务，以提供强大的基准。研究结果包括：模型性能和校准都随规模改善，但绝对的术语（以及与评估者的性能相比）；在模型类中的性能非常相似，尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分，而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标；社交偏见通常会随着含糊不清的环境而随着规模而增加，但这可以通过提示来改善。

translated by 谷歌翻译

QuALITY: Question Answering with Long Input Texts, Yes!

Richard Yuanzhe Pang , Alicia Parrish , Nitish Joshi , Nikita Nangia , Jason Phang , Angelica Chen , Vishakh Padmakumar , Johnny Ma , Jana Thompson , He He

分类：自然语言处理

2021-12-16

为了实现长文档理解的构建和测试模型，我们引入质量，具有中文段的多项选择QA DataSet，具有约5,000个令牌的平均长度，比典型的当前模型更长。与经过段落的事先工作不同，我们的问题是由阅读整个段落的贡献者编写和验证的，而不是依赖摘要或摘录。此外，只有一半的问题是通过在紧缩时间限制下工作的注释器来应答，表明略读和简单的搜索不足以一直表现良好。目前的模型在此任务上表现不佳（55.4％），并且落后于人类性能（93.5％）。

translated by 谷歌翻译

Adversarially Constructed Evaluation Sets Are More Challenging, but May Not Be Fair

Jason Phang , Angelica Chen , William Huang , Samuel R. Bowman

分类：自然语言处理

2021-11-16

在某些情况下，有能力的语言模型越来越饱和现有的任务基准，在某些情况下表现优于人类。这留下了很少的净空，可以衡量进一步的进步。已经提出了对抗性数据集创建作为构建更多具有挑战性的数据集的策略，以及两个常见方法是：（1）过滤易于示例和（2）循环模型数据收集。在这项工作中，我们研究了应用每种方法创造更多具有挑战性的评估数据集的影响。我们将AFLITE算法调整以筛选评估数据，并运行针对18个不同的对手模型的实验。我们发现，尽管使用更强大的对手模型，但易于选择更具挑战性的例子，降低了评估模型的性能。然而，由此产生的模型排名也可能对所用的对手模型的选择来说也是不稳定的并且非常敏感。此外，AFLITE过度的防范普普斯协议的例子，这意味着模型比较铰链在最令人争议的标记的例子上。对普遍收集的数据集ANLI和AdversarialQA的较小规模实验表明了类似的结果，在不成比例地影响对手模型的同时逐渐降低性能。

translated by 谷歌翻译

Corneal endothelium assessment in specular microscopy images with Fuchs' dystrophy via deep regression of signed distance maps

Juan S. Sierra , Jesus Pineda , Daniela Rueda , Alejandro Tello , Angelica M. Prada , Virgilio Galvis , Giovanni Volpe , Maria S. Millan , Lenny A. Romero , Andres G. Marrugo

分类：计算机视觉 | 机器学习

2022-10-13

Specular microscopy assessment of the human corneal endothelium (CE) in Fuchs' dystrophy is challenging due to the presence of dark image regions called guttae. This paper proposes a UNet-based segmentation approach that requires minimal post-processing and achieves reliable CE morphometric assessment and guttae identification across all degrees of Fuchs' dystrophy. We cast the segmentation problem as a regression task of the cell and gutta signed distance maps instead of a pixel-level classification task as typically done with UNets. Compared to the conventional UNet classification approach, the distance-map regression approach converges faster in clinically relevant parameters. It also produces morphometric parameters that agree with the manually-segmented ground-truth data, namely the average cell density difference of -41.9 cells/mm2 (95% confidence interval (CI) [-306.2, 222.5]) and the average difference of mean cell area of 14.8 um2 (95% CI [-41.9, 71.5]). These results suggest a promising alternative for CE assessment.

translated by 谷歌翻译

Why Deep Surgical Models Fail?: Revisiting Surgical Action Triplet Recognition through the Lens of Robustness

Yanqi Cheng , Lihao Liu , Shujun Wang , Yueming Jin , Carola-Bibiane Schönlieb , Angelica I. Aviles-Rivero

分类：计算机视觉

2022-09-18

手术动作三胞胎识别提供了对手术场景的更好理解。这项任务具有很高的相关性，因为它为外科医生提供了背景感知的支持和安全性。当前改善绩效的首选策略是开发新的网络机制。但是，当前最新技术的性能大大低于其他手术任务。为什么会发生这种情况？这是我们在这项工作中解决的问题。我们提出了第一项研究，以了解现有的深度学习模型通过稳健性和解释的镜头的失败。首先，我们通过对抗优化方案研究了当前的现有模型。然后，我们通过基于功能的解释提供故障模式。我们的研究对提高性能和提高可靠性的关键是核心和虚假属性。我们的工作为外科科学中更具可信赖性和可靠性的深度学习模型打开了大门。

translated by 谷歌翻译

Detection and Initial Assessment of Lunar Landing Sites Using Neural Networks

Daniel Posada , Jarred Jordan , Angelica Radulovic , Lillian Hong , Aryslan Malik , Troy Henderson

分类：机器人 | 计算机视觉 | 机器学习

2022-07-23

机器人和人类月球着陆是未来NASA任务的重点。精确着陆功能对于确保任务的成功以及着陆器和机组人员的安全至关重要。在进入表面的方法中，存在与危险相对导航相关的多个挑战，以确保安全着陆。本文将重点介绍被动自主危害检测和避免子系统，以对指导系统的可能着陆区进行初步评估。该系统使用单个摄像头和Mobilenetv2神经网络体系结构来检测和辨别安全的着陆点和危险，例如岩石，阴影和陨石坑。然后，来自运动的单眼结构将重新创建表面以提供斜率和粗糙度分析。

translated by 谷歌翻译

Satellite Detection in Unresolved Space Imagery for Space Domain Awareness Using Neural Networks

Jarred Jordan , Daniel Posada , David Zuehlke , Angelica Radulovic , Aryslan Malik , Troy Henderson

分类：计算机视觉 | 机器学习

2022-07-23

这项工作利用MobileNETV2卷积神经网络（CNN）快速，移动检测卫星和拒绝恒星，在混乱的未解决的空间图像中。首先，使用合成卫星图像程序中的图像创建自定义数据库，并在卫星上标记为“卫星阳性”图像的框架框。然后在此数据库上训练CNN，并通过在由真实望远镜图像构建的外部数据集上检查模型的准确性来验证推理。在此过程中，训练有素的CNN提供了一种快速卫星识别方法，可在基于地面的轨道估计中使用。

translated by 谷歌翻译

State of the Art of Audio- and Video-Based Solutions for AAL

Slavisa Aleksic , Michael Atanasov , Jean Calleja Agius , Kenneth Camilleri , Anto Cartolovni , Pau Climent-Peerez , Sara Colantonio , Stefania Cristina , Vladimir Despotovic , Hazim Kemal Ekenel

分类：人工智能

2022-06-26

该报告说明了基于音频和视频数据的最成功的AAL应用程序和功能的艺术状态，即（i）生命式和自我监控，（ii）对生命体征的远程监控，（iii）情绪状态识别，（（iv）食物摄入量监测，活动和行为认识，（v）活动和个人帮助，（vi）手势识别，（vii）秋季检测和预防，（viii）移动性评估和脆弱的识别以及（IX）认知和运动康复。对于这些应用程序方案，该报告说明了科学进步，可用产品和研究项目的状态。开放的挑战也被突出显示。

translated by 谷歌翻译