智能论文笔记

Clotho-AQA: A Crowdsourced Dataset for Audio Question Answering

Samuel Lipping , Parthasaarathy Sudarsanam , Konstantinos Drossos , Tuomas Virtanen

分类：机器学习

2022-04-20

音频问题回答（AQA）是一项多模式翻译任务，系统分析音频信号和自然语言问题，以产生理想的自然语言答案。在本文中，我们介绍了Clotho-AQA，这是一个用于音频问题的数据集，该数据集由1991年的音频文件组成，分别是从Clotho数据集中选择的15至30秒之间。对于每个音频文件，我们通过使用Amazon Mechanical Turk来收集六个不同的问题和相应的答案。问题和答案由不同的注释者产生。在每个音频的六个问题中，每个问题都被设计为“是”和“否”作为答案，而其余两个问题则具有其他单词答案。对于每个问题，我们都会从三个不同的注释者那里收集答案。我们还提出了两个基线实验，以描述数据集用于AQA任务的使用 - 基于LSTM的多模式二进制分类器，用于“是”或“否”类型答案以及828单字的基于LSTM的多模式多级分类器答案。二进制分类器的准确度为62.7％，多级分类器的前1位准确度为54.2％，前5个精度为93.7％。 Clotho-AQA数据集可在https://zenodo.org/record/6473207上免费在线获取。

translated by 谷歌翻译

强大的策略搜索是在未经看不见的环境模型参数时，在执行性能时不会降低性能的策略问题。它与将在模拟环境中学到的政策转移到现实世界的政策特别相关。一些现有方法涉及采样大批轨迹，这些轨迹反映了各种可能环境中的差异，然后选择这些这些差异，然后选择一些这些用于学习强大的策略，例如导致最糟糕的性能的策略。我们提出了一个基于主动学习的框架，效果，以选择性地为此目的选择模型参数，以便仅收集必要的数据以选择这样的子集。我们使用线性匪徒应用此框架，并通过实验验证样本效率的增益以及我们对标准连续控制任务的方法的性能。我们还向强大的策略搜索问题提出了一个多任务学习的角度，并将我们提出的框架与多任务学习的现有工作绘制了连接。

translated by 谷歌翻译