智能论文笔记

Prediction of the outcome of a Twenty-20 Cricket Match

Ashish V Shenoy , Arjun Singhvi , Shruthi Racha , Srinivas Tunuguntla

分类：机器学习

2022-09-13

Twenty20板球，有时是二十20，经常缩写为T20，是板球的一小部分。在一场二十二十比赛中，两支球员组成的两支球队都有一局，最多仅限20分。这个版本的板球尤其是不可预测的，这是它最近在近期越来越受欢迎的原因之一。但是，在本文中，我们尝试了四种不同的方法来预测T20板球比赛的结果。具体来说，我们要考虑：以前的竞争团队参与者的绩效统计数据，从知名的板球统计网站获得的球员的评分，以相似的性能统计数据和基于ELO基于ELO的方法来汇率玩家。我们通过使用逻辑回归，支持向量机，贝叶斯网络，决策树，随机森林来比较每种方法的性能。

translated by 谷歌翻译

Towards Multi-Lingual Visual Question Answering

Soravit Changpinyo , Linting Xue , Idan Szpektor , Ashish V. Thapliyal , Julien Amelot , Xi Chen , Radu Soricut

分类：自然语言处理 | 计算机视觉

2022-09-12

视觉问题回答（VQA）主要通过英语镜头进行了研究。但是，以其他方式以其他方式处理VQA将需要大量资源。在本文中，我们在数据和建模方面提出了多种语言视觉问题回答（MVQA）的可扩展解决方案。我们首先向MVQA数据生成提出了一个基于翻译的框架，该框架比直接收集问题和答案的常规方法所需的人类注释工作要少得多。然后，我们将框架应用于CrossModal-3600数据集中的多语言字幕，并开发了有效的注释协议，以创建Maverics-XM3600（MAXM），这是一种仅使用7种不同语言的仅测试的VQA基准。最后，我们提出了一种方法，用于统一，可扩展，开放式和端到端MVQA建模，并在13种语言中表现出强劲的性能。

translated by 谷歌翻译

Surgical Phase Recognition in Laparoscopic Cholecystectomy

Yunfan Li , Vinayak Shenoy , Prateek Prasanna , I. V. Ramakrishnan , Haibin Ling , Himanshu Gupta

分类：计算机视觉

2022-06-14

在手术视频中自动识别外科手术阶段是手术工作流程分析中的一项基本任务。在本报告中，我们提出了一种基于变压器的方法，该方法利用了2阶段推理管道的校准置信度得分，该方法根据校准的置信度水平动态切换基线模型和单独训练的过渡模型。我们的方法的表现优于Cholec80数据集上的基线模型，并且可以应用于各种动作分割方法。

translated by 谷歌翻译

End-to-end Dense Video Captioning as Sequence Generation

Wanrong Zhu , Bo Pang , Ashish V. Thapliyal , William Yang Wang , Radu Soricut

分类：计算机视觉 | 自然语言处理

2022-04-18

密集的视频字幕旨在确定输入视频中感兴趣的事件，并为每个事件生成描述性标题。先前的方法通常遵循两个阶段的生成过程，该过程首先提出了每个事件的段，然后为每个已确定的细分市场提供标题。大规模序列产生预处理的最新进展在统一各种任务的任务制定方面取得了巨大的成功，但是到目前为止，更复杂的任务（例如密集的视频字幕）无法完全利用这种强大的范式。在这项工作中，我们展示了如何将密集视频字幕的两个子任务与一个序列生成任务建模，并同时预测事件和相应的描述。在YouCook2和Vitt上进行的实验表现出令人鼓舞的结果，并表明训练复杂任务的可行性，例如集成到大规模预处理模型中的端到端密集的视频字幕。

translated by 谷歌翻译

Analyzing the factors affecting usefulness of Self-Supervised Pre-trained Representations for Speech Recognition

Lodagala V S V Durga Prasad , Ashish Seth , Sreyan Ghosh , S. Umesh

分类：自然语言处理

2022-03-31

学习高级语音表征的自学学习（SSL）一直是在低资源环境中构建自动语音识别（ASR）系统的一种流行方法。但是，文献中提出的共同假设是，可以使用可用于SSL预训练的相同域或语言的大量未标记数据，我们承认，在现实世界中，这是不可行的。在本文中，作为Interspeech Gram Vaani ASR挑战的一部分，我们尝试研究域，语言，数据集大小和上游训练SSL数据对最终性能下游ASR任务的效果。我们还建立在持续的训练范式的基础上，以研究使用SSL训练的模型所拥有的先验知识的效果。广泛的实验和研究表明，ASR系统的性能易受用于SSL预训练的数据。它们的性能随着相似性和预训练数据量的增加而提高。我们认为，我们的工作将有助于语音社区在低资源环境中建立更好的ASR系统，并引导研究改善基于SSL的语音系统预培训的概括。

translated by 谷歌翻译

Beyond Low Earth Orbit: Biomonitoring, Artificial Intelligence, and Precision Space Health

Ryan T. Scott , Erik L. Antonsen , Lauren M. Sanders , Jaden J. A. Hastings , Seung-min Park , Graham Mackintosh , Robert J. Reynolds , Adrienne L. Hoarfrost , Aenor Sawyer , Casey S. Greene

分类：机器学习

2021-12-22

超越地球轨道的人类空间勘探将涉及大量距离和持续时间的任务。为了有效减轻无数空间健康危害，数据和空间健康系统的范式转移是实现地球独立性的，而不是Earth-Reliance所必需的。有希望在生物学和健康的人工智能和机器学习领域的发展可以解决这些需求。我们提出了一个适当的自主和智能精密空间健康系统，可以监控，汇总和评估生物医学状态;分析和预测个性化不良健康结果;适应并响应新累积的数据;并提供对其船员医务人员的个人深度空间机组人员和迭代决策支持的预防性，可操作和及时的见解。在这里，我们介绍了美国国家航空航天局组织的研讨会的建议摘要，以便在太空生物学和健康中未来的人工智能应用。在未来十年，生物监测技术，生物标志科学，航天器硬件，智能软件和简化的数据管理必须成熟，并编织成精确的空间健康系统，以使人类在深空中茁壮成长。

translated by 谷歌翻译

Beyond Low Earth Orbit: Biological Research, Artificial Intelligence, and Self-Driving Labs

Lauren M. Sanders , Jason H. Yang , Ryan T. Scott , Amina Ann Qutub , Hector Garcia Martin , Daniel C. Berrios , Jaden J. A. Hastings , Jon Rask , Graham Mackintosh , Adrienne L. Hoarfrost

分类：机器学习

2021-12-22

空间生物学研究旨在了解太空飞行对生物的根本影响，制定支持深度空间探索的基础知识，最终生物工程航天器和栖息地稳定植物，农作物，微生物，动物和人类的生态系统，为持续的多行星寿命稳定。要提高这些目标，该领域利用了来自星空和地下模拟研究的实验，平台，数据和模型生物。由于研究扩展到低地球轨道之外，实验和平台必须是最大自主，光，敏捷和智能化，以加快知识发现。在这里，我们介绍了由美国国家航空航天局的人工智能，机器学习和建模应用程序组织的研讨会的建议摘要，这些应用程序为这些空间生物学挑战提供了关键解决方案。在未来十年中，将人工智能融入太空生物学领域将深化天空效应的生物学理解，促进预测性建模和分析，支持最大自主和可重复的实验，并有效地管理星载数据和元数据，所有目标使生活能够在深空中茁壮成长。

translated by 谷歌翻译

Domain Prompts: Towards memory and compute efficient domain adaptation of ASR systems

Saket Dingliwal , Ashish Shenoy , Sravan Bodapati , Ankur Gandhe , Ravi Teja Gadde , Katrin Kirchhoff

分类：自然语言处理 | 机器学习

2021-12-16

自动语音识别（ASR）系统已经发现它们在非常多样化的域中的众多工业应用中使用。由于域 - 特定于域的系统比域名评估的通用对应力更好，因此对内存和计算有效的域适应的需要是显而易见的。特别是，适用用于救援ASR假设的基于参数的基于变压器的语言模型是具有挑战性的。在这项工作中，我们引入域提示，一种方法，该方法列举了少数域令牌嵌入参数以将基于变压器的LM归入特定域。只需少数额外的额外参数，我们通过使用未存在的LM的基线达到7-14％的效率。尽管具有参数效率，但这些改进与具有数亿参数的完全精细调谐模型的改进相当。通过提示，数据集大小，初始化和域的消融，我们提供了在ASR系统中使用域提示的优势的证据。

translated by 谷歌翻译

Deep Clustering For General-Purpose Audio Representations

Sreyan Ghosh , Sandesh V Katta , Ashish Seth , S. Umesh

分类：自然语言处理

2021-10-17

我们介绍折扣，一种用于学习通用音频表示的自我监督的预训练方法。我们的系统基于群集：它利用了离线群集步骤来提供充当伪标签的目标标签，用于解决预测任务。我们开发了最近的自我监督学习近期进步，为计算机愿景和设计轻量级，易于使用的自我监督的预训练计划。我们在大型音频数据集的平衡子集上预先列车脱换嵌入式，并将这些表示转移到9个下游分类任务，包括语音，音乐，动物声音和声学场景。此外，我们开展识别关键设计选择的消融研究，并通过公开提供所有代码和预先训练的型号。

translated by 谷歌翻译

Neural Latents Benchmark '21: Evaluating latent variable models of neural population activity

Felix Pei , Joel Ye , David Zoltowski , Anqi Wu , Raeed H. Chowdhury , Hansem Sohn , Joseph E. O'Doherty , Krishna V. Shenoy , Matthew T. Kaufman , Mark Churchland

分类：机器学习

2021-09-09

神经记录的进展现在在前所未有的细节中研究神经活动的机会。潜在的变量模型（LVMS）是用于分析各种神经系统和行为的丰富活动的有希望的工具，因为LVM不依赖于活动与外部实验变量之间的已知关系。然而，目前缺乏标准化目前阻碍了对神经元群体活性的LVM进行的进展，导致采用临时方式进行和比较方法。为协调这些建模工作，我们为神经人群活动的潜在变量建模介绍了基准套件。我们从认知，感官和机动领域策划了四种神经尖峰活动的数据集，以促进适用于这些地区各地的各种活动的模型。我们将无监督的评估视为用于评估数据集的模型的共同框架，并应用几个显示基准多样性的基线。我们通过评估释放此基准。 http://neurallatents.github.io.

translated by 谷歌翻译