智能论文笔记

The People's Speech: A Large-Scale Diverse English Speech Recognition Dataset for Commercial Usage

Daniel Galvez , Greg Diamos , Juan Ciro , Juan Felipe Cerón , Keith Achorn , Anjali Gopi , David Kanter , Maximilian Lam , Mark Mazumder , Vijay Janapa Reddi

分类：机器学习 | (统计)机器学习

2021-11-17

人民的言论是自由下载的30,000小时，并在CC-BY-SA下进行学术和商业用途的许可的受监管的会话英语语音识别数据集（具有CC-by子集）。通过使用现有转录搜索适当许可的音频数据来通过搜索互联网来收集数据。我们描述了我们的数据收集方法，并在Apache 2.0许可证下发布了我们的数据收集系统。我们表明，在此数据集上培训的模型在Librispeech的测试清洁测试集上实现了9.98％的单词错误率。最后，我们讨论了围绕创建一个相当大量的机器学习的法律和道德问题，并计划继续维护项目的计划根据MLCommons的赞助。

translated by 谷歌翻译

Towards Realistic Underwater Dataset Generation and Color Restoration

Neham Jain , Gopi Matta , Kaushik Mitra

分类：计算机视觉

2022-11-27

Recovery of true color from underwater images is an ill-posed problem. This is because the wide-band attenuation coefficients for the RGB color channels depend on object range, reflectance, etc. which are difficult to model. Also, there is backscattering due to suspended particles in water. Thus, most existing deep-learning based color restoration methods, which are trained on synthetic underwater datasets, do not perform well on real underwater data. This can be attributed to the fact that synthetic data cannot accurately represent real conditions. To address this issue, we use an image to image translation network to bridge the gap between the synthetic and real domains by translating images from synthetic underwater domain to real underwater domain. Using this multimodal domain adaptation technique, we create a dataset that can capture a diverse array of underwater conditions. We then train a simple but effective CNN based network on our domain adapted dataset to perform color restoration. Code and pre-trained models can be accessed at https://github.com/nehamjain10/TRUDGCR

translated by 谷歌翻译

Streaming Encoding Algorithms for Scalable Hyperdimensional Computing

Anthony Thomas , Behnam Khaleghi , Gopi Krishna Jha , Nageen Himayat , Ravi Iyer , Nilesh Jain , Tajana Rosing

分类：机器学习 | 神经与进化计算

2022-09-20

高维计算（HDC）是用于数据表示和学习的范式，起源于计算神经科学。HDC将数据表示为高维，低精度向量，可用于学习或召回等各种信息处理任务。高维空间的映射是HDC中的一个基本问题，现有方法在输入数据本身是高维时会遇到可伸缩性问题。在这项工作中，我们探索了一个基于哈希的流媒体编码技术。我们正式表明，这些方法在学习应用程序的性能方面具有可比的保证，同时比现有替代方案更有效。我们在一个流行的高维分类问题上对这些结果进行了实验验证，并表明我们的方法很容易扩展到非常大的数据集。

translated by 谷歌翻译

Alexa, Let's Work Together: Introducing the First Alexa Prize TaskBot Challenge on Conversational Task Assistance

Anna Gottardi , Osman Ipek , Giuseppe Castellucci , Shui Hu , Lavina Vaz , Yao Lu , Anju Khatri , Anjali Chadha , Desheng Zhang , Sattvik Sahai

分类：自然语言处理 | 人工智能

2022-09-13

自2016年成立以来，Alexa奖计划使数百名大学生能够通过Socialbot Grand Challenge探索和竞争以发展对话代理商。挑战的目的是建立能够与人类在流行主题上连贯而诱人的代理人20分钟，同时达到至少4.0/5.0的平均评分。但是，由于对话代理商试图帮助用户完成日益复杂的任务，因此需要新的对话AI技术和评估平台。成立于2021年的Alexa奖Taskbot Challenge建立在Socialbot Challenge的成功基础上，通过引入交互式协助人类进行现实世界烹饪和做自己动手做的任务的要求，同时同时使用语音和视觉方式。这项挑战要求TaskBots识别和理解用户的需求，识别和集成任务和域知识，并开发新的方式，不分散用户的注意力，而不必分散他们的任务，以及其他挑战。本文概述了Taskbot挑战赛，描述了使用Cobot Toolkit提供给团队提供的基础架构支持，并总结了参与团队以克服研究挑战所采取的方法。最后，它分析了比赛第一年的竞争任务机器人的性能。

translated by 谷歌翻译

Human-guided Collaborative Problem Solving: A Natural Language based Framework

Harsha Kokel , Mayukh Das , Rakibul Islam , Julia Bonn , Jon Cai , Soham Dan , Anjali Narayan-Chen , Prashant Jayannavar , Janardhan Rao Doppa , Julia Hockenmaier

分类：人工智能 | 自然语言处理

2022-07-19

我们将人机协作问题解决的问题视为一项计划任务，再加上自然语言交流。我们的框架由三个组成部分组成 - 一种自然语言引擎，将语言话语解析为正式代表，反之亦然，这是一个概念学习者，该概念学习者基于与用户的有限互动来诱导计划的广义概念，以及解决方案的HTN规划师，以解决该计划。基于人类互动的任务。我们说明了该框架通过在基于Minecraft的Blocksworld域中的协作构建任务中证明协作问题解决的关键挑战的能力。随附的演示视频可在https://youtu.be/q1pwe4aahf0上获得。

translated by 谷歌翻译

Private Convex Optimization in General Norms

Sivakanth Gopi , Yin Tat Lee , Daogao Liu , Ruoqi Shen , Kevin Tian

分类：机器学习 | (统计)机器学习

2022-07-18

我们提出了一个新的框架，用于对凸函数的差异私有优化，这些功能是任意规范$ \ normx {\ cdot} $中的Lipschitz。我们的算法基于一种正规的指数机制，该机制从密度$ \ propto \ exp（-k（f+\ mu r））$中进行样品，其中$ f $是经验损失，$ r $是一种常规化器，它与强烈的convex convex converize尊重$ \ normx {\ cdot} $，将\ cite {gll22}的最新作品推广到非Euclidean设置。我们表明，这种机制可以满足高斯差异隐私，并通过使用凸几何形状的本地化工具来解决DP-MER（经验风险最小化）和DP-SCO（随机凸优化）。我们的框架是第一个在一般规范空间中适用于私有凸优化的框架，并直接恢复了镜下下降的非私有SCO率，作为隐私参数$ \ eps \ to \ infty $。作为应用程序，对于LipsChitz优化了$ \ ell_p $ norms for（1，2）$中的所有$ p \ norms，我们获得了第一个最佳隐私性权衡权衡；对于$ p = 1 $，我们提高了最近的作品\ cite {asifkt21，bassilygn21}获得的权衡，至少通过对数因素。我们的$ \ ell_p $ norm和schatten- $ p $规范优化框架与多项式时间采样器相辅相成，我们的查询复杂性明确绑定。

translated by 谷歌翻译

End-to-End Binaural Speech Synthesis

Wen Chin Huang , Dejan Markovic , Alexander Richard , Israel Dejene Gebru , Anjali Menon

分类：人工智能 | 机器学习

2022-07-08

在这项工作中，我们提出了一个端到端双耳语音合成系统，该系统将低抑制音频编解码器与强大的双耳解码器结合在一起，该解码器能够准确地进行语音双耳化，同时忠实地重建环境因素，例如环境噪声或混响。该网络是经过修改的矢量定量变异自动编码器，经过训练，采用了几个精心设计的目标，包括对抗性损失。我们在具有客观指标和感知研究的内部双耳数据集上评估了所提出的系统。结果表明，所提出的方法比以前的方法更接近地面真相数据。特别是，我们证明了对抗性损失在捕获创建真实听觉场景所需的环境效果中的能力。

translated by 谷歌翻译

Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter Encoders for Natural Language Understanding Systems

Jack FitzGerald , Shankar Ananthakrishnan , Konstantine Arkoudas , Davide Bernardi , Abhishek Bhagia , Claudio Delli Bovi , Jin Cao , Rakesh Chada , Amit Chauhan , Luoxin Chen

分类：自然语言处理 | 人工智能 | 机器学习

2022-06-15

我们介绍了一个大规模实验，该实验对编码器进行了预处理，其参数计数范围从700m到9.3b不等，随后蒸馏到较小的型号中，范围为17m-170亿参数，其应用到自然语言理解（NLU）组件（NLU）组件（虚拟助手系统。尽管我们使用70％的口语数据训练，但在对书面形式的跨语性自然语言推论（XNLI）语料库进行评估时，我们的教师模型与XLM-R和MT5相当。我们使用系统中的内域数据对教师模型进行了第二阶段的训练，以提高了3.86％的相对分类，而相对7.01％的插槽填充。我们发现，即使是从我们的2阶段教师模型中提取的170亿参数模型，与仅接受公共数据的2.3B参数老师相比，与2.3B参数老师相比，意图分类更好2.88％，并且7.69％的插槽填充错误率更好（第1阶段），强调了。内域数据对训练的重要性。当使用标记的NLU数据进行离线评估时，我们的17m参数阶段2蒸馏模型的表现分别优于XLM-R碱基（85m Params）和Distillbert（42m Params），分别优于4.23％至6.14％。最后，我们介绍了一个完整的虚拟助手实验平台的结果，在该平台中，我们发现使用经过预训练和蒸馏管道训练的模型超过了从8500万参数教师蒸馏的模型，在自动测量全系统用户不满的自动测量中，从8500万参数教师蒸馏出3.74％-4.91％。

translated by 谷歌翻译

Gigs with Guarantees: Achieving Fair Wage for Food Delivery Workers

Ashish Nair , Rahul Yadav , Anjali Gupta , Abhijnan Chakraborty , Sayan Ranu , Amitabha Bagchi

分类：人工智能

2022-05-07

随着食品交付平台的日益普及，在这些平台中研究“演出”工人的工作条件已变得相关，尤其是为他们提供公平的工资，合理的工作时间和工作可用性的透明度。但是，对这些问题的任何解决方案都不得降低客户体验，并具有成本效益，以确保平台愿意采用它们。我们建议使用Work4Food，该食品为交付代理提供收入保证，同时最大程度地降低平台成本并确保客户满意度。 Work4food确保满足收入保证的方式不会导致工作时间增加或降低环境影响。为了结合这些目标，工作4食品通过控制系统中的代理数量并根据代理人（例如代理位置，评级等因素）向代理提供动态付款保证。食品交付平台并在手头的多维目标方面建立了对最新技术的优势。

translated by 谷歌翻译

OPT: Open Pre-trained Transformer Language Models

Susan Zhang , Stephen Roller , Naman Goyal , Mikel Artetxe , Moya Chen , Shuohui Chen , Christopher Dewan , Mona Diab , Xian Li , Xi Victoria Lin

分类：自然语言处理 | 机器学习

2022-05-02

大型语言模型经常经过数十万个计算天的训练，已经显示出零和少数学习的显着功能。鉴于它们的计算成本，如果没有大量资本，这些模型很难复制。对于通过API可用的少数产品，没有访问完整的模型权重，因此很难学习。我们提供开放训练的预训练变压器（OPT），这是一套仅解码器预训练的变压器，范围从12500万到175b参数，我们旨在与感兴趣的研究人员完全和负责任地分享。我们表明，OPT-175B与GPT-3相当，而仅需要1/7碳足迹才能开发。我们还释放了日志，详细介绍了我们面临的基础架构挑战，以及用于尝试所有发布模型的代码。

translated by 谷歌翻译