多种语言的扬声器倾向于在对话中的语言之间交替,该现象称为“代码切换”(CS)。CS是一种复杂的现象,不仅包括语言挑战,而且在讲话者的动态行为方面也包含大量复杂性。社会学家和心理学家研究了这种动态行为,确定了影响CS的因素。在本文中,我们对阿拉伯语 - 英语CS提供了实证用户研究,在那里我们展示了用户CS频率和字符特征之间的相关性。我们使用机器学习(ML)来验证调查结果,通知和确认现有理论。预测模型能够预测用户的CS频率,精度高于55%,其中旅行经验和人格特征在建模过程中起最大的作用。
translated by 谷歌翻译
代码转换(CS)是多语言个体所表现出的常见语言现象,在一次对话中,它们倾向于在语言之间交替。 CS是一种复杂的现象,不仅包含语言挑战,而且还包含大量的复杂性,就其在说话者之间的动态行为而言。鉴于产生CS的因素因一个国家而异,并且从一个人到另一个人都不同,因此发现CS是一种依赖说话者的行为,在该行为中,外语被嵌入的频率在说话者之间有所不同。尽管几位研究人员从语言的角度研究了CS行为,但研究仍然缺乏从社会学和心理学角度预测用户CS行为的任务。我们提供了一项经验用户研究,我们研究用户的CS级别和性质特征之间的相关性。我们对双语者进行访谈,并收集有关他们的个人资料的信息,包括他们的人口统计学,个性特征和旅行经验。然后,我们使用机器学习(ML)根据其配置文件来预测用户的CS级别,在此我们确定建模过程中的主要影响因素。我们试验分类和回归任务。我们的结果表明,CS行为受到说话者之间的关系,旅行经验以及神经质和外向性人格特征的影响。
translated by 谷歌翻译
代码切换是在对话期间交换语言时的语音现象。尽管对会话语言中的代码切换的自发性,但大多数现有工程通过读取语音而不是自发的语音来收集代码切换数据。Ascend(一个自发的中国英语数据集)介绍了香港收集的自发多转对话对话中英语代码切换语料库的高质量资源。我们报告了提升的设计和收集语音数据的程序,包括在这项工作中的注释。上升包括23个双语,这些双语流利,汉英都流利,而且由9.23小时的清洁语音组成。
translated by 谷歌翻译
代码切换(CS)是多语言社区中的常见语言现象,其包括在说话时在语言之间切换。本文提出了我们对普通话 - 英语CS演讲的结束地理识别的调查。我们分析了不同的CS特定问题,例如CS语言对中语言之间的属性不匹配,切换点的不可预测性质,以及数据稀缺问题。通过使用分层Softmax的语言识别通过建模子字单元来利用非语言识别来利用非统计符号来利用和改善最先进的端到端系统,通过人为地降低说话率,并通过使用增强数据来实现子字单元。使用速度扰动技术和几个单机数据集不仅可以在CS语音上提高最终性能,还可以在单​​格式基准上,以使系统更适用于现实生活环境。最后,我们探讨了不同语言模型集成方法对提出模型性能的影响。我们的实验结果表明,所有提出的技术都提高了识别性能。最佳组合系统在混合误差率方面将基线系统提高到35%,并在单机基准上提供可接受的性能。
translated by 谷歌翻译
Code-Switching, a common phenomenon in written text and conversation, has been studied over decades by the natural language processing (NLP) research community. Initially, code-switching is intensively explored by leveraging linguistic theories and, currently, more machine-learning oriented approaches to develop models. We introduce a comprehensive systematic survey on code-switching research in natural language processing to understand the progress of the past decades and conceptualize the challenges and tasks on the code-switching topic. Finally, we summarize the trends and findings and conclude with a discussion for future direction and open questions for further investigation.
translated by 谷歌翻译
社交媒体平台上的滥用内容的增长增加对在线用户的负面影响。对女同性恋,同性恋者,跨性别或双性恋者的恐惧,不喜欢,不适或不疑虑被定义为同性恋/转铁症。同性恋/翻译语音是一种令人反感的语言,可以总结为针对LGBT +人的仇恨语音,近年来越来越受到兴趣。在线同性恋恐惧症/ Transphobobia是一个严重的社会问题,可以使网上平台与LGBT +人有毒和不受欢迎,同时还试图消除平等,多样性和包容性。我们为在线同性恋和转鸟以及专家标记的数据集提供了新的分类分类,这将允许自动识别出具有同种异体/传递内容的数据集。我们受过教育的注释器并以综合的注释规则向他们提供,因为这是一个敏感的问题,我们以前发现未受训练的众包注释者因文化和其他偏见而诊断倡导性的群体。数据集包含15,141个注释的多语言评论。本文介绍了构建数据集,数据的定性分析和注册间协议的过程。此外,我们为数据集创建基线模型。据我们所知,我们的数据集是第一个已创建的数据集。警告:本文含有明确的同性恋,转基因症,刻板印象的明确陈述,这可能对某些读者令人痛苦。
translated by 谷歌翻译
语言可以用作再现和执行有害刻板印象和偏差的手段,并被分析在许多研究中。在本文中,我们对自然语言处理中的性别偏见进行了304篇论文。我们分析了社会科学中性别及其类别的定义,并将其连接到NLP研究中性别偏见的正式定义。我们调查了在对性别偏见的研究中应用的Lexica和数据集,然后比较和对比方法来检测和减轻性别偏见。我们发现对性别偏见的研究遭受了四个核心限制。 1)大多数研究将性别视为忽视其流动性和连续性的二元变量。 2)大部分工作都在单机设置中进行英语或其他高资源语言进行。 3)尽管在NLP方法中对性别偏见进行了无数的论文,但我们发现大多数新开发的算法都没有测试他们的偏见模型,并无视他们的工作的伦理考虑。 4)最后,在这一研究线上发展的方法基本缺陷涵盖性别偏差的非常有限的定义,缺乏评估基线和管道。我们建议建议克服这些限制作为未来研究的指导。
translated by 谷歌翻译
本地语言识别(NLI)是培训(通过监督机器学习)的任务,该分类器猜测文本作者的母语。在过去的十年中,这项任务已经进行了广泛的研究,多年来,NLI系统的性能稳步改善。我们专注于NLI任务的另一个方面,即分析由\ emph {Aupplable}机器学习算法培训的NLI分类器的内部组件,以获取其分类决策的解释,并具有获得的最终目标,即获得最终的目标。深入了解语言现象````赋予说话者''的母语''。我们使用这种观点来解决NLI和(研究得多的)伴侣任务,即猜测是由本地人还是非本地人说的文本。使用三个不同出处的数据集(英语学习者论文的两个数据集和社交媒体帖子的数据集),我们研究哪种语言特征(词汇,形态学,句法和统计)最有效地解决了我们的两项任务,即,最大的表明说话者的L1。我们还提出了两个案例研究,一个关于西班牙语,另一个关于意大利英语学习者,其中我们分析了分类器对发现这些L1最重要的单个语言特征。总体而言,我们的研究表明,使用可解释的机器学习可能是TH的宝贵工具
translated by 谷歌翻译
情绪分析中最突出的任务是为文本分配情绪,并了解情绪如何在语言中表现出来。自然语言处理的一个重要观察结果是,即使没有明确提及情感名称,也可以通过单独参考事件来隐式传达情绪。在心理学中,被称为评估理论的情感理论类别旨在解释事件与情感之间的联系。评估可以被形式化为变量,通过他们认为相关的事件的人们的认知评估来衡量认知评估。其中包括评估事件是否是新颖的,如果该人认为自己负责,是否与自己的目标以及许多其他人保持一致。这样的评估解释了哪些情绪是基于事件开发的,例如,新颖的情况会引起惊喜或不确定后果的人可能引起恐惧。我们在文本中分析了评估理论对情绪分析的适用性,目的是理解注释者是否可以可靠地重建评估概念,如果可以通过文本分类器预测,以及评估概念是否有助于识别情感类别。为了实现这一目标,我们通过要求人们发短信描述触发特定情绪并披露其评估的事件来编译语料库。然后,我们要求读者重建文本中的情感和评估。这种设置使我们能够衡量是否可以纯粹从文本中恢复情绪和评估,并为判断模型的绩效指标提供人体基准。我们将文本分类方法与人类注释者的比较表明,两者都可以可靠地检测出具有相似性能的情绪和评估。我们进一步表明,评估概念改善了文本中情绪的分类。
translated by 谷歌翻译
使用深度学习来产生类似人类的文本的自回归语言模型已变得越来越普遍。这样的模型为智能健康,金融和自动驾驶等领域的流行虚拟助手提供动力。尽管这些大语言模型的参数正在改善,但担心这些模型可能对社会中的所有亚组都没有平等。尽管对跨学科的AI公平性进行了越来越多的讨论,但缺乏系统的指标来评估公平在对话系统中的意义以及如何使不同人群参与评估循环。本文基于审议民主和科学技术研究的理论,提出了一个分析框架,以解开人类对话中的公平意义。使用此框架,我们进行了一项审计研究,以研究GPT-3如何应对有关关键科学和社会主题的不同亚人群的反应:气候变化和黑人生活问题(BLM)运动。我们的语料库包括在性别,种族和种族,教育水平,英语作为第一语言的GPT-3和3290个人之间的超过20,000轮对话,以及对问题的看法。我们发现,在观点和教育少数群体中,对GPT-3的用户经验实质上较差;但是,这两个小组获得了最大的知识增长,改变了聊天后对BLM和气候变化工作的态度改变。我们将这些用户的经验划分为对话差异,发现GPT-3在对教育和舆论少数群体群体做出反应时,与对多数群体的反应相比,它使用了更多的负面表达。我们讨论了我们的发现对集中多样性,公平和包容性的审议对话AI系统的含义。
translated by 谷歌翻译
对于政治和社会科学以及语言学和自然语言处理(NLP),它们都很有趣。退出研究涵盖了各个议会内的讨论。相比之下,我们将高级NLP方法应用于2017年至2020年之间的六个国家议会(保加利亚,捷克语,法语,斯洛文尼亚,西班牙语和英国)的联合和比较分析,其笔录是Parlamint数据集收集的一部分。使用统一的方法,我们分析了讨论,情感和情感的主题。我们评估说话者的年龄,性别和政治取向是否可以从演讲中检测到。结果表明,分析国家之间的一些共同点和许多令人惊讶的差异。
translated by 谷歌翻译
已经开发了许多方法,以通过消除社交媒体平台的庸俗,令人反感和激烈的评论来监测现代岁月中的消极性传播。然而,存在相对较少的研究,这些研究会收敛于拥抱积极性,加强在线论坛中的支持性和放心内容。因此,我们建议创建英国kannada希望语音数据集,Kanhope并比较几个实验来基准数据集。 DataSet由6,176个用户生成的评论组成,代码混合kannada从YouTube刮擦并手动注释为轴承希望语音或不希望的演讲。此外,我们介绍了DC-BERT4HOPE,一种使用Kanhope的英语翻译进行额外培训的双通道模型,以促进希望语音检测。该方法实现了0.756的加权F1分数,更好的其他模型。从此,卡霍普旨在促进坎卡达的研究,同时促进研究人员,以鼓励,积极和支持的在线内容中务实的方法。
translated by 谷歌翻译
Intelligent agents have great potential as facilitators of group conversation among older adults. However, little is known about how to design agents for this purpose and user group, especially in terms of agent embodiment. To this end, we conducted a mixed methods study of older adults' reactions to voice and body in a group conversation facilitation agent. Two agent forms with the same underlying artificial intelligence (AI) and voice system were compared: a humanoid robot and a voice assistant. One preliminary study (total n=24) and one experimental study comparing voice and body morphologies (n=36) were conducted with older adults and an experienced human facilitator. Findings revealed that the artificiality of the agent, regardless of its form, was beneficial for the socially uncomfortable task of conversation facilitation. Even so, talkative personality types had a poorer experience with the "bodied" robot version. Design implications and supplementary reactions, especially to agent voice, are also discussed.
translated by 谷歌翻译
AI研究中的基石是创建和采用标准化培训和测试数据集,以指定最新模型的进度。一个特别成功的例子是用于培训和评估英语自然语言理解(NLU)模型的胶水数据集。围绕基于BERT的语言模型的大量研究围绕着胶水中NLU任务的性能改进。为了评估其他语言的语言模型,创建了几个特定语言的胶水数据集。语音语言理解(SLU)的领域遵循了类似的轨迹。大型自我监督模型(例如WAV2VEC2)的成功实现了具有相对易于访问的未标记数据的语音模型。然后可以在SLU任务(例如出色的基准测试)上评估这些模型。在这项工作中,我们将其扩展到通过释放Indicsuperb基准测试来指示语言。具体来说,我们做出以下三项贡献。 (i)我们收集了Kathbath,其中包含来自印度203个地区的1,218个贡献者的12个印度语言的1,684小时的标记语音数据。 (ii)使用Kathbath,我们在6个语音任务中创建基准:自动语音识别,扬声器验证,说话者识别(单声道/多),语言识别,逐个示例查询以及对12种语言的关键字发现。 (iii)在发布的基准测试中,我们与常用的基线Fbank一起训练和评估不同的自我监督模型。我们表明,在大多数任务上,特定于语言的微调模型比基线更准确,包括对于语言识别任务的76 \%差距。但是,对于说话者识别,在大型数据集上训练的自我监督模型证明了一个优势。我们希望Indicsuperb有助于发展印度语言的语音语言理解模型的进步。
translated by 谷歌翻译
本文介绍了一种新的普通话 - 英语代码转换语音识别的语料库 - 塔尔奇语料库,适用于培训和评估代码转换语音识别系统。滑石乐谱来自TAL教育小组中真正的在线在线一对一的英语教学场景,其中包含大约587个小时的语音采样16 kHz。据我们所知,滑石科目是世界上标签最大的普通话 - 英语密码开关开源自动语音识别(ASR)数据集。在本文中,我们将详细介绍录制过程,包括捕获设备和语料库环境的音频。并且滑石场可以根据允许许可证免费下载。我们使用滑石乐谱,在两个流行的语音识别工具包中进行ASR实验,以制造包括ESPNET和WENET在内的基线系统。在滑石粉中比较了两个语音识别工具包中的混合错误率(MER)性能。实验结果表明,音频记录和转录的质量是有希望的,基线系统是可行的。
translated by 谷歌翻译
在本文中,我们使用语言数据收集的现场方法讨论了四种低资源印度语语言的演讲语料库的过程中的工作 - Awadhi,Bhojpuri,Braj和Magahi。目前,语料库的总大小约为18小时(每种语言约4-5小时),并用语法信息进行转录和注释,例如词性标签,形态学特征和普遍的依赖关系。我们讨论了以这些语言收集数据的方法,其中大多数是在Covid-19大流行中心进行的,其中之一是为低收入群体带来一些额外的收入,说这些语言。在本文中,我们还讨论了这些语言中自动语音识别系统的基线实验的结果。
translated by 谷歌翻译
It does not matter whether it is a job interview with Tech Giants, Wall Street firms, or a small startup; all candidates want to demonstrate their best selves or even present themselves better than they really are. Meanwhile, recruiters want to know the candidates' authentic selves and detect soft skills that prove an expert candidate would be a great fit in any company. Recruiters worldwide usually struggle to find employees with the highest level of these skills. Digital footprints can assist recruiters in this process by providing candidates' unique set of online activities, while social media delivers one of the largest digital footprints to track people. In this study, for the first time, we show that a wide range of behavioral competencies consisting of 16 in-demand soft skills can be automatically predicted from Instagram profiles based on the following lists and other quantitative features using machine learning algorithms. We also provide predictions on Big Five personality traits. Models were built based on a sample of 400 Iranian volunteer users who answered an online questionnaire and provided their Instagram usernames which allowed us to crawl the public profiles. We applied several machine learning algorithms to the uniformed data. Deep learning models mostly outperformed by demonstrating 70% and 69% average Accuracy in two-level and three-level classifications respectively. Creating a large pool of people with the highest level of soft skills, and making more accurate evaluations of job candidates is possible with the application of AI on social media user-generated data.
translated by 谷歌翻译
数据增强是自然语言处理(NLP)模型的鲁棒性评估的重要组成部分,以及增强他们培训的数据的多样性。在本文中,我们呈现NL-Cogmenter,这是一种新的参与式Python的自然语言增强框架,它支持创建两个转换(对数据的修改)和过滤器(根据特定功能的数据拆分)。我们描述了框架和初始的117个变换和23个过滤器,用于各种自然语言任务。我们通过使用其几个转换来分析流行自然语言模型的鲁棒性来证明NL-Upmenter的功效。基础架构,Datacards和稳健性分析结果在NL-Augmenter存储库上公开可用(\ url {https://github.com/gem-benchmark/nl-augmenter})。
translated by 谷歌翻译
我们使用不同的语言支持特征预处理方法研究特征密度(FD)的有效性,以估计数据集复杂性,这又用于比较估计任何训练之前机器学习(ML)分类器的潜在性能。我们假设估计数据集复杂性允许减少所需实验迭代的数量。这样我们可以优化ML模型的资源密集型培训,这是由于可用数据集大小的增加以及基于深神经网络(DNN)的模型的不断增加的普及而成为一个严重问题。由于训练大规模ML模型引起的令人惊叹的二氧化碳排放量,不断增加对更强大的计算资源需求的问题也在影响环境。该研究是在多个数据集中进行的,包括流行的数据集,例如用于培训典型情感分析模型的Yelp业务审查数据集,以及最近的数据集尝试解决网络欺凌问题,这是一个严重的社会问题,也是一个严重的社会问题一个更复杂的问题,形成了语言代表的观点。我们使用收集多种语言的网络欺凌数据集,即英语,日语和波兰语。数据集的语言复杂性的差异允许我们另外讨论语言备份的单词预处理的功效。
translated by 谷歌翻译
口语内容中的话语码切换(CS)的普及性具有强制ASR系统来处理混合输入。然而,设计CS-ASR具有许多挑战,主要原因是数据稀缺,语法结构复杂性和不匹配以及不平衡的语言使用分配。最近的ASR研究表明E2E-ASR使用多语种数据来处理CS现象的少量CS数据。但是,对CS数据的依赖仍然存在。在这项工作中,我们提出了一种方法来增加用于人工生成的CS文本的单格式数据以改善不同的语音模块。我们在利用对齐的转换对的同时基于对等效约束理论的方法,以生成语法有效的CS内容。我们的经验结果表明,两种生态和嘈杂的CS测试集,在困惑中的相对增益为29-34%,而在WER中约为2%。最后,人类评估表明,人类可以获得83.8%的生成数据。
translated by 谷歌翻译