语音助手等对话用户界面非常受欢迎。然而,它们被设计为默认情况下是单语的,缺乏对双语对话体验的支持或敏感性。在此挑衅论文中,我们强调了双语用户VA互动中面临的语言生产挑战。我们认为,通过促进双语互动中看到的现象,例如代码转换,我们可以为双语用户提供更具包容性和改进的用户体验。我们还通过支持多种语言识别,并对语音输出中代码转换的偏好敏感,探索可以实现这一目标的方法。
translated by 谷歌翻译
Automatic speech recognition (ASR) meets more informal and free-form input data as voice user interfaces and conversational agents such as the voice assistants such as Alexa, Google Home, etc., gain popularity. Conversational speech is both the most difficult and environmentally relevant sort of data for speech recognition. In this paper, we take a linguistic perspective, and take the French language as a case study toward disambiguation of the French homophones. Our contribution aims to provide more insight into human speech transcription accuracy in conditions to reproduce those of state-of-the-art ASR systems, although in a much focused situation. We investigate a case study involving the most common errors encountered in the automatic transcription of French language.
translated by 谷歌翻译
代码切换是在对话期间交换语言时的语音现象。尽管对会话语言中的代码切换的自发性,但大多数现有工程通过读取语音而不是自发的语音来收集代码切换数据。Ascend(一个自发的中国英语数据集)介绍了香港收集的自发多转对话对话中英语代码切换语料库的高质量资源。我们报告了提升的设计和收集语音数据的程序,包括在这项工作中的注释。上升包括23个双语,这些双语流利,汉英都流利,而且由9.23小时的清洁语音组成。
translated by 谷歌翻译
在本文中,我们使用语言数据收集的现场方法讨论了四种低资源印度语语言的演讲语料库的过程中的工作 - Awadhi,Bhojpuri,Braj和Magahi。目前,语料库的总大小约为18小时(每种语言约4-5小时),并用语法信息进行转录和注释,例如词性标签,形态学特征和普遍的依赖关系。我们讨论了以这些语言收集数据的方法,其中大多数是在Covid-19大流行中心进行的,其中之一是为低收入群体带来一些额外的收入,说这些语言。在本文中,我们还讨论了这些语言中自动语音识别系统的基线实验的结果。
translated by 谷歌翻译
Code-Switching, a common phenomenon in written text and conversation, has been studied over decades by the natural language processing (NLP) research community. Initially, code-switching is intensively explored by leveraging linguistic theories and, currently, more machine-learning oriented approaches to develop models. We introduce a comprehensive systematic survey on code-switching research in natural language processing to understand the progress of the past decades and conceptualize the challenges and tasks on the code-switching topic. Finally, we summarize the trends and findings and conclude with a discussion for future direction and open questions for further investigation.
translated by 谷歌翻译
文化代码切换涉及我们如何调整我们的整体行为,口语方式以及应对我们社会环境的感知变化。我们捍卫需要调查人工智能系统中的文化码切换能力。我们探索了一系列伦理和认识的问题,当培养文化代码切换到人工智能时出现。建立在Dotson的(2014)分析证言窒息的分析,我们讨论了AI中的新兴技术如何产生认识的压迫,具体而言,我们称之为“文化闷闷不乐”的自我沉默形式。通过离开文化代码切换的社会动态特征,通过扩大机遇差距和进一步根深蒂固的社会不平等,AI系统的风险负面影响已经边缘化的社会群体。
translated by 谷歌翻译
口语内容中的话语码切换(CS)的普及性具有强制ASR系统来处理混合输入。然而,设计CS-ASR具有许多挑战,主要原因是数据稀缺,语法结构复杂性和不匹配以及不平衡的语言使用分配。最近的ASR研究表明E2E-ASR使用多语种数据来处理CS现象的少量CS数据。但是,对CS数据的依赖仍然存在。在这项工作中,我们提出了一种方法来增加用于人工生成的CS文本的单格式数据以改善不同的语音模块。我们在利用对齐的转换对的同时基于对等效约束理论的方法,以生成语法有效的CS内容。我们的经验结果表明,两种生态和嘈杂的CS测试集,在困惑中的相对增益为29-34%,而在WER中约为2%。最后,人类评估表明,人类可以获得83.8%的生成数据。
translated by 谷歌翻译
培训多语言自动语音识别(ASR)系统具有挑战性,因为声学和词汇信息通常是特定于语言的。由于缺乏开源数据集和不同方法的结果,培训对Indo语言的多语言系统更加困难。我们将端到端多语言语音识别系统的性能与以语言识别(LID)为条件的单语模型的性能进行比较。来自多语言模型的解码信息用于语言识别,然后与单语模型结合使用,以改善跨语言的50%WER。我们还提出了一种类似的技术来解决代码切换问题,并在印度英语和孟加拉国英语中分别达到21.77和28.27。我们的工作谈到了如何将基于变压器的ASR尤其是WAV2VEC 2.0应用于开发用于指示语言的多语言ASR和代码转换ASR。
translated by 谷歌翻译
Neurodegeneration characterizes individuals with different dementia subtypes (e.g., individuals with Alzheimer's Disease, Primary Progressive Aphasia, and Parkinson's Disease), leading to progressive decline in cognitive, linguistic, and social functioning. Speech and language impairments are early symptoms in individuals with focal forms of neurodegenerative conditions, coupled with deficits in cognitive, social, and behavioral domains. This paper reviews the findings on language and communication deficits and identifies the effects of dementia on the production and perception of discourse. It discusses findings concerning (i) language function, cognitive representation, and impairment, (ii) communicative competence, emotions, empathy, and theory-of-mind, and (iii) speech-in-interaction. It argues that clinical discourse analysis can provide a comprehensive assessment of language and communication skills in individuals, which complements the existing neurolinguistic evaluation for (differential) diagnosis, prognosis, and treatment efficacy evaluation.
translated by 谷歌翻译
聊天机器人在商业和科学环境中越来越普遍。他们帮助客户抱怨产品或服务或支持他们找到最佳旅行交易。其他机器人提供心理健康支持或帮助预订医疗预约。本文认为,可以洞悉用户的语言意识形态及其融洽的期望,可用于告知受众群体的语言和互动模式,并确保公平地访问机器人提供的服务。该论点的基础是三种数据的基础:与聊天机器人相互交互,促进健康约会预订,用户对其交互的内省评论以及用户的定性调查评论在与预订机器人交战后。最后,我将定义对话式AI的受众设计,并讨论如何以用户为中心的聊天机器人互动和社会语言知识的理论方法(例如融洽的理论管理)来支持受众设计。
translated by 谷歌翻译
Charisma is considered as one's ability to attract and potentially also influence others. Clearly, there can be considerable interest from an artificial intelligence's (AI) perspective to provide it with such skill. Beyond, a plethora of use cases opens up for computational measurement of human charisma, such as for tutoring humans in the acquisition of charisma, mediating human-to-human conversation, or identifying charismatic individuals in big social data. A number of models exist that base charisma on various dimensions, often following the idea that charisma is given if someone could and would help others. Examples include influence (could help) and affability (would help) in scientific studies or power (could help), presence, and warmth (both would help) as a popular concept. Modelling high levels in these dimensions for humanoid robots or virtual agents, seems accomplishable. Beyond, also automatic measurement appears quite feasible with the recent advances in the related fields of Affective Computing and Social Signal Processing. Here, we, thereforem present a blueprint for building machines that can appear charismatic, but also analyse the charisma of others. To this end, we first provide the psychological perspective including different models of charisma and behavioural cues of it. We then switch to conversational charisma in spoken language as an exemplary modality that is essential for human-human and human-computer conversations. The computational perspective then deals with the recognition and generation of charismatic behaviour by AI. This includes an overview of the state of play in the field and the aforementioned blueprint. We then name exemplary use cases of computational charismatic skills before switching to ethical aspects and concluding this overview and perspective on building charisma-enabled AI.
translated by 谷歌翻译
大规模的语言技术越来越多地用于与人类在不同情况下的各种形式的交流中。这些技术的一种特殊用例是对话剂,它会根据提示和查询输出自然语言文本。这种参与方式提出了许多社会和道德问题。例如,将对话剂与人类规范或价值观相结合意味着什么?它们应该与哪些规范或价值观保持一致?如何实现这一目标?在本文中,我们提出了许多步骤来帮助回答这些问题。我们首先要对对话代理人和人类对话者之间语言交流的基础进行哲学分析。然后,我们使用此分析来识别和制定理想的对话规范,这些规范可以控制人类与对话代理之间的成功语言交流。此外,我们探讨了如何使用这些规范来使对话剂与在一系列不同的话语领域中的人类价值相结合。最后,我们讨论了我们对与这些规范和价值观一致的对话代理设计的建议的实际含义。
translated by 谷歌翻译
代码转换(CS)是多语言个体所表现出的常见语言现象,在一次对话中,它们倾向于在语言之间交替。 CS是一种复杂的现象,不仅包含语言挑战,而且还包含大量的复杂性,就其在说话者之间的动态行为而言。鉴于产生CS的因素因一个国家而异,并且从一个人到另一个人都不同,因此发现CS是一种依赖说话者的行为,在该行为中,外语被嵌入的频率在说话者之间有所不同。尽管几位研究人员从语言的角度研究了CS行为,但研究仍然缺乏从社会学和心理学角度预测用户CS行为的任务。我们提供了一项经验用户研究,我们研究用户的CS级别和性质特征之间的相关性。我们对双语者进行访谈,并收集有关他们的个人资料的信息,包括他们的人口统计学,个性特征和旅行经验。然后,我们使用机器学习(ML)根据其配置文件来预测用户的CS级别,在此我们确定建模过程中的主要影响因素。我们试验分类和回归任务。我们的结果表明,CS行为受到说话者之间的关系,旅行经验以及神经质和外向性人格特征的影响。
translated by 谷歌翻译
如今,对混合代码的兴趣已在自然语言处理(NLP)中变得普遍存在;但是,对于语音翻译(ST)任务解决这一现象并没有太多关注。这完全可以归因于缺乏由代码混合的ST任务标记数据。因此,我们介绍了Prabhupadavani,这是一种用于25种语言的多语言代码混合ST数据集。它是多域的,涵盖了十个语言家庭,其中包含130多名演讲者的94小时语音,并手动与目标语言的相应文本保持一致。 Prabhupadavani是关于吠陀文化和遗产的文献,在文献中引用文学的情况下,在人文教学的背景下,代码转换很重要。据我们所知,Prabhupadvani是ST文献中第一个可用的多语言代码混合ST数据集。该数据也可用于代码混合的机器翻译任务。所有数据集可以在https://github.com/frozentoad9/cmst上访问。
translated by 谷歌翻译
自动语音识别(ASR)服务无处不在,将语音转换为Amazon's Alexa,Google助手和Microsoft的Cortana等系统的文本。但是,研究人员已经确定了种族群体和国籍的特定英语口音之间的ASR表现的偏见。在本文中,我们通过大规模审核将其与历史先例和定量相关联,从定性地扩展了这一讨论。语言的标准化和使用语言维持全球和政治权力的使用在历史上发挥了重要作用,我们解释说,这表明ASR服务对当今英语说话者的行为方式表明了相似之处。然后,使用来自Speakent Accent Archive的大量和全球数据集,其中包括2700多名在171个不同国家 /地区出生的英语演讲者,我们对一些最受欢迎的英语ASR服务进行了国际审核。我们表明,绩效差异的存在是说话者的母语是否是英语,即使在控制多种语言协变量时,这些差异与说话者出生国家的政治统一性具有统计学意义的关系美国的地缘政治力量。
translated by 谷歌翻译
Twitter包含来自现实世界中的大量语言数据。我们检查了Twitter的低资源语言(例如本地印尼语)的用户生成的内容。为了使NLP在印尼语中工作,它必须考虑本地方言,地理环境和区域文化影响印尼语言。本文确定了我们在构建本地印尼NLP数据集时面临的问题。此外,我们正在开发一个用于创建,收集和分类NLP本地印尼数据集的框架。使用Twitter的地理位置工具自动注释。
translated by 谷歌翻译
多种语言的扬声器倾向于在对话中的语言之间交替,该现象称为“代码切换”(CS)。CS是一种复杂的现象,不仅包括语言挑战,而且在讲话者的动态行为方面也包含大量复杂性。社会学家和心理学家研究了这种动态行为,确定了影响CS的因素。在本文中,我们对阿拉伯语 - 英语CS提供了实证用户研究,在那里我们展示了用户CS频率和字符特征之间的相关性。我们使用机器学习(ML)来验证调查结果,通知和确认现有理论。预测模型能够预测用户的CS频率,精度高于55%,其中旅行经验和人格特征在建模过程中起最大的作用。
translated by 谷歌翻译
语言是协调问题的强大解决方案:他们提供了稳定的,有关我们所说的单词如何对应于我们头脑中的信仰和意图的共同期望。然而,在变量和非静止社会环境中的语言使用需要语言表征来灵活:旧词在飞行中获取新的临时或合作伙伴特定含义。在本文中,我们介绍了柴(通过推理的连续分层适应),一个分层贝叶斯的协调理论和会议组织,旨在在这两个基本观察之间调和长期张力。我们认为,沟通的中央计算问题不仅仅是传输,如在经典配方中,而是在多个时间尺度上持续学习和适应。合作伙伴特定的共同点迅速出现在数型互动中的社会推论中,而社群范围内的社会公约是稳定的前锋,这些前锋已经抽象出与多个合作伙伴的互动。我们展示了新的实证数据,展示了我们的模型为多个现象提供了对先前账户挑战的计算基础:(1)与同一合作伙伴的重复互动的更有效的参考表达的融合(2)将合作伙伴特定的共同基础转移到陌生人,并(3)交际范围的影响最终会形成。
translated by 谷歌翻译
Speech systems are sensitive to accent variations. This is especially challenging in the Indian context, with an abundance of languages but a dearth of linguistic studies characterising pronunciation variations. The growing number of L2 English speakers in India reinforces the need to study accents and L1-L2 interactions. We investigate the accents of Indian English (IE) speakers and report in detail our observations, both specific and common to all regions. In particular, we observe the phonemic variations and phonotactics occurring in the speakers' native languages and apply this to their English pronunciations. We demonstrate the influence of 18 Indian languages on IE by comparing the native language pronunciations with IE pronunciations obtained jointly from existing literature studies and phonetically annotated speech of 80 speakers. Consequently, we are able to validate the intuitions of Indian language influences on IE pronunciations by justifying pronunciation rules from the perspective of Indian language phonology. We obtain a comprehensive description in terms of universal and region-specific characteristics of IE, which facilitates accent conversion and adaptation of existing ASR and TTS systems to different Indian accents.
translated by 谷歌翻译
代码切换(CS)是多语言社区中的常见语言现象,其包括在说话时在语言之间切换。本文提出了我们对普通话 - 英语CS演讲的结束地理识别的调查。我们分析了不同的CS特定问题,例如CS语言对中语言之间的属性不匹配,切换点的不可预测性质,以及数据稀缺问题。通过使用分层Softmax的语言识别通过建模子字单元来利用非语言识别来利用非统计符号来利用和改善最先进的端到端系统,通过人为地降低说话率,并通过使用增强数据来实现子字单元。使用速度扰动技术和几个单机数据集不仅可以在CS语音上提高最终性能,还可以在单​​格式基准上,以使系统更适用于现实生活环境。最后,我们探讨了不同语言模型集成方法对提出模型性能的影响。我们的实验结果表明,所有提出的技术都提高了识别性能。最佳组合系统在混合误差率方面将基线系统提高到35%,并在单机基准上提供可接受的性能。
translated by 谷歌翻译