可以通过串联协作来启用第二语言学习,在该协作中,学生在呼叫中学习其他学生的母语时,将学生分组为视频电话会议。这使学生处于在线环境中,更外向的人可以积极贡献和进行对话,而那些更害羞和不确定其第二语言技能的人可以通过电话坐下来坐下来。我们已经构建并部署了L2L系统,该系统记录了所有参与者在呼叫中的对话说话的时间。我们生成可视化的,包括每个呼叫中​​每个学生的参与率和时间表,并在仪表板上呈现。我们最近制定了一种称为个人对话波动率的措施,以表明每个学生在每个呼叫中​​对对话的贡献如何。我们介绍了来自大学学习Frenchm的19个讲英语的学生的样本的对话波动率措施的分析,在一个教学学期的86个串联电信呼叫中。我们的分析表明,有必要研究互动的本质,看看分配给他们的讨论主题的选择是否太难了,这可能会以某种方式影响他们的参与。
translated by 谷歌翻译
此导频研究侧重于称为L2L的工具,允许第二语言(L2)学习者可视化和分析其与母语人员的缩放交互。 L2L使用Zoom转录程序自动生成对话指标,其播放功能与时间戳允许学生重放会话后的任何所选部分的会话反映和自我评审。这项探索性研究调查了一个七周的Teletandem项目,来自爱尔兰大学的本科生学习法国(B2)与来自法国大学学习英语(B2 +)的同龄人通过放大互动。从调查(n = 43)和半结构化访谈(n = 35)收集的数据表明,定量对话指标和对同步内容的定性审查有助于提高学生的置信水平,同时与母语扬声器汇集。此外,它允许他们设定有形的目标来提高他们的参与,并更加了解他们是如何学习的原因。
translated by 谷歌翻译
代码切换是在对话期间交换语言时的语音现象。尽管对会话语言中的代码切换的自发性,但大多数现有工程通过读取语音而不是自发的语音来收集代码切换数据。Ascend(一个自发的中国英语数据集)介绍了香港收集的自发多转对话对话中英语代码切换语料库的高质量资源。我们报告了提升的设计和收集语音数据的程序,包括在这项工作中的注释。上升包括23个双语,这些双语流利,汉英都流利,而且由9.23小时的清洁语音组成。
translated by 谷歌翻译
我们介绍了游戏(丁)的对话,这是一本关于现实生活,口头,自发的多方对话的手动抄录,棋盘游戏Catan的法语玩家之间的对话。我们的目标是为法语提供高质量的资源,由长时间的对话组成,以促进他们的研究风格(Asher等,2016)。在一般的对话环境中,参与者共享个人信息,这使得不可能自由公开地传播资源。在丁(Ding)中,参与者的注意力集中在游戏上,这阻止了他们谈论自己。此外,我们正在通过注释(Cruz Blandon等,2019)对对话中问题的性质进行研究,以开发更自然的自动对话系统。
translated by 谷歌翻译
在本文中,我们介绍了Amharic语音情绪数据集(亚胺),涵盖了四条方言(Gojjam,Wollo,Shewa和Londer)和五种不同的情绪(中性,恐惧,快乐,悲伤和生气)。我们认为它是Amharic语言的第一个语音情感认可(Ser)数据集。 65志愿者参与者,所有母语人员,记录2,474个声音样本,长度为2至4秒。八名法官将情绪分配给具有高协议水平的样本(Fleiss Kappa = 0.8)。生成的数据集可免费下载。接下来,我们开发了一个四层变体,我们称之为vggb。然后使用vggb进行三种实验,用于Ser,使用ASED。首先,我们研究了熔融谱图特征或熔融频率谱系数(MFCC)的特点是Amharic最适合的。这是通过培训ASID的两个VGGB SER模型来完成的,使用MEL-谱图和使用MFCC的另一个。尝试了四种形式的培训,标准交叉验证和三种变体,基于句子,方言和扬声器组。因此,用于训练的句子不会用于测试,以及方言和扬声器组的句子。结论是,在所有四种训练方案下,MFCC功能都是优越的。因此,MFCC采用实验2,其中VGGB和其他三种现有模型进行了验证:Resnet50,Alex-Net和LSTM。 vggb被发现具有非常好的准确性(90.73%)以及最快的培训时间。在实验3中,在培训在两个现有的SER数据集,RAVDES(英语)和EMO-DB(德语)以及ASED(Amharic)上进行培训时比较VGGB的性能。结果与这些语言相当,仿真是最高的。这表明VGGB可以成功应用于其他语言。我们希望Ased将鼓励研究人员试验其他模型为Amharic Ser。
translated by 谷歌翻译
扬声器在彼此保持一致的过程中建立了融洽的关系。在指导域材料的同时,已经证明了与教师的融洽关系,以促进学习。过去关于教育领域的词汇一致性的工作都在量化对齐方式的措施和与代理对齐的相互作用的类型中都遭受了限制。在本文中,我们采用基于数据驱动的共享表达式概念(可能由多个单词组成)的对齐措施,并比较一对一的人类机器人(H-R)相互作用的对齐方式与协作人类人类的H-R部分中的对齐方式-Orobot(H-H-R)相互作用。我们发现,H-R设置中的学生与H-H-R设置相比,与可教的机器人保持一致,并且词汇一致性和融洽关系之间的关系比以前的理论和经验工作所预测的要复杂。
translated by 谷歌翻译
当前的大多数TTS数据集是单个话语的集合,在样式和元数据方面几乎没有对话方面。在本文中,我们介绍了DailyTalk,这是一种专为文本到语音设计的高质量对话语音数据集。我们从开放域对话数据集Dabordialog中取样,修改和记录了2,541个对话,这些对话足以表示每个对话的上下文。在数据构建步骤中,我们维护了最初在DailyDialog中注释的属性分布,以支持DailyTalk中的各种对话。除了数据集之外,我们将先前的工作扩展为我们的基线,在该基线中,非自动回忆TTS的条件是对话框中的历史信息。我们收集元数据,以便TTS模型可以学习历史对话信息,这是产生上下文感知语音的关键。从基线实验结果中,我们显示每日talk可用于训练神经文本到语音模型,我们的基线可以代表上下文信息。 DailyTalk数据集和基线代码可自由使用CC-BY-SA 4.0许可证。
translated by 谷歌翻译
深度学习的最新进展,尤其是编码器架构的发明,已大大改善了抽象性摘要系统的性能。尽管大多数研究都集中在书面文件上,但我们观察到过去几年对对话和多方对话的总结越来越兴趣。一个可以可靠地将人类对话的音频或笔录转换为删节版本的系统,该版本在讨论中最重要的一点上可以在各种现实世界中,从商务会议到医疗咨询再到客户都有价值服务电话。本文着重于多党会议的抽象性摘要,对与此任务相关的挑战,数据集和系统进行了调查,并讨论了未来研究的有希望的方向。
translated by 谷歌翻译
Power dynamics in human-human communication can impact rapport-building and learning gains, but little is known about how power impacts human-agent communication. In this paper, we examine dominance behavior in utterances between middle-school students and a teachable robot as they work through math problems, as coded by Rogers and Farace's Relational Communication Control Coding Scheme (RCCCS). We hypothesize that relatively dominant students will show increased learning gains, as will students with greater dominance agreement with the robot. We also hypothesize that gender could be an indicator of difference in dominance behavior. We present a preliminary analysis of dominance characteristics in some of the transactions between robot and student. Ultimately, we hope to determine if manipulating the dominance behavior of a learning robot could support learning.
translated by 谷歌翻译
主题之间的转换是人类对话的自然组成部分。虽然已经在对话中研究了几十年来的主题过渡,但只有少数基于基础的研究,以调查主题过渡的微妙之处。因此,本研究注释了来自交换机语料库的215对话,并调查参与者和转弯/主题的主题转换,主题转换的多数,主题转换序列的变量如何相关。这项工作提出了对交换机语料库中的主题过渡的实证研究,然后在域内(ID)测试集的精度为83%的精度建模转换,10个Out-Domain}(OOD)测试集82%。设想,这项工作将有助于在开放域对话系统中模拟人类的像语如主题转换。
translated by 谷歌翻译
对话场景是语音处理技术最重要,最具挑战性的场景之一,因为对话中的人们以随意的方式相互反应。在对话中检测每个人的语音活动对于下游任务,例如自然语言处理,机器翻译等。人们指的是“何时说话”作为说话者诊断(SD)的检测技术。传统上,诊断错误率(DER)长期以来一直用作SD系统的标准评估度量。但是,der没有给简短的对话短语提供足够的重视,这在语义层面上很重要。此外,在语音社区中,仍然无法使用精心准确的手动测试数据集,适合评估对话性SD技术。在本文中,我们设计和描述了对话式短语扬声器诊断(CSSD)任务,该任务包括培训和测试数据集,评估指标和基线。在数据集方面,尽管先前开源的180小时对话魔术Data-RAMC数据集,但我们还准备了一个20小时的对话演讲测试数据集,并精心验证了CSSD任务的时间戳注释。在度量方面,我们设计了新的对话der(CDER)评估度量,该评估度量计算出语音级别的SD准确性。在基线方面,我们采用了一种常用的方法:变异贝叶斯HMM X-vector系统,作为CSSD任务的基线。我们的评估指标可在https://github.com/speechclub/cder_metric上公开获得。
translated by 谷歌翻译
When beginners learn to speak a non-native language, it is difficult for them to judge for themselves whether they are speaking well. Therefore, computer-assisted pronunciation training systems are used to detect learner mispronunciations. These systems typically compare the user's speech with that of a specific native speaker as a model in units of rhythm, phonemes, or words and calculate the differences. However, they require extensive speech data with detailed annotations or can only compare with one specific native speaker. To overcome these problems, we propose a new language learning support system that calculates speech scores and detects mispronunciations by beginners based on a small amount of unannotated speech data without comparison to a specific person. The proposed system uses deep learning--based speech processing to display the pronunciation score of the learner's speech and the difference/distance between the learner's and a group of models' pronunciation in an intuitively visual manner. Learners can gradually improve their pronunciation by eliminating differences and shortening the distance from the model until they become sufficiently proficient. Furthermore, since the pronunciation score and difference/distance are not calculated compared to specific sentences of a particular model, users are free to study the sentences they wish to study. We also built an application to help non-native speakers learn English and confirmed that it can improve users' speech intelligibility.
translated by 谷歌翻译
全球团队通常由基于语言的亚组组成,这些子组将互补信息汇总在一起以实现共同的目标。先前的研究概述了这些团队的两步工作沟通流。有团队会议使用所需的通用语言(即英语);为了准备这些会议,人们以母语为母语的对话。在团队会议上的工作沟通通常不如亚组对话效率。在当前的研究中,我们研究了利用机器翻译(MT)的想法,以促进全球团队会议。我们假设在团队会议之前交换子组对话日志会提供上下文信息,从而受益于团队合作。 MT可以翻译这些日志,这可以以低成本的方式理解。为了检验我们的假设,我们进行了一个受试者间实验,其中有20名参与者执行了人事选择任务。每个四重奏包括两名英语母语者(NS)和两个母语是普通话的非母语说话者(NNS)。所有参与者都以其母语的亚组对话开始了这项任务,然后以英语开始了团队会议。我们在团队会议之前操纵了子组对话日志的交换:MT介导的交流与没有。分析参与者的主观经验,任务绩效和讨论深度通过他们的对话举动所反映的,这表明当MT介导的亚组对话日志交流而不是没有交流时,团队会议质量会提高。最后,我们对何时以及如何应用MT进行了思考,以增强语言障碍的全球团队合作。
translated by 谷歌翻译
Intelligent agents have great potential as facilitators of group conversation among older adults. However, little is known about how to design agents for this purpose and user group, especially in terms of agent embodiment. To this end, we conducted a mixed methods study of older adults' reactions to voice and body in a group conversation facilitation agent. Two agent forms with the same underlying artificial intelligence (AI) and voice system were compared: a humanoid robot and a voice assistant. One preliminary study (total n=24) and one experimental study comparing voice and body morphologies (n=36) were conducted with older adults and an experienced human facilitator. Findings revealed that the artificiality of the agent, regardless of its form, was beneficial for the socially uncomfortable task of conversation facilitation. Even so, talkative personality types had a poorer experience with the "bodied" robot version. Design implications and supplementary reactions, especially to agent voice, are also discussed.
translated by 谷歌翻译
近年来,虚拟学习已成为传统课堂教学的替代方法。学生参与虚拟学习可能会对满足学习目标和计划辍学风险产生重大影响。在虚拟学习环境中,有许多专门针对学生参与度(SE)的测量工具。在这项关键综述中,我们分析了这些作品,并从不同的参与定义和测量量表上突出了不一致之处。现有研究人员之间的这种多样性在比较不同的注释和构建可推广的预测模型时可能会出现问题。我们进一步讨论了有关参与注释和设计缺陷的问题。我们根据我们定义的七个参与注释的七个维度分析现有的SE注释量表,包括来源,用于注释的数据模式,注释发生的时间,注释发生的时间段,抽象,组合和组合水平的时间段,定量。令人惊讶的发现之一是,在SE测量中,很少有审查的数据集使用了现有的精神法法学验证量表中的注释中。最后,我们讨论了除虚拟学习以外的其他一些范围,这些量表具有用于测量虚拟学习中SE的潜力。
translated by 谷歌翻译
抑郁症的心理运动迟缓与二元临床访谈中的语音时机变化有关。在这项工作中,我们研究了自由生活二元相互作用的语音定时特征。除了进行连续监测以补充临床就诊的可能性外,在自由生活条件下进行的研究还可以推断社交特征,例如与抑郁症有关的二元相互作用频率。我们将扬声器计数估计量调整为二元相互作用检测器,特异性为89.5%,在Dihard数据集中的灵敏度为86.1%。使用探测器,我们从32名参与者的多天音频记录中获得了语音定时特征,该记录由13位健康个体,11个患有抑郁症的人和8个患有精神疾病的人组成。没有或轻度抑郁的参与者的二元相互作用频率随着抑郁的严重程度而增加,表明潜在的抑郁症发作标记。但是,中度或重度抑郁症的参与者的二元相互作用频率随着抑郁严重程度的增加而降低。在语音时序特征方面,响应时间与抑郁严重程度有显着的正相关。我们的工作表明了自由生活的音频记录的二元相互作用分析的潜力,以获得抑郁严重程度的标记。
translated by 谷歌翻译
我们提出了研究,这是一种新的演讲语料库,用于开发一个可以以友好方式讲话的语音代理。人类自然会控制他们的言语韵律以相互同情。通过将这种“同情对话”行为纳入口语对话系统,我们可以开发一个可以自然响应用户的语音代理。我们设计了研究语料库,以包括一位演讲者,他明确地对对话者的情绪表示同情。我们描述了构建善解人意的对话语音语料库的方法论,并报告研究语料库的分析结果。我们进行了文本到语音实验,以最初研究如何开发更多的自然语音代理,以调整其口语风格,以对应对话者的情绪。结果表明,对话者的情绪标签和对话上下文嵌入的使用可以与使用代理商的情感标签相同的自然性产生语音。我们的研究项目页面是http://sython.org/corpus/studies。
translated by 谷歌翻译
爆发两年多后,Covid-19的大流行继续困扰世界各地的医疗系统,给稀缺资源带来压力,并夺走了人类的生命。从一开始,已经采用了各种基于AI的CoVID-19检测和监测工具,以试图通过及时诊断来阻止感染的潮流。特别是,已经建议计算机试听是一种非侵入性,成本效益和环保的替代方法,可通过声音通过声音来检测COVID-19的感染。但是,像所有AI方法一样,计算机试镜也很大程度上取决于可用数据的数量和质量,并且由于此类数据的敏感性,大规模的COVID-19声音数据集很难获取 - 除其他原因外。为此,我们介绍了COVYT数据集 - 一种新颖的Covid-19数据集,该数据集是从包含来自65位演讲者的8个小时以上语音的公共资源中收集的。与其他现有的COVID-19声音数据集相比,COVYT数据集的独特功能是,它包括所有65位扬声器的covid-19正和负样本。我们使用可解释的音频描述来分析Covid-19的声学表现,并使用可解释的音频描述,并研究几种分类场景,并调查一些分类场景,以将基于公平的言语的COVID进行适当的分配策略-19检测。
translated by 谷歌翻译
本文介绍了来自Robin项目的新罗马尼亚语音语料库,称为Robin技术获取语音语料库(Rocintasc)。其主要目的是提高会话代理的行为,允许人机互动在购买技术设备的背景下。本文包含采集过程的详细描述,语料库统计信息以及对低延迟ASR系统以及对话组件的语料库影响的评估。
translated by 谷歌翻译
最近十年表明,人们对机器人作为福祉教练的兴趣越来越大。但是,尚未提出针对机器人设计作为促进心理健康的教练的凝聚力和全面的准则。本文详细介绍了基于基于扎根理论方法的定性荟萃分析的设计和道德建议,该方法是通过三项以用户为中心的涉及机器人福祉教练的三个不同的以用户为中心进行的,即:(1)与参与性设计研究一起进行的。 11名参与者由两位潜在用户组成,他们与人类教练一起参加了简短的专注于解决方案的实践研究,以及不同学科的教练,(2)半结构化的个人访谈数据,这些数据来自20名参加积极心理学干预研究的参与者借助机器人福祉教练胡椒,(3)与3名积极心理学研究的参与者以及2名相关的福祉教练进行了一项参与式设计研究。在进行主题分析和定性荟萃分析之后,我们将收集到收敛性和不同主题的数据整理在一起,并从这些结果中提炼了一套设计准则和道德考虑。我们的发现可以在设计机器人心理福祉教练时考虑到关键方面的关键方面。
translated by 谷歌翻译