乐器识别是广泛应用的音乐信息检索应用。由于以前的大多数乐器识别数据集专注于西方乐器,研究人员很难研究和评估传统的中国乐器识别领域。本文提出了传统的中国音乐数据集,用于培训模型和绩效评估,名为Chmusic。此数据集是免费且公开的,11名中国传统音乐仪器和55名繁体中文音乐摘录在此数据集中录制。然后基于Chmusic数据集提出了评估标准。通过本标准,研究人员可以按照相同规则进行比较它们的结果,不同的研究人员的结果将变得可比。
translated by 谷歌翻译
音乐学家使用各种标签在共享标题下对类似的音乐方式进行分类。但是,非专家可以用不同的方式对音乐进行分类。这可能是通过调节和谐,仪器和音乐形式的模式。人们通常通过听力来识别音乐类型,但现在计算机和人工智能(AI)可以自动化此过程。最近在音乐类型分类中申请AI的工作已经不断增长,但没有证据表明对库尔德音乐类型的研究。在这项研究中,我们开发了一个数据集,其中包含880个来自八个不同的库尔德音乐类型的样本。我们评估了两种机器学习方法,深神经网络(DNN)和卷积神经网络(CNN),以识别类型。结果表明,CNN模型通过实现92%而与90%的精度相比优于DNN。
translated by 谷歌翻译
音乐流派分类不平衡是音乐信息检索(MIR)领域的一项关键任务,用于识别基于相关音乐音频段的长尾,贫困类型的长尾,贫困类型,这在现实世界中非常普遍。大多数现有模型都是为级别平衡的音乐数据集而设计的,在识别发行尾部的音乐流派时,准确性和泛化的性能差。受到在各种分类任务中引入多实体学习(MIL)的成功的启发,我们提出了一种名为Multi-Instance注意(Matt)的新型机制,以提高识别尾巴类别的性能。具体来说,我们首先通过生成专辑 - 艺术家配对袋来构建行李级数据集。其次,我们利用神经网络编码音乐音频段。最后,在多实施注意机制的指导下,基于神经网络的模型可以选择最有用的类型来匹配给定的音乐段。关于具有长尾分布的大规模音乐类型基准数据集的全面实验结果表明,马特的表现明显优于其他最先进的基线。
translated by 谷歌翻译
传统的口语语言理解(SLU)由两个阶段组成,第一阶段通过自动语音识别(ASR)地图语音映射到文本,第二阶段通过自然语言理解(NLU)将文本映射到意图。端到端的SLU通过单一深入学习模型直接绘制语音。以前的端到端SLU模型主要用于英文环境,因为缺少Chines中的大规模SLU数据集,并且仅使用一个ASR模型来提取语音的功能。在Kuaishou技术的帮助下,收集中文的大规模SLU数据集以检测实时音频流中的异常事件。基于此数据集,本文提出了一种用于中国环境的集合端到端SLU模型。该集合SLU模型使用多个预先培训的ASR模型提取层次结构功能,从而更好地表示音素级别和字级信息。与以前的端到端SLU模型相比,这一提出的方法达到了9.7%的准确性。
translated by 谷歌翻译
Achieving multiple genres and long-term choreography sequences from given music is a challenging task, due to the lack of a multi-genre dataset. To tackle this problem,we propose a Multi Art Genre Intelligent Choreography Dataset (MagicDance). The data of MagicDance is captured from professional dancers assisted by motion capture technicians. It has a total of 8 hours 3D motioncapture human dances with paired music, and 16 different dance genres. To the best of our knowledge, MagicDance is the 3D dance dataset with the most genres. In addition, we find that the existing two types of methods (generation-based method and synthesis-based method) can only satisfy one of the diversity and duration, but they can complement to some extent. Based on this observation, we also propose a generation-synthesis choreography network (MagicNet), which cascades a Diffusion-based 3D Diverse Dance fragments Generation Network (3DGNet) and a Genre&Coherent aware Retrieval Module (GCRM). The former can generate various dance fragments from only one music clip. The latter is utilized to select the best dance fragment generated by 3DGNet and switch them into a complete dance according to the genre and coherent matching score. Quantitative and qualitative experiments demonstrate the quality of MagicDance, and the state-of-the-art performance of MagicNet.
translated by 谷歌翻译
音乐作品结构的分析是一项任务,对人工智能仍然是一个挑战,特别是在深度学习领域。它需要先前识别音乐件的结构范围。最近通过无监督的方法和\ Texit {端到端}技术研究了这种结构边界分析,例如使用熔融缩放的对数级阶段特征(MLS),自相似性矩阵(SSM)等卷积神经网络(CNN)或自我相似性滞后矩阵(SSLM)作为输入和用人的注释培训。已发布几项研究分为无监督和\ yexit {端到端}方法,其中使用不同的距离度量和音频特性以不同方式进行预处理,因此通过计算模型输入的广义预处理方法是丢失的。这项工作的目的是通过比较来自不同池策略,距离度量和音频特性的输入来建立预处理这些输入的一般方法,也考虑到计算时间来获得它们。我们还建立了要交付给CNN的最有效的投入结合,以便建立最有效的方法来提取音乐件结构的限制。通过对输入矩阵和池策略的充分组合,我们获得了0.411的测量精度$ 0.411优于在相同条件下获得的目前。
translated by 谷歌翻译
构建可用的无线电监控自动语音识别(ASR)系统是资源不足的语言的一项挑战性任务,但这在广播是公众沟通和讨论的主要媒介的社会中至关重要。联合国在乌干达的最初努力证明了如何理解被社交媒体排除在社交媒体中的农村人的看法在国家规划中很重要。但是,由于缺乏转录的语音数据集,这些努力正受到挑战。在本文中,Makerere人工智能研究实验室发布了155小时的Luganda Radio演讲语料库。据我们所知,这是撒哈拉以南非洲第一个公开可用的广播数据集。本文描述了语音语料库的开发,并使用开源语音识别工具包Coqui STT Toolkit提出了基线Luganda ASR绩效结果。
translated by 谷歌翻译
我们考虑了自动生成音乐文本描述的新颖任务。与其他完善的文本生成任务(例如图像标题)相比,富裕的音乐和文本数据集的稀缺性使其成为更具挑战性的任务。在本文中,我们利用众包音乐评论来构建一个新的数据集,并提出一个序列到序列模型以生成音乐的文本描述。更具体地说,我们将扩张的卷积层用作编码器的基本组成部分,基于内存的复发性神经网络作为解码器。为了增强生成文本的真实性和主题,我们进一步建议用歧视者和新的主题评估者微调模型。为了衡量生成的文本的质量,我们还提出了两个新的评估指标,它们比人类评估比传统指标(例如BLEU)更加一致。实验结果验证了我们的模型能够在包含原始音乐的主题和内容信息的同时产生流利而有意义的评论。
translated by 谷歌翻译
在本文中,介绍了用于音乐和音乐技术会议(CSMT)组织的数据挑战的数据集。CSMT数据挑战要求参与者识别给定的旋律是否由计算机生成或由人类组成。数据集由两个部分组成:开发数据集和评估数据集。开发数据集仅包含计算机生成的旋转,而评估数据集包含计算机生成的旋律和人类组成的旋律。数据集的目的是通过学习产生的旋律的特征来检查是否可以区分计算机生成的旋律。
translated by 谷歌翻译
口语识别(SLR)是指用于确定语音样本中存在的语言的自动进程。例如,SLR是一个重要的任务,例如,作为分析或分类大量多语言数据的工具。此外,它也是用于在工作流中选择下游应用的必要工具,例如,选择适当的语音识别或机器转换模型。 SLR系统通常由两个阶段组成,其中提取表示音频样本的嵌入的一个阶段,并且第二个是计算每种语言的最终分数的次数。在这项工作中,我们将SLR任务接近作为检测问题,并实现第二阶段作为概率线性判别分析(PLDA)模型。我们表明,对PLDA参数的鉴别性培训相对于通常的生成培训提供了大的收益。此外,我们提出了一种新的分层方法是训练了两个PLDA模型,一个是生成高度相关语言的集群的分数,以及第二个是为每个群集产生分数的分数。最终的语言检测分数被计算为这两种分数的组合。完整的模型判别训练,以优化跨熵目标。我们表明,该层次方法始终如一地优于非等级化,以检测高度相关的语言,在许多情况下大幅度的边缘。我们培训我们的系统在包含100种语言的数据集合中,并在匹配和不匹配的条件下测试它们,表明增益是强大的状态不匹配。
translated by 谷歌翻译
甚至人类智能系统也无法提供100%的准确性来识别特定个人的演讲。Machine Intelligence试图通过各种语音提取和语音建模技术来模仿说话者识别问题。本文提出了一种独立于文本的扬声器识别系统,该系统采用了MEL频率曲线系数(MFCC)进行特征提取和K-Nearest邻居(KNN)进行分类。获得的最大交叉验证精度为60%。这将在随后的研究中得到改善。
translated by 谷歌翻译
The monitoring of machine conditions in a plant is crucial for production in manufacturing. A sudden failure of a machine can stop production and cause a loss of revenue. The vibration signal of a machine is a good indicator of its condition. This paper presents a dataset of vibration signals from a lab-scale machine. The dataset contains four different types of machine conditions: normal, unbalance, misalignment, and bearing fault. Three machine learning methods (SVM, KNN, and GNB) evaluated the dataset, and a perfect result was obtained by one of the methods on a 1-fold test. The performance of the algorithms is evaluated using weighted accuracy (WA) since the data is balanced. The results show that the best-performing algorithm is the SVM with a WA of 99.75\% on the 5-fold cross-validations. The dataset is provided in the form of CSV files in an open and free repository at https://zenodo.org/record/7006575.
translated by 谷歌翻译
低资源语言的自动语音识别(ASR)改善了语言少数群体的访问,以便人工智能(AI)提供的技术优势。在本文中,我们通过创建一个新的粤语数据集来解决香港广东语言的数据稀缺问题。我们的数据集多域粤语语料库(MDCC)由73.6小时的清洁阅读语音与成绩单配对,从香港的粤语有声读物收集。它结合了哲学,政治,教育,文化,生活方式和家庭领域,涵盖了广泛的主题。我们还查看所有现有的粤语数据集,并在两个最大的数据集(MDCC和公共语音ZH-HK)上执行实验。我们根据其语音类型,数据源,总大小和可用性分析现有数据集。使用Fairseq S2T变压器,最先进的ASR模型进行实验结果,显示了我们数据集的有效性。此外,我们通过在MDCC和常见的声音ZH-HK上应用多数据集学习来创建一个强大而强大的粤语ASR模型。
translated by 谷歌翻译
音乐是一种神秘的语言,它通过不同的音调和音色传达了感觉和思想。为了更好地了解音乐中的音色,我们选择了6种代表性乐器的音乐数据,分析了他们的音色功能并将其分类。我们的项目不是用于黑盒分类的神经网络的当前趋势,而是基于MFCC和LPC的组合,并以我们自己设计的观察和尝试设计的6维功能向量增强。在我们的白色框模型中,我们观察到了区分不同的音色的重要声音模式,并发现了客观数据和主观感官之间的某些联系。与单个工具相比,使用完全32维的特征向量和幼稚的全对SVM,我们实现了提高的分类精度。我们还试图分析从互联网下载的音乐作品,发现不同乐器上的不同性能,探索了原因,并提出了改善性能的可能方法。
translated by 谷歌翻译
古本(Guzheng)是一种具有多种演奏技巧的传统中国乐器。乐器演奏技术(IPT)在音乐表演中起着重要作用。但是,大多数现有的IPT检测作品显示出可变长度音频的效率低下,并且在概括方面没有保证,因为它们依靠单个声音库进行训练和测试。在这项研究中,我们建议使用可应用于可变长度音频的完全卷积网络提出了一个端到端的古兴游戏检测系统。由于每种古季的演奏技术都应用于音符,因此对专用的发作探测器进行了训练,可以将音频分为几个音符,并将其预测与框架IPT的预测融合在一起。在融合过程中,我们在每个音符内部添加IPT预测框架,并在每个音符中获得最高概率的IPT作为该注释的最终输出。我们创建了一个来自多个声音银行的名为GZ_ISOTECH的新数据集,并创建了Guzheng性能分析的现实世界录制。我们的方法在框架级准确性和80.76%的笔记级F1得分方面达到了87.97%,超过了现有的作品,这表明我们提出的方法在IPT检测中的有效性。
translated by 谷歌翻译
深度学习技术的发展极大地促进了自动语音识别(ASR)技术的性能提高,该技术证明了在许多任务中与人类听力相当的能力。语音接口正变得越来越广泛地用作许多应用程序和智能设备的输入。但是,现有的研究表明,DNN很容易受到轻微干扰的干扰,并且会出现错误的识别,这对于由声音控制的智能语音应用非常危险。
translated by 谷歌翻译
最近的语音情绪识别分析与使用MFCCS频谱图特征和实现诸如卷积神经网络(CNNS)的神经网络方法的实施进行了相当大的进展。胶囊网络(CAPSNET)对CNN的替代品感谢其具有较大容量的分层表示。为了解决这些问题,本研究介绍了独立于文本和独立的讲话者独立的SER新颖体系结构,其中基于结构特征提出了双通道长短短期内存压缩帽(DC-LSTM Compsnet)算法Capsnet。我们所提出的新型分类器可以确保语音情感识别中模型和足够的压缩方法的能效,这不会通过彩铃的原始结构提供。此外,网格搜索方法用于获得最佳解决方案。结果目睹了培训和测试运行时间的性能和减少。用于评估我们的算法的语音数据集是:阿拉伯语Emirati-Egrented语料库,模拟和实际压力语料库下的英语演讲,情感语音和歌曲语料库的英语Ryerson Audio-Visual数据库,以及人群源性情绪多模式演员数据集。这项工作揭示了与其他已知方法相比的最佳特征提取方法是MFCCS Delta-Delta。使用四个数据集和MFCCS Delta-Delta,DC-LSTM CompsNet超越了所有最先进的系统,古典分类器,CNN和原始帽。我们的结果表明,基于Capsnet的拟议工作产生了89.3%的平均情绪识别准确性,其结果表明,拟议的工作产生了89.3%的89.3%。 CNN,支持向量机,多层Perceptron,K-最近邻居,径向基函数和幼稚贝叶斯。
translated by 谷歌翻译
在本文中,我们开发了一种新的多弦乐中国神经唱歌声音合成(SVS)系统,名为Wesinger。为了提高合成声音的准确性和自然性,我们设计了几个特定的​​模块和技术:1)具有多尺度节奏损失和后处理步骤的深度双向LSTM的持续时间模型; 2)类似变压器的声学模型,具有渐进的俯仰加权解码器损失; 3)24 kHz音调感知的LPCNET神经声码器可产生高质量的唱歌波形; 4)一种新型的数据增强方法,具有多手柄预训练,以实现更强的鲁棒性和自然性。据我们所知,Wesinger是第一个同时采用24 kHz LPCNET和多手指预训练的SVS系统。定量和定性评估结果都证明了Wesinger在准确性和自然方面的有效性,并且Wesinger在最近的中国公共唱歌语料库Opencpop \ footNote上实现了最先进的表现{https://wenet.org.cn/ OPENCPOP/}。一些合成的歌曲样本在线可用\ footNote {https://zzw922cn.github.io/wesinger/}。
translated by 谷歌翻译
To better handle long-tail cases in the sequence labeling (SL) task, in this work, we introduce graph neural networks sequence labeling (GNN-SL), which augments the vanilla SL model output with similar tagging examples retrieved from the whole training set. Since not all the retrieved tagging examples benefit the model prediction, we construct a heterogeneous graph, and leverage graph neural networks (GNNs) to transfer information between the retrieved tagging examples and the input word sequence. The augmented node which aggregates information from neighbors is used to do prediction. This strategy enables the model to directly acquire similar tagging examples and improves the general quality of predictions. We conduct a variety of experiments on three typical sequence labeling tasks: Named Entity Recognition (NER), Part of Speech Tagging (POS), and Chinese Word Segmentation (CWS) to show the significant performance of our GNN-SL. Notably, GNN-SL achieves SOTA results of 96.9 (+0.2) on PKU, 98.3 (+0.4) on CITYU, 98.5 (+0.2) on MSR, and 96.9 (+0.2) on AS for the CWS task, and results comparable to SOTA performances on NER datasets, and POS datasets.
translated by 谷歌翻译
由生物声监测设备组成的无线声传感器网络运行的专家系统的部署,从声音中识别鸟类物种将使许多生态价值任务自动化,包括对鸟类种群组成的分析或濒危物种的检测在环境感兴趣的地区。由于人工智能的最新进展,可以将这些设备具有准确的音频分类功能,其中深度学习技术出色。但是,使生物声音设备负担得起的一个关键问题是使用小脚印深神经网络,这些神经网络可以嵌入资源和电池约束硬件平台中。因此,这项工作提供了两个重型和大脚印深神经网络(VGG16和RESNET50)和轻量级替代方案MobilenetV2之间的批判性比较分析。我们的实验结果表明,MobileNetV2的平均F1得分低于RESNET50(0.789 vs. 0.834)的5 \%,其性能优于VGG16,其足迹大小近40倍。此外,为了比较模型,我们创建并公开了西部地中海湿地鸟类数据集,其中包括201.6分钟和5,795个音频摘录,摘录了20种特有鸟类的aiguamolls de l'empord \ e empord \`一个自然公园。
translated by 谷歌翻译