音乐学家使用各种标签在共享标题下对类似的音乐方式进行分类。但是,非专家可以用不同的方式对音乐进行分类。这可能是通过调节和谐,仪器和音乐形式的模式。人们通常通过听力来识别音乐类型,但现在计算机和人工智能(AI)可以自动化此过程。最近在音乐类型分类中申请AI的工作已经不断增长,但没有证据表明对库尔德音乐类型的研究。在这项研究中,我们开发了一个数据集,其中包含880个来自八个不同的库尔德音乐类型的样本。我们评估了两种机器学习方法,深神经网络(DNN)和卷积神经网络(CNN),以识别类型。结果表明,CNN模型通过实现92%而与90%的精度相比优于DNN。
translated by 谷歌翻译
呼吸声分类中的问题已在去年的临床科学家和医学研究员团体中获得了良好的关注,以诊断Covid-19疾病。迄今为止,各种模型的人工智能(AI)进入了现实世界,从人类生成的声音等人生成的声音中检测了Covid-19疾病,例如语音/言语,咳嗽和呼吸。实现卷积神经网络(CNN)模型,用于解决基于人工智能(AI)的机器上的许多真实世界问题。在这种情况下,建议并实施一个维度(1D)CNN,以诊断Covid-19的呼吸系统疾病,例如语音,咳嗽和呼吸。应用基于增强的机制来改善Covid-19声音数据集的预处理性能,并使用1D卷积网络自动化Covid-19疾病诊断。此外,使用DDAE(数据去噪自动编码器)技术来产生诸如输入功能的深声特征,而不是采用MFCC(MEL频率跳跃系数)的标准输入,并且它更好地执行比以前的型号的准确性和性能。
translated by 谷歌翻译
音频分割和声音事件检测是机器聆听中的关键主题,旨在检测声学类别及其各自的边界。它对于音频分析,语音识别,音频索引和音乐信息检索非常有用。近年来,大多数研究文章都采用分类。该技术将音频分为小帧,并在这些帧上单独执行分类。在本文中,我们提出了一种新颖的方法,叫您只听一次(Yoho),该方法受到计算机视觉中普遍采用的Yolo算法的启发。我们将声学边界的检测转换为回归问题,而不是基于框架的分类。这是通过具有单独的输出神经元来检测音频类的存在并预测其起点和终点来完成的。与最先进的卷积复发性神经网络相比,Yoho的F量的相对改善范围从多个数据集中的1%到6%不等,以进行音频分段和声音事件检测。由于Yoho的输出更端到端,并且可以预测的神经元更少,因此推理速度的速度至少比逐个分类快6倍。另外,由于这种方法可以直接预测声学边界,因此后处理和平滑速度约为7倍。
translated by 谷歌翻译
Handwriting Recognition has been a field of great interest in the Artificial Intelligence domain. Due to its broad use cases in real life, research has been conducted widely on it. Prominent work has been done in this field focusing mainly on Latin characters. However, the domain of Arabic handwritten character recognition is still relatively unexplored. The inherent cursive nature of the Arabic characters and variations in writing styles across individuals makes the task even more challenging. We identified some probable reasons behind this and proposed a lightweight Convolutional Neural Network-based architecture for recognizing Arabic characters and digits. The proposed pipeline consists of a total of 18 layers containing four layers each for convolution, pooling, batch normalization, dropout, and finally one Global average pooling and a Dense layer. Furthermore, we thoroughly investigated the different choices of hyperparameters such as the choice of the optimizer, kernel initializer, activation function, etc. Evaluating the proposed architecture on the publicly available 'Arabic Handwritten Character Dataset (AHCD)' and 'Modified Arabic handwritten digits Database (MadBase)' datasets, the proposed model respectively achieved an accuracy of 96.93% and 99.35% which is comparable to the state-of-the-art and makes it a suitable solution for real-life end-level applications.
translated by 谷歌翻译
人们使用移动消息传递服务的增加导致了像网络钓鱼一样的社会工程攻击的传播,考虑到垃圾邮件文本是传播网络钓鱼攻击的主要因素之一,以窃取信用卡和密码等敏感数据。此外,关于Covid-19大流行的谣言和不正确的医疗信息在社交媒体上广泛分享,导致人们的恐惧和混乱。因此,过滤垃圾邮件内容对于降低风险和威胁至关重要。以前的研究依赖于机器学习和深入学习的垃圾邮件分类方法,但这些方法有两个限制。机器学习模型需要手动功能工程,而深度神经网络需要高计算成本。本文介绍了一种动态的深度集合模型,用于垃圾邮件检测,调整其复杂性并自动提取功能。所提出的模型利用卷积和汇集层进行特征提取以及基础分类器,如随机森林和极其随机的树木,用于将文本分类为垃圾邮件或合法的树。此外,该模型采用了Boosting和Bagging等集合学习程序。结果,该模型达到了高精度,召回,F1分数和精度为98.38%。
translated by 谷歌翻译
在大多数领域,从人工智能和游戏到人类计算机互动(HCI)和心理学,面部表情识别是一个重要的研究主题。本文提出了一个用于面部表达识别的混合模型,该模型包括深度卷积神经网络(DCNN)和HAAR级联深度学习体系结构。目的是将实时和数字面部图像分类为所考虑的七个面部情感类别之一。这项研究中使用的DCNN具有更多的卷积层,恢复激活功能以及多个内核,以增强滤波深度和面部特征提取。此外,HAAR级联模型还相互用于检测实时图像和视频帧中的面部特征。来自Kaggle存储库(FER-2013)的灰度图像,然后利用图形处理单元(GPU)计算以加快培训和验证过程。预处理和数据增强技术用于提高培训效率和分类性能。实验结果表明,与最先进的实验和研究相比,分类性能有了显着改善的分类性能。同样,与其他常规模型相比,本文验证了所提出的体系结构在分类性能方面表现出色,提高了6%,总计高达70%的精度,并且执行时间较小,为2098.8S。
translated by 谷歌翻译
当歌曲创作或演奏时,歌手/词曲作者通常会出现通过它表达感受或情感的意图。对于人类而言,将音乐作品或表演中的情感与观众的主观感知相匹配可能会非常具有挑战性。幸运的是,此问题的机器学习方法更简单。通常,它需要一个数据集,从该数据集中提取音频功能以将此信息呈现给数据驱动的模型,从而又将训练以预测给定歌曲与目标情绪匹配的概率是什么。在本文中,我们研究了最近出版物中最常见的功能和模型来解决此问题,揭示了哪些最适合在无伴奏歌曲中识别情感。
translated by 谷歌翻译
Covid-19大流行是人类的祸害,宣称全世界超过500万人的生活。虽然疫苗正在全世界分布,但表观需要实惠的筛选技术,以便为无法获得传统医学的世界服务。人工智能可以提供利用咳嗽声音作为主要筛选模式的解决方案。本文介绍了多种模型,这些模型在学术文献目前呈现的最大评估数据集上取得了相对尊敬的性能。此外,我们还显示性能随着培训数据规模而增加,表明世界各地的数据收集,以帮助使用非传统方式对抗Covid-19大流行。
translated by 谷歌翻译
精神分裂症(SZ)是一种精神障碍,由于大脑中特定化学品的分泌,一些脑区的功能失去平衡,导致思想,行动和情绪之间缺乏协调。本研究提供了通过脑电图(EEG)信号的自动化SZ诊断的各种智能深度学习(DL)方法。将得到的结果与传统智能方法的结果进行比较。为了实施拟议的方法,已经使用了波兰华沙精神病学与神经学研究所的数据集。首先,将EEG信号分成25秒的时间框架,然后通过Z分数或标准L2标准化。在分类步骤中,考虑通过EEG信号考虑两种不同的方法进行SZ诊断。在该步骤中,首先通过传统的机器学习方法进行EEG信号的分类,例如,支持向量机,K-CORMONT邻居,决策树,NA \“IVE贝叶斯,随机森林,极其随机树木和袋装。各种提出的DL模型,即长的短期存储器(LSTMS),一维卷积网络(1D-CNNS)和1D-CNN-LSTMS。在此步骤中,实现并比较了DL模型具有不同的激活功能。在提议的DL模型中,CNN-LSTM架构具有最佳性能。在这种架构中,使用具有Z分数和L2组合标准化的Relu激活功能。所提出的CNN-LSTM模型具有达到99.25%的准确度,比该领域的大多数前研究的结果更好。值得一提的是,为了执行所有模拟,已经使用了具有k = 5的k折叠交叉验证方法。
translated by 谷歌翻译
人工神经网络(ANN)能够学习,纠正错误和将大量原始数据转化为治疗和护理的有用医疗决策,这增加了增强患者安全和护理质量的普及。因此,本文审查了ANN的关键作用为患者医疗保健决策提供有价值的见解和有效的疾病诊断。我们彻底审查了现有文献中的不同类型的ANN,以便为复杂应用程序进行高级ANNS适配。此外,我们还调查Ann的各种疾病诊断和治疗的进步,例如病毒,皮肤,癌症和Covid-19。此外,我们提出了一种名为ConxNet的新型深度卷积神经网络(CNN)模型,用于提高Covid-19疾病的检测准确性。 ConxNet经过培训并使用不同的数据集进行测试,它达到了超过97%的检测精度和精度,这明显优于现有型号。最后,我们突出了未来的研究方向和挑战,例如算法的复杂性,可用数据,隐私和安全性,以及与ANN的生物传染集成。这些研究方向需要大幅关注改善医疗诊断和治疗应用的ANN的范围。
translated by 谷歌翻译
Automatic Arabic handwritten recognition is one of the recently studied problems in the field of Machine Learning. Unlike Latin languages, Arabic is a Semitic language that forms a harder challenge, especially with variability of patterns caused by factors such as writer age. Most of the studies focused on adults, with only one recent study on children. Moreover, much of the recent Machine Learning methods focused on using Convolutional Neural Networks, a powerful class of neural networks that can extract complex features from images. In this paper we propose a convolutional neural network (CNN) model that recognizes children handwriting with an accuracy of 91% on the Hijja dataset, a recent dataset built by collecting images of the Arabic characters written by children, and 97% on Arabic Handwritten Character Dataset. The results showed a good improvement over the proposed model from the Hijja dataset authors, yet it reveals a bigger challenge to solve for children Arabic handwritten character recognition. Moreover, we proposed a new approach using multi models instead of single model based on the number of strokes in a character, and merged Hijja with AHCD which reached an averaged prediction accuracy of 96%.
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
深度学习(DL)算法在不同领域显示出令人印象深刻的性能。其中,由于一些有趣的模式,在过去的几十年中,音频吸引了许多研究人员 - 尤其是在音频数据的分类中。为了更好地执行音频分类,功能选择和组合起着关键作用,因为它们有可能制造或破坏任何DL模型的性能。为了调查这一角色,我们对具有各种最先进的音频特征的多种尖端DL模型(即卷积神经网络,Extricnet,Mobilenet,Supper Vector Machine和Multi-Pecceptron)的性能进行了广泛的评估。 (即MEL频谱图,MEL频率Cepstral系数和零交叉率)在三个不同的数据集上独立或作为组合(即通过结合)(即免费的口语数据集,音频urdu数据集和Audio Gujarati Digits Digaset数据集) )。总体而言,结果建议特征选择取决于数据集和模型。但是,特征组合应仅限于单独使用时已经实现良好性能的唯一特征(即主要是MEL频谱图,MEL频率Cepstral系数)。这种功能组合/结合使我们能够胜过以前的最新结果,而与我们选择的DL模型无关。
translated by 谷歌翻译
音乐作品结构的分析是一项任务,对人工智能仍然是一个挑战,特别是在深度学习领域。它需要先前识别音乐件的结构范围。最近通过无监督的方法和\ Texit {端到端}技术研究了这种结构边界分析,例如使用熔融缩放的对数级阶段特征(MLS),自相似性矩阵(SSM)等卷积神经网络(CNN)或自我相似性滞后矩阵(SSLM)作为输入和用人的注释培训。已发布几项研究分为无监督和\ yexit {端到端}方法,其中使用不同的距离度量和音频特性以不同方式进行预处理,因此通过计算模型输入的广义预处理方法是丢失的。这项工作的目的是通过比较来自不同池策略,距离度量和音频特性的输入来建立预处理这些输入的一般方法,也考虑到计算时间来获得它们。我们还建立了要交付给CNN的最有效的投入结合,以便建立最有效的方法来提取音乐件结构的限制。通过对输入矩阵和池策略的充分组合,我们获得了0.411的测量精度$ 0.411优于在相同条件下获得的目前。
translated by 谷歌翻译
卷积神经网络(CNN)以其出色的功能提取能力而闻名,可以从数据中学习模型,但被用作黑匣子。对卷积滤液和相关特征的解释可以帮助建立对CNN的理解,以区分各种类别。在这项工作中,我们关注的是CNN模型的解释性,称为CNNexplain,该模型用于COVID-19和非CoVID-19分类,重点是卷积过滤器的特征解释性,以及这些功能如何有助于分类。具体而言,我们使用了各种可解释的人工智能(XAI)方法,例如可视化,SmoothGrad,Grad-Cam和Lime来提供卷积滤液的解释及相关特征及其在分类中的作用。我们已经分析了使用干咳嗽光谱图的这些方法的解释。从石灰,光滑果实和GRAD-CAM获得的解释结果突出了不同频谱图的重要特征及其与分类的相关性。
translated by 谷歌翻译
使用视频/图像的驾驶员嗜睡检测是当今驾驶员安全时间最重要的领域之一。在诸如嗜睡检测的计算机视觉应用中应用的深度学习技术,尤其是卷积神经网络(CNN)的发展,由于近几十年来,由于技术的巨大增加,已经显示出有前途的结果。关闭或闪烁过度,打呵欠,点头和闭塞的眼睛都是嗜睡的关键方面。在这项工作中,我们在Yawdd数据集上应用了四种不同的卷积神经网络(CNN)技术,以检测和检查困难程度的程度,这取决于具有特定姿势和遮挡变化的打开频率。初步计算结果表明,我们所提出的集合卷积神经网络(ECNN)通过实现0.935的F1得分优于传统的基于CNN的方法,而另外三个CNN,如CNN1,CNN2和CNN3接近的方法,则获得0.92,0.90,和0.912 F1分别分别分别进行评分。
translated by 谷歌翻译
纯粹后的损害评估对于管理资源分配和执行有效响应至关重要。传统上,这种评估是通过野外侦察进行的,该侦察速度缓慢,危险且艰巨。取而代之的是,在本文中,我们进一步提出了通过卷积神经网络实施深度学习的想法,以便将建筑物的后卫星卫星图像分类为被洪水/损坏或未损坏的。该实验是在2017年哈维飓风之后使用的,该数据集采用了一个包含大休斯顿地区的纯种后卫星图像的数据集进行。本文实施了三个卷积神经网络模型体系结构,并配对了其他模型考虑,以实现高精度(超过99%),(超过99%),,超过99%),(超过99%)加强在殖民后灾难评估中有效使用机器学习。
translated by 谷歌翻译
鲜花在从环境中去除乏味的情况下起着至关重要的作用。开花植物的生命周期涉及授粉,受精,开花,种子形成,分散和发芽。 Honeybees授粉了所有开花植物的75%。环境污染,气候变化,自然景观拆除等等,威胁着自然栖息地,从而不断减少蜜蜂的数量。结果,一些研究人员试图解决这个问题。将声学分类应用于蜂巢声音的记录可能是检测其中的变化的一种方式。在这项研究中,我们在记录的声音上使用深度学习技术,即顺序神经网络,卷积神经网络和经常性的神经网络,以从非季节的声音中分类蜜蜂的声音。此外,我们在一些流行的非深度学习技术中进行了比较研究,即支持向量机,决策树,随机森林和na \“ ive bayes,以及深度学习技术。还在合并的记录中验证了这些技术声音(25-75%的噪音)。
translated by 谷歌翻译
Audio sound recognition and classification is used for many tasks and applications including human voice recognition, music recognition and audio tagging. In this paper we apply Mel Frequency Cepstral Coefficients (MFCC) in combination with a range of machine learning models to identify (Australian) birds from publicly available audio files of their birdsong. We present approaches used for data processing and augmentation and compare the results of various state of the art machine learning models. We achieve an overall accuracy of 91% for the top-5 birds from the 30 selected as the case study. Applying the models to more challenging and diverse audio files comprising 152 bird species, we achieve an accuracy of 58%
translated by 谷歌翻译
为了产生最大的影响,必须使用基于证据的决策制定公共卫生计划。创建机器学习算法是为了收集,存储,处理和分析数据以提供知识和指导决策。任何监视系统的关键部分是图像分析。截至最近,计算机视觉和机器学习的社区最终对此感到好奇。这项研究使用各种机器学习和图像处理方法来检测和预测疟疾疾病。在我们的研究中,我们发现了深度学习技术作为具有更广泛适用于疟疾检测的智能工具的潜力,通过协助诊断病情,可以使医生受益。我们研究了针对计算机框架和组织的深度学习的共同限制,计算需要准备数据,准备开销,实时执行和解释能力,并发现对这些限制的轴承的未来询问。
translated by 谷歌翻译