系统变化是代谢组学数据分析中的常见问题。因此,使用不同的缩放和归一化技术来预处理数据进行代谢组学数据分析。尽管文献中有几种缩放方法可用,但是缩放,转换和/或归一化技术的选择会影响进一步的统计分析。选择适当的缩放技术进行下游分析以获得准确的结果或做出正确的决定是一项挑战。此外,现有的缩放技术对离群值或极值敏感。为了填补空白,我们的目标是引入不受异常值影响的强大缩放方法,并为下游分析提供了更准确的结果。在这里,我们引入了一种新的加权缩放方法,该方法对异常值具有强大的功能,但是,在数据预处理中不需要其他异常检测/治疗步骤,并将其与通过人工和实际代谢组学数据集进行了比较与常规缩放和归一化技术。我们在不存在和存在不同百分比的异常值的情况下,使用代谢组学数据分析评估了所提出的方法的性能与其他现有的常规缩放技术相比。结果表明,在大多数情况下,在不存在和存在异常值的情况下,提出的缩放技术的性能比传统的缩放方法更好。提出的方法改善了进一步的下游代谢组学分析。提出的强大缩放方法的R函数可在https://github.com/nishithkumarpaul/robustscaling/blob/main/main/wscaling.r.r
translated by 谷歌翻译
通过分析多OMICS数据,许多统计机器方法最终可能会突出复杂疾病的病因的新颖特征。然而,当观察到的样品可能被对抗性腐败的异常值(例如,虚构数据分布)可能被污染时,它们对分布的一些偏差敏感。同样,统计进步落后于支持复杂多OMICS数据集成的综合数据驱动分析。我们提出了一种新颖的非线性M估计的方法,“强大的内核机器回归(Robkmr)”,提高统计机器回归的鲁棒性和虚构数据的多样性,以检查多OMIC的高阶综合效果数据集。我们地址稳健的内核中心克矩阵,以准确估计模型参数。我们还提出了一个强大的评分测试,以评估来自多OMICS数据的特征的边缘和关节凸起产品。我们将我们提出的方法应用于来自白种人女性的骨质疏松症(OP)的多OMICS数据集。实验表明,所提出的方法有效地识别了OP的相关危险因素。具有固体证据(p值= 0.00001),生物验证,基于网络的分析,因果推断和药物重新施用,所选三个三胞胎((DKK1,SMTN,DRGX),(MTND5,FastKD2,CSMD3),(MTND5, COG3,CSMD3))是显着的生物标志物,直接涉及BMD。总的来说,前三种选定的基因(DKK1,MTND5,FastKD2)和一个基因(P值下的SIDT1 = 0.001)显着粘合来自30个药物,IBANDRONENT,ALENDRONES和30个候选药物重新培养的候选药物。此外,所提出的方法可以应用于可用多OMICS数据集的任何疾病模型。
translated by 谷歌翻译
Handwritten character recognition is a hot topic for research nowadays. If we can convert a handwritten piece of paper into a text-searchable document using the Optical Character Recognition (OCR) technique, we can easily understand the content and do not need to read the handwritten document. OCR in the English language is very common, but in the Bengali language, it is very hard to find a good quality OCR application. If we can merge machine learning and deep learning with OCR, it could be a huge contribution to this field. Various researchers have proposed a number of strategies for recognizing Bengali handwritten characters. A lot of ML algorithms and deep neural networks were used in their work, but the explanations of their models are not available. In our work, we have used various machine learning algorithms and CNN to recognize handwritten Bengali digits. We have got acceptable accuracy from some ML models, and CNN has given us great testing accuracy. Grad-CAM was used as an XAI method on our CNN model, which gave us insights into the model and helped us detect the origin of interest for recognizing a digit from an image.
translated by 谷歌翻译
作为世界上口语最广泛的语言之一,孟加拉国的使用在社交媒体世界中也在增加。讽刺是一种积极的陈述或言论,其基本的负面动机在当今的社交媒体平台中广泛使用。在过去的许多年中,英语的讽刺检测有了显着改善,但是有关孟加拉讽刺检测的情况仍然没有改变。结果,仍然很难识别孟加拉国中的讽刺,缺乏高质量的数据是主要因素。本文提出了Banglasarc,该数据集是专门为孟加拉文本数据讽刺检测的数据集。该数据集包含5112条评论/状态和从各种在线社交平台(例如Facebook,YouTube)以及一些在线博客中收集的内容。由于孟加拉语中分类评论的数据收集数量有限,因此该数据集将有助于确定讽刺的研究,认识到人们的情绪,检测到各种类型的孟加拉语表达式和其他领域。该数据集可在https://www.kaggle.com/datasets/sakibapon/banglasarc上公开获得。
translated by 谷歌翻译
小型模块化反应堆的概念改变了解决未来能源危机的前景。考虑到其较低的投资要求,模块化,设计简单性和增强的安全功能,这种新的反应堆技术非常有希望。人工智能驱动的多尺度建模(中子,热液压,燃料性能等)在小型模块化反应堆的研究中纳入了数字双胞胎和相关的不确定性。在这项工作中,进行了一项关于耐亡燃料的多尺度建模的全面研究。探索了这些燃料在轻水的小型模块化反应堆中的应用。本章还重点介绍了机器学习和人工智能在设计优化,控制和监视小型模块反应器中的应用。最后,简要评估了有关人工智能在高燃烧复合事故耐受燃料的发展中的研究差距。还讨论了实现这些差距的必要行动。
translated by 谷歌翻译
大自然影响了许多元元素算法。在过去的几十年中,它们的数量一直在升级。这些算法中的大多数试图模仿自然的生物学和物理现象。这项研究集中在花授粉算法上,该算法是几种生物启发的算法之一。建议使用特定的全球授粉和局部授粉策略,建议在限制空间中进行花粉谷物探索和剥削。作为一种“群”元元素算法,其强度在于找到最佳解决方案的附近,而不是识别最小值。这项工作详细介绍了对原始方法的修改。这项研究发现,通过更改“开关概率”的特定值,具有不同尺寸和功能的动态值,结果主要比原始花授粉法改进。
translated by 谷歌翻译
在现代资本市场中,由于各种社会,财务,政治和其他动态因素,股票的价格通常被认为是高度波动和不可预测的。借助计算和周到的投资,股票市场可以通过最少的资本投资来确保可观的利润,而错误的预测可以轻松地为投资者带来灾难性的财务损失。本文介绍了最近引入的机器学习模型 - 变压器模型的应用,以预测孟加拉国领先的证券交易所达卡证券交易所(DSE)的未来价格。变压器模型已被广泛用于自然语言处理和计算机视觉任务,但据我们所知,从未在DSE进行股票价格预测任务。最近,介绍了代表时间序列功能的Time2VEC编码,使得可以采用变压器模型进行股票价格预测。本文集中于基于变压器的模型的应用,以根据其历史和每周的数据来预测DSE中列出的八个特定股票的价格转移。我们的实验证明了大多数股票的有希望的结果和可接受的根平方误差。
translated by 谷歌翻译
知识图,例如Wikidata,包括结构和文本知识,以表示知识。对于图形嵌入和语言模型的两种方式中的每种方法都可以学习预测新型结构知识的模式。很少有方法与模式结合学习和推断,而这些现有的方法只能部分利用结构和文本知识的相互作用。在我们的方法中,我们以单个方式的现有强烈表示为基础,并使用超复杂代数来表示(i),(i),单模式嵌入以及(ii),不同方式之间的相互作用及其互补的知识表示手段。更具体地说,我们建议4D超复合数的二脑和四个元素表示,以整合四个模态,即结构知识图形嵌入,单词级表示(例如\ word2vec,fastText,fastText),句子级表示(句子transformer)和文档级表示(句子级别)(句子级别)(句子级表示)(句子变压器,doc2vec)。我们的统一矢量表示通过汉密尔顿和二脑产物进行标记的边缘的合理性,从而对不同模态之间的成对相互作用进行建模。对标准基准数据集的广泛实验评估显示了我们两个新模型的优越性,除了稀疏的结构知识外,还可以提高链接预测任务中的性能。
translated by 谷歌翻译
社交媒体和数字技术的广泛使用促进了有关事件和活动的各种新闻和信息。尽管分享了积极的信息误导和虚假信息,但社交媒体也正在传播。在确定人类专家和自动工具手动的这种误导性信息方面,已经做出了努力。由于包含事实主张的大量信息正在网上出现,手动努力并不能很好地扩展。因此,自动确定值得支票的主张对于人类专家来说非常有用。在这项研究中,我们描述了我们参与子任务-1a:checkthat的推文(英语,荷兰语和西班牙语)的值得检查!在CLEF 2022的实验室。我们执行了标准的预处理步骤,并应用了不同的模型来确定给定文本是否值得事实检查。我们使用过度采样技术来平衡数据集和应用SVM和随机森林(RF)和TF-IDF表示。我们还将BERT多语言(BERT-M)和XLM-ROBERTA-BASE预培训模型用于实验。我们将BERT-M用于官方提交,我们的系统分别在西班牙语,荷兰语和英语中分别排名第三,第五和第十二。在进一步的实验中,我们的评估表明,变压器模型(Bert-M和XLM-Roberta-bas)在荷兰语和英语语言中优于SVM和RF,在荷兰语和英语中,对于西班牙来说,观察到不同的情况。
translated by 谷歌翻译
孟加拉语是世界上说话最多的语言之一,全球有超过3亿的演讲者。尽管它很受欢迎,但由于缺乏多样化的开源数据集,对孟加拉语音识别系统的发展的研究受到阻碍。作为前进的道路,我们已经众包孟加拉语音语音数据集,这是句子级自动语音识别语料库。该数据集于Mozilla Common Voice平台上收集,是正在进行的广告系列的一部分,该活动已在2个月内收集了超过400个小时的数据,并且正在迅速增长。我们的分析表明,与OpenSLR孟加拉ASR数据集相比,该数据集具有更多的发言人,音素和环境多样性,这是最大的现有开源孟加拉语语音数据集。我们提供从数据集获得的见解,并讨论未来版本中需要解决的关键语言挑战。此外,我们报告了一些自动语音识别(ASR)算法的当前性能,并为将来的研究设定了基准。
translated by 谷歌翻译