智能论文笔记

Detecting of a Patient's Condition From Clinical Narratives Using Natural Language Representation

Thanh-Dung Le , Rita Noumeir , Jerome Rambaud , Guillaume Sans , Philippe Jouvet

分类：自然语言处理

2021-04-08

临床数据管理系统和人工智能方法的快速进展使个性化药物的时代能够。重症监护单位（ICU）是这种发展的理想临床研究环境，因为它们收集了许多临床数据，并且是高度计算机化的环境。我们在使用临床自然语言的前瞻性ICU数据库中设计了一种回顾性临床研究，帮助早期诊断严重生病的儿童心力衰竭。该方法包括学习算法的实证实验，以了解法国临床票据数据的隐藏解释和呈现。本研究包括1386名患者的临床票据，符合5444行票据。有1941个阳性案件（总计36％）和3503个使用标准方法的独立医生分类的负案件。多层的感知者神经网络优于其他判别和生成的分类器。因此，所提出的框架产生了总体分类性能，精度为89％，召回88％和89％的精度。本研究成功地应用了学习代表和机器学习算法，以检测单一法国机构中的临床自然语言的心力衰竭。需要进一步的工作来在其他机构和其他语言中使用相同的方法。

translated by 谷歌翻译

Machine Learning Based on Natural Language Processing to Detect Cardiac Failure in Clinical Narratives

Thanh-Dung Le , Rita Noumeir , Jerome Rambaud , Guillaume Sans , Philippe Jouvet

分类：自然语言处理

2021-04-08

本文提出的研究目的是通过在楚圣特贾斯汀医院的研究数据仓库中的医生笔记中，基于自然语言处理制定自然语言处理的机器学习算法。首先，使用字词（弓），术语频率逆文档频率（TFIDF）和神经单词嵌入（Word2VEC）采用单词表示学习技术。每个表示技术旨在在关键护理数据中保留语义和句法分析。它有助于丰富单词表示的相互信息，并导致进一步适当的分析步骤的优势。其次，通过从前一步的创建的词表示矢量空间来使用机器学习分类剂来检测心力衰竭或稳定患者的患者条件。该机器学习方法基于监督二进制分类算法，包括Logistic回归（LR），高斯天真贝叶斯（Gaussiannb）和多层的Perceptron神经网络（MLPNN）。从技术上讲，它主要优化培训分类器期间的经验损失。结果，将完成自动学习算法以利用高分类性能，包括精度（ACC），精度（Pre），召回（REC）和F1得分（F1）。结果表明，TFIDF和MLPNN的组合总是表现出与所有整体性能的其他组合。在没有任何特征选择的情况下，所提出的框架分别产生了84％和82％，85％和83％的ACC，Pre，Rec和F1的整体分类性能。值得注意的是，如果特征选择很好，整体性能最终会为每个评估提高4％。

translated by 谷歌翻译

Adaptation of Autoencoder for Sparsity Reduction From Clinical Notes Representation Learning

Thanh-Dung Le , Rita Noumeir , Jerome Rambaud , Guillaume Sans , Philippe Jouvet

分类：机器学习 | 自然语言处理

2022-09-26

在处理小型数据集上的临床文本分类时，最近的研究证实，经过调整的多层感知器的表现优于其他生成分类器，包括深度学习。为了提高神经网络分类器的性能，可以有效地使用学习表示的功能选择。但是，大多数特征选择方法仅估计变量之间的线性依赖性程度，并根据单变量统计测试选择最佳特征。此外，学习表示所涉及的特征空间的稀疏性被忽略了。目标：因此，我们的目标是通过压缩临床代表性空间来访问一种替代方法来解决稀疏性，在这种情况下，法国临床笔记也可以有效地处理有限的法国临床笔记。方法：本研究提出了一种自动编码器学习算法来利用临床注释表示的稀疏性。动机是通过降低临床音符表示特征空间的维度来确定如何压缩稀疏的高维数据。然后在受过训练和压缩的特征空间中评估分类器的分类性能。结果：建议的方法为每种评估提供了高达3％的总体绩效增长。最后，分类器在检测患者病情时达到了92％的准确性，91％的召回，91％的精度和91％的F1得分。此外，通过应用理论信息瓶颈框架来证明压缩工作机制和自动编码器预测过程。

translated by 谷歌翻译

Attention-based Bidirectional LSTM for Deceptive Opinion Spam Classification

Ashish Salunkhe

分类：自然语言处理

2021-12-29

在线评论在电子商务中发挥重要作用进行决策。大部分人口做出了哪些地方，餐厅访问，以根据各自的平台发布的评论来购买的地方，从哪里购买。欺诈性审查或意见垃圾邮件被分类为一个不诚实或欺骗性的审查。产品或餐厅的肯定审查有助于吸引客户，从而导致销售额增加，而负面评论可能会妨碍餐厅或产品销售的进展，从而导致令人害羞的声誉和损失。欺诈性评论是故意发布的各种在线审查平台，以欺骗客户购买，访问或分散产品或餐厅的注意力。它们也被编写或诋毁产品的辩护。该工作旨在检测和分类审查作为欺骗性或真实性。它涉及使用各种深入学习技术来分类审查和概述涉及基于人的双向LSTM的提出的方法，以解决与基线机器学习技术的评论和比较研究中的语义信息有关的问题，以进行审查分类。

translated by 谷歌翻译

Machine learning based disease diagnosis: A comprehensive review

Md Manjurul Ahsan , Zahed Siddique

分类：机器学习

2021-12-31

在全球范围内，有实质性的未满足需要有效地诊断各种疾病。不同疾病机制的复杂性和患者人群的潜在症状具有巨大挑战，以发展早期诊断工具和有效治疗。机器学习（ML），人工智能（AI）区域，使研究人员，医师和患者能够解决这些问题的一些问题。基于相关研究，本综述解释了如何使用机器学习（ML）和深度学习（DL）来帮助早期识别许多疾病。首先，使用来自Scopus和Science（WOS）数据库的数据来给予所述出版物的生物计量研究。对1216个出版物的生物计量研究进行了确定，以确定最多产的作者，国家，组织和最引用的文章。此次审查总结了基于机器学习的疾病诊断（MLBDD）的最新趋势和方法，考虑到以下因素：算法，疾病类型，数据类型，应用和评估指标。最后，该文件突出了关键结果，并向未来的未来趋势和机遇提供了解。

translated by 谷歌翻译

Auto Response Generation in Online Medical Chat Services

Hadi Jahanshahi , Syed Kazmi , Mucahit Cevik

分类：自然语言处理 | 机器学习

2021-04-26

通过为患者启用远程医疗服务，远程医疗有助于促进医疗专业人员的机会。随着必要的技术基础设施的出现，这些服务已逐渐流行。自从Covid-19危机开始以来，远程医疗的好处就变得更加明显，因为人们在大流行期间倾向于亲自探望医生。在本文中，我们专注于促进医生和患者之间的聊天课程。我们注意到，随着对远程医疗服务的需求的增加，聊天体验的质量和效率可能至关重要。因此，我们为医学对话开发了一种智能的自动反应生成机制，该机制可帮助医生有效地对咨询请求做出反应，尤其是在繁忙的课程中。我们探索了9个月内收集的医生和患者之间的900,000多个匿名的历史在线信息。我们实施聚类算法，以确定医生最常见的响应，并相应地手动标记数据。然后，我们使用此预处理数据来训练机器学习算法以生成响应。所考虑的算法有两个步骤：过滤（即触发）模型，以滤除不可行的患者消息和一个响应发生器，以建议成功通过触发阶段的响应前3位医生响应。该方法为Precision@3提供了83.28 \％的精度，并显示出其参数的鲁棒性。

translated by 谷歌翻译

Analyzing the impact of feature selection on the accuracy of heart disease prediction

Muhammad Salman Pathan , Avishek Nag , Muhammad Mohisn Pathan , Soumyabrata Dev

分类：机器学习

2022-06-07

心脏病已成为对人类生活产生重大影响的最严重疾病之一。在过去的十年中，它已成为全球人民死亡的主要原因之一。为了防止患者进一步损害，准确地诊断为心脏病是一个重要因素。最近，我们看到了非侵入性医学程序的用法，例如医学领域的基于人工智能的技术。专门的机器学习采用了多种算法和技术，这些算法和技术被广泛使用，并且在较少的时间以诊断心脏病的准确诊断非常有用。但是，对心脏病的预测并不是一件容易的事。医疗数据集的规模不断增加，使从业者了解复杂的特征关系并做出疾病预测是一项复杂的任务。因此，这项研究的目的是从高度维数据集中确定最重要的风险因素，这有助于对心脏病的准确分类，并减少并发症。为了进行更广泛的分析，我们使用了具有各种医学特征的两个心脏病数据集。基准模型的分类结果证明，相关特征对分类精度产生了很大的影响。即使功能减少，与在全功能集中训练的模型相比，分类模型的性能随着训练时间的减少而显着提高。

translated by 谷歌翻译

Improved two-stage hate speech classification for twitter based on Deep Neural Networks

Georgios K. Pitsilis

分类：自然语言处理 | 人工智能

2022-06-08

仇恨言论是一种在线骚扰的形式，涉及使用滥用语言，并且在社交媒体帖子中通常可以看到。这种骚扰主要集中在诸如宗教，性别，种族等的特定群体特征上，如今它既有社会和经济后果。文本文章中对滥用语言的自动检测一直是一项艰巨的任务，但最近它从科学界获得了很多兴趣。本文解决了在社交媒体中辨别仇恨内容的重要问题。我们在这项工作中提出的模型是基于LSTM神经网络体系结构的现有方法的扩展，我们在短文中适当地增强和微调以检测某些形式的仇恨语言，例如种族主义或性别歧视。最重要的增强是转换为由复发性神经网络（RNN）分类器组成的两阶段方案。将第一阶段的所有一Vs式分类器（OVR）分类器的输出组合在一起，并用于训练第二阶段分类器，最终决定了骚扰的类型。我们的研究包括对在16K推文的公共语料库中评估的第二阶段提出的几种替代方法的性能比较，然后对另一个数据集进行了概括研究。报道的结果表明，与当前的最新技术相比，在仇恨言论检测任务中，所提出的方案的分类质量出色。

translated by 谷歌翻译

ANOVA-based Automatic Attribute Selection and a Predictive Model for Heart Disease Prognosis

Mohammed Nowshad Ruhani Chowdhury , Wandong Zhang , Thangarajah Akilan

分类：机器学习

2022-07-30

研究表明，心血管疾病（CVD）对人类健康是恶性的研究。因此，重要的是具有有效的CVD预后方法。为此，医疗保健行业采用了基于机器学习的智能解决方案，以减轻CVD预后的手动过程。因此，这项工作提出了一种信息融合技术，该技术通过分析方差（ANOVA）和域专家的知识结合了人的关键属性。它还引入了新的CVD数据样本集，用于新兴研究。进行了三十八个实验，以验证四个公开可用基准数据集中提出的框架的性能以及在这项工作中新创建的数据集。消融研究表明，所提出的方法可以达到竞争平均平均准确性（MAA）为99.2％，平均AUC平均AUC为97.9％。

translated by 谷歌翻译

Machine Learning Approaches to Predict Breast Cancer: Bangladesh Perspective

Taminul Islam , Arindom Kundu , Nazmul Islam Khan , Choyon Chandra Bonik , Flora Akter , Md Jihadul Islam

分类：机器学习

2022-06-30

如今，乳腺癌已成为近年来最突出的死亡原因之一。在所有恶性肿瘤中，这是全球妇女最常见和主要的死亡原因。手动诊断这种疾病需要大量的时间和专业知识。乳腺癌的检测是耗时的，并且可以通过开发基于机器的乳腺癌预测来减少疾病的传播。在机器学习中，系统可以从先前的实例中学习，并使用各种统计，概率和优化方法从嘈杂或复杂的数据集中找到难以检测的模式。这项工作比较了几种机器学习算法的分类准确性，精度，灵敏度和新近收集的数据集的特异性。在这种工作决策树，随机森林，逻辑回归，天真的贝叶斯和XGBoost中，已经实施了这五种机器学习方法，以在我们的数据集中获得最佳性能。这项研究的重点是找到最佳的算法，该算法可以预测乳腺癌，以最高的准确性。这项工作在效率和有效性方面评估了每种算法数据分类的质量。并与该领域的其他已发表工作相比。实施模型后，本研究达到了最佳模型准确性，在随机森林和XGBoost上达到94％。

translated by 谷歌翻译

NeuraHealth: An Automated Screening Pipeline to Detect Undiagnosed Cognitive Impairment in Electronic Health Records with Deep Learning and Natural Language Processing

Tanish Tyagi , Colin G. Magdamo , Ayush Noori , Zhaozhi Li , Xiao Liu , Mayuresh Deodhar , Zhuoqiao Hong , Wendong Ge , Elissa M. Ye , Yi-han Sheu

分类：自然语言处理

2022-01-12

与痴呆症相关的认知障碍（CI）在全球范围内影响超过5500万人，并且每3秒钟以一个新病例的速度迅速增长。随着临床试验反复出现的失败，早期诊断至关重要，但是在低水平和中等收入国家中，全球75％的痴呆症病例未被诊断为90％。众所周知，当前的诊断方法是复杂的，涉及对医学笔记，大量认知测试，昂贵的脑部扫描或脊柱液体测试的手动审查。与CI相关的信息经常在电子健康记录（EHR）中找到，并且可以为早期诊断提供重要线索，但是专家的手动审查是繁琐的，并且容易发生。该项目开发了一种新型的最新自动筛选管道，用于可扩展和高速发现EHR中的CI。为了了解EHR中复杂语言结构的语言环境，构建了一个8,656个序列的数据库，以训练基于注意力的深度学习自然语言处理模型以对序列进行分类。使用序列级别分类器开发了基于逻辑回归的患者级别预测模型。深度学习系统的精度达到了93％，AUC = 0.98，以识别其EHR中没有较早诊断，与痴呆有关的诊断代码或与痴呆有关的药物的患者。否则，这些患者将未被发现或检测到太晚。 EHR筛选管道已部署在Neurahealthnlp中，这是一种用于自动化和实时CI筛选的Web应用程序，只需将EHR上传到浏览器中即可。 Neurahealthnlp更便宜，更快，更容易获得，并且胜过当前的临床方法，包括基于文本的分析和机器学习方法。它使得早期诊断可在稀缺的医疗服务中可行，但可访问的互联网或蜂窝服务。

translated by 谷歌翻译

Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density

Juuso Eronen , Michal Ptaszynski , Fumito Masui , Aleksander Smywiński-Pohl , Gniewosz Leliwa , Michal Wroczynski

分类：自然语言处理 | 人工智能

2021-11-02

我们使用不同的语言支持特征预处理方法研究特征密度（FD）的有效性，以估计数据集复杂性，这又用于比较估计任何训练之前机器学习（ML）分类器的潜在性能。我们假设估计数据集复杂性允许减少所需实验迭代的数量。这样我们可以优化ML模型的资源密集型培训，这是由于可用数据集大小的增加以及基于深神经网络（DNN）的模型的不断增加的普及而成为一个严重问题。由于训练大规模ML模型引起的令人惊叹的二氧化碳排放量，不断增加对更强大的计算资源需求的问题也在影响环境。该研究是在多个数据集中进行的，包括流行的数据集，例如用于培训典型情感分析模型的Yelp业务审查数据集，以及最近的数据集尝试解决网络欺凌问题，这是一个严重的社会问题，也是一个严重的社会问题一个更复杂的问题，形成了语言代表的观点。我们使用收集多种语言的网络欺凌数据集，即英语，日语和波兰语。数据集的语言复杂性的差异允许我们另外讨论语言备份的单词预处理的功效。

translated by 谷歌翻译

Modern Machine-Learning Predictive Models for Diagnosing Infectious Diseases

Eman Yahia Alqaissi , Fahd Saleh Alotaibi , Muhammad Sher Ramzan

分类：机器学习 | 人工智能

2022-06-15

控制传染病是一个主要的健康优先事项，因为它们可以传播和感染人类，从而演变为流行病或流行病。因此，早期发现传染病是一种重要需求，许多研究人员已经开发出在早期诊断它们的模型。本文审查了用于传染病诊断的最新机器学习（ML）算法的研究文章。我们从2015年至2022年搜索了科学，ScienceDirect，PubMed，Springer和IEEE数据库，确定了审查的ML模型的优缺点，并讨论了推进该领域研究的可能建议。我们发现大多数文章都使用了小型数据集，其中很少有实时数据。我们的结果表明，合适的ML技术取决于数据集的性质和所需的目标。

translated by 谷歌翻译

Machine Learning and Ensemble Approach Onto Predicting Heart Disease

Aaditya Surya

分类：机器学习 | 人工智能

2021-11-16

一个躺在胸腔里的心脏的四个基本腔腔对一个人的生存至关重要，但讽刺地证明是最脆弱的。心血管疾病（CVD）也通常被称为心脏病，在过去几十年中，人类在人类死亡原因中稳步发展。考虑到这一点统计，很明显，患有CVDS的患者需要快速且正确的诊断，以便于早期治疗来减少死亡的机会。本文试图利用提供的数据，以培训分类模型，如逻辑回归，k最近邻居，支持向量机，决策树，高斯天真贝叶斯，随机森林和多层感知（人工神经网络），最终使用柔软投票合奏技术，以便尽可能多地诊断。

translated by 谷歌翻译

Automatic Mapping of Unstructured Cyber Threat Intelligence: An Experimental Study

Vittorio Orbinato , Mariarosaria Barbaraci , Roberto Natella , Domenico Cotroneo

分类：自然语言处理 | 机器学习

2022-08-25

积极的安全方法，例如对手仿真，利用有关威胁行为者及其技术的信息（网络威胁智能，CTI）。但是，大多数CTI仍然以非结构化的形式（即自然语言），例如事件报告和泄漏的文件。为了支持主动的安全工作，我们介绍了一项有关使用机器学习（ML）自动将非结构化CTI自动分类为攻击技术的实验研究。我们为CTI分析的两个新数据集做出了贡献，并评估了几种ML模型，包括传统和深度学习模型。我们介绍了几个课程，了解了ML在此任务中的执行方式，哪些分类器在哪些条件下（这是分类错误的主要原因）以及CTI分析的未来挑战。

translated by 谷歌翻译

A Comparison Study of Deep CNN Architecture in Detecting of Pneumonia

Al Mohidur Rahman Porag , Md. Mahedi Hasan , Dr. Md Taimur Ahad

分类：计算机视觉 | 机器学习

2022-12-30

Pneumonia, a respiratory infection brought on by bacteria or viruses, affects a large number of people, especially in developing and impoverished countries where high levels of pollution, unclean living conditions, and overcrowding are frequently observed, along with insufficient medical infrastructure. Pleural effusion, a condition in which fluids fill the lung and complicate breathing, is brought on by pneumonia. Early detection of pneumonia is essential for ensuring curative care and boosting survival rates. The approach most usually used to diagnose pneumonia is chest X-ray imaging. The purpose of this work is to develop a method for the automatic diagnosis of bacterial and viral pneumonia in digital x-ray pictures. This article first presents the authors' technique, and then gives a comprehensive report on recent developments in the field of reliable diagnosis of pneumonia. In this study, here tuned a state-of-the-art deep convolutional neural network to classify plant diseases based on images and tested its performance. Deep learning architecture is compared empirically. VGG19, ResNet with 152v2, Resnext101, Seresnet152, Mobilenettv2, and DenseNet with 201 layers are among the architectures tested. Experiment data consists of two groups, sick and healthy X-ray pictures. To take appropriate action against plant diseases as soon as possible, rapid disease identification models are preferred. DenseNet201 has shown no overfitting or performance degradation in our experiments, and its accuracy tends to increase as the number of epochs increases. Further, DenseNet201 achieves state-of-the-art performance with a significantly a smaller number of parameters and within a reasonable computing time. This architecture outperforms the competition in terms of testing accuracy, scoring 95%. Each architecture was trained using Keras, using Theano as the backend.

translated by 谷歌翻译

Using attention methods to predict judicial outcomes

Vithor Gomes Ferreira Bertalan , Evandro Eduardo Seron Ruiz

分类：机器学习 | 人工智能 | 自然语言处理

2022-07-18

法律判决预测是NLP，AI和法律联合领域最受欢迎的领域之一。通过法律预测，我们是指能够预测特定司法特征的智能系统，例如司法结果，司法阶级，可以预测特定案例。在这项研究中，我们使用AI分类器来预测巴西法律体系中的司法结果。为此，我们开发了一个文本爬网，以从巴西官方电子法律系统中提取数据。这些文本构成了二级谋杀和主动腐败案件的数据集。我们应用了不同的分类器，例如支持向量机和神经网络，通过分析数据集中的文本功能来预测司法结果。我们的研究表明，回归树，封闭的重复单元和分层注意力网络给出了不同子集的较高指标。作为最终目标，我们探讨了一种算法的权重，即分层注意力网络，以找到用于免除或定罪被告的最重要词的样本。

translated by 谷歌翻译

Explainable AI for clinical and remote health applications: a survey on tabular and time series data

Flavio Di Martino , Franca Delmastro

分类：机器学习 | 人工智能

2022-09-14

如今，人工智能（AI）已成为临床和远程医疗保健应用程序的基本组成部分，但是最佳性能的AI系统通常太复杂了，无法自我解释。可解释的AI（XAI）技术被定义为揭示系统的预测和决策背后的推理，并且在处理敏感和个人健康数据时，它们变得更加至关重要。值得注意的是，XAI并未在不同的研究领域和数据类型中引起相同的关注，尤其是在医疗保健领域。特别是，许多临床和远程健康应用程序分别基于表格和时间序列数据，而XAI并未在这些数据类型上进行分析，而计算机视觉和自然语言处理（NLP）是参考应用程序。为了提供最适合医疗领域表格和时间序列数据的XAI方法的概述，本文提供了过去5年中文献的审查，说明了生成的解释的类型以及为评估其相关性所提供的努力和质量。具体而言，我们确定临床验证，一致性评估，客观和标准化质量评估以及以人为本的质量评估作为确保最终用户有效解释的关键特征。最后，我们强调了该领域的主要研究挑战以及现有XAI方法的局限性。

translated by 谷歌翻译

Deep convolutional forest: a dynamic deep ensemble approach for spam detection in text

Mai A. Shaaban , Yasser F. Hassan , Shawkat K. Guirguis

分类：自然语言处理 | 人工智能 | 机器学习

2021-10-10

人们使用移动消息传递服务的增加导致了像网络钓鱼一样的社会工程攻击的传播，考虑到垃圾邮件文本是传播网络钓鱼攻击的主要因素之一，以窃取信用卡和密码等敏感数据。此外，关于Covid-19大流行的谣言和不正确的医疗信息在社交媒体上广泛分享，导致人们的恐惧和混乱。因此，过滤垃圾邮件内容对于降低风险和威胁至关重要。以前的研究依赖于机器学习和深入学习的垃圾邮件分类方法，但这些方法有两个限制。机器学习模型需要手动功能工程，而深度神经网络需要高计算成本。本文介绍了一种动态的深度集合模型，用于垃圾邮件检测，调整其复杂性并自动提取功能。所提出的模型利用卷积和汇集层进行特征提取以及基础分类器，如随机森林和极其随机的树木，用于将文本分类为垃圾邮件或合法的树。此外，该模型采用了Boosting和Bagging等集合学习程序。结果，该模型达到了高精度，召回，F1分数和精度为98.38％。

translated by 谷歌翻译

Detection of Hate Speech using BERT and Hate Speech Word Embedding with Deep Model

Hind Saleh , Areej Alhothali , Kawthar Moria

分类：自然语言处理

2021-11-02

在网络和社交媒体上生成的大量数据增加了检测在线仇恨言论的需求。检测仇恨言论将减少它们对他人的负面影响和影响。在自然语言处理（NLP）域中的许多努力旨在宣传仇恨言论或检测特定的仇恨言论，如宗教，种族，性别或性取向。讨厌的社区倾向于使用缩写，故意拼写错误和他们的沟通中的编码词来逃避检测，增加了讨厌语音检测任务的更多挑战。因此，词表示将在检测仇恨言论中发挥越来越关的作用。本文研究了利用基于双向LSTM的深度模型中嵌入的域特定词语的可行性，以自动检测/分类仇恨语音。此外，我们调查转移学习语言模型（BERT）对仇恨语音问题作为二进制分类任务。实验表明，与双向LSTM基于LSTM的深层模型嵌入的域特异性词嵌入了93％的F1分数，而BERT在可用仇恨语音数据集中的组合平衡数据集上达到了高达96％的F1分数。

translated by 谷歌翻译