智能论文笔记

Fallen Angel Bonds Investment and Bankruptcy Predictions Using Manual Models and Automated Machine Learning

Harrison Mateika , Juannan Jia , Linda Lillard , Noah Cronbaugh , Will Shin

分类：机器学习

2022-12-07

The primary aim of this research was to find a model that best predicts which fallen angel bonds would either potentially rise up back to investment grade bonds and which ones would fall into bankruptcy. To implement the solution, we thought that the ideal method would be to create an optimal machine learning model that could predict bankruptcies. Among the many machine learning models out there we decided to pick four classification methods: logistic regression, KNN, SVM, and NN. We also utilized an automated methods of Google Cloud's machine learning. The results of our model comparisons showed that the models did not predict bankruptcies very well on the original data set with the exception of Google Cloud's machine learning having a high precision score. However, our over-sampled and feature selection data set did perform very well. This could likely be due to the model being over-fitted to match the narrative of the over-sampled data (as in, it does not accurately predict data outside of this data set quite well). Therefore, we were not able to create a model that we are confident that would predict bankruptcies. However, we were able to find value out of this project in two key ways. The first is that Google Cloud's machine learning model in every metric and in every data set either outperformed or performed on par with the other models. The second is that we found that utilizing feature selection did not reduce predictive power that much. This means that we can reduce the amount of data to collect for future experimentation regarding predicting bankruptcies.

translated by 谷歌翻译

Predicting the Geoeffectiveness of CMEs Using Machine Learning

Andreea-Clara Pricopi , Alin Razvan Paraschiv , Diana Besliu-Ionescu , Anca-Nicoleta Marginean

分类：机器学习

2022-06-23

冠状质量弹出（CME）是最地理化的空间天气现象，与大型地磁风暴有关，有可能引起电信，卫星网络中断，电网损失和故障的干扰。因此，考虑到这些风暴对人类活动的潜在影响，对CME的地理效果的准确预测至关重要。这项工作着重于在接近太阳CME的白光冠状动脉数据集中训练的不同机器学习方法，以估计这种新爆发的弹出是否有可能诱导地磁活动。我们使用逻辑回归，k-nearest邻居，支持向量机，向前的人工神经网络以及整体模型开发了二进制分类模型。目前，我们限制了我们的预测专门使用太阳能发作参数，以确保延长警告时间。我们讨论了这项任务的主要挑战，即我们数据集中的地理填充和无效事件的数量以及它们的众多相似之处以及可用变量数量有限的极端失衡。我们表明，即使在这种情况下，这些模型也可以达到足够的命中率。

translated by 谷歌翻译

Machine Learning and Ensemble Approach Onto Predicting Heart Disease

Aaditya Surya

分类：机器学习 | 人工智能

2021-11-16

一个躺在胸腔里的心脏的四个基本腔腔对一个人的生存至关重要，但讽刺地证明是最脆弱的。心血管疾病（CVD）也通常被称为心脏病，在过去几十年中，人类在人类死亡原因中稳步发展。考虑到这一点统计，很明显，患有CVDS的患者需要快速且正确的诊断，以便于早期治疗来减少死亡的机会。本文试图利用提供的数据，以培训分类模型，如逻辑回归，k最近邻居，支持向量机，决策树，高斯天真贝叶斯，随机森林和多层感知（人工神经网络），最终使用柔软投票合奏技术，以便尽可能多地诊断。

translated by 谷歌翻译

A Case Study on the Classification of Lost Circulation Events During Drilling using Machine Learning Techniques on an Imbalanced Large Dataset

Toluwalase A. Olukoga , Yin Feng

分类：机器学习

2022-09-04

这项研究提出了机器学习模型，这些模型使用大型钻探数据集预测和分类循环严重性损失。我们展示了利用易于解释的机器学习方法来应对大型钻井工程挑战的可再现核心技术。我们利用了来自伊朗Azadegan油田组的65,000多个记录数据，其中具有类不平衡问题。数据集的十七个参数中有11个参数用于五个丢失的循环事件的分类。为了生成分类模型，我们使用了六种基本的机器学习算法和四种合奏学习方法。线性判别分析（LDA），逻辑回归（LR），支持向量机（SVM），分类和回归树（CART），K-Nearest Neighbors（KNN）和Gaussian Naive Bayes（GNB）是六个基本技术。我们还在调查解决方案中使用包装和增强集合学习技术，以改善预测性能。这些算法的性能是使用四个指标测量的：精度，精度，回忆和F1得分。选择表示数据不平衡的F1得分作为首选评估标准。发现CART模型是识别钻孔流体循环损失事件的最佳选择，平均加权F1分数为0.9904，标准偏差为0.0015。在应用合奏学习技术后，决策树的随机森林合奏表现出最佳的预测性能。它以1.0的完美加权F1分数确定并分类丢失的循环事件。使用置换功能重要性（PFI），发现测得的深度是准确识别钻孔时丢失的循环事件的最具影响力因素。

translated by 谷歌翻译

Combining Machine Learning and Effective Feature Selection for Real-time Stock Trading in Variable Time-frames

A. K. M. Amanat Ullah , Fahim Imtiaz , Miftah Uddin Md Ihsan , Md. Golam Rabiul Alam , Mahbub Majumdar

分类：机器学习

2021-07-28

股票市场的不可预测性和波动性使得使用任何广义计划赚取可观的利润具有挑战性。许多先前的研究尝试了不同的技术来建立机器学习模型，这可以通过进行实时交易来在美国股票市场赚取可观的利润。但是，很少有研究重点是在特定交易期找到最佳功能的重要性。我们的顶级方法使用该性能将功能从总共148缩小到大约30。此外，在每次训练我们的机器学习模型之前，都会动态选择前25个功能。它与四个分类器一起使用合奏学习：高斯天真贝叶斯，决策树，带L1正则化的逻辑回归和随机梯度下降，以决定是长时间还是短的特定股票。我们的最佳模型在2011年7月至2019年1月之间进行的每日交易，可获得54.35％的利润。最后，我们的工作表明，加权分类器的混合物的表现要比任何在股票市场做出交易决策的个人预测指标更好。

translated by 谷歌翻译

Examining stability of machine learning methods for predicting dementia at early phases of the disease

Sinan Faouri , Mahmood AlBashayreh , Mohammad Azzeh

分类：机器学习 | 人工智能

2022-09-10

痴呆症是一种神经精神脑障碍，通常会在一个或多个脑细胞停止部分或根本停止工作时发生。在疾病的早期阶段诊断这种疾病是从不良后果中挽救生命并为他们提供更好的医疗保健的至关重要的任务。事实证明，机器学习方法在预测疾病早期痴呆症方面是准确的。痴呆的预测在很大程度上取决于通常从归一化的全脑体积（NWBV）和地图集缩放系数（ASF）收集的收集数据类型，这些数据通常测量并从磁共振成像（MRIS）中进行校正。年龄和性别等其他生物学特征也可以帮助诊断痴呆症。尽管许多研究使用机器学习来预测痴呆症，但我们无法就这些方法的稳定性得出结论，而这些方法在不同的实验条件下更准确。因此，本文研究了有关痴呆预测的机器学习算法的性能的结论稳定性。为此，使用7种机器学习算法和两种功能还原算法，即信息增益（IG）和主成分分析（PCA）进行大量实验。为了检查这些算法的稳定性，IG的特征选择阈值从20％更改为100％，PCA尺寸从2到8。这导致了7x9 + 7x7 = 112实验。在每个实验中，都记录了各种分类评估数据。获得的结果表明，在七种算法中，支持向量机和天真的贝叶斯是最稳定的算法，同时更改选择阈值。同样，发现使用IG似乎比使用PCA预测痴呆症更有效。

translated by 谷歌翻译

Predicting Stock Price Movement after Disclosure of Corporate Annual Reports: A Case Study of 2021 China CSI 300 Stocks

Fengyu Han , Yue Wang

分类：人工智能

2022-06-25

在当前的股票市场中，计算机科学和技术越来越广泛地用于分析股票。与大多数相关的机器学习股票价格预测工作不同，这项工作研究了公司年度报告披露后第二天的股票价格趋势。我们使用各种不同的模型，包括决策树，逻辑回归，随机森林，神经网络，原型网络。我们使用两组财务指标（密钥和扩展）进行实验，这些财务指标是从公司披露的Eastmoney网站获得的，最后我们发现这些模型的行为不佳来预测趋势。此外，我们还过滤了ROE大于0.15的库存，净现金比大于0.9。我们得出的结论是，根据基于公司刚发布的年度报告的财务指标，披露后第二天股票价格变动的可预测性较弱，最高准确性约为59.6％，我们的测试中的最高精度约为0.56。由随机森林分类器设置，库存过滤并不能改善性能。在所有这些模型中，随机森林总体上表现最好，这些模型符合某些工作的发现。

translated by 谷歌翻译

Machine learning method for return direction forecasting of Exchange Traded Funds using classification and regression models

Raphael P. B. Piovezan , Pedro Paulo de Andrade Junior

分类：机器学习 | (统计)机器学习

2022-05-25

本文旨在提出和应用机器学习方法，以使用其组件的历史回报数据来分析交易所交易基金（ETF）的回报方向，从而通过交易算法有助于制定投资策略决策。从方法论方面，除了算法误差指标外，还使用来自巴西和美国市场的标准数据集应用了回归和分类模型。在研究结果方面，它们进行了分析并将其与NA \“ Ive”预测和购买和持有技术在同一时期获得的收益进行了比较。就风险和回报而言，模型的性能大多要比控制指标重点是线性回归模型和通过逻辑回归的分类模型，支持向量机（使用LinearsVC模型），高斯天真的贝叶斯和K-Nearest邻居，在某些数据集中，在某些数据集中，回报超过了两次，并且夏普比率高达购买和持有控制模型的比率四倍。

translated by 谷歌翻译

Predicting Football Match Outcomes with eXplainable Machine Learning and the Kelly Index

Yiming Ren , Teo Susnjak

分类：机器学习

2022-11-28

In this work, a machine learning approach is developed for predicting the outcomes of football matches. The novelty of this research lies in the utilisation of the Kelly Index to first classify matches into categories where each one denotes the different levels of predictive difficulty. Classification models using a wide suite of algorithms were developed for each category of matches in order to determine the efficacy of the approach. In conjunction to this, a set of previously unexplored features were engineering including Elo-based variables. The dataset originated from the Premier League match data covering the 2019-2021 seasons. The findings indicate that the process of decomposing the predictive problem into sub-tasks was effective and produced competitive results with prior works, while the ensemble-based methods were the most effective. The paper also devised an investment strategy in order to evaluate its effectiveness by benchmarking against bookmaker odds. An approach was developed that minimises risk by combining the Kelly Index with the predefined confidence thresholds of the predictive models. The experiments found that the proposed strategy can return a profit when following a conservative approach that focuses primarily on easy-to-predict matches where the predictive models display a high confidence level.

translated by 谷歌翻译

A Dependable Hybrid Machine Learning Model for Network Intrusion Detection

Md. Alamin Talukder , Khondokar Fida Hasan , Md. Manowarul Islam , Md Ashraf Uddin , Arnisha Akhter , Mohammand Abu Yousuf , Fares Alharbi , Mohammad Ali Moni

分类：机器学习

2022-12-08

Network intrusion detection systems (NIDSs) play an important role in computer network security. There are several detection mechanisms where anomaly-based automated detection outperforms others significantly. Amid the sophistication and growing number of attacks, dealing with large amounts of data is a recognized issue in the development of anomaly-based NIDS. However, do current models meet the needs of today's networks in terms of required accuracy and dependability? In this research, we propose a new hybrid model that combines machine learning and deep learning to increase detection rates while securing dependability. Our proposed method ensures efficient pre-processing by combining SMOTE for data balancing and XGBoost for feature selection. We compared our developed method to various machine learning and deep learning algorithms to find a more efficient algorithm to implement in the pipeline. Furthermore, we chose the most effective model for network intrusion based on a set of benchmarked performance analysis criteria. Our method produces excellent results when tested on two datasets, KDDCUP'99 and CIC-MalMem-2022, with an accuracy of 99.99% and 100% for KDDCUP'99 and CIC-MalMem-2022, respectively, and no overfitting or Type-1 and Type-2 issues.

translated by 谷歌翻译

Flood Prediction Using Machine Learning Models

Miah Mohammad Asif Syeed , Maisha Farzana , Ishadie Namir , Ipshita Ishrar , Meherin Hossain Nushra , Tanvir Rahman

分类：机器学习

2022-08-02

洪水是大自然最灾难性的灾难之一，对人类生活，农业，基础设施和社会经济系统造成了不可逆转和巨大的破坏。已经进行了几项有关洪水灾难管理和洪水预测系统的研究。实时对洪水的发作和进展的准确预测是具有挑战性的。为了估计大面积的水位和速度，有必要将数据与计算要求的洪水传播模型相结合。本文旨在减少这种自然灾害的极端风险，并通过使用不同的机器学习模型为洪水提供预测来促进政策建议。这项研究将使用二进制逻辑回归，K-Nearest邻居（KNN），支持向量分类器（SVC）和决策树分类器来提供准确的预测。通过结果，将进行比较分析，以了解哪种模型具有更好的准确性。

translated by 谷歌翻译

Common human diseases prediction using machine learning based on survey data

Jabir Al Nahian , Abu Kaisar Mohammad Masum , Sheikh Abujar , Md. Jueal Mia

分类：机器学习

2022-09-22

在这个时代，作为医疗的主要重点，这一时刻已经到来了。尽管令人印象深刻，但已经开发出来检测疾病的多种技术。此时，有一些类型的疾病COVID-19，正常烟，偏头痛，肺病，心脏病，肾脏疾病，糖尿病，胃病，胃病，胃病，骨骼疾病，自闭症是非常常见的疾病。在此分析中，我们根据疾病的症状进行了分析疾病症状的预测。我们研究了一系列症状，并接受了人们的调查以完成任务。已经采用了几种分类算法来训练模型。此外，使用性能评估矩阵来衡量模型的性能。最后，我们发现零件分类器超过了其他分类器。

translated by 谷歌翻译

Automatic Classification of Bug Reports Based on Multiple Text Information and Reports' Intention

Fanqi Meng , Xuesong Wang , Jingdong Wang , Peifang Wang

分类：自然语言处理 | 机器学习

2022-08-02

随着软件量表和复杂性的快速增长，将大量错误报告提交到错误跟踪系统中。为了加快缺陷维修的速度，需要对这些报告进行准确的分类，以便可以将其发送给适当的开发人员。但是，现有的分类方法仅使用错误报告的文本信息，从而导致其性能较低。为了解决上述问题，本文提出了一种用于错误报告的新自动分类方法。创新是，当对错误报告进行分类时，除了使用报告的文本信息外，还考虑了报告的意图（即建议或解释），从而提高了分类的性能。首先，我们从四个生态系统（Apache，Eclipse，Gentoo，Mozilla）收集错误报告，并手动注释它们以构建实验数据集。然后，我们使用自然语言处理技术来预处理数据。在此基础上，BERT和TF-IDF用于提取意图的功能和多个文本信息。最后，这些功能用于训练分类器。对五个分类器（包括k-nearest邻居，天真的贝叶斯，逻辑回归，支持向量机和随机森林）的实验结果表明，我们提出的方法可实现更好的性能，其F量度从87.3％达到95.5％。

translated by 谷歌翻译

Machine learning based disease diagnosis: A comprehensive review

Md Manjurul Ahsan , Zahed Siddique

分类：机器学习

2021-12-31

在全球范围内，有实质性的未满足需要有效地诊断各种疾病。不同疾病机制的复杂性和患者人群的潜在症状具有巨大挑战，以发展早期诊断工具和有效治疗。机器学习（ML），人工智能（AI）区域，使研究人员，医师和患者能够解决这些问题的一些问题。基于相关研究，本综述解释了如何使用机器学习（ML）和深度学习（DL）来帮助早期识别许多疾病。首先，使用来自Scopus和Science（WOS）数据库的数据来给予所述出版物的生物计量研究。对1216个出版物的生物计量研究进行了确定，以确定最多产的作者，国家，组织和最引用的文章。此次审查总结了基于机器学习的疾病诊断（MLBDD）的最新趋势和方法，考虑到以下因素：算法，疾病类型，数据类型，应用和评估指标。最后，该文件突出了关键结果，并向未来的未来趋势和机遇提供了解。

translated by 谷歌翻译

Fraud Detection Using Optimized Machine Learning Tools Under Imbalance Classes

Mary Isangediok , Kelum Gajamannage

分类：机器学习

2022-09-04

由于欺诈模式随着时间的流逝而变化，并且欺诈示例的可用性有限，以学习这种复杂的模式，因此欺诈检测是一项具有挑战性的任务。因此，借助智能版本的机器学习（ML）工具的欺诈检测对于确保安全至关重要。欺诈检测是主要的ML分类任务；但是，相应的ML工具的最佳性能取决于最佳的超参数值的使用。此外，在不平衡类中的分类非常具有挑战性，因为它在少数群体中导致绩效差，大多数ML分类技术都忽略了。因此，我们研究了四种最先进的ML技术，即逻辑回归，决策树，随机森林和极端梯度提升，它们适用于处理不平衡类别以最大程度地提高精度并同时降低假阳性。首先，这些分类器经过两个原始基准测试不平衡检测数据集的培训，即网站网站URL和欺诈性信用卡交易。然后，通过实现采样框架，即RandomundSampler，Smote和Smoteenn，为每个原始数据集生产了三个合成平衡的数据集。使用RandomzedSearchCV方法揭示了所有16个实验的最佳超参数。使用两个基准性能指标比较了欺诈检测中16种方法的有效性，即接收器操作特性（AUC ROC）和精度和召回曲线下的面积（AUC PR）（AUC PR）。对于网络钓鱼网站URL和信用卡欺诈事务数据集，结果表明，对原始数据的极端梯度提升显示了不平衡数据集中值得信赖的性能，并以AUC ROC和AUC PR来超越其他三种方法。

translated by 谷歌翻译

Analyzing Machine Learning Models for Credit Scoring with Explainable AI and Optimizing Investment Decisions

Swati Tyagi

分类：机器学习 | (统计)机器学习

2022-09-19

本文研究了与可解释的AI（XAI）实践有关的两个不同但相关的问题。机器学习（ML）在金融服务中越来越重要，例如预批准，信用承销，投资以及各种前端和后端活动。机器学习可以自动检测培训数据中的非线性和相互作用，从而促进更快，更准确的信用决策。但是，机器学习模型是不透明的，难以解释，这是建立可靠技术所需的关键要素。该研究比较了各种机器学习模型，包括单个分类器（逻辑回归，决策树，LDA，QDA），异质集合（Adaboost，随机森林）和顺序神经网络。结果表明，整体分类器和神经网络的表现优于表现。此外，使用基于美国P2P贷款平台Lending Club提供的开放式访问数据集评估了两种先进的事后不可解释能力 - 石灰和外形来评估基于ML的信用评分模型。对于这项研究，我们还使用机器学习算法来开发新的投资模型，并探索可以最大化盈利能力同时最大程度地降低风险的投资组合策略。

translated by 谷歌翻译

Impact Learning: A Learning Method from Features Impact and Competition

Nusrat Jahan Prottasha , Saydul Akbar Murad , Abu Jafar Md Muzahid , Masud Rana , Md Kowsher , Apurba Adhikary , Sujit Biswas , Anupam Kumar Bairagi

分类：机器学习 | 人工智能

2022-11-04

Machine learning is the study of computer algorithms that can automatically improve based on data and experience. Machine learning algorithms build a model from sample data, called training data, to make predictions or judgments without being explicitly programmed to do so. A variety of wellknown machine learning algorithms have been developed for use in the field of computer science to analyze data. This paper introduced a new machine learning algorithm called impact learning. Impact learning is a supervised learning algorithm that can be consolidated in both classification and regression problems. It can furthermore manifest its superiority in analyzing competitive data. This algorithm is remarkable for learning from the competitive situation and the competition comes from the effects of autonomous features. It is prepared by the impacts of the highlights from the intrinsic rate of natural increase (RNI). We, moreover, manifest the prevalence of the impact learning over the conventional machine learning algorithm.

translated by 谷歌翻译

Impact of the composition of feature extraction and class sampling in medicare fraud detection

Akrity Kumari , Narinder Singh Punn , Sanjay Kumar Sonbhadra , Sonali Agarwal

分类：机器学习

2022-06-03

由于医疗保健是关键方面，健康保险已成为最大程度地减少医疗费用的重要计划。此后，由于保险的增加，医疗保健行业的欺诈活动大幅增加，欺诈行业已成为医疗费用上升的重要贡献者，尽管可以使用欺诈检测技术来减轻其影响。为了检测欺诈，使用机器学习技术。美国联邦政府的医疗补助和医疗保险服务中心（CMS）在本研究中使用“医疗保险D部分”保险索赔来开发欺诈检测系统。在类不平衡且高维的Medicare数据集中使用机器学习算法是一项艰巨的任务。为了紧凑此类挑战，目前的工作旨在在数据采样之后执行功能提取，然后应用各种分类算法，以获得更好的性能。特征提取是一种降低降低方法，该方法将属性转换为实际属性的线性或非线性组合，生成较小，更多样化的属性集，从而降低了尺寸。数据采样通常用于通过扩大少数族裔类的频率或降低多数类的频率以获得两种类别的出现数量大约相等的频率来解决类不平衡。通过标准性能指标评估所提出的方法。因此，为了有效地检测欺诈，本研究将自动编码器作为特征提取技术，合成少数族裔过采样技术（SMOTE）作为数据采样技术，以及各种基于决策树的分类器作为分类算法。实验结果表明，自动编码器的结合，然后在LightGBM分类器上获得SMOTE，取得了最佳的结果。

translated by 谷歌翻译

Detecting Fake Points of Interest from Location Data

Syed Raza Bashir , Vojislav Misic

分类：机器学习 | 人工智能

2021-11-11

支持GPS的移动设备的普及和基于位置的服务的广泛使用导致了产生大量的地理标记数据。最近，数据分析现在可以访问更多来源，包括评论，新闻和图像，其中还提出了关于兴趣点（POI）数据源的可靠性的问题。虽然以前的研究通过各种安全机制试图检测到假POI数据，但目前的工作试图以更简单的方式捕获假POI数据。拟议的工作侧重于监督的学习方法及其能力，以找到基于位置的数据中的隐藏模式。通过真实数据获得地面真理标签，使用API生成假数据，因此我们将数据集与位置数据上的实际和假标签进行数据集。目的是使用多层Perceptron（MLP）方法来预测关于POI的真实性。在所提出的工作中，基于数据分类技术的MLP用于准确地对位置数据进行分类。将该方法与传统分类和稳健和近期深神经方法进行比较。结果表明，该方法优于基线方法。

translated by 谷歌翻译

Deep convolutional forest: a dynamic deep ensemble approach for spam detection in text

Mai A. Shaaban , Yasser F. Hassan , Shawkat K. Guirguis

分类：自然语言处理 | 人工智能 | 机器学习

2021-10-10

人们使用移动消息传递服务的增加导致了像网络钓鱼一样的社会工程攻击的传播，考虑到垃圾邮件文本是传播网络钓鱼攻击的主要因素之一，以窃取信用卡和密码等敏感数据。此外，关于Covid-19大流行的谣言和不正确的医疗信息在社交媒体上广泛分享，导致人们的恐惧和混乱。因此，过滤垃圾邮件内容对于降低风险和威胁至关重要。以前的研究依赖于机器学习和深入学习的垃圾邮件分类方法，但这些方法有两个限制。机器学习模型需要手动功能工程，而深度神经网络需要高计算成本。本文介绍了一种动态的深度集合模型，用于垃圾邮件检测，调整其复杂性并自动提取功能。所提出的模型利用卷积和汇集层进行特征提取以及基础分类器，如随机森林和极其随机的树木，用于将文本分类为垃圾邮件或合法的树。此外，该模型采用了Boosting和Bagging等集合学习程序。结果，该模型达到了高精度，召回，F1分数和精度为98.38％。

translated by 谷歌翻译