智能论文笔记

A Novel Data Pre-processing Technique: Making Data Mining Robust to Different Units and Scales of Measurement

Arbind Agrahari Baniya , Sunil Aryal , Santosh KC

分类：机器学习

2021-11-08

许多现有数据挖掘算法使用直接在其模型中的特征值，使它们对用于测量/表示数据的单位/尺度敏感。已经提出了基于秩转换的数据的预处理作为克服这个问题的潜在解决方案。然而，在使用秩转换预处理后的结果数据均匀分布，这在许多数据挖掘应用中可能不是非常有用的。在本文中，我们基于多个子样本的级别提供了更好且有效的替代方案。我们称之为拟议的预处理技术为ARE |在子样本的集合中的平均排名。我们广泛使用的数据挖掘算法的经验结果，用于在各种数据集中进行分类和异常检测表明，ARE在特定于更加一致的任务方面会导致ares跨各种算法和数据集的结果。除此之外，它会导致大多数时间更好地或竞争的结果与最广泛使用的最大初始化和传统排名转换相比。

translated by 谷歌翻译