为什么要进行数据预处理

pengjiani TOP1 2899

进行数据预处理的原因在于:数据预处理是一种数据挖掘技术,是为了将原始数据转换为可以理解的格式或者符合挖掘的格式。数据预处理就是解决上面所提到的数据问题的可靠方法。因此,要进行数据预处理。

数据预处理的目的:

在真实世界中,数据通常是不完整的(缺少某些感兴趣的属性值)、不一致的(包含代码或者名称的差异)、极易受到噪声(错误或异常值)的侵扰的。因为数据库太大,而且数据集经常来自多个异种数据源,低质量的数据将导致低质量的挖掘结果。就像一个大厨现在要做美味的蒸鱼,如果不将鱼进行去鳞等处理,一定做不成我们口中美味的鱼。

数据预处理就是解决上面所提到的数据问题的可靠方法。

数据预处理的步骤:

一,数据清洗

数据清洗是通过填补缺失值,平滑或删除离群点,纠正数据的不一致来达到清洗的目的。简单来说,就是把数据里面哪些缺胳膊腿的数据、有问题的数据给处理掉。总的来讲,数据清洗是一项繁重的任务,需要根据数据的准确性、完整性、一致性、时效性、可信性和解释性来考察数据,从而得到标准的、干净的、连续的数据。

数据清理主要是处理缺失数据、噪声数据等。

1 处理缺失值
处理缺失值常用方法:

删除数据:根据缺失情况,按行删除或者按列删除
度量填补缺失值:可以根据数据属性,采用均值、中位数、众数等中心度量值来填补缺失数据
预测填补缺失值:可以将缺失属性作为因变量,建立分类或回归模型,对缺失值进行建模填补

2 噪声数据
对于噪声数据主要通过光滑的操作,可以通过:

分箱操作。其主要思想为每一个数据与它的“近邻”数据应该是相似的,因此将数据用其近邻(“箱”或“桶”)替代,这样既可以光滑有序数据值,还能在一定程度上保持数据的独有特点。
回归处理。通过一个映像或函数拟合多个属性数据,从而达到光滑数据的效果。
离群点分析。聚类可以将相似的值归为同一“簇”,因此主要使用聚类等技术来检测离群点。

二,数据集成

随着大数据的出现,我们的数据源越来越多,数据分析任务多半涉及将多个数据源数据进行合并。数据集成是指将多个数据源中的数据结合、进行一致存放的数据存储,这些源可能包括多个数据库或数据文件。

1 实体识别
实体识别是指从不同数据源识别现实世界的实体,它的任务是统一不同源数据的矛盾之处。

2 冗余和相关分析
可以通过可视化、相关性分析等方法,来删除冗余数据

3 数值冲突的检测与处理
对于现实世界的同一实体,由于表达方式、尺度标准或编码的不同常导致元数据的巨大差异。因此要对数据进行尺度标准或编码的统一。

三,数据归约

用替代的,较小的数据表示形式替换元数据,得到信息内容的损失最小化,方法包括维规约,数量规约和数据压缩;

四,数据变换

对于数据建模来讲,数据变换是最常见最重要,也是最有效的一种数据处理技术。经过适当的数据转换后,模型效果常常有比较明显的提升。主要由于原始数据,分布不光滑,不对称。

常用的数据变换操作有:数据规范化、数据里散化、概念分层。

1 数据规范化
数据规范化的目的是将数据按比例缩放,使得属性之间的权值适合数据挖掘。

常见的数据规范化方法包括:

最小-最大规范化
z-score分数规范化
小数定标规范化等。

2 数据离散化
数据离散化是将数值属性的原始值用区间标签或概念标签替换的过程,它可以将连续属性值离散化。

3 概念分层
概念分层的主要思想是将低层概念的集合映射到高层概念的集合。

回复

我来回复
  • 暂无回复内容

联系我们
关注微信
关注微信
分享本页
返回顶部