数据挖掘模型有哪些

小编 1930

数据挖掘模型有:1.回归分析模型;2.决策树模型;3.人工神经网络模型;4.贝叶斯网络;5.支持向量机;6.聚类模型;7.关联模型;8.异常检测。其中,决策树模型、人工神经网络模型、贝叶斯网络和支持向量机,均属于分类模型。

1.回归分析模型

回归分析,确定预测属性与其他变量间相互依赖的定量关系。包括:线性回归、非线性回归、Logistic回归、岭回归、主成分回归、偏最小二乘回归等模型。其中,线性回归模型是数据挖掘中最简单的一种模型,适用范围非常广泛。

线性回归多应用于研究对象是连续型数据的情况。简单来说,它希望被研究的对象数据是一个连续变化的数值,例如收入或者是销售额,价格等等,而不是跳跃变化的数据如年龄,工龄等等。此方法可以用于研究自变量与因变量之间的关系,并分析自变量对于因变量的解释和影响程度。

2.决策树模型

决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别。它采用自顶向下的递归方式,在决策树的内部节点进行属性的比较,并根据不同属性值判断从该节点向下的分支,在决策树的叶节点得到结论。

主要的决策树算法有ID3、C4.5(C5.0)、CART、PUBLIC、SLIQ和SPRINT算法等。它们在选择测试属性采用的技术、生成的决策树的结构、剪枝的方法以及时刻,能否处理大数据集等方面都有各自的不同之处。

3.人工神经网络模型

人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在这种模型中,大量的节点(称”神经元”)之间相互联接构成网络,即”神经网络”,以达到处理信息的目的。神经网络通常需要进行训练,训练的过程就是网络进行学习的过程。训练改变了网络节点的连接权的值使其具有分类的功能,经过训练的网络就可用于对象的识别。

目前,神经网络已有上百种不同的模型,常见的有BP神经网络、径向基RBF网络、Hopfield网络、随机神经网络(Boltzmann机)、竞争神经网络(Hamming网络,自组织映射网络)等。但是当前的神经网络仍普遍存在收敛速度慢、计算量大、训练时间长和不可解释等缺点。

4.贝叶斯网络

贝叶斯网络又称信度网络,是Bayes方法的扩展,是目前不确定知识表达和推理领域最有效的理论模型之一。主要是利用Bayes定理来预测一个未知类别的样本属于各个类别的可能性,选择其中可能性最大的一个类别作为该样本的最终类别。

由于贝叶斯定理的成立本身需要一个很强的条件独立性假设前提,而此假设在实际情况中经常是不成立的,因而其分类准确性就会下降。为此就出现了许多降低独立性假设的贝叶斯分类算法,如TAN(Tree Augmented Native Bayes)算法,它是在贝叶斯网络结构的基础上增加属性对之间的关联来实现的。

5.支持向量机

支持向量机(SVM,Support Vector Machine)是一种通过某种非线性映射,把低维的非线性可分转化为高维的线性可分,在高维空间进行线性分析的算法。

支持向量机的最大特点是根据结构风险最小化准则,以最大化分类间隔构造优异分类超平面来提高学习机的泛化能力,较好地解决了非线性、高维数、局部极小点等问题。对于分类问题,支持向量机算法根据区域中的样本计算该区域的决策曲面,由此确定该区域中未知样本的类别。

6.聚类模型

常用到的聚类算法:K均值、DBSCAN算法。它可以将数据对象聚成多个类。

与分类模型不同的是,聚类模型要划分的类是事先未知的,仅根据数据对象属性的信息,将数据对象分类,类的形成完全是数据驱动的,属于一种无指导的学习方法。其目标是,类内的对象相互之间是相似的(相关的),而不同类中的对象是不同的(不相关的)。类内的相似性越大,类之间差别越大,聚类就越好。

7.关联模型

Apriori算法是关联模型的常用算法。主要是用来发现描述数据对象间强关联特征的模式。建模的过程就是通过用户指定的最小支持度和最小置信度阈值来寻找强关联规则的过程。

关联模型最初是针对购物篮分析问题提出的,目的是为了发现交易数据库中不同商品之间的相关联系。这些关系用关联规则表示,描述的是不同事物之间的相互关联性和依存性,反映了一个事物与其他事物之间的相互关系。根据挖掘得到的事物之间的关联规则,就可以从已知事物中预测得知未知事物,或提供决策依据。如对购物篮数据进行关联规则挖掘,可以帮助制定商务决策,如分类摆放、交叉购物等。

8.异常检测

目标是检测出与大多数对象不同的对象。异常对象也被称为离群点,因为在数据的散布图中,他们远离其他数据对象,异常对象的属性值显著地偏离预期的或常见的属性值。在人类社会、自然界以及数据集领域,大部分事件和对象,都是平凡的。然而,不平常、不平凡往往有着巨大的实际意义,异常检测就是找出这些不平常、不平凡。异常检测技术常被应用于信用卡的欺诈检测、对网络攻击的入侵检测、自然灾害研究、公共卫生医疗等领域。

延伸阅读

什么是数据挖掘

数据挖掘(Data Mining,DM)又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的,先前未知的并有潜在价值的信息的非平凡过程。数据挖掘吸纳了统计学、模式识别、数据库、数据仓库、可视化、高性能计算等技术。

数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化,包括数据挖掘可视化和数据挖掘结果可视化)将找出的规律表示出来。

回复

我来回复
  • 暂无回复内容

注册PingCode 在线客服
站长微信
站长微信
电话联系

400-800-1024

工作日9:30-21:00在线

分享本页
返回顶部