| 网站地图 | 联系我们
北京迈思奇科技有限公司
微软BI解决方案    Microsoft Data Mining

数据挖掘概念

从广义上讲,数据挖掘(Data Mining,DM)是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

MicroSoft BI平台的主要数据挖掘功能

包括关联分析、聚类分析、分类、预测、时序模式和偏差分析等。
(1)关联分析(association analysis)
两个或两个以上变量的取值之间存在的规律性称为关联。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。如图是贝叶斯显示的关联:

图1:贝叶斯的依赖关系网络

(2)聚类分析(clustering)
聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。例如,在逻辑上可以得知,骑自行车上下班的人的居住地点通常离其工作地点不远。但该算法可以找出有关骑自行车上下班人员的其他并不明显的特征。在下面的关系图中,分类 A 表示有关通常开车上班人员的数据,而分类 B 表示通常骑自行车上班人员的数据。

图2:聚类原理
(3)分类(classification)
分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。
图3:决策树的分类表示
(4)预测(predication)
预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。大部分算法支持预测。
(5)时序模式(time-series pattern)
时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。  

图4:时序图表
(6)偏差分析(deviation)
在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。

数据挖掘流程

数据挖掘的过程包括:定义问题、准备数据、浏览数据、建立模型、模型评估、部署应用。

图5:数据挖掘的流程
尽管关系图中所示的过程是一个循环过程,但是每个步骤并不需要直接执行到下一个步骤。为了创建一个完美的模型,此过程中的每个步骤可能需要重复多次是非常重要的。
模型评估:用于对模型进行较为彻底的评价,并检查构建模型的每个步骤,确认其是否真正实现了预定的商业目的,模型评估其实是优化的过程。这包括检测模型性能及确定性能最佳的模型。

模型部署完成后,对数据挖掘产生的结果进行解释和评估,将结果提交给业务决策人员,经过确认后为管理层人员提供决策支持,以达到数据挖掘的最终目的。其方法包括:

    • 直接将数据挖掘功能嵌入到应用程序;
    • 创建一个包,挖掘模型自动将传入数据分离到多个表中;
    • 创建可让用户直接对现有挖掘模型进行查询的报表。



合作伙伴与客户...

     

Microsoft DW
Microsoft ETL
Microsoft Analysis
Microsoft Data Mining
Microsoft Report
Microsoft BSM
Microsoft Office
Microsoft Proclarity
Product Partner: Analyzer
Microsoft PPS
Microsoft Portal

联系方式
北京迈思奇科技有限公司
北京市海淀区西五道口紫金数码园4号楼 201-205(100080)
电话: 86-10-62662626
传真: 86-10-62662776



|京ICP备05066245号| 网站地图 | 联系我们