编辑: sunny爹 2014-06-07
概念描述特征化和比较 概念描述: 特征化和比较(定性与对比) 什么是概念描述?数据概化和基于汇总的特征化分析特征化: 分析属性之间的关联性挖掘类比较: 获取不同类之间的不同处在大型数据库中挖掘描述统计度量 什么是概念描述? 数据挖掘:描述性 vs.

预测性描述性数据挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质预测性数据挖掘:分析数据,建立一个或一组模型,并试图预测新数据集的行为概念描述: 描述性数据挖掘的一种最简单的类型一个概念:对一个包含大量数据的数据集合总体情况的概述.概念描述(concept description):对含有大量数据的数据集合进行概述性的总结并获得简明、准确的描述. 概念/类描述:特征化和区分(定性与对比) 概念描述的主要方法:特征化:对目标数据进行概述性的总结(通过数据泛化得到).比较: 对两个或以上数据集合概化后,进行对比并将对比结果进行概化.(以表格或对比规则形式给出)如一个大学中讲师、副教授的情况讲师:75% (papers=2) 概念描述和OLAP 概念描述: 能够处理复杂的数据类型和各种汇总方法 更加自动化OLAP: (联机分析处理,on-line analytical processing)只能限制于少量的维度和数据类型用户控制的流程 特征化和比较 什么是概念描述?数据概化和基于汇总的特征化分析特征化: 分析属性之间的关联性挖掘类比较:获取不同类之间的不同处在大型数据库中挖掘描述统计度量 数据概化和基于汇总的特征化 数据概化(data generalization)将大量的相关数据从一个较低的概念层次转化到一个比较高的层次比如:青年、中年、老年 来替代底层实际的年龄数据值又如:右图方法:OLAP方法:面向属性的归纳 country province city street OLAP方法 在数据立方体上进行计算和存储结果优点效率高能够计算多种汇总如:count,average,sum,min,max还可以使用roll-down和roll-up操作限制只能处理非数值化数据和数值数据的简单汇总.只能分析,不能自动的选择哪些字段和相应的概念层次 面向属性的归纳 KDD Workshop(89)中提出不限制于种类字段和特定的汇总方法方法介绍:使用某一方法(如SQL)收集相关数据通过数据删除和数据概化来实现概化聚集通过合并相等的广义元组,并累计他们对应的计数值进行和使用者之间交互式的呈现方式. 基本方法 数据聚焦:选择和当前分析相关的数据,包括维.属性删除: 如果某个属性包含大量不同值,但是1)在该属性上没有概化操作,或者2)它的较高层概念用其它属性表示.属性概化:如果某个属性包含大量不同值,同时在该属性上有概化操作符,则运用该操作符进行概化.属性阈值控制: typical 2-8, specified/default.概化关系阈值控制: 控制最终关系的大小 基本算法 InitialRel: 得到相关数据,形成(与任务相关的)初始关系表PreGen: 通过统计不同属性的含有的不同值的个数决定是丢弃该属性还是对其进行汇总.PrimeGen:根据上一步的计算结果,对属性概化到相应的层次,计算汇总值,得到主概化关系.结果的表示:概化关系、交叉表、3D立方体 类特征化:示例 Prime Generalized Relation Initial Relation 新增加 概化结果的表示 概化关系: 一个表格,其中有属性字段,后附汇总方法.交叉表:二维交叉表可视化方法:Pie charts, bar charts, curves, cubes, and other visual forms.量化特征规则: 带有量化信息的逻辑规则 表达方式-概化关系 表达方式―交叉表 (行列均为属性) 销售额(百万美元) 销售数量(千台) 特征化和比较 什么是概念描述?数据概化和基于汇总的特征化分析特征化: 分析属性之间的关联性挖掘类比较:获取不同类之间的不同处在大型数据库中挖掘描述统计度量 特征化和OLAP 相似性: 在多个抽象层次上展现对数据的汇总情况交互式的操作区别:自动化的层次分配.当有很多相关维时,对维进行相关性分析,并排序维度和计算量的多样性分析特征化: data dispersion analysis. 属性相关性分析 why?哪些维需要包括? 需要概化到什么层次?自动和交互式减少属性;

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题