编辑: 没心没肺DR 2019-12-03
判别分析 李游

0811160006 我主要介绍判别分析的概念原理,必要性,以及一些例子.

具体3种方法和在天 文当中的应用由小组其他成员负责

一、判别分析的基本概念 判别分析研究方法是根据已知对象的某些观 测指标和所属类别来判断未知对象所属类 别的一种统计学方法. 与 聚类分析不同 在聚类分析中一般人们事先并不知道或一定 要明确应该分成几类,完全根据数据来确 定. 比如,把中国的县分成若干类 判别分析是一种判别个体所隶属的群体的统计分析手段. 例如:1,为了确诊某种疾病,需要将病人的各项检测指标同 各种典型的病历做对照,从而判断其最可能属于哪种疾病. 2,根据某些气象资料来判断近期的天气变化,需要将 这些气象资料同某些典型的天气变化规律进行对照,判断最可 能的情况 3,已知有100个水稻品种,共分为10类,每个样本属于这 10类中的哪一类,我们都应有相当正确的认识. 现在发现了一个新的品种,并知道这个品种一定属于这10类中的 一类.判别分析的作用在于将这个品种归入到正确的类别中. 4,有一些昆虫的性别很难看出,只有通过解剖 才能够判别;

但是雄性和雌性昆虫在若干体表度量上有些综 合的差异.于是统计学家就根据已知雌雄的昆 虫体表度量得到一个标准-判别标准,并且利 用这个标准来判别其他未知性别的昆虫. 这样的判别虽然不能保证百分之百准确,但至 少大部分判别都是对的,而且用不着杀死昆虫 来进行判别了. 判别分析的基本思路 ? 设有G

1、G

2、…GK个总体,从不同的总 体中抽出不同的样本,根据样本→建立判 别函数→判别新的样品属于哪一个总体. ? 当然,根据不同的方法,建立的判别法则 也是不同的. ? 常用的判别方法有:距离判别、Fisher判别、Bayes判别.

一、问题提出: 在市场研究中经常会遇到根据所调查的数据资料,对所 研究的对象进行分类判别. 如:消费者对某些新产品 喜欢 与 不喜欢 之判别 医学诊断中病因的判别等 采用多元统计分析中的判别分析可以解决这类问题. 分类: 1)二级判别 2)多级判别 3)逐步判别 设: Y―― 表示购买者或非购买者(状态) X1―― 表示产品的价格(指标) X2―― 表示消费者的收入 对光顾该商店的顾客进行n次观察. 设:n1组数据为购买者(A) n2组数据为非购买者(B) 由已知变量X1,X2,将n1+n2=n组数据分成两大类;

购买者(A)―― ) ( ), (

2 1 A X A X i i (I=1,2,…,n1) 非购买者(B)―― ) ( ), (

2 1 B X B X j j (j=1,2,…,n2) 若将这n1+n2组数据散点图方法绘图: X1 X2 (B) (A) L 购买者, 非购买者, L作为分界线 散点图方式直线的划定不那么 客观、合理,况且当有两个因素影 响时,无法直观地划出这条直线. 判断分析――提供了依据历史 资料,根据一定区别准则,比较客 观的寻求一条A、B两类的最佳分界 线,使A、B两类点能被此直线最大 限度地区别开来的一种统计方法. 2)P个指标的二类判别函数 假定:采用P个指标(上例两个指标X

1、X2,P=2) 解决一个判别两类状态的问题(上例购买者、非 购买者) 对第一种状态(购买者)假定调查n1次共有p*n1个数 据,写成数据矩阵 ? ? ? ? ? ? ? ? ? ? ? ? ? =

1 1

2 1

1 1

2 1

22 1

21 1

1 1

12 1

11 )

1 (

1 1

1 pn p p n n X X X X X X X X X X # # 对第二种状态(非购买者)假定调查n2次共有p*n2个数据, 写成数据矩阵 ? ? ? ? ? ? ? ? ? ? ? ? ? =

2 2

2 2

1 2

2 2

22 2

21 2

1 2

12 2

11 )

2 (

2 2

2 pn p p n n X X X X X X X X X X # # 步骤简述:判别分析的任务,就是根据这两个数据矩 阵,在最优判别准则下,确定判别函数 ( ) p p p X C X C X C X X X L Y + + + = =

2 2

1 1

2 1 , , , 使两类状态能被最大限度地区别开来. 由于已有n1几个属于第一类状态的样本 ( ) ( ) ( ) ? ? ? ? ? ? ? ? ? ? ? ? ? ?

1 1

2 1

1 pi i i X X X # ( )

1 , ,

2 ,

1 n i = 代入判别函数 后,得到 ( ) p X X X L , , ,

2 1 ( )

1 1

1 2

2 1

1 1

1 , ,

2 ,

1 n i X C X C X C y pi p i i i = + + + = 由于已有n1几个属于第二类状态的样本 代入判别函数 后,得到 ( ) p X X X L , , ,

2 1 ( )

2 2

2 2

2 2

1 1

2 , ,

2 ,

1 n i X C X C X C y pi p i i i = + + + = 令: ∑ ∑ = = = =

2 1

1 2

2 2

1 1

1 1

1 1 n i i n i i y n y y n y ( ) ( )

2 1 , y y 分别来自第

一、第二状态的n

1、n2个样本 所对应的函数值的平均值. 为了使得这个判别函数不清能最大限度地区分来自两 类不同状态的样本,当然要求来自两类不同状态的两 个平均值 与 极差愈大愈好: ( )

1 y ( )

2 y 来自第一类状态的 要求它们的 离差平方和 愈小愈好 ( ) ( )

1 1 , ,

2 ,

1 n i yi = ( ) ( ) ( )

2 1

1 ∑ ? y y i 来自第一类状态的 要求它们的 离差平方和 愈小愈好 ( ) ( )

2 2 , ,

2 ,

1 n i yi = ( ) ( ) ( )

2 2

2 ∑ ? y y i 等于使下式 愈大愈好 ( ) ( ) [ ] ( ) ( ) [ ] ∑ ∑ = = ? + ? ? =

1 2

1 1

2 2

2 2

1 1

2 2

1 n i n i i i y y y y y y I 由于当两批数据给定后,I就是判别系数 的函 数,因此要使I最大,就选择 使得该多元函数 p C C C , , ,

2 1 p C C C , , ,

2 1 ) , , , (

2 1 p C C C I I = 达到最大. 比较关键的系数 (利用多元函数求 极值点的办法) 3)判别与检验 根据实测的 确定了判别函数 p X X X , ,

2 1 p p X C X C X C L + + + =

2 2

1 1 后,如何作出判别呢?就需要寻求一个判别指标. 这指标只需取 和 这两组数的加权平均即可 ( )

1 y ( )

2 y ( ) ( )

2 1

2 2

1 1 n n y n y n yc + + = 其中:

2 2

2 2

2 1

1 2

1 1

2 2

1 1

1 1 p p p p X C X C X C y X C X C X C y + + + = + + + = 可验证:

2 1 y y y c ≥ ≥ 因此,对于P个指标为 的样品.如果 ) , , (

2 1 p X X X c y y ;

则判定这个样品来自第一状态,否则就判定来自第 二状态. 应用实例: 某外贸公司为推销某一新产品,将该新产品之样品 寄往十二个国家的进口代理商,并附意见调查表,要求 对该产品给予评估.评估的因素有式样、包装及耐久性 三项.评分表用10分制.最后并要求说明是否愿意购 买,调查结果如表 产品特性 式样X1 包装X2 耐久性X3 购买者非购买者98776610

7 8

8 4

5 9

9 3

8 6

7 7

5 6

4 4

4 3

6 6

6 3

3 2

4 5

1 2

2 1

2 3

4 5

6 7

1 2

3 4

5 求判别函数(n1=7,n2=5,p=3)

1、计算 ( ) ( )

2 1 , i i X X

00 .

4 5 /

00 .

6 7 /

80 .

3 5 /

43 .

6 7 /

20 .

3 5 /

29 .

8 7 /

5 1

2 3

1 3

7 1

1 3

1 3

5 1

2 2

2 2

7 1

1 2

1 2

5 1

2 1

2 1

7 1

1 1

1 1 = = = = = = = = = = = = ∑ ∑ ∑ ∑ ∑ ∑ = = = = = = i i i i i i i i i i i i X X X X X X X X X X X X

2、计算各 )

3 ,

2 ,

1 ( = l d l ( ) ( ) ( ) ( ) ( ) ( )

00 .

2 00 .

4 00 .

6 63 .

2 80 .

3 43 .

6 09 .

5 20 .

3 29 .

8 2

3 1

3 3

2 2

1 2

2 2

1 1

1 1 = ? = ? = = ? = ? = = ? = ? = X X d X X d X X d 第

一、二 组式样、 包装、耐 久性平均 数 第一与第二组式样、 包装、耐久性的平 均差值

3、计算各 )

3 ,

2 ,

1 , ( = l k Skl ( ) ( ) [ ] ∑ ∑ = = = ? + ? =

5 1

2 2

1 2

1 7

1 2

1 1

1 1

11 22857 .

22 i i i i X X X X S ( ) ( ) [ ] [ ] { } ∑ ∑ = = = ? ? + ? ? =

5 1

2 2

2 2

2 1

2 1

7 1

1 2

1 2

1 1

1 1

12 34288 .

8 i i i i i i X X X X X X X X S

00000 .

26 00000 .

6 00000 .

2 00000 .

6 51427 .

26 34288 .

8 00000 .

2 33

32 31

23 22

21 13 = = = = = = = S S S S S S S

4、将上各计算结果代入方程组得 ? ? ? ? ? = + + = + + = + +

00 .

2 00000 .

26 00000 .

6 00000 .

2 63 .

2 00000 .

6 51427 .

26 34288 .

8 09 .

5 00000 .

2 34288 .

8 22857 .

22 3

2 1

3 2

1 3

2 1 C C C C C C C C C 写成矩阵形式为SC=D即: ? ? ? ? ? ? ? ? ? ? = ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

00 .

2 63 .

2 09 .

5 00000 .

26 00000 .

6 00000 .

2 00000 .

6 51427 .

26 34288 .

8 00000 .

2 34288 .

8 22857 .

22 3

2 1 C C C 由上述系数矩阵可得逆矩阵为 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? = ? ? ? ? ? ? ? ? ? ? = ?

04058 .

0 00911 .

0 00023 .

0 00911 .

0 04481 .

0 01600 .

0 00023 .

0 01600 .

0 05101 .

0 33

32 31

23 22

21 13

12 11

1 S S S S S S S S S S ? ? ? ? ? ? ? ? ? ? = ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? = ? ? ? ? ? ? ? ? ? ? ∑ ∑ ∑ = = =

05604 .

0 01820 .

0 21692 .

0 3

1 3

3 1

2 3

1 1

3 2

1 i i i i i i i i i d S d S d S C C C

5、得判别函数为

3 2

1 3

3 2

2 1

1 05604 .

0 01820 .

0 21692 .

0 X X X X C X C X C y + + = + + =

6、计算判别指标

251533 .

2 00 .

6 05604 .

0 42 .

6 01820 .

0 29 .

8 21692 .

0 1

3 3

1 2

2 1

1 1

1 = * + * + * = + + = X C X C X C y

987464 .

0 00 .

4 05604 .

0 80 .

3 01820 .

0 20 .

3 21692 .

0 2

3 3

2 2

2 2

1 1

2 = * + * + * = + + = X C X C X C y 判别指标为 ( ) ( )

72484 .

1 5

7 987464 .

0 5

251533 .

2 7

2 1

2 2

1 1 = + * + * = + + = n n y n y n yc

7、判别: 欲判别任何一潜在购买者究竟应归属于购买者或非购 买者,只需将该潜在购买者对产品的三种特性所给予的分 数代入判别函数中,即得该潜在购买者之判别值.

8、显著性检验 首先计算Malalanobis距离 ( )( ) ( )( )

64069 .

12 007 .

2 05604 .

0 63 .

2 01820 . 0........

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题