编辑: 没心没肺DR | 2019-12-03 |
0811160006 我主要介绍判别分析的概念原理,必要性,以及一些例子.
具体3种方法和在天 文当中的应用由小组其他成员负责
一、判别分析的基本概念 判别分析研究方法是根据已知对象的某些观 测指标和所属类别来判断未知对象所属类 别的一种统计学方法. 与 聚类分析不同 在聚类分析中一般人们事先并不知道或一定 要明确应该分成几类,完全根据数据来确 定. 比如,把中国的县分成若干类 判别分析是一种判别个体所隶属的群体的统计分析手段. 例如:1,为了确诊某种疾病,需要将病人的各项检测指标同 各种典型的病历做对照,从而判断其最可能属于哪种疾病. 2,根据某些气象资料来判断近期的天气变化,需要将 这些气象资料同某些典型的天气变化规律进行对照,判断最可 能的情况 3,已知有100个水稻品种,共分为10类,每个样本属于这 10类中的哪一类,我们都应有相当正确的认识. 现在发现了一个新的品种,并知道这个品种一定属于这10类中的 一类.判别分析的作用在于将这个品种归入到正确的类别中. 4,有一些昆虫的性别很难看出,只有通过解剖 才能够判别;
但是雄性和雌性昆虫在若干体表度量上有些综 合的差异.于是统计学家就根据已知雌雄的昆 虫体表度量得到一个标准-判别标准,并且利 用这个标准来判别其他未知性别的昆虫. 这样的判别虽然不能保证百分之百准确,但至 少大部分判别都是对的,而且用不着杀死昆虫 来进行判别了. 判别分析的基本思路 ? 设有G
1、G
2、…GK个总体,从不同的总 体中抽出不同的样本,根据样本→建立判 别函数→判别新的样品属于哪一个总体. ? 当然,根据不同的方法,建立的判别法则 也是不同的. ? 常用的判别方法有:距离判别、Fisher判别、Bayes判别.
一、问题提出: 在市场研究中经常会遇到根据所调查的数据资料,对所 研究的对象进行分类判别. 如:消费者对某些新产品 喜欢 与 不喜欢 之判别 医学诊断中病因的判别等 采用多元统计分析中的判别分析可以解决这类问题. 分类: 1)二级判别 2)多级判别 3)逐步判别 设: Y―― 表示购买者或非购买者(状态) X1―― 表示产品的价格(指标) X2―― 表示消费者的收入 对光顾该商店的顾客进行n次观察. 设:n1组数据为购买者(A) n2组数据为非购买者(B) 由已知变量X1,X2,将n1+n2=n组数据分成两大类;
购买者(A)―― ) ( ), (
2 1 A X A X i i (I=1,2,…,n1) 非购买者(B)―― ) ( ), (
2 1 B X B X j j (j=1,2,…,n2) 若将这n1+n2组数据散点图方法绘图: X1 X2 (B) (A) L 购买者, 非购买者, L作为分界线 散点图方式直线的划定不那么 客观、合理,况且当有两个因素影 响时,无法直观地划出这条直线. 判断分析――提供了依据历史 资料,根据一定区别准则,比较客 观的寻求一条A、B两类的最佳分界 线,使A、B两类点能被此直线最大 限度地区别开来的一种统计方法. 2)P个指标的二类判别函数 假定:采用P个指标(上例两个指标X
1、X2,P=2) 解决一个判别两类状态的问题(上例购买者、非 购买者) 对第一种状态(购买者)假定调查n1次共有p*n1个数 据,写成数据矩阵 ? ? ? ? ? ? ? ? ? ? ? ? ? =
1 1
2 1
1 1
2 1
22 1
21 1
1 1
12 1
11 )
1 (
1 1
1 pn p p n n X X X X X X X X X X # # 对第二种状态(非购买者)假定调查n2次共有p*n2个数据, 写成数据矩阵 ? ? ? ? ? ? ? ? ? ? ? ? ? =
2 2
2 2
1 2
2 2
22 2
21 2
1 2
12 2
11 )
2 (
2 2
2 pn p p n n X X X X X X X X X X # # 步骤简述:判别分析的任务,就是根据这两个数据矩 阵,在最优判别准则下,确定判别函数 ( ) p p p X C X C X C X X X L Y + + + = =
2 2
1 1
2 1 , , , 使两类状态能被最大限度地区别开来. 由于已有n1几个属于第一类状态的样本 ( ) ( ) ( ) ? ? ? ? ? ? ? ? ? ? ? ? ? ?
1 1
2 1
1 pi i i X X X # ( )
1 , ,
2 ,
1 n i = 代入判别函数 后,得到 ( ) p X X X L , , ,
2 1 ( )
1 1
1 2
2 1
1 1
1 , ,
2 ,
1 n i X C X C X C y pi p i i i = + + + = 由于已有n1几个属于第二类状态的样本 代入判别函数 后,得到 ( ) p X X X L , , ,
2 1 ( )
2 2
2 2
2 2
1 1
2 , ,
2 ,
1 n i X C X C X C y pi p i i i = + + + = 令: ∑ ∑ = = = =
2 1
1 2
2 2
1 1
1 1
1 1 n i i n i i y n y y n y ( ) ( )
2 1 , y y 分别来自第
一、第二状态的n
1、n2个样本 所对应的函数值的平均值. 为了使得这个判别函数不清能最大限度地区分来自两 类不同状态的样本,当然要求来自两类不同状态的两 个平均值 与 极差愈大愈好: ( )
1 y ( )
2 y 来自第一类状态的 要求它们的 离差平方和 愈小愈好 ( ) ( )
1 1 , ,
2 ,
1 n i yi = ( ) ( ) ( )
2 1
1 ∑ ? y y i 来自第一类状态的 要求它们的 离差平方和 愈小愈好 ( ) ( )
2 2 , ,
2 ,
1 n i yi = ( ) ( ) ( )
2 2
2 ∑ ? y y i 等于使下式 愈大愈好 ( ) ( ) [ ] ( ) ( ) [ ] ∑ ∑ = = ? + ? ? =
1 2
1 1
2 2
2 2
1 1
2 2
1 n i n i i i y y y y y y I 由于当两批数据给定后,I就是判别系数 的函 数,因此要使I最大,就选择 使得该多元函数 p C C C , , ,
2 1 p C C C , , ,
2 1 ) , , , (
2 1 p C C C I I = 达到最大. 比较关键的系数 (利用多元函数求 极值点的办法) 3)判别与检验 根据实测的 确定了判别函数 p X X X , ,
2 1 p p X C X C X C L + + + =
2 2
1 1 后,如何作出判别呢?就需要寻求一个判别指标. 这指标只需取 和 这两组数的加权平均即可 ( )
1 y ( )
2 y ( ) ( )
2 1
2 2
1 1 n n y n y n yc + + = 其中:
2 2
2 2
2 1
1 2
1 1
2 2
1 1
1 1 p p p p X C X C X C y X C X C X C y + + + = + + + = 可验证:
2 1 y y y c ≥ ≥ 因此,对于P个指标为 的样品.如果 ) , , (
2 1 p X X X c y y ;
则判定这个样品来自第一状态,否则就判定来自第 二状态. 应用实例: 某外贸公司为推销某一新产品,将该新产品之样品 寄往十二个国家的进口代理商,并附意见调查表,要求 对该产品给予评估.评估的因素有式样、包装及耐久性 三项.评分表用10分制.最后并要求说明是否愿意购 买,调查结果如表 产品特性 式样X1 包装X2 耐久性X3 购买者非购买者98776610
7 8
8 4
5 9
9 3
8 6
7 7
5 6
4 4
4 3
6 6
6 3
3 2
4 5
1 2
2 1
2 3
4 5
6 7
1 2
3 4
5 求判别函数(n1=7,n2=5,p=3)
1、计算 ( ) ( )
2 1 , i i X X
00 .
4 5 /
00 .
6 7 /
80 .
3 5 /
43 .
6 7 /
20 .
3 5 /
29 .
8 7 /
5 1
2 3
1 3
7 1
1 3
1 3
5 1
2 2
2 2
7 1
1 2
1 2
5 1
2 1
2 1
7 1
1 1
1 1 = = = = = = = = = = = = ∑ ∑ ∑ ∑ ∑ ∑ = = = = = = i i i i i i i i i i i i X X X X X X X X X X X X
2、计算各 )
3 ,
2 ,
1 ( = l d l ( ) ( ) ( ) ( ) ( ) ( )
00 .
2 00 .
4 00 .
6 63 .
2 80 .
3 43 .
6 09 .
5 20 .
3 29 .
8 2
3 1
3 3
2 2
1 2
2 2
1 1
1 1 = ? = ? = = ? = ? = = ? = ? = X X d X X d X X d 第
一、二 组式样、 包装、耐 久性平均 数 第一与第二组式样、 包装、耐久性的平 均差值
3、计算各 )
3 ,
2 ,
1 , ( = l k Skl ( ) ( ) [ ] ∑ ∑ = = = ? + ? =
5 1
2 2
1 2
1 7
1 2
1 1
1 1
11 22857 .
22 i i i i X X X X S ( ) ( ) [ ] [ ] { } ∑ ∑ = = = ? ? + ? ? =
5 1
2 2
2 2
2 1
2 1
7 1
1 2
1 2
1 1
1 1
12 34288 .
8 i i i i i i X X X X X X X X S
00000 .
26 00000 .
6 00000 .
2 00000 .
6 51427 .
26 34288 .
8 00000 .
2 33
32 31
23 22
21 13 = = = = = = = S S S S S S S
4、将上各计算结果代入方程组得 ? ? ? ? ? = + + = + + = + +
00 .
2 00000 .
26 00000 .
6 00000 .
2 63 .
2 00000 .
6 51427 .
26 34288 .
8 09 .
5 00000 .
2 34288 .
8 22857 .
22 3
2 1
3 2
1 3
2 1 C C C C C C C C C 写成矩阵形式为SC=D即: ? ? ? ? ? ? ? ? ? ? = ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
00 .
2 63 .
2 09 .
5 00000 .
26 00000 .
6 00000 .
2 00000 .
6 51427 .
26 34288 .
8 00000 .
2 34288 .
8 22857 .
22 3
2 1 C C C 由上述系数矩阵可得逆矩阵为 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? = ? ? ? ? ? ? ? ? ? ? = ?
04058 .
0 00911 .
0 00023 .
0 00911 .
0 04481 .
0 01600 .
0 00023 .
0 01600 .
0 05101 .
0 33
32 31
23 22
21 13
12 11
1 S S S S S S S S S S ? ? ? ? ? ? ? ? ? ? = ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? = ? ? ? ? ? ? ? ? ? ? ∑ ∑ ∑ = = =
05604 .
0 01820 .
0 21692 .
0 3
1 3
3 1
2 3
1 1
3 2
1 i i i i i i i i i d S d S d S C C C
5、得判别函数为
3 2
1 3
3 2
2 1
1 05604 .
0 01820 .
0 21692 .
0 X X X X C X C X C y + + = + + =
6、计算判别指标
251533 .
2 00 .
6 05604 .
0 42 .
6 01820 .
0 29 .
8 21692 .
0 1
3 3
1 2
2 1
1 1
1 = * + * + * = + + = X C X C X C y
987464 .
0 00 .
4 05604 .
0 80 .
3 01820 .
0 20 .
3 21692 .
0 2
3 3
2 2
2 2
1 1
2 = * + * + * = + + = X C X C X C y 判别指标为 ( ) ( )
72484 .
1 5
7 987464 .
0 5
251533 .
2 7
2 1
2 2
1 1 = + * + * = + + = n n y n y n yc
7、判别: 欲判别任何一潜在购买者究竟应归属于购买者或非购 买者,只需将该潜在购买者对产品的三种特性所给予的分 数代入判别函数中,即得该潜在购买者之判别值.
8、显著性检验 首先计算Malalanobis距离 ( )( ) ( )( )
64069 .
12 007 .
2 05604 .
0 63 .
2 01820 . 0........