编辑: xwl西瓜xym | 2012-12-10 |
一组相互独立的、同分布的随机变量. 样本――统计研究的主要对象 数据的整理 比较直观,比较清晰的结论21―50岁的中青年患者大约占总发病人数的 3/4,提醒民众中青年是易感人群. 100% 17.77% 17.50% 20.14% 35.69% 7.64% 1.27% 比例
1897 337
332 382
677 145
24 人数 总数 51岁以上 41-50岁31-40岁21-30岁11-20岁10岁以下 年龄 北京地区SARS患者的统计数据(截至2003年5月5日) 频数表和直方图 将数据的取值范围划分为若干个区间,统计这组数据在每个区间中出现的次数,称为频数,得到一个频数表. 柜台高度频数表
2 2
4 5
12 8
6 3
4 4 频数 137.65 132.95 128.25 123.55 118.85 114.15 109.45 104.75 100.05 95.35 中点 推测出总体的某些简单性质.如表6表明选择柜台高度在107.10至125.90的有31人,占总人数的62%,柜台高度设计在这个范围内,会得到大多数顾客的满意. 直方图(histogram),或频数分布图 柜台高度直方图 统计量 平均值 (mean,简称样本均值)定义为 频数表和直方图给出某个范围的状况,无法直接给出具体值,如例1关于确定柜台高度的问题 可作为设计柜台高度的参考值 两个班的一次考试成绩
78 77
83 86
80 82
82 81
77 90
73 85 乙班
81 99
53 90
85 79
93 55
87 88
68 79
78 88
86 69 甲班
32 31
30 29
28 27
26 25
24 23
22 21
20 19
18 17 序号
79 84
85 78
83 75
78 84
90 82
81 82
85 82
83 84 乙班
80 94
87 88
73 93
65 88
87 84
79 95
92 85
88 92 甲班
16 15
14 13
12 11
10 9
8 7
6 5
4 3
2 1 序号 现象:甲班的平均值:82.75分,乙班的平均值:81.75分结论:大致表明甲班的平均成绩稍高于乙班现象:甲班中90分以上的有7人,但有2人不及格,分数比较分散.乙班全在73分到90分之间,分数相对集中 为了描述数据的这种分散程度(统计上称为变异),统计上引入标准差的概念. 样本x=(x1, x2, ?, xn)的标准差(Standard deviation)为: 甲班的标准差为10.98分,乙班的标准差为3.98分,表明甲班成绩的分散程度远大于乙班. 统计量:由样本加工出来的、集中反映样本数量特征的函数. 三类统计量:表示位置的,表示变异程度的,表示分布形状的. 偏度(skewness):分布对称性 峰度(kurtosis ):分布形状 表示位置的还有: 中位数(median):将数据由小到大排序后处于中间位置的那个数值. 当样本容量n为奇数时,中位数唯一确定;
当n为偶数时,定义为中间两个数的平均值. 表示变异程度的还有: 极差(range):x1, x2, ?, xn的最大值与最小值之差.方差(variance):标准差的平方s2. 表示分布形状的: MATLAB数据描述的常用命令 峰度g2 同上 峰度 kurtosis(x) 偏度g1 同上 偏度 skewness(x) var(x,1):同上 方差s2 同上 方差 var(x) std(x,1): (3)式中n-1改成n 标准差s 同上 标准差 std(x) 极差 同上 极差 range(x) 中位数 同上 中位数 median(x) x: 原始数据行向量 均值 mean(x) 同上 直方图 同上 直方图 hist(x,k) [n,y]=hist(x)中k取缺省值10 n: 频数行向量y: 区间中点行向量 x: 原始数据行向量k:等分区间数 频数表 [n,y]=hist(x,k) 注意事项 输出 输入 名称 命令 求银行柜台高度的频数表、直方图及均值等统计量:X =[100
110 136
97 104
100 95
120 119
99 ... % 输入表2数据,...为延续符号
126 113
115 108
93 116
102 122
121 122
118 117
114 106
110 119