【PDF】第十章数据的统计描述和分析 - 资源下载

编辑：

You—灰機

2019-07-06

1 的表 1,有20 行、10 列,数据列之间用空格键或 Tab 键分割,该数据文件 data.txt 存放在 matlab\work 子目录下,在Matlab 中用 load 命令读入数据,具体作法是: load data.txt 这样在内存中建立了一个变量 data,它是一个包含有

10 20* 个数据的矩阵. 为了得到我们需要的

100 个身高和体重各为一列的矩阵,应做如下的改变: high=data(:,1:2:9);

high=high(:) weight=data(:,2:2:10);

weight=weight(:) (ii)作频数表及直方图求频数用 hist 命令实现,其用法是: [N,X] = hist(Y,M) 得到数组(行、列均可)Y 的频数表.它将区间[min(Y),max(Y)]等分为 M 份(缺省时 M 设定为 10) ,N 返回 M 个小区间的频数,X 返回 M 个小区间的中点. 命令 hist(Y,M) 画出数组 Y 的直方图. 对于例

1 的数据,编写程序如下: load data.txt;

high=data(:,1:2:9);

high=high(:);

weight=data(:,2:2:10);

weight=weight(:);

[n1,x1]=hist(high) %下面语句与hist命令等价 %n1=[length(find(high=158.1&

high=161.2&

high=164.5&

high=167.6&

high=170.7&

high=173.8&

high=176.9&

high=180&

high=183.1))] [n2,x2]=hist(weight) subplot(1,2,1), hist(high) subplot(1,2,2), hist(weight) 计算结果略,直方图如图

1 所示. -203-

1 5

0 1

6 0

1 7

0 1

8 0

1 9

0 0

5 1

0 1

5 2

0 2

5 3

0 4

0 5

0 6

0 7

0 8

0 0

5 1

0 1

5 2

0 2

5 图1直方图从直方图上可以看出,身高的分布大致呈中间高、两端低的钟形;

而体重则看不出什么规律.要想从数值上给出更确切的描述,需要进一步研究反映数据特征的所谓统计量 .直方图所展示的身高的分布形状可看作正态分布,当然也可以用这组数据对分布作假设检验. 例2统计下列五行字符串中字符 a、g、c、t 出现的频数 1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggagg 2.cggaggacaaacgggatggcggtattggaggtggcggactgttcgggga 3.gggacggatacggattctggccacggacggaaaggaggacacggcggacataca 4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagctta 5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggc 解把上述五行复制到一个纯文本数据文件 shuju.txt 中,放在 matlab\work 子目录下,编写如下程序: clc fid1=fopen('

shuju.txt'

);

i=1;

while (~feof(fid1)) data=fgetl(fid1);

a=length(find(data==97));

b=length(find(data==99));

c=length(find(data==103));

d=length(find(data==116));

e=length(find(data>

=97&

data ν 称为右偏态,此时数据位于均值右边的比位于左边的多;

0 1 <

ν 称为左偏态,情况相反;

而1ν接近

0 则可认为分布是对称的. 峰度是分布形状的另一种度量,正态分布的峰度为 3,若2ν比3大得多,表示分布有沉重的尾巴, 说明样本中含有较多远离均值的数据, 因而峰度可以用作衡量偏离正态分布的尺度之一. Matlab 中moment(x,order)返回 x 的order 阶中心矩,order 为中心矩的阶数. skewness(x)返回 x 的偏度,kurtosis(x)返回峰度. 在以上用 Matlab 计算各个统计量的命令中,若x为矩阵,则作用于 x 的列,返回一个行向量. 对例

1 给出的学生身高和体重,用Matlab 计算这些统计量,程序如下: clc load data.txt;

high=data(:,1:2:9);

high=high(:);

weight=data(:,2:2:10);

weight=weight(:);

-205- shuju=[high weight];

jun_zhi=mean(shuju) zhong_wei_shu=median(shuju) biao_zhun_cha=std(shuju) ji_cha=range(shuju) pian_du=skewness(shuju) feng_du=kurtosis(shuju) 统计量中最重要、最常用的是均值和标准差,由于样本是随机变量,它们作为样本的函数自然也是随机变量, 当用它们去推断总体时, 有多大的可靠性就与统计量的概率分布有关,因此我们需要知道几个重要分布的简单性质. 1.4 统计中几个重要的概率分布 1.4.1 分布函数、密度函数和分位数随机变量的特性完全由它的(概率)分布函数或(概率)密度函数来描述.设有随机变量 X ,其分布函数定义为 x X ≤ 的概率,即}{)(xXPxF≤=.若 X 是连续型随机变量,则其密度函数 ) (x p 与)(x F 的关系为 ∫ ∞ ? = x dx x p x F ) ( ) ( . 上α 分位数是下面常用的一个概念,其定义为:对于

注：以上内容是本站开源项目的机器提供的预览内容，更完整和更好的阅读体验请直接免费下载资源后阅读

下载（注：源文件不在本站服务器，都将跳转到源网站下载）

备用下载

PDF《第十章 数据的统计描述和分析》

PDF《第十章数据的统计描述和分析》