编辑: 思念那么浓 2018-11-05

5 - 康佳学院培训教材 使用 Unicode 技术可以构造跨语境的应用,使数字化的古籍可在中文简体、 中文繁体、日文、韩文、英文等视窗平台上运行,为全球关心汉学的学者共享, 并且可以构造 Internet 应用,使古籍数字化的访问更加简便. Unicode 解决了 文字显现 的问题,它也因此成为今后我们关注古籍数字 化时常常会碰到的一个字眼.但除 文字显现 问题之外,字型的表示以及存储、 汉字的输入以及输出等多方面,都有一系列在英语处理时不会发生的难题.计算 机技术几乎用了

30 多年的时间,才完成了字符编码从 5bit、7bit、8bit 直到 16bit 的转换,目前以 Unicode 为起点开始了向 16bit、32bit 的过渡.对Unicode 的重 点介绍,相信可以令我们看到汉字文化的数字过程中所经历的艰难. 第二部分 字符编码的规则 (40 分钟) 2.1 ASCII编码: 字符数据是指用诸如字母符号、数字符号、标点符号等可见符号构成的数据,并 称为非数值数据.对于字符进入计算机内,要解决的一个问题是如何在机内表示字 符.我们说A和B是两个不同的字母;

原因是它们有不同的图形形状;

而计算机内无 法实际表示这种图形.因此,我们是否可以找到另一种方法来表示字母A和B呢?回 答是肯定的.因为计算机只能采用二进制形式表示数据;

因此,我们为每一个字符 分配一个整数,字符不同对应的整数也不同;

反之,不同的整数就表示了不同的字 符.我们称这种整数为字符的编码或代码.现在一般通用的字符编码是由美国制定 的 美国信息交换标准代?quot;

提供的编码,即ASCII(American Standard Code InformationInterchange)码.这些字符按一定的规则排列并汇集在一起,构成一 张表,称为ASCII编码表.ASCII编码表中定义的字符又称为ASCII字符.ASCII编码 表如表2.1. 表2.1 ASCII 编码表

000 001

010 011

100 101

110 111

0 1

2 3

4 5

6 7

0 1

2 3

4 5

6 7

0000 0

0 SP

0 @ P ・ p

0001 1

1 !

1 A Q a q

0010 2

2

2 B R b r

0011 3

3 3 C S c s

0100 4

4 S

4 D T d t

0101 5

5 %

5 E U e u 内部资料, 请勿外传 -

6 - 康佳学院培训教材

0110 6

6 6 F V f v

0111 7

7 '

7 G W g w

1000 8

8 (

8 H X h x

1001 9

9 )

9 I Y i y

1010 A

10 * : J Z j z

1011 B

11 + ;

K [ k

1100 C

12 , <

L l

1101 D

13 - = M ] m

1110 E

14 . >

N n

1111 F

15 / ? O - o 表中b7b6b5b4b3b2b1b0 的值即为字符的ASCII编码,由7位组成.如,查字 母A的ASCII编码,则先在表中找到字母A ,A所在列顶部的b7b6b5=100,所在行左 边的b4b3b2b1b0 = 0001;

故有字母A的ASCII编码为二进制 1000001,或十六进制 41,或十进制

65 ;

反之,若有二进制编码

1011010 ,得b7b8b5=101,b4b3b2b1b0 = 10101,在101 列和

1010 行的交叉点上的字母为 Z . 每一个字符的编码要存储在一个字节中,其最高位永远为

0 .如 字母A 存 储表示为: 若干字符构成的字符串用连续的若干字节存储,如 GOOD MORNING 表示为:或表示成16 进制数:47 4F 4F

44 20 4C 4F

52 4E

49 4E

46 或表示成10 进制数:内部资料, 请勿外传 -

7 - 康佳学院培训教材

71 79

79 68

32 76

79 82

78 73

78 70 又如2001.10.26 表示为:对于数字字符有一个共同的特点,即字符编码的后

4 位二进制数的值刚 好等于十进制数字字符表示的值.这为我们直接输入提供了便利,也为输入后将 十进制数转换为二进制数提供了便利. 2.2 GB和BIG5编码 中文与英文用 ASCII 码一个字节表示不同,它使用两个字节来表示.事实上, 在文本文件中保存的就是每个汉字对应的两个字节编码, 而显示问题由中文操作 系统自动解决. 汉字编码并不统一, 我们使用的是 GB 码, 而台湾地区使用的是 BIG5 码. BIG5 码文件中保存的是汉字相应的 BIG5 编码,GB 码文件中保存的是汉字相应的 GB 编码. GB 码编码规则是这样的:每个汉字由两个字节构成,第一个字节的范围从 0XA1-0XFE,共96 种.第二个字节的范围分别为 0XA1-0XFE,共96 种.利用 这两个字节共可定义出

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题