编辑: 思念那么浓 | 2018-11-05 |
0 与1,而可以达到 -1 (其中 为该字节中所包 含的位个数),如此我们就可以将我们想记录在计算机系统的符号一一编号,以 字节为单位储存在计算机中,这就是编码 (Encoding) 的基本观念. 由于早期的计算机系统是发源于美国,因此最早的编码系统也是发源于此. 由于他们的资料只需数字、
26 个英文字母 (包括大小写)、 标点与其它特殊符号、 外加一些计算机系统的句柄可, 因此当时一个字节的大小只需
7 个位即可包含所 有所需的信息,总共可容纳
128 个符号,这也就是大家所熟知的 ASCII 编码. GB 编码和 BIG5 GB 编码是中文编码,它与 ASII 码用一个字节表示不同,它使用两个字节来 表示.汉字中文汉字编码并不统一,我们大陆使用的是 GB 码,而台湾地区使用 的是 BIG5 码. UNICODE 编码(统一码) 顾名思义是一个将世界上几十种紊乱的文字编码整合在一起的努力.其幕后是由 美国各大电脑厂商所组成的Unicode协会来推动.目的在推广一个世界通行的编码体 制,将所有世界上的常用文字都涵盖进去,进而减少各大电脑厂商开发国外市场所 遇到的问题. 为了要将成千上万的文字统统收集到一个共通的编码机制底下,在兼顾经济的原 则下,不管是东方或西方文字,每个字在Unicode 中一律以两个 bytes 来代表.这 内部资料, 请勿外传 -
4 - 康佳学院培训教材 样一来,就至少能有 2^16=65536 种不同的组合,足以应付目前绝大多数场合的 需要. UTF8 ( 编码 Unicode/UCSTransformationFormat / 通用字集 统一码变换格 式) UTF8 是一种不等幅的编码方式,在UTF8 之下,英数字(即ASCII 字元)保 持原状,完全不受影响(因此不需要做转换);
但其它语文的资料则需要透过程 序来做转换,而且会变宽,因为每个字需要额外多用一或二个 bytes 来编码. 1.2字符编码的进程 在计算机的各个部件之间、在计算机与外围设备(键盘、显示器、打印机、 磁盘、光盘等)之间、在形成网络的计算机与计算机之间交换信息的单位一般是 由8个字位(bit)组成的字节(Byte).当人与计算机打交道时,字节(Byte) 和这
100 多个字符之间可以很方便地实现转换. 计算机与英语文化的这种适应性 为计算机在英语国家的迅速普及、广泛应用提供了最大的方便. 当计算机引入中国之后,汉字文化与这种先进的信息处理工具不适应的矛盾 便凸现出来了. 让我们做一个简单的计算, 一个字节 (Byte) 也就是
8 个字位 (bit) 所能代表的字符数是
2 的8次方,共256 个. 而汉字的数量(国标码就有六千多汉字)远远超过了一个字节可以表示的范 围.计算机内部至少要用
2 个字节长度的编码才能代表千千万万的汉字.仅这一 个问题,便给计算机的内部运作和计算机之间的通讯带来很多麻烦. 好在
20 世纪的最后十年,人类完成了一项连接计算机世界与真实世界的基 础工作:把迄今为止尚存的语言(LivingLanguages)按照其文字(Script)统 一编码,制定出全球通用的编码符集标准即 Unicode .2000 年伊始,这个标 准的文本便正式印刷面世.在这样广阔的代码空间、在世界范围内统一代码,其 意义远远超过了几千年前的 书同文 ,有人将它称作计算机时代的书同文、字 同码. Unicode 拥有充足的汉字编码,它的码位所容纳的汉字囊括《康熙字典》、 《汉语大字典》,拥有如此多的标准汉字,进行古籍电子化就再无外字困扰.同时,它能够处理多国文字,它包含的少数民族文字,以及其它多国文字,对于包 含多种少数民族文字的古籍数字化非常重要.而且,由于这种统一编码的架构, 使得正―异、中―日、繁―简、正―讹以及古今字同平台相见,实现这种关联的 全文检索系统,极大的方便了使用不同语种用户的检索. 内部资料, 请勿外传 -