【PDF】文字系统 - 资源下载

编辑：

思念那么浓

2018-11-05

0 与1,而可以达到 -1 (其中为该字节中所包含的位个数),如此我们就可以将我们想记录在计算机系统的符号一一编号,以字节为单位储存在计算机中,这就是编码 (Encoding) 的基本观念. 由于早期的计算机系统是发源于美国,因此最早的编码系统也是发源于此. 由于他们的资料只需数字、

26 个英文字母 (包括大小写)、标点与其它特殊符号、外加一些计算机系统的句柄可, 因此当时一个字节的大小只需

7 个位即可包含所有所需的信息,总共可容纳

128 个符号,这也就是大家所熟知的 ASCII 编码. GB 编码和 BIG5 GB 编码是中文编码,它与 ASII 码用一个字节表示不同,它使用两个字节来表示.汉字中文汉字编码并不统一,我们大陆使用的是 GB 码,而台湾地区使用的是 BIG5 码. UNICODE 编码(统一码) 顾名思义是一个将世界上几十种紊乱的文字编码整合在一起的努力.其幕后是由美国各大电脑厂商所组成的Unicode协会来推动.目的在推广一个世界通行的编码体制,将所有世界上的常用文字都涵盖进去,进而减少各大电脑厂商开发国外市场所遇到的问题. 为了要将成千上万的文字统统收集到一个共通的编码机制底下,在兼顾经济的原则下,不管是东方或西方文字,每个字在Unicode 中一律以两个 bytes 来代表.这内部资料, 请勿外传 -

4 - 康佳学院培训教材样一来,就至少能有 2^16=65536 种不同的组合,足以应付目前绝大多数场合的需要. UTF8 ( 编码 Unicode/UCSTransformationFormat / 通用字集统一码变换格式) UTF8 是一种不等幅的编码方式,在UTF8 之下,英数字(即ASCII 字元)保持原状,完全不受影响(因此不需要做转换);

但其它语文的资料则需要透过程序来做转换,而且会变宽,因为每个字需要额外多用一或二个 bytes 来编码. 1.2字符编码的进程在计算机的各个部件之间、在计算机与外围设备(键盘、显示器、打印机、磁盘、光盘等)之间、在形成网络的计算机与计算机之间交换信息的单位一般是由8个字位(bit)组成的字节(Byte).当人与计算机打交道时,字节(Byte) 和这

100 多个字符之间可以很方便地实现转换. 计算机与英语文化的这种适应性为计算机在英语国家的迅速普及、广泛应用提供了最大的方便. 当计算机引入中国之后,汉字文化与这种先进的信息处理工具不适应的矛盾便凸现出来了. 让我们做一个简单的计算, 一个字节 (Byte) 也就是

8 个字位 (bit) 所能代表的字符数是

2 的8次方,共256 个. 而汉字的数量(国标码就有六千多汉字)远远超过了一个字节可以表示的范围.计算机内部至少要用

2 个字节长度的编码才能代表千千万万的汉字.仅这一个问题,便给计算机的内部运作和计算机之间的通讯带来很多麻烦. 好在

20 世纪的最后十年,人类完成了一项连接计算机世界与真实世界的基础工作:把迄今为止尚存的语言(LivingLanguages)按照其文字(Script)统一编码,制定出全球通用的编码符集标准即 Unicode .2000 年伊始,这个标准的文本便正式印刷面世.在这样广阔的代码空间、在世界范围内统一代码,其意义远远超过了几千年前的书同文 ,有人将它称作计算机时代的书同文、字同码. Unicode 拥有充足的汉字编码,它的码位所容纳的汉字囊括《康熙字典》、《汉语大字典》,拥有如此多的标准汉字,进行古籍电子化就再无外字困扰.同时,它能够处理多国文字,它包含的少数民族文字,以及其它多国文字,对于包含多种少数民族文字的古籍数字化非常重要.而且,由于这种统一编码的架构, 使得正―异、中―日、繁―简、正―讹以及古今字同平台相见,实现这种关联的全文检索系统,极大的方便了使用不同语种用户的检索. 内部资料, 请勿外传 -

注：以上内容是本站开源项目的机器提供的预览内容，更完整和更好的阅读体验请直接免费下载资源后阅读

下载（注：源文件不在本站服务器，都将跳转到源网站下载）

备用下载

下一篇: 拍卖物品清单编号 AUCTION LIST UP-11/2019
上一篇: Country of Origin Effect

PDF《文字系统》