数据的表现形式(1)
数据的表现形式
西文字符编码
ASCII码(美国信息交换标准码)
计算机内部用一个字节(8位二进制),来存放一个7位ASCII码,最高位为“0”,共 可以表示128个不同字符
ASCII码中,0是48,a是97,A是65
文本文件是以【ASCII】码
EBCDIC码
一般用8位二进制数表示一个十进制数,共2^8=256种状态
BCD码
一般用4位二进制数表示一个十进制数,是十进制代码中最常用的一种
汉字编码
汉字的处理过程:输入 > 输入码 > 国标码 > 机内码 > 地址码 > 字形码 > 输出
编码间的转换
区位码是两位十进制编码,需现将其换算为十六进制的区和位,才能够进行转换
国标码=区位码+2020H 机内码=国标码+8080H 机内码=区位码+A0A0H
汉字交换码
又称国标码,是一个4位十六进制数,用于外码和内码的交换,交换码是双字节编 码
因为一个字节足以表示6763个汉字,所以一个国标码用两个字节表示一个汉字, 每个字节最高位为0
目前,我国的汉字编码使用的国家标准为GB 2312-80,规定了7445个字符编码, 其中有682个非汉字图形符和6763个汉字的代码。有一级常用字3755个,二级常用字3008个
【国标码】在计算机内部是不直接使用的,需要【机内码】
汉字输入码
也叫外码,都是由键盘上的字符和数字组成,目前流行的有全拼输入法、双拼输入 法、自然码输入法和五笔输入法等
汉字区位码
区位码是一个四位十进制数,用94行94列的二维代码来表示汉字,两字节分别用 两位十进制数编码,前字节的编码称为区码,后字节的编码称为位码
在区位码中,01-09区为682个特殊字符,16~87区为汉字区,包含6763个汉字, 其中16~55区为一级汉字(3755个最常用的汉字,按拼音字母的次序排序), 57~87区为二级汉字(3008个汉字,按部首次序排列)
汉字内部码
即内码,又叫机内码,是在计算机内部对汉字进行存储、处理的汉字代码,它应 能满足存储、处理和传输的要求。
一个汉字输入计算机后就转换为机内码,机内码是双字节编码,每个字节的最高 位都是1