在计算机中什么表示汉字
汉字机内码(内码)(汉字存储码)的作用是统一了各种不同的汉字输入码在计算机内部的表示。
在计算机内表示汉字的代码是汉字机内码,汉字机内码由国标码演化而来,把表示国标码的两个字节的最高位分别加“1”,就变成汉字机内码。
汉字输入码是指直接从键盘输入的各种汉字输入方法的编码,属于外码。为了将汉字的各种输入码在计算机内部统一起来,就有了专用于计算机内部存储汉字使用的汉字机内码,用以将输入时使用的多种汉字输入码统一转换成汉字机内码进行存储,以方便机内的汉字处理汉字机内码是在计算机内部存储、处理的代码。
计算机既要处理汉字,又要处理英文。因此计算机必须能区别汉字字符和英文字符。
英文字符的的机内码是最高为为 0的8位ASCII码。
为了不与7位ASCII码发生冲突,把国标码每个字节的最高位由0改为1,其余位不变的编码作为汉字字符的机内码。
在汉字系统中,一般采用点阵来表示字形。 16 *16汉字点阵示意 16 * 16点阵字形的字要使用32个字节(16 * 16/8= 32)存储,24 * 24点阵字形的字要使用72个字节(24 * 24/8=72)存储。
在计算机中什么表示汉字和数字
根据应用目的的不同,汉字编码分为外码、交换码、机内码和字形码。
1.外码(输入码)
外码也叫输入码,是用来将汉字输入到计算机中的一组键盘符号。目前常用的输入码有拼音码、五笔字型码、自然码、表形码、认知码、区位码和电报码等,一种好的编码应有编码规则简单、易学好记、操作方便、重码率低、输入速度快等优点,每个人可根据自己的需要进行选择。在后面的章节中,重点介绍智能全拼输入法和五笔字型输入法。
2.交换码(国标码)
计算机内部处理的信息,都是用二进制代码表示的,汉字也不例外。而二进制代码使用起来是不方便的,于是需要采用信息交换码。中国标准总局1981年制定了中华人民共和国国家标准GB2312--80《信息交换用汉字编码字符集--基本集》,即国标码。
区位码是国标码的另一种表现形式,把国标GB2312--80中的汉字、图形符号组成一个94×94的方阵,分为94个“区”,每区包含94个“位”,其中“区”的序号由01至94,“位”的序号也是从01至94。94个区中位置总数=94×94=8836个,其中7445个汉字和图形字符中的每一个占一个位置后,还剩下1391个空位,这1391个位置空下来保留备用。
3.机内码
根据国标码的规定,每一个汉字都有了确定的二进制代码,在微机内部汉字代码都用机内码,在磁盘上记录汉字代码也使用机内码。
4.汉字的字形码
字形码是汉字的输出码,输出汉字时都采用图形方式,无论汉字的笔画多少,每个汉字都可以写在同样大小的方块中。通常用16×16点阵来显示汉字。
计算机中表示汉字常用的是
计算机中将信息用规定的代码来表示的方法称为编码。机内码是指在计算机中表示一个汉字的编码,它是国标码的一种表示形式。
汉字在计算机中是如何表示的?
1.每个英文字符对应一个字节----这就是ASCII码,如31-'1',41-'A','61'-'a'.美国人定的标准.
2.汉字采用2字节编码(现在不完全准确),国家制定.现在的标准是GB18030,早期是GB2312-80.前者含盖后者.
3.一个字节是8位,ASCII码最高位是'0'(所以最多128个编码).
4.汉字将最高位置为'1',与ASCII码(英文符号)区隔开.
5.软件当读取一个字节时,先判断最高位是否为'0'.若是,则作英文符号处理;若不是,再读取下一个字节,两个字节合一处对应一个汉字.如,B0A1-'啊',D5FE-'政'.
6.无论是ASCII码还是汉字编码,相当于身份证号.实际显示出的汉字要到一个叫"汉字模库'的文件中提取,它的位置与编码有相对应的关系.
在计算机中汉字是如何表示的
计算机中汉字的表示也是用二进制编码,同样是人为编码的。
根据应用目的的不同,汉字编码分为外码、交换码、机内码和字形码。1.外码(输入码) 外码也叫输入码,是用来将汉字输入到计算机中的一组键盘符号。英文字母只有26个,可以把所有的字符都放到键盘上,而使用这种办法把所有的汉字都放到键盘上,是不可能的。所以汉字系统需要有自己的输入码体系,使汉字与键盘能建立对应关系。目前常用的输入码有拼音码、五笔字型码、自然码、表形码、认知码、区位码和电报码等,一种好的编码应有编码规则简单、易学好记、操作方便、重码率低、输入速度快等优点,每个人可根据自己的需要进行选择。在后面的章节中,重点介绍智能全拼输入法和五笔字型输入法。 2.交换码 计算机内部处理的信息,都是用二进制代码表示的,汉字也不例外。而二进制代码使用起来是不方便的,于是需要采用信息交换码。我国标准总局1981年制定了中华人民共和国国家标准GB2312--80《信息交换用汉字编码字符集--基本集》,即国标码。国标码字符集中收集了常用汉字和图形符号7445个,其中图形符号682个,汉字6763个,按照汉字的使用频度分为两级,第一级为常用汉字3755个,第二级为次常用汉字3008个。为了避开ASCII字符中的不可打印字符0100001--1111110(十六进制为21-7E),国标码表示汉字的范围为2121--7E7E(十六进制)。3.机内码 根据国标码的规定,每一个汉字都有了确定的二进制代码,但是这个代码在计算机内部处理时会与ASCII码发生冲突,为解决这个问题,把国标码的每一个字节的首位上加1。由于ASCII码只用7位,所以,这个首位上的“1”就可以作为识别汉字代码的标志,计算机在处理到首位是“1”的代码时把它理解为是汉字的信息,在处理到首位是“0”的代码时把它理解为是ASCII码。经过这样处理后的国标码就是机内码。 4、ASCII是基于拉丁字母的一套电脑编码系统。它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO/IEC 646。汉字在计算机中怎么表示
汉字能用16进制表示,因为我们知道在计算机系统中,任何一个汉字都是用计算机二进制代码表示,又因为任何一个二进制代码可以和十六进制代码相互转换,如果汉字用十六进制表示,在输入计算机中,计算机系统会自动将十进制转换为二进制,所以能用16进制表示。
计算机用什么表示汉字
computer 英 [kəmˈpju:tə(r)] 美 [kəmˈpjutɚ] n. (电子)计算机,电脑 复数: computers 中文谐音:卡门皮有他
汉字在计算机中是怎么表示的
目前在计算机中主要有两种方式来表示汉字,分别是GB2312码和big5码。
GB2312码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集--基本集》,由国家标准总局发布,1981年5月1日实施,通行于大陆。新加坡等地也使用此编码。
GB2312收录简化汉字及符号、字母、日文假名等共7445个图形字符,其中汉字占6763个。GB2312规定"对任意一个图形字符都采用两个字节表示,每个字节均采用七位编码表示",习惯上称第一个字节为"高字节",第二个字节为"低字节"。GB2312-80包含了大部分常用的一、二级汉字,和9区的符号。该字符集是几乎所有的中文系统和国际化的软件都支持的中文字符集,这也是最基本的中文字符集。其编码范围是高位0xa1-0xfe,低位也是0xa1-0xfe;汉字从0xb0a1开始,结束于0xf7fe。
big5码多用于港台地区。每个字由两个字节组成,其第一字节编码范围为0xA1~0xF9,第二字节编码范围为0x40~0x7E与0xA1~0xFE,总计收入13868个字(包括5401个常用字、7652 个次常用字、7个扩充字、以及808个各式符号)。
由于GB2312编码的字数太少,其后又对其进行过多次扩充,故产生了GB12345码、GBK码、GB18030码。
Big5也作了不少扩充,如CNS11643码。
汉字在计算机内的表示
在电脑内,汉字的编码分为四种:输入码、 国标码、内码和字型码。
输入码:包括拼音编码和字型编码。微软拼音ABC就是拼音编码,五笔字型输入法就是字型编码。
国标码:又称为汉字交换码,在计算机之间交换信息用。用两个字节来表示,每个字节的最高位均为0,因此可以表示的汉字数为2的14次幂,就是16384个。将汉字区位码的高位字节、低位字节各加十进制数32(即十六进制数的20),便得到国标码。例如“中”字的国标码为8680(十进制)或7468(十六进制)。
内码:汉字内码是在设备和信息处理系统内部存储、处理、传输汉字用的代码。无论使用何种输入码,进入计算机后就立即被转换为机内码。规则是将国标码的高位字节、低位字节各自加上128(十进制)或80(十六进制)。例如,“中”字的内码以十六进制表示时应为F4E8。这样做的目的是使汉字内码区别于西文的ASCII,因为每个西文字母的ASCII的高位均为0,而汉字内码的每个字节的高位均为1。
字型码:表示汉字字形的字模数据,因此也称为字模码,是汉字的输出形式。通常用点阵、矢量函数等表示。用点阵表示时,字形码指的就是这个汉字字形点阵的代码。根据输出汉字的要求不同,点阵的多少也不同。简易型汉字为16′16点阵、提高型汉字为24′24点阵、48′48点阵等。如果是24′24点阵,每行24个点就是24个二进制位,存储一行代码需要3个字节。那么,24行共占用3′24=72个字节。计算公式:每行点数/8′行数。依此,对于48′48的点阵,一个汉字字形需要占用的存储空间为48/8′48=6′48=288个字节。
汉字在计算机中是如何表示的
根据不同的编码方式,一个汉字在计算机中需要至少两个字节(GBK和UTF-16)、至多五个字节(少数增补汉字的UTF-8码)存储。常见的2万个汉字在GBK、Big5、Shift-JIS和UTF-16编码下占用两个字节,在UTF-8编码下占用三个字节存储。位是计算机中的最小存储单位,代表一个开关或者一位二进制数。字节、字、双字、四字的定义可能随着计算机架构而不同,但在现代计算机下字节最少占用8位。一个字符不一定占用一个字节。