GB18030-2022

来自泡泡学习笔记
BrainBs讨论 | 贡献2023年9月19日 (二) 16:22的版本 (创建页面,内容为“单字节部分采用GB/T11383-1989的编码结构,使用0x00~0x7F码位。 <br> 双字节部分采用两个八位二进制位串表示一个字符,其首字节码位从0x81~0xFE,尾字节码位分别是0x40~0x7E和0x80~0xFE。 <br> 四字节部分采用GB/T11383-1989未采用的0x30~0x39作为对双字节编码扩充的后缀,编码范围为0x81308130~0xFE39FE39。四字节字符的第一个字节编码范围为0x81~0xFE;第二个…”)
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳到导航 跳到搜索

单字节部分采用GB/T11383-1989的编码结构,使用0x00~0x7F码位。


双字节部分采用两个八位二进制位串表示一个字符,其首字节码位从0x81~0xFE,尾字节码位分别是0x40~0x7E和0x80~0xFE。


四字节部分采用GB/T11383-1989未采用的0x30~0x39作为对双字节编码扩充的后缀,编码范围为0x81308130~0xFE39FE39。四字节字符的第一个字节编码范围为0x81~0xFE;第二个字节编码范围为0x30~0x39;第三个字节编码范围为0x81~0xFE;第四个字节编码范围为0x30~0x39。


编码类型 第一字节 第二字节 第三字节 第四字节 码位数目
单字节 0x00~0x7F 128
双字节 0x81~0xFE 0x40~0x7E,0x80~0xFE 23940
四字节 0x81~0xFE 0x30~0x39 0x81~0xFE 0x30~0x39 1578600


四字节码位安排

码位范围 码位数 字符数 字符类型
0x81318132~0x81319934 243 42 维吾尔、哈萨克、柯尔克孜文
0x8430BA32~0x8430FE35 684 59 维吾尔、哈萨克、柯尔克孜文
0x84318730~0x84319530 141 84 维吾尔、哈萨克、柯尔克孜文
0x8132E834~0x8132FD31 208 193 藏文
0x8134D238~0x8134E337 170 149 蒙古文(包括满文、托忒文、锡伯文和阿礼嘎礼字)
0x9034C538~0x9034C730 13 13 蒙古文BIRGA
0x8134F434~0x8134F830 37 35 德宏傣文
0x8134F932~0x81358437 96 83 西双版纳新傣文
0x81358B32~0x81359935 144 127 西双版纳老傣文
0x82359833~0x82369435 1223 1215 彝文
0x82369535~0x82369A32 48 48 傈僳文
0x81339D36~0x8133B635 250 69 朝鲜文字母
0x8139A933~0x8139B734 142 51 朝鲜文兼容字母
0x8237CF35~0x8336BE36 11172 3431 朝鲜文音节
0x9232C636~0x9232D635 160 133 滇东北苗文
0x81398B32~0x8139A135 224 214 康熙部首
0x8139EE39~0x82358738 6530 6530 CJK统一汉字扩充 A
0x82358F33~0x82359636 74 66 CJK统一汉字
0x95328236~0x9835F336 42711 42711 CJK统一汉字扩充B
0x9835F738~0x98399E36 4149 4149 CJK统一汉字扩充C
0x98399F38~0x9839B539 222 222 CJK统一汉字扩充D
0x9839B632~0x9933FE33 5762 5762 CJK统一汉字扩充E
0x99348138~0x9939F730 7473 7473 CJK统一汉字扩充F