jinfeng_wang

G-G-S,D-D-U!

语源科技BlogJava

管理

400 Posts :: 0 Stories :: 296 Comments :: 0 Trackbacks

UTF-8 (zz)

下面对这个图进行一下说明：
第一个红框中的内容是我从unicode.org提供的GB2312->Unicode码表中随便抽取的一行，下面以它为例进行说明。
这里面列出的GB2312和我们计算机实际使用的GB2312是不一样的。因为GB2312的和ASCII的编码范围有冲突，所以使用时都采用两个字节高位置1的方式，也就是下面我列出的那个EUC才是在计算机内存储形式的GB2312。原来这是一个“暗”字。
前者和”区位码”是有直接关系的，”暗”的区位码1621，转换成HEX: 0×1015，只要把高低位都+0×20，就得到了GB2312: 0×3035。
下面再看看UNICODE，大家可以做一个实验，把0×6697转成DEC: 26263，建一个空白HTML档（encoding随意），在里面写上暗怎么样，就能看到这个字了吧：）
把它转成BIN: 0110 0110 1001 0111, 查UTF-8的转换表，这个字的Unicode: U+6679 在 U+0800 和 U+FFFF 之间，是要转换成三字节的UTF-8的，转换方法如上面所示，最后得出的UTF-8编码就是: 0xE69A97。

UTF-8字符各字节含义

0×00-0×7F	同ASCII，也不可能作为任何其他多字节UTF-8字符的一部分
0xC0-0xDF	多字节UTF-8字符的开始字节，而且据此可以判断出该UTF-8字符的长度（字节数）
0×80-0xBF	多字节UTF-8字符的跟随字节
0xFE-0xFF	UTF-8未使用

那么如何判断UTF-8字符的长度呢？

0×00-0×7F	1字节
0xC0-0xDF	2字节
0xE0-0xEF	3字节
0xF0-0xF7	4字节
0xF8-0xFB	5字节
0xFC-0xFD	6字节

UTF-8字符范围

Unicode	字节数	表示方法	字节范围
U-00000000 - U-0000007F	1	0xxxxxxx	(0×00-0×7F)
U-00000080 - U-000007FF	2	110xxxxx 10xxxxxx	(0xC2-0xDF)(0×80-0xBF)
U-00000800 - U-0000FFFF	3	1110xxxx 10xxxxxx 10xxxxxx	0xE0(0xA0-0xBF)(0×80-0xBF) (0xE1-0xEF)(0×80-0xBF)(0×80-0xBF)
U-00010000 - U-001FFFFF	4	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx	0xF0(0×90-0xBF)(0×80-0xBF) (0×80-0xBF)(0xF1-0xF7)(0×80-0xBF) (0×80-0xBF)(0×80-0xBF)
U-00200000 - U-03FFFFFF	5	111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx	略
U-04000000 - U-7FFFFFFF	6	1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx	略

posted on 2006-01-18 21:59 jinfeng_wang 阅读(666) 评论(0) 编辑收藏所属分类: ZZ

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: log4jdbc and hibernate 谈谈网站静态化 zz 亿万用户网站MySpace的成功秘密 zz Web 2.0网站性能调优实践 zz Network Programming Using Libevent zz 亿级数据的高并发通用搜索引擎架构设计zz 用rsync实现网站镜像和备份 zz IP别名+TCP转发+端口映射实现跨网络访问zz 文字コードについて（シフトJISの問題） zz SQL Performance Analyzer in Oracle Database 11g Release 1 zz

jinfeng_wang

公告

常用链接

留言簿(40)

随笔分类(592)

随笔档案(400)

Domestic

Foreign

搜索

积分与排名

最新评论

阅读排行榜

评论排行榜