BlogJava-磨刀不误砍柴工-文章分类-基础知识

BlogJava-磨刀不误砍柴工-文章分类-基础知识http://www.blogjava.net/weiwei/category/54213.html合抱之木，生于毫末；九层之台，起于累土；千里之行，始于足下。zh-cnSat, 08 Mar 2014 17:48:39 GMTSat, 08 Mar 2014 17:48:39 GMT60字符编码知识http://www.blogjava.net/weiwei/articles/410765.htmlliwei5891liwei5891Sat, 08 Mar 2014 04:57:00 GMThttp://www.blogjava.net/weiwei/articles/410765.htmlhttp://www.blogjava.net/weiwei/comments/410765.htmlhttp://www.blogjava.net/weiwei/articles/410765.html#Feedback0http://www.blogjava.net/weiwei/comments/commentRss/410765.htmlhttp://www.blogjava.net/weiwei/services/trackbacks/410765.html1.计算机信息的存储与处理

计算机信息（包括字母、各种符号、图形符号）分为：

|--数据信息

|--数值

|--非数值

|--控制信息

计算机信息以二进制编码方式存入计算机并得以处理。

这种二进制代码就叫字符编码。

2.西文字符集

使用最广泛的西文字符集及编码是：ASCII字符集和 ASCII码

(American Standard Code for Information Interchange)美国标准信息交换码

使用7个或8个二进制进行编码的方案，最多可以给256个字符编码。

基本的ASCII字符集共有128个字符，其中96个是可打印字符。

A为65，0为48

大小写之间差32

3.MBCS

为扩充ASCII编码，不同国家地区制定了不同的标准。它些使用2个字节代表一个字符的各种汉字延伸编码方式，称为ANSI编码 (American Nation Standards Institute-美国国家标准学会）又称为：Muilti-Bytes Charecter Set 多字节字符集

简体中文下,ANSI表示GB2312编码

由于不同ANSI编码互不兼容，因此将属于两种语言的文字存储在同一段ANSI编码的文本中。另外同一个编码值在不同的编码体系代表不同的字，这样容易造成混乱。这就导致了UNICODE码的诞生。

所有的编码都有一个转换器可以转到unicode,而unicode也可以转换到其它所有的编码

3.GB2312

中国国家标准总局发布了一系列汉字字符集国家标准编码，其中最有影响的是 1980年发布的GB 2312-1980,因其使用非常普遍，也被称为国标码。

GB2312由6763个常用汉字和682个全角的非汉字字符组成。汉字根据使用频率分两级,一级3755个，二级3008个。采用二维矩阵编码法对所有字条进行编码。94行94列的方阵，每一行称为一个区，每一列称为一个位。

4.UNICODE编码

它是一个大而全的编码，包含了世界上所有的符号，无论是英文，日文，还是中文。现在的规模可以容纳100多万个符号，每个符号的编码都不一样。

虽然统一了编码方式，但它的效率不高。对存储和传输来说都很耗资源

5.UTF-8

为提高 unicode的编码效率，出现了UTF-8编码。

它可根据不同的符号自动选择编码的长短。

liwei5891 2014-03-08 12:57 发表评论

]]>