计算机原理知识:字符集编码问题

1.常见的字符集有以下几种:ASCII、ISO8859-1、GBK、GB2312、Unicode、UTF-8.下面分别简单的介绍一下。
【1】ASCII:单字节编码,用七位,剩下一位为校验位,不能表示汉语
【2】ISO8859-1:单字节编码,八位,不能表示汉语,很多协议的默认编码。
【3】GB2312:汉字国标码,汉字占两位,英文、数字占一位,不定长编码
【4】GBK:汉字国标扩展码,兼容GB2312,之外支持繁体字,不定长编码,汉字的16进制表示小于0,字母大于0
【5】Unicode:统一字符集,可以表示所用的字符,均用2位表示,定长编码,java内部使用此种编码机制,不兼容ISO8859-1,对于单字节编
码的字符,高八位添0来转换不便于传输
【6】UTF-8:支持所有的字符集,不定长,1-6位,英文1位,汉语3位      
2.java中的两个处理字符集的函数
    getBytes(charset):按照指定的字符集获得char型数组
new String(charset):按照指定的字符集识别字符是数组,最终以Unicode字符集存储
3.HTTP协议中的编码。
在HTTP中默认以iso8859-1编码,如果在读取请求的时候,字符集不一致,必然会导致乱码。处理方式可以统一字符集,都是用UTF-8,也可
以在需要的时候进行转码,即使用2中的两个函数

posted on 2009-05-13 16:32 hanry 阅读(234) 评论(0)  编辑  收藏 所属分类: 原理杂谈


只有注册用户登录后才能发表评论。


网站导航:
 
<2025年7月>
293012345
6789101112
13141516171819
20212223242526
272829303112
3456789

导航

统计

留言簿

随笔分类

文章分类(7)

文章档案(7)

开发技术学习资源

搜索

最新评论