浅谈Java中的编码理论 - Programming on the fly

浅谈Java中的编码理论

Java是使用Unicode字符集的，意思是在内存运行的时候是这样的。当Java源程序被编译为.class文件的时候，是以UTF-8字符集存储字符的。比如字符串"汉语"的Unicode字符为：0x49 6C ED 8B。在.class文件中则变成了：0xE6 B1 89 E8 AF AD 0D 0A。实际上如果用以下程序输出“汉语”二个字的16进制字节序列：

        String str = "汉语";

        try{
byte[] b = str.getBytes("Unicode");
for(int i : b){
System.out.println(Integer.toHexString(i));
}
}catch(Exception ex){
ex.printStackTrace(); }

会发现，实际输出的是 0xFE FF 6C 49 8B ED。多出来的0xFE FF，是Unicode字符串的BOM（Byte Order Mark）。但是为什么输出的顺序（0xFE FF 6C 49 8B ED）和文件中的顺序不一致（0xFF FE 49 6C ED 8B）？

public byte[] getBytes(Charset charset) 使用指定的字符集将此 String 解码为字节序列，并将结果存储到一个新的字节数组中。如果不指定参数，则使用系统默认的字符集，对于简体中文系统一般为GBK。

看程序：

class EncodingExer
{
public static void main(String[] args)
{
String str = "汉语";               //GBK编码为： 0xBABA 0xD3EF
byte[] b = str.getBytes();
for(int i : b){
System.out.println(Integer.toHexString(i)); //0xBA 0xBA 0xD3 0xEF
}    }}

在这个过程中，由Unicode字符得到字符串“汉语”，然后解码得到了GBK字节序列。与String.getBytes（）相对应的是new String（byte[] bytes，Charset charset），它的作用是用字节序列生成字符串。如果想由刚才的GBK字节序列得到原来的字符串“汉语”，我们需要做的是：new String（b）就可以了。将b按照GBK编码得到字符串“汉语”，然后转化为Unicode字符。如果是str.getBytes（"iso-8859-1"），那么还原的时候就是new String（b，"iso-8859-1"）。总之就是用什么方式编码，就用什么方式解码。

posted on 2009-05-06 20:11 Werther 阅读(1511) 评论(4) 编辑收藏所属分类: 10.Java

I'm reading...

宝贝连接

留言簿(10)

随笔分类(178)

随笔档案(208)

文章档案(1)

新闻档案(6)

相册

1.Java Official Website

2.Java Study Website

3.Java Technic Website

4.Java Video Website

5.Database Website

6.Bookshop Website

7.English Website

8.Friends Link

9.Other Web

积分与排名

最新评论

阅读排行榜

评论排行榜


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: Java中的四个核心技术思想浅析jQuery框架与构造对象 java中set map list的区别使用Java操作JSON字符串对象 Eclipse插件开发之FindBugs插件 Eclipse中配置Ajax的DWR的简单方法 Java Excel API 使用方法 Java生成UUID通用唯一识别码 instanceof 运算符的用法不同方式遍历Map集合