posts - 8,  comments - 25,  trackbacks - 0

我们知道在学习php和jsp的时候,出现乱码是经常性的事情,怎样来一劳永逸的解决这个问题,我来做个总结。

首先来了解一下字符集,我们关心的字符集大概有这么几个,iso-8859-1、gb2312、gbk、utf-8,其中iso-8859-1是采用1个字节进行编码,而gb2312和gbk则是在其基础之上使用双字节来对汉字进行编码,而utf-8使用了3个字节编码(实际上是变字节编码,一般2-4个字节),因此它容纳了几乎所有字符,包括中国、日本和韩国的表意字符。这也就不难理解为什么字符集设置错误会导致乱码了。

在来看一下在编程的过程中有哪些地方涉及到字符集的设置,本质上只有两个地方,文件本身的字符集和浏览器解析时使用的字符集,当然数据库也存在字符集的设置(其实数据库本质和文件没有区别),那怎样才能避免乱码呢?我们要保证字符集的一致性,那就是数据库、文件、浏览器3者使用的字符集是一致的,要么都是gb2312,要么都是utf-8,当然iso-8859-1不行,它不支持中文。

数据库在建库和建表时可以设置字符集,文件在保存的时候可以选择字符集,那么浏览器的字符集怎么设置呢,首先浏览器由一个默认字符集,在中文操作系统下一般默认为gb2312,如果不进行设置,它就是解析文件的字符集;那应该怎么设置呢,有两种方法,一种在html中设置,即使用meta标签,在meta标签里面制定Content-type就可以了,meta标签是用来模拟http头信息的,另外一种就是在编程语言进行设置,我们可以向http header里面添加一个Content-type来指定字符集,如php里面的header()结构.

可是万一我们不能控制数据库或某些文件的编码了,那应该怎么处理呢,例如你现在所有的项目都是采用的utf-8(建议都这样使用),可是数据库里面的数据却是gb2312,或者某个远程文件是使用gb2312编码,这些是你无法修改的,我们只有在程序中进行修改,如在php里面提供了iconv函数和mb系列函数进行字符的编码修改。

总之,一句话,让项目的所有地方保持编码一致性,无法控制的部分用字符集转化函数来改变它。

posted on 2008-08-25 22:59 我是风之子 阅读(2486) 评论(2)  编辑  收藏 所属分类: 服务器相关

FeedBack:
# re: 关于编码问题
2008-08-26 20:23 | coca
utf-8不是固定三个字节的  回复  更多评论
  
# re: 关于编码问题
2008-08-27 10:59 | 我是风之子
@coca
恩,是的,谢谢提醒,utf-8是变长字节编码的  回复  更多评论
  

只有注册用户登录后才能发表评论。


网站导航:
 

<2008年8月>
272829303112
3456789
10111213141516
17181920212223
24252627282930
31123456

常用链接

留言簿(1)

随笔分类

随笔档案

相册

搜索

  •  

最新评论

阅读排行榜

评论排行榜