没有眼泪
Don't Cry!
posts - 13,comments - 44,trackbacks - 0
在javaweb开发过程中get和post乱码是一个老生常谈的话题了,相信人人都遇到过。网上的文章也很多,但往往是看的越多就越糊涂,有些东西只有自己了然于心才能真正地明白。下面就写一篇文章,就乱码产生的过程分析一下。
为什么会产生乱码?

1.   为什么会产生乱码?

因为浏览器不允许提交非ASCII字符,如果提交了非ASCII,则浏览器自动对其进行编码,将它们转换为ASCII字符。根据浏览器的不同,转换时使用的编码也不同,比如有些浏览器会使用utf-8进行编码,而有些会使用gbk进行编码。

2.   浏览器为什么不允许提交非ASCII字符?

以下是我个人观点,仅供参考。

因为浏览器和服务器通信,传输的都是字节。而我们在页面提交的都是字符,所以浏览器底层就有一个将字符转换为字节的过程,这个过程涉及到编码,浏览器到底是用utf-8gbk还是iso-8859-1将字符转换为字节呢?我想应该是iso-8859-1,因为这是西欧默认使用的编码。何况,也没有任何理由使用前两种编码格式。但是iso-8859-1编码是不能识别中文以及其他非ASCII字符的,所以如果字符中存在这类字符,那么将字符转换为字节的过程中势必会产生乱码。为了避免这种情况的发生,浏览器自动对非ASCII字符进行了编码,将这类字符转换为ASCII字符,这样就能避免乱码问题。

3.   GETPOST提交表单,分别根据什么对非ASCII字符进行编码?

GET

情况比较复杂,不同浏览器也不一样,有的使用gbk,有的使用utf-8不好一概而论。

POST

浏览器会根据网页编码对表单中的数据编码。比如我们在jsp页面第一行所写的:<%@page contentType="text/html;charset=UTF-8"%>。那么这个网页响应给客户端后使用的就是utf-8编码,那么post时使用的也是这个编码。

编码后的格式可以参考java中的URLEncoder.encode方法编码的结果。

4.   服务器底层如何处理提交的数据。

上面2已经提到,客户端和服务器端传输的是字节,那么服务器端接收到的原始数据就是字节。但是我们的程序通常需要从服务器获取字符,而不是字节,所以服务器端必须将字节转换为字符。这里也涉及编码,服务器采取什么编码方式将字节转换为字符?我想也是iso-8859-1,这样和客户端的编码方式一致,不会产生乱码,相当于一个还原字符的过程。这里有个问题,比如客户端发送:name=%D6%D0%B9%FA,那么服务器端还原后也是:name=%D6%D0%B9%FA。那么我们使用request.getParameter(“name”)如何能得到正确的值呢?难道要我们自己再进行转换?答案是:NO。根据Servlet规范,Servlet中获取数据的方法会按照指定的字符集解码。指定的字符集是什么?默认是iso-8859-1。正是因为使用了iso-8859-1解码我们发送的参数,导致了乱码的产生,这里才是产生乱码的源头。具体解码的过程可以看看javaURLDecode.decode方法。既然知道了产生乱码的原因是因为服务器默认使用iso-8859-1解码,那我们就得想办法更改服务器使用的解码编码。好在服务器已经提供给我们修改的方式了,我们可以在服务器中进行配置,比如Tomcat可以在server.xml中进行配置,比如:URIEncoding="GBK"这样服务器就会使用gbk编码解码,这种方式主要针对GET提交的数据,对于POST更常用的是request.setCharacterEncoding(String charset)设置解码编码。

5.   为了避免乱码,客户端应该如何做?

GET

对于含有非ASCII字符的URL自己进行编码,比如使用javascript中的方法进行编码。这样就不需要浏览器为我们编码了,从而解决了浏览器编码的不确定性。

POST

只要正确设置网页编码即可。

posted @ 2013-07-27 16:56 zhangchao 阅读(4361) | 评论 (2)编辑 收藏
     摘要: 工作中经常遇到java编码问题,由于缺乏研究,总是无法给出确切的答案,这个周末在网上查了一些资料,在此做些汇总。     问题一:在java中读取文件时应该采用什么编码? Java读取文件的方式总体可以分为两类:按字节读取和按字符读取。按字节读取就是采用InputStream.read()方法来读取字节,然后保存到一个byte[]数组中,最后经常用new Stri...  阅读全文
posted @ 2011-05-26 10:35 zhangchao 阅读(40382) | 评论 (19)编辑 收藏
Servlet/JSP技术和ASP、PHP等相比,由于其多线程运行而具有很高的执行效率。由于Servlet/JSP默认是以多线程模式执行的,所 以,在编写代码时需要非常细致地考虑多线程的安全性问题。然而,很多人编写Servlet/JSP程序时并没有注意到多线程安全性的问题,这往往造成编写 的程序在少量用户访问时没有任何问题,而在并发用户上升到一定值时,就会经常出现一些莫明其妙的问题。

  Servlet的多线程机制

Servlet体系结构是建立在Java多线程机制之上的,它的生命周期是由Web容器负责的。当客户端第一次请求某个Servlet 时,Servlet容器将会根据web.xml配置文件实例化这个Servlet类。当有新的客户端请求该Servlet时,一般不会再实例化该 Servlet类,也就是有多个线程在使用这个实例。Servlet容器会自动使用线程池等技术来支持系统的运行,如图1所示。

  

  图1 Servlet线程池

  这样,当两个或多个线程同时访问同一个Servlet时,可能会发生多个线程同时访问同一资源的情况,数据可能会变得不一致。所以在用Servlet构建的Web应用时如果不注意线程安全的问题,会使所写的Servlet程序有难以发现的错误。

  Servlet的线程安全问题

  Servlet的线程安全问题主要是由于实例变量使用不当而引起的,这里以一个现实的例子来说明。

Import javax.servlet. *;
Import javax.servlet.http. *;
Import java.io. *;
Public class Concurrent Test extends HttpServlet {PrintWriter output;
Public void service (HttpServletRequest request,
HttpServletResponse response) throws ServletException, IOException {String username;
Response.setContentType ("text/html; charset=gb2312");
Username = request.getParameter ("username");
Output = response.getWriter ();
Try {Thread. sleep (5000); //为了突出并发问题,在这设置一个延时
} Catch (Interrupted Exception e){}
output.println("用户名:"+Username+"<BR>");
}
}

该Servlet中定义了一个实例变量output,在service方法将其赋值为用户的输出。当一个用户访问该Servlet时,程序会正常的运 行,但当多个用户并发访问时,就可能会出现其它用户的信息显示在另外一些用户的浏览器上的问题。这是一个严重的问题。为了突出并发问题,便于测试、观察, 我们在回显用户信息时执行了一个延时的操作。假设已在web.xml配置文件中注册了该Servlet,现有两个用户a和b同时访问该Servlet(可 以启动两个IE浏览器,或者在两台机器上同时访问),即同时在浏览器中输入:

  a: http://localhost: 8080/servlet/ConcurrentTest? Username=a

  b: http://localhost: 8080/servlet/ConcurrentTest? Username=b

  如果用户b比用户a回车的时间稍慢一点,将得到如图2所示的输出:

  

  图2 a用户和b用户的浏览器输出

从图2中可以看到,Web服务器启动了两个线程分别处理来自用户a和用户b的请求,但是在用户a的浏览器上却得到一个空白的屏幕,用户a的信息显示在用 户b的浏览器上。该Servlet存在线程不安全问题。下面我们就从分析该实例的内存模型入手,观察不同时刻实例变量output的值来分析使该 Servlet线程不安全的原因。

  Java的内存模型JMM(Java Memory Model)JMM主要是为了规定了线程和内存之间的一些关系。根据JMM的设计,系统存在一个主内存(Main Memory),Java中所有实例变量都储存在主存中,对于所有线程都是共享的。每条线程都有自己的工作内存(Working Memory),工作内存由缓存和堆栈两部分组成,缓存中保存的是主存中变量的拷贝,缓存可能并不总和主存同步,也就是缓存中变量的修改可能没有立刻写到 主存中;堆栈中保存的是线程的局部变量,线程之间无法相互直接访问堆栈中的变量。根据JMM,我们可以将论文中所讨论的Servlet实例的内存模型抽象 为图3所示的模型。

  

  图3 Servlet实例的JMM模型

  下面根据图3所示的内存模型,来分析当用户a和b的线程(简称为a线程、b线程)并发执行时,Servlet实例中所涉及变量的变化情况及线程的执行情况,如图4所示。

调度时刻 a线程 b线程
T1 访问Servlet页面
T2
访问Servlet页面
T3 output=a的输出username=a休眠5000毫秒,让出CPU
T4
output=b的输出(写回主存)username=b休眠5000毫秒,让出CPU
T5 在用户b的浏览器上输出a线程的username的值,a线程终止。  
T6
在用户b的浏览器上输出b线程的username的值,b线程终止。

  图4 Servlet实例的线程调度情况

从图4中可以清楚的看到,由于b线程对实例变量output的修改覆盖了a线程对实例变量output的修改,从而导致了用户a的信息显示在了用户b的 浏览器上。如果在a线程执行输出语句时,b线程对output的修改还没有刷新到主存,那么将不会出现图2所示的输出结果,因此这只是一种偶然现象,但这 更增加了程序潜在的危险性。

  设计线程安全的Servlet

  通过上面的分析,我们知道了实例变量不正确的使用是造成Servlet线程不安全的主要原因。下面针对该问题给出了三种解决方案并对方案的选取给出了一些参考性的建议。

  1、实现 SingleThreadModel 接口

该接口指定了系统如何处理对同一个Servlet的调用。如果一个Servlet被这个接口指定,那么在这个Servlet中的service方法将不 会有两个线程被同时执行,当然也就不存在线程安全的问题。这种方法只要将前面的Concurrent Test类的类头定义更改为:

Public class Concurrent Test extends HttpServlet implements SingleThreadModel {
…………
}

  2、同步对共享数据的操作

  使用synchronized 关键字能保证一次只有一个线程可以访问被保护的区段,在本论文中的Servlet可以通过同步块操作来保证线程的安全。同步后的代码如下:

…………
Public class Concurrent Test extends HttpServlet { …………
Username = request.getParameter ("username");
Synchronized (this){
Output = response.getWriter ();
Try {
Thread. Sleep (5000);
} Catch (Interrupted Exception e){}
output.println("用户名:"+Username+"<BR>");
}
}
}

  3、避免使用实例变量

  本实例中的线程安全问题是由实例变量造成的,只要在Servlet里面的任何方法里面都不使用实例变量,那么该Servlet就是线程安全的。

  修正上面的Servlet代码,将实例变量改为局部变量实现同样的功能,代码如下:

……
Public class Concurrent Test extends HttpServlet {public void service (HttpServletRequest request, HttpServletResponse
Response) throws ServletException, IOException {
Print Writer output;
String username;
Response.setContentType ("text/html; charset=gb2312");
……
}
}

对上面的三种方法进行测试,可以表明用它们都能设计出线程安全的Servlet程序。但是,如果一个Servlet实现了 SingleThreadModel接口,Servlet引擎将为每个新的请求创建一个单独的Servlet实例,这将引起大量的系统开销。 SingleThreadModel在Servlet2.4中已不再提倡使用;同样如果在程序中使用同步来保护要使用的共享的数据,也会使系统的性能大大 下降。这是因为被同步的代码块在同一时刻只能有一个线程执行它,使得其同时处理客户请求的吞吐量降低,而且很多客户处于阻塞状态。另外为保证主存内容和线 程的工作内存中的数据的一致性,要频繁地刷新缓存,这也会大大地影响系统的性能。所以在实际的开发中也应避免或最小化 Servlet 中的同步代码;在Serlet中避免使用实例变量是保证Servlet线程安全的最佳选择。从Java 内存模型也可以知道,方法中的临时变量是在栈上分配空间,而且每个线程都有自己私有的栈空间,所以它们不会影响线程的安全。

  小结

Servlet的线程安全问题只有在大量的并发访问时才会显现出来,并且很难发现,因此在编写Servlet程序时要特别注意。线程安全问题主要是由实 例变量造成的,因此在Servlet中应避免使用实例变量。如果应用程序设计无法避免使用实例变量,那么使用同步来保护要使用的实例变量,但为保证系统的 最佳性能,应该同步可用性最小的代码路径。


原文出处:http://www.feeten.cn/html/jsp/01/20090102181631103402.html
作者:佚名
posted @ 2009-05-31 10:06 zhangchao 阅读(419) | 评论 (0)编辑 收藏