1.unicode
java
内核是unicode的,就
class文件也是,但是很多媒体,包括文件/流的保存方式是使用字流的。因此java对这些字化。charunicode的,而byte是字javabyte/char的函数在sun.io的包中有。其中ByteToCharConverter是中度,可以用来告你,你用的convertor。其中两个很常用的静函数是 
public static ByteToCharConverter getDefault(); 
public static ByteToCharConverter getConverter(String encoding); 
如果你不指定converter会自使用当前的encoding,gb平台上用gbk,en平台上用8859_1

byte ——char
"
"gb
是:0xc4e3 ,unicode0x4f60
String encoding = "gb2312";
byte b[] = {(byte)'\u00c4',(byte)'\u00e3'};
ByteToCharConverter converter = ByteToCharConverter.getConverter(encoding);
char c[] = converter.convertAll(b);
for (int i = 0; i < c.length; i++) {
System.out.println(Integer.toHexString(c));
}
果是什0x4f60
如果encoding ="8859_1"
果又是什0x00c4,0x00e3
如果代

byte b[] = {(byte)'\u00c4',(byte)'\u00e3'};
ByteToCharConverter converter = ByteToCharConverter. getDefault();
char c[] = converter.convertAll(b);
for (int i = 0; i < c.length; i++) {
System.out.println(Integer.toHexString(c));
}
果将又是什?根据平台的编码而定。

char ——
byte
String encoding = "gb2312";
char c[] = {'\u4f60'};
CharToByteConverter converter = CharToByteConverter.getConverter(encoding);
byte b[] = converter.convertAll(c);
for (int i = 0; i < b.length; i++) {
System.out.println(Integer.toHexString(b));
}
果是什0x00c4,0x00e3
如果encoding ="8859_1"
果又是什0x3f
如果代

String encoding = "gb2312";
char c[] = {'\u4f60'};
CharToByteConverter converter = CharToByteConverter.getDefault();
byte b[] = converter.convertAll(c);
for (int i = 0; i < b.length; i++) {
System.out.println(Integer.toHexString(b));
}
果将又是什?根据平台的编码而定。
很多中文问题就是从两个最简单派生出来的。而却有很多不直接支持把encoding入,这给们带多不便。很多程序得用encoding了,直接用defaultencoding移植来了很多困

2.utf-8
utf-8
是和unicode一一
对应的,其实现简单
7
位的unicode: 0 _ _ _ _ _ _ _ 
11
位的
unicode: 1 1 0 _ _ _ _ _ 1 0 _ _ _ _ _ _ 
16
位的
unicode: 1 1 1 0 _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ 
21
位的
unicode: 1 1 1 1 0 _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ 
大多数情况是只使用到16位以下的
unicode: 
"
"gb
是:0xc4e3 ,unicode0x4f60
0xc4e3
的二
制:
1100 
0100 1110 0011
由于只有两位我
按照两位的编码来排,但是我们发现这行不通,因第7位不是0因此,返回"?"
0x4f60
的二
制:
0100 
1111 0110 0000
utf-8补齐成:
1110 
0100 1011 1101 1010 0000
e4--bd-- a0
于是返回:0xe4,0xbd,0xa0


3.string
byte[]
string
核心是char[],然而要把byte化成string,必须经过编码string.length()就是char度,如果使用不同的编码,很可能会分,造成散字和乱
例如:
String encoding = “”;
byte [] b={(byte)'\u00c4',(byte)'\u00e3'}; 
String str=new String(b,encoding);
  
如果encoding=8859_1,会有两个字,但是encoding=gb2312只有一个字
问题理分 

4.Reader,Writer / InputStream,OutputStream
Reader
Writer核心是charInputStreamOutputStream核心是byte。但是ReaderWriter的主要目的是要把char
/InputStream/OutputStream
例如:
文件test.txt只有一个""字,0xc4,0xe3
String encoding = "gb2312";
InputStreamReader reader = new InputStreamReader(new FileInputStream(
"text.txt"), encoding);
char c[] = new char[10];
int length = reader.read(c);
for (int i = 0; i < length; i++) {
System.out.println(c);
}
果是什?你
如果encoding ="8859_1"
果是什??两个字符,表示不认识
来的例子自己做。

5.
java编译器有所了解:
javac ?encoding
常常没有用到encoding个参数。其encoding个参数于跨平台的操作是很重要的。如果没有指定encoding按照系的默encoding,gb平台上是gb2312,英文平台上是iso8859_1
java
编译实际上是sun.tools.javac.main文件编译compile函数中有一个encoding,-encoding的参数其直接传给encoding量。编译器就是根据量来java文件的,然后把用utf-8形式编译class文件。
例子代

String str = "
";
FileWriter writer = new FileWriter("text.txt");
write.write(str);
writer.close();

如果用gb2312
编译,你会找到e4 bd a0的字段 
如果用8859_1
编译 00c4 00e3的二制: 
0000
0000 11000100 00000000 1110
0011
为每个字符都大于7位,因此用11编码 
1100
000110000100110000111010
0011 
c1-- 84--
 c3-- 
 a3 
你会找到c1 84 c3 a3 


但是我
往往忽略掉个参数,因此这样往往会有跨平台的问题
例代在中文平台上编译,生成zhclass
例代在英文平台上编译enclass
(1).
  zhclass在中文平台上
ok,但是在英文平台上不行 
(2). enclass
在英文平台上
ok,但是在中文平台上不行
原因:
(1). 
在中文平台上
编译后,其str在运行char[]0x4f60, 在中文平台上运行,filewriter的缺省编码gb2312,因此 chartobyteconverter会自gb2312converter,str化成byte入到fileoutputstream中,于是0xc4,0xe3了文件。 
但是如果是在英文平台下,chartobyteconverter的缺省
8859_1, filewriter会自动调8859_1str,但是他无法解,因此他会"?"
(2). 
在英文平台上
编译后,其str在运行char[]0x00c4 0x00e3, 在中文平台上运行,中文无法识别,因此会出??
在英文平台上,0x00c4-->0xc4,0x00e3->0xe3,因此0xc4,0xe3被放
了文件。

6. 
其它原因:<%@ page contentType="text/html; charset=GBK" %>
浏览器的编码,如果response的数据是utf8编码示将是乱,但是乱和上述原因不一

7. 
编码的地方:
 
从数据
java程序 byte——charl
 
java程序到数据 char——bytel
 
从文件到java程序 byte——charl
 
java程序到文件 char——bytel
 
java程序到 char——bytel
 
form提交数据到java程序byte——charl
 
从流到java程序byte——charl
 
java程序到流char——bytel

的解决方法:
我是使用配置
过滤器的方法解决中文乱的:

<web-app>
<filter>
<filter-name>RequestFilter</filter-name>
<filter-class>net.golden.uirs.util.RequestFilter</filter-class>
<init-param>
<param-name>charset</param-name>
<param-value>gb2312</param-value>
</init-param>
</filter>
<filter-mapping>
<filter-name>RequestFilter</filter-name>
<url-pattern>*.jsp</url-pattern>
</filter-mapping>
</web-app>


public void doFilter(ServletRequest req, ServletResponse res,
FilterChain fChain) throws IOException, ServletException {
HttpServletRequest request = (HttpServletRequest) req;
HttpServletResponse response = (HttpServletResponse) res;
HttpSession session = request.getSession();
String userId = (String) session.getAttribute("userid");
req.setCharacterEncoding(this.filterConfig.getInitParameter("charset")); // 
置字符集?
实际上是置了byte ——charencoding
try {
if (userId == null || userId.equals("")) {
if (!request.getRequestURL().toString().matches(
".*/uirs/logon/logon(Controller){0,1}\\x2Ejsp$")) {
session.invalidate();
response.sendRedirect(request.getContextPath() +
"/uirs/logon/logon.jsp");
}
}
else { // 
看看是否具有信息上

if (!net.golden.uirs.util.UirsChecker.check(userId, "
信息上
",
net.golden.uirs.util.UirsChecker.ACTION_DO)) {
if (!request.getRequestURL().toString().matches(
".*/uirs/logon/logon(Controller){0,1}\\x2Ejsp$")) {
response.sendRedirect(request.getContextPath() +
"/uirs/logon/logonController.jsp");
}
}
}
}
catch (Exception ex) {
response.sendRedirect(request.getContextPath() +
"/uirs/logon/logon.jsp");
}
fChain.doFilter(req, res);
}