java js html编码与解码问题

Posted on 2011-05-05 11:07 asdtiang 阅读(3956) 评论(0) 编辑收藏所属分类: JAVA

js中编码与解码：
网上转的：http://www.cnblogs.com/hubcarl/archive/2009/04/11/1433707.html

escape(), encodeURI()和encodeURIComponent()是在Javascript中用于编码字符串的三个常用的方法
escape() 方法

escape方法以Unicode格式返回一个包含传入参数内容的string类型的值。 Escape方法会将传入参数中所有的空格、标点符号、重音字符以及其它任何非ASCII字符替换为%xx的编码形式，其中xx与其所表示的字符的16进制数表示形式相同。如空格字符的16进制表示形式为0x20，则此时xx应为20，即escape(‘ ’) 返回“%20”。

escape和unescape方法能够帮助你编码和解码字符串。escape方法对于ISO Latin字符集中的字符组成的参数，返回其16进制编码。相对应的，unescape方法则能将16进制编码形式的参数转化成为其ASCII码形式。

encodeURI()方法

encodeURI方法返回一个经过编码的URI。如果将encodeURI方法的编码结果传递给decodeURI方法作参数，则能得到原始的未编码的字符串。需要注意到是encodeURI方法不编码如下字符":", "/", ";", "?"。如果想要编码这些字符，请使用encodeURIComponent方法。通过将每个属于特定的字符集合的字符替换为一个、两个或者三个（为什么是“一个、两个或者三个”本人也没有搞懂，望高人赐教）使用UTF-8编码来表示这个字符的escape序列来编码一个URI。如 ~!@#$%^&*(){}[]=:/,;?+\''"\\ 将被替换为 ~!@#$%25%5E&*()%7B%7D%5B%5D=:/,;?+''%22%5C

encodeURIComponent()方法

encodeURIComponent方法返回一个编码过的URI。如果将encodeURIComponent方法的编码结果传递给encodeURIComponent方法作参数，则能得到原始的未编码的字符串。因为encodeURIComponent方法会编码所有的字符，所以如果待编码的字符串是用来表示一个路径（如/dir1/dir2/index.htm）时，就一定要小心使用了。‘/’符号会被其编码之后，将不再是一个有效的路径标识符，所以不能被web服务器正确地识别。当字符串包含一个单独的URI component(指?后面的请求参数)的时候，请使用此方法。通过将每个属于特定的字符集合的字符替换为一个、两个或者三个（为什么是“一个、两个或者三个”本人也没有搞懂，望高人赐教）使用UTF-8编码来表示这个字符的escape序列来编码一个URIComponent。

有什么区别？何时使用？

escape方法并不编码字符+。而我们知道，在用户提交的表单字段中，如果有空格，则会被转化为+字符，而服务器解析的时候则会认为+号代表空格。由于这个缺陷，escape方法并不能正确地处理所有的非ASCII字符，你应当尽量避免使用escape方法，取而代之，你最好选择encodeURIComponent()方法。
escape()不编码的字符：@*/+

相对于使用escape方法，使用encodeURI方法会显得更专业一些。当你需要编码一整个URI的时候，你可以使用此方法，因为URI中的合法字符都不会被编码转换。需要注意到是字符’也是URI中的合法字符，所以也不会被编码转换。
encodeURI() 不编码的字符： ~!@#$&*()=:/,;?+''

encodeURIComponent方法在编码单个URIComponent（指请求参数）应当是最常用的。需要注意到是字符’也是URI中的合法字符，所以也不会被编码转换。
encodeURIComponent()不编码的字符： ~!*()''

下面是自己写的
再看下jdk文档里的编码和解码：

public class URLEncoder
extends Object
extends Object

HTML 格式编码的实用工具类。该类包含了将 String 转换为 application/x-www-form-urlencoded MIME 格式的静态方法。有关 HTML 格式编码的更多信息，请参阅 HTML 规范。

对 String 编码时，使用以下规则：

字母数字字符 "a" 到 "z"、"A" 到 "Z" 和 "0" 到 "9" 保持不变。
特殊字符 "."、"-"、"*" 和 "_" 保持不变。
空格字符 " " 转换为一个加号 "+"。
所有其他字符都是不安全的，因此首先使用一些编码机制将它们转换为一个或多个字节。然后每个字节用一个包含 3 个字符的字符串 "%xy" 表示，其中 xy 为该字节的两位十六进制表示形式。推荐的编码机制是 UTF-8。但是，出于兼容性考虑，如果未指定一种编码，则使用相应平台的默认编码。

例如，使用 UTF-8 编码机制，字符串 "The string ü@foo-bar" 将转换为 "The+string+%C3%BC%40foo-bar"，因为在 UTF-8 中，字符 ü 编码为两个字节，C3 （十六进制）和 BC （十六进制），字符 @ 编码为一个字节 40 （十六进制）。

public class URLDecoder
extends Object
extends Object

HTML 格式解码的实用工具类。该类包含了将 String 从 application/x-www-form-urlencoded MIME 格式解码的静态方法。

该转换过程正好与 URLEncoder 类使用的过程相反。假定已编码的字符串中的所有字符为下列之一："a" 到 "z"、"A" 到 "Z"、"0" 到 "9" 和 "-"、"_"、"." 以及 "*"。允许有 "%" 字符，但是将它解释为特殊转义序列的开始。

转换中使用以下规则：

字母数字字符 "a" 到 "z"、"A" 到 "Z" 和 "0" 到 "9" 保持不变。
特殊字符 "."、"-"、"*" 和 "_" 保持不变。
加号 "+" 转换为空格字符 " "。
将把 "%xy" 格式序列视为一个字节，其中 xy 为 8 位的两位十六进制表示形式。然后，所有连续包含一个或多个这些字节序列的子字符串，将被其编码可生成这些连续字节的字符所代替。可以指定对这些字符进行解码的编码机制，或者如果未指定的话，则使用平台的默认编码机制。

该解码器处理非法字符串有两种可能的方法。一种方法是不管该非法字符，另一种方法是抛出 IllegalArgumentException 异常。解码器具体采用哪种方法取决于实现。

现在的问题是：服务器返回字符到页面，页面又调用js，这个时候肯定要转义下，这是相对比较简单的需求。
服务器只需借助于apache commons包里的StringEscapeUtils类，在struts2里其实已经集成在xwrok包。
StringEscapeUtils.escapeJavaScript(returnString);
这样就可以搞定这个问题。
另外也可以用js去处理这个问题，不过没有实践，主要是自己js水平有点差，
escapeJavaScript对应的源码如下：

private static void escapeJavaStyleString(Writer out, String str, boolean escapeSingleQuote,

boolean escapeForwardSlash) throws IOException {

if (out == null) {

throw new IllegalArgumentException("The Writer must not be null");

}

if (str == null) {

return;

}

int sz;

sz = str.length();

for (int i = 0; i < sz; i++) {

char ch = str.charAt(i);

// handle unicode

if (ch > 0xfff) {

out.write("\\u" + hex(ch));

} else if (ch > 0xff) {

out.write("\\u0" + hex(ch));

} else if (ch > 0x7f) {

out.write("\\u00" + hex(ch));

} else if (ch < 32) {

switch (ch) {

case '\b' :

out.write('\\');

out.write('b');

break;

case '\n' :

out.write('\\');

out.write('n');

break;

case '\t' :

out.write('\\');

out.write('t');

break;

case '\f' :

out.write('\\');

out.write('f');

break;

case '\r' :

out.write('\\');

out.write('r');

break;

default :

if (ch > 0xf) {

out.write("\\u00" + hex(ch));

} else {

out.write("\\u000" + hex(ch));

}

break;

}

} else {

switch (ch) {

case '\'' :

if (escapeSingleQuote) {

out.write('\\');

}

out.write('\'');

break;

case '"' :

out.write('\\');

out.write('"');

break;

case '\\' :

out.write('\\');

break;

case '/' :

if (escapeForwardSlash) {

out.write('\\');

}

out.write('/');

break;

default :

out.write(ch);

break;

}

可以用js去实现也是一样的，网上也有类似的js代码。

出现的问题描述：服务器返了string，经过escapeJavaScript处理后到js代码，js代码又要用这些string去输出html.比如img的src为js处理后的字符串，
最后经过测试得出以上语句去处理这些问题：
string=encodeURIComponent(string).replace(/@/g,'%40').replace(/'/g,"'").replace(/"/g,'"');
转化@是为了获取服务器资源，比如图片地址，可以正常输出。其实输出时后面的转化单引号和双引号是为了保险起见。比如<img src='*****.jpg'/>这时就只需要转化单引号就可以了，这里主要是针对图片的处理来做的，@在其它地方有没有必要转化没有测试，如果要显示图片，得转化。

出现的问题描述：带特殊字符串的图片名要正常显示出来，得转化下：比如要显示文件名为：~！@#￥%……&*（）——+.jpg的图片，代码如下：
java.net.URLEncoder.encode(photoName,"utf-8")).replace("+", "%20"),转化时因为URLEncoder把空格转化成了+,所以最后得把+替换回去，20是十六进制的，相当于十进制的32，即对应为空格。
经过转化后，图片带特殊字符就能正常显示。

天苍苍，野茫茫，风吹草底见牛羊

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: java js html编码与解码问题转载：java keytool使用 java 根据IP获取所在地下载JAVA java 元数据学习笔记2----自带的元数据（转） java 元数据学习笔记1----什么是元数据（转） swing皮肤包使用及样例

asdtiang-java-groovy-grails

asdtiang-java-groovy-grails study

随笔分类(42)

文章分类(29)

随笔档案(67)

文章档案(39)

最新随笔

最新评论

java js html编码与解码问题

公告

常用链接

积分与排名

评论排行榜

阅读排行榜