xyang

2006年10月14日

正则表达式

正则表达式是烦琐的，但是强大的，学会之后的应用会让你除了提高效率外，会给你带来绝对的成就感。只要认真去阅读这些资料，加上应用的时候进行一定的参考，掌握正则表达式不是问题。

索引

1. 引子
2. 正则表达式的历史
3. 正则表达式定义

3.1 普通字符
3.2 非打印字符
3.3 特殊字符
3.4 限定符
3.5 定位符
3.6 选择
3.7 后向引用

4. 各种操作符的运算优先级
5. 全部符号解释
6. 部分例子
7. 正则表达式匹配规则

7.1 基本模式匹配
7.2 字符簇
7.3 确定重复出现

1. 引子
　　目前，正则表达式已经在很多软件中得到广泛的应用，包括*nix（Linux, Unix等），HP等操作系统，PHP，C#，Java等开发环境，以及很多的应用软件中，都可以看到正则表达式的影子。

　　正则表达式的使用，可以通过简单的办法来实现强大的功能。为了简单有效而又不失强大，造成了正则表达式代码的难度较大，学习起来也不是很容易，所以需要付出一些努力才行，入门之后参照一定的参考，使用起来还是比较简单有效的。

例子： ^.+@.+\\..+$

　　这样的代码曾经多次把我自己给吓退过。可能很多人也是被这样的代码给吓跑的吧。继续阅读本文将让你也可以自由应用这样的代码。

　　注意：这里的第7部分跟前面的内容看起来似乎有些重复，目的是把前面表格里的部分重新描述了一次，目的是让这些内容更容易理解。

2. 正则表达式的历史
　　正则表达式的“祖先”可以一直上溯至对人类神经系统如何工作的早期研究。Warren McCulloch 和 Walter Pitts 这两位神经生理学家研究出一种数学方式来描述这些神经网络。
　　1956 年, 一位叫 Stephen Kleene 的数学家在 McCulloch 和 Pitts 早期工作的基础上，发表了一篇标题为“神经网事件的表示法”的论文，引入了正则表达式的概念。正则表达式就是用来描述他称为“正则集的代数”的表达式，因此采用“正则表达式”这个术语。

　　随后，发现可以将这一工作应用于使用 Ken Thompson 的计算搜索算法的一些早期研究，Ken Thompson 是 Unix 的主要发明人。正则表达式的第一个实用应用程序就是 Unix 中的 qed 编辑器。

　　如他们所说，剩下的就是众所周知的历史了。从那时起直至现在正则表达式都是基于文本的编辑器和搜索工具中的一个重要部分。

3. 正则表达式定义
　　正则表达式(regular expression)描述了一种字符串匹配的模式，可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。

列目录时，　dir *.txt或ls *.txt中的*.txt就不是一个正则表达式,因为这里*与正则式的*的含义是不同的。
　　正则表达式是由普通字符（例如字符 a 到 z）以及特殊字符（称为元字符）组成的文字模式。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。

3.1 普通字符
　　由所有那些未显式指定为元字符的打印和非打印字符组成。这包括所有的大写和小写字母字符，所有数字，所有标点符号以及一些符号。

3.2 非打印字符
字符含义
\cx 匹配由x指明的控制字符。例如， \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的 ‘c’ 字符。
\f 匹配一个换页符。等价于 \x0c 和 \cL。
\n 匹配一个换行符。等价于 \x0a 和 \cJ。
\r 匹配一个回车符。等价于 \x0d 和 \cM。
\s 匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\t 匹配一个制表符。等价于 \x09 和 \cI。
\v 匹配一个垂直制表符。等价于 \x0b 和 \cK。

　
3.3 特殊字符
　　所谓特殊字符，就是一些有特殊含义的字符，如上面说的”*.txt”中的*，简单的说就是表示任何字符串的意思。如果要查找文件名中有＊的文件，则需要对＊进行转义，即在其前加一个\。ls \*.txt。正则表达式有以下特殊字符。
　

特别字符说明
$ 匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性，则 $ 也匹配 ‘\n’ 或 ‘\r’。要匹配 $ 字符本身，请使用 \$。
( ) 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符，请使用 $ 和 $。
* 匹配前面的子表达式零次或多次。要匹配 * 字符，请使用 \*。
+ 匹配前面的子表达式一次或多次。要匹配 + 字符，请使用 \+。
. 匹配除换行符 \n之外的任何单字符。要匹配 .，请使用 \。
[ 标记一个中括号表达式的开始。要匹配 [，请使用 \[。
? 匹配前面的子表达式零次或一次，或指明一个非贪婪限定符。要匹配 ? 字符，请使用 \?。
\ 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如， ‘n’ 匹配字符 ‘n’。’\n’ 匹配换行符。序列 ‘\\’ 匹配 “\”，而 ‘\(’ 则匹配 “(”。
^ 匹配输入字符串的开始位置，除非在方括号表达式中使用，此时它表示不接受该字符集合。要匹配 ^ 字符本身，请使用 \^。
{ 标记限定符表达式的开始。要匹配 {，请使用 \{。
| 指明两项之间的一个选择。要匹配 |，请使用 \|。

　　构造正则表达式的方法和创建数学表达式的方法一样。也就是用多种元字符与操作符将小的表达式结合在一起来创建更大的表达式。正则表达式的组件可以是单个的字符、字符集合、字符范围、字符间的选择或者所有这些组件的任意组合。
　

3.4 限定符
　　限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有*或+或?或{n}或{n,}或{n,m}共6种。
*、+和?限定符都是贪婪的，因为它们会尽可能多的匹配文字，只有在它们的后面加上一个?就可以实现非贪婪或最小匹配。
　　正则表达式的限定符有：
　字符描述
* 匹配前面的子表达式零次或多次。例如，zo* 能匹配 “z” 以及 “zoo”。* 等价于{0,}。
+ 匹配前面的子表达式一次或多次。例如，’zo+’ 能匹配 “zo” 以及 “zoo”，但不能匹配 “z”。+ 等价于 {1,}。
? 匹配前面的子表达式零次或一次。例如，”do(es)?” 可以匹配 “do” 或 “does” 中的”do” 。? 等价于 {0,1}。
{n} n 是一个非负整数。匹配确定的 n 次。例如，’o{2}’ 不能匹配 “Bob” 中的 ‘o’，但是能匹配 “food” 中的两个 o。
{n,} n 是一个非负整数。至少匹配n 次。例如，’o{2,}’ 不能匹配 “Bob” 中的 ‘o’，但能匹配 “foooood” 中的所有 o。’o{1,}’ 等价于 ‘o+’。’o{0,}’ 则等价于 ‘o*’。
{n,m} m 和 n 均为非负整数，其中n <= m。最少匹配 n 次且最多匹配 m 次。例如，”o{1,3}” 将匹配 “fooooood” 中的前三个 o。’o{0,1}’ 等价于 ‘o?’。请注意在逗号和两个数之间不能有空格。

3.5 定位符
　　用来描述字符串或单词的边界，^和$分别指字符串的开始与结束，\b描述单词的前或后边界，\B表示非单词边界。不能对定位符使用限定符。

3.6 选择
　　用圆括号将所有选择项括起来，相邻的选择项之间用|分隔。但用圆括号会有一个副作用，是相关的匹配会被缓存，此时可用?:放在第一个选项前来消除这种副作用。
　　其中?:是非捕获元之一，还有两个非捕获元是?=和?!，这两个还有更多的含义，前者为正向预查，在任何开始匹配圆括号内的正则表达式模式的位置来匹配搜索字符串，后者为负向预查，在任何开始不匹配该正则表达式模式的位置来匹配搜索字符串。

3.7 后向引用
　　对一个正则表达式模式或部分模式两边添加圆括号将导致相关匹配存储到一个临时缓冲区中，所捕获的每个子匹配都按照在正则表达式模式中从左至右所遇到的内容存储。存储子匹配的缓冲区编号从 1 开始，连续编号直至最大 99 个子表达式。每个缓冲区都可以使用 ‘\n’ 访问，其中 n 为一个标识特定缓冲区的一位或两位十进制数。
　　可以使用非捕获元字符 ‘?:’, ‘?=’, or ‘?!’ 来忽略对相关匹配的保存。

4. 各种操作符的运算优先级
　　相同优先级的从左到右进行运算，不同优先级的运算先高后低。各种操作符的优先级从高到低如下：
　操作符描述
\ 转义符
(), (?:), (?=), [] 圆括号和方括号
*, +, ?, {n}, {n,}, {n,m} 限定符
^, $, \anymetacharacter 位置和顺序
| “或”操作

5. 全部符号解释

字符描述
\ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如，’n’ 匹配字符 “n”。’\n’ 匹配一个换行符。序列 ‘\\’ 匹配 “\” 而 “\(” 则匹配 “(”。
^ 匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性，^ 也匹配 ‘\n’ 或 ‘\r’ 之后的位置。
$ 匹配输入字符串的结束位置。如果设置了RegExp 对象的 Multiline 属性，$ 也匹配 ‘\n’ 或 ‘\r’ 之前的位置。
* 匹配前面的子表达式零次或多次。例如，zo* 能匹配 “z” 以及 “zoo”。* 等价于{0,}。
+ 匹配前面的子表达式一次或多次。例如，’zo+’ 能匹配 “zo” 以及 “zoo”，但不能匹配 “z”。+ 等价于 {1,}。
? 匹配前面的子表达式零次或一次。例如，”do(es)?” 可以匹配 “do” 或 “does” 中的”do” 。? 等价于 {0,1}。
{n} n 是一个非负整数。匹配确定的 n 次。例如，’o{2}’ 不能匹配 “Bob” 中的 ‘o’，但是能匹配 “food” 中的两个 o。
{n,} n 是一个非负整数。至少匹配n 次。例如，’o{2,}’ 不能匹配 “Bob” 中的 ‘o’，但能匹配 “foooood” 中的所有 o。’o{1,}’ 等价于 ‘o+’。’o{0,}’ 则等价于 ‘o*’。
{n,m} m 和 n 均为非负整数，其中n <= m。最少匹配 n 次且最多匹配 m 次。例如，”o{1,3}” 将匹配 “fooooood” 中的前三个 o。’o{0,1}’ 等价于 ‘o?’。请注意在逗号和两个数之间不能有空格。
? 当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串 “oooo”，’o+?’ 将匹配单个 “o”，而 ‘o+’ 将匹配所有 ‘o’。
. 匹配除 “\n” 之外的任何单个字符。要匹配包括 ‘\n’ 在内的任何字符，请使用象 ‘[.\n]’ 的模式。
(pattern) 匹配 pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到，在VBScript 中使用 SubMatches 集合，在JScript 中则使用 $0…$9 属性。要匹配圆括号字符，请使用 ‘$’ 或 ‘$’。
(?:pattern) 匹配 pattern 但不获取匹配结果，也就是说这是一个非获取匹配，不进行存储供以后使用。这在使用 “或” 字符 (|) 来组合一个模式的各个部分是很有用。例如， ‘industr(?:y|ies) 就是一个比 ‘industry|industries’ 更简略的表达式。
(?=pattern) 正向预查，在任何匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如，’Windows (?=95|98|NT|2000)’ 能匹配 “Windows 2000″ 中的 “Windows” ，但不能匹配 “Windows 3.1″ 中的 “Windows”。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。
(?!pattern) 负向预查，在任何不匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如’Windows (?!95|98|NT|2000)’ 能匹配 “Windows 3.1″ 中的 “Windows”，但不能匹配 “Windows 2000″ 中的 “Windows”。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始
x|y 匹配 x 或 y。例如，’z|food’ 能匹配 “z” 或 “food”。’(z|f)ood’ 则匹配 “zood” 或 “food”。
[xyz] 字符集合。匹配所包含的任意一个字符。例如， ‘[abc]’ 可以匹配 “plain” 中的 ‘a’。
[^xyz] 负值字符集合。匹配未包含的任意字符。例如， ‘[^abc]’ 可以匹配 “plain” 中的’p'。
[a-z] 字符范围。匹配指定范围内的任意字符。例如，’[a-z]’ 可以匹配 ‘a’ 到 ‘z’ 范围内的任意小写字母字符。
[^a-z] 负值字符范围。匹配任何不在指定范围内的任意字符。例如，’[^a-z]’ 可以匹配任何不在 ‘a’ 到 ‘z’ 范围内的任意字符。
\b 匹配一个单词边界，也就是指单词和空格间的位置。例如， ‘er\b’ 可以匹配”never” 中的 ‘er’，但不能匹配 “verb” 中的 ‘er’。
\B 匹配非单词边界。’er\B’ 能匹配 “verb” 中的 ‘er’，但不能匹配 “never” 中的 ‘er’。
\cx 匹配由 x 指明的控制字符。例如， \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的 ‘c’ 字符。
\d 匹配一个数字字符。等价于 [0-9]。
\D 匹配一个非数字字符。等价于 [^0-9]。
\f 匹配一个换页符。等价于 \x0c 和 \cL。
\n 匹配一个换行符。等价于 \x0a 和 \cJ。
\r 匹配一个回车符。等价于 \x0d 和 \cM。
\s 匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\t 匹配一个制表符。等价于 \x09 和 \cI。
\v 匹配一个垂直制表符。等价于 \x0b 和 \cK。
\w 匹配包括下划线的任何单词字符。等价于’[A-Za-z0-9_]’。
\W 匹配任何非单词字符。等价于 ‘[^A-Za-z0-9_]’。
\xn 匹配 n，其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如，’\x41′ 匹配 “A”。’\x041′ 则等价于 ‘\x04′ & “1″。正则表达式中可以使用 ASCII 编码。.
\num 匹配 num，其中 num 是一个正整数。对所获取的匹配的引用。例如，’(.)\1′ 匹配两个连续的相同字符。
\n 标识一个八进制转义值或一个向后引用。如果 \n 之前至少 n 个获取的子表达式，则 n 为向后引用。否则，如果 n 为八进制数字 (0-7)，则 n 为一个八进制转义值。
\nm 标识一个八进制转义值或一个向后引用。如果 \nm 之前至少有 nm 个获得子表达式，则 nm 为向后引用。如果 \nm 之前至少有 n 个获取，则 n 为一个后跟文字 m 的向后引用。如果前面的条件都不满足，若 n 和 m 均为八进制数字 (0-7)，则 \nm 将匹配八进制转义值 nm。
\nml 如果 n 为八进制数字 (0-3)，且 m 和 l 均为八进制数字 (0-7)，则匹配八进制转义值 nml。
\un 匹配 n，其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如， \u00A9 匹配版权符号 (?)。

6. 部分例子

正则表达式说明
/\b([a-z]+) \1\b/gi 一个单词连续出现的位置
/(\w+):\/\/([^/:]+)(:\d*)?([^# ]*)/ 将一个URL解析为协议、域、端口及相对路径
/^(?:Chapter|Section) [1-9][0-9]{0,1}$/ 定位章节的位置
/[-a-z]/ A至z共26个字母再加一个-号。
/ter\b/ 可匹配chapter，而不能terminal
/\Bapt/ 可匹配chapter，而不能aptitude
/Windows(?=95 |98 |NT )/ 可匹配Windows95或Windows98或WindowsNT,当找到一个匹配后，从Windows后面开始进行下一次的检索匹配。

7. 正则表达式匹配规则
7.1 基本模式匹配

　　一切从最基本的开始。模式，是正规表达式最基本的元素，它们是一组描述字符串特征的字符。模式可以很简单，由普通的字符串组成，也可以非常复杂，往往用特殊的字符表示一个范围内的字符、重复出现，或表示上下文。例如：

^once

　　这个模式包含一个特殊的字符^，表示该模式只匹配那些以once开头的字符串。例如该模式与字符串”once upon a time”匹配，与”There once was a man from NewYork”不匹配。正如如^符号表示开头一样，$符号用来匹配那些以给定模式结尾的字符串。

bucket$

　　这个模式与”Who kept all of this cash in a bucket”匹配，与”buckets”不匹配。字符^和$同时使用时，表示精确匹配（字符串与模式一样）。例如：

^bucket$

　　只匹配字符串”bucket”。如果一个模式不包括^和$，那么它与任何包含该模式的字符串匹配。例如：模式

once

与字符串

There once was a man from NewYork
Who kept all of his cash in a bucket.

是匹配的。

　　在该模式中的字母(o-n-c-e)是字面的字符，也就是说，他们表示该字母本身，数字也是一样的。其他一些稍微复杂的字符，如标点符号和白字符（空格、制表符等），要用到转义序列。所有的转义序列都用反斜杠(\)打头。制表符的转义序列是：\t。所以如果我们要检测一个字符串是否以制表符开头，可以用这个模式：

^\t

类似的，用\n表示“新行”，\r表示回车。其他的特殊符号，可以用在前面加上反斜杠，如反斜杠本身用\\表示，句号.用\.表示，以此类推。

7.2 字符簇

在INTERNET的程序中，正规表达式通常用来验证用户的输入。当用户提交一个form以后，要判断输入的电话号码、地址、EMAIL地址、信用卡号码等是否有效，用普通的基于字面的字符是不够的。

所以要用一种更自由的描述我们要的模式的办法，它就是字符簇。要建立一个表示所有元音字符的字符簇，就把所有的元音字符放在一个方括号里：

[AaEeIiOoUu]

这个模式与任何元音字符匹配，但只能表示一个字符。用连字号可以表示一个字符的范围，如：

[a-z] //匹配所有的小写字母
[A-Z] //匹配所有的大写字母
[a-zA-Z] //匹配所有的字母
[0-9] //匹配所有的数字
[0-9\.\-] //匹配所有的数字，句号和减号
[ \f\r\t\n] //匹配所有的白字符

同样的，这些也只表示一个字符，这是一个非常重要的。如果要匹配一个由一个小写字母和一位数字组成的字符串，比如”z2″、”t6″或”g7″，但不是”ab2″、”r2d3″ 或”b52″的话，用这个模式：

^[a-z][0-9]$

尽管[a-z]代表26个字母的范围，但在这里它只能与第一个字符是小写字母的字符串匹配。

前面曾经提到^表示字符串的开头，但它还有另外一个含义。当在一组方括号里使用^是，它表示“非”或“排除”的意思，常常用来剔除某个字符。还用前面的例子，我们要求第一个字符不能是数字：

^[^0-9][0-9]$

这个模式与”&5″、”g7″及”-2″是匹配的，但与”12″、”66″是不匹配的。下面是几个排除特定字符的例子：

[^a-z] //除了小写字母以外的所有字符
[^\\\/\^] //除了(\)(/)(^)之外的所有字符
[^\"\'] //除了双引号(")和单引号(')之外的所有字符

特殊字符”.” (点，句号)在正规表达式中用来表示除了“新行”之外的所有字符。所以模式”^.5$”与任何两个字符的、以数字5结尾和以其他非“新行”字符开头的字符串匹配。模式”.”可以匹配任何字符串，除了空串和只包括一个“新行”的字符串。

PHP的正规表达式有一些内置的通用字符簇，列表如下：

字符簇含义
[[:alpha:]] 任何字母
[[:digit:]] 任何数字
[[:alnum:]] 任何字母和数字
[[:space:]] 任何白字符
[[:upper:]] 任何大写字母
[[:lower:]] 任何小写字母
[[:punct:]] 任何标点符号
[[:xdigit:]] 任何16进制的数字，相当于[0-9a-fA-F]

7.3 确定重复出现

到现在为止，你已经知道如何去匹配一个字母或数字，但更多的情况下，可能要匹配一个单词或一组数字。一个单词有若干个字母组成，一组数字有若干个单数组成。跟在字符或字符簇后面的花括号({})用来确定前面的内容的重复出现的次数。

字符簇含义
^[a-zA-Z_]$ 所有的字母和下划线
^[[:alpha:]]{3}$ 所有的3个字母的单词
^a$ 字母a
^a{4}$ aaaa
^a{2,4}$ aa,aaa或aaaa
^a{1,3}$ a,aa或aaa
^a{2,}$ 包含多于两个a的字符串
^a{2,} 如：aardvark和aaab，但apple不行
a{2,} 如：baad和aaa，但Nantucket不行
\t{2} 两个制表符
.{2} 所有的两个字符

这些例子描述了花括号的三种不同的用法。一个数字，{x}的意思是“前面的字符或字符簇只出现x次”；一个数字加逗号，{x,}的意思是“前面的内容出现x或更多的次数”；两个用逗号分隔的数字，{x,y}表示“前面的内容至少出现x次，但不超过y次”。我们可以把模式扩展到更多的单词或数字：

^[a-zA-Z0-9_]{1,}$ //所有包含一个以上的字母、数字或下划线的字符串
^[0-9]{1,}$ //所有的正数
^\-{0,1}[0-9]{1,}$ //所有的整数
^\-{0,1}[0-9]{0,}\.{0,1}[0-9]{0,}$ //所有的小数

最后一个例子不太好理解，是吗？这么看吧：与所有以一个可选的负号(\-{0,1})开头(^)、跟着0个或更多的数字([0-9]{0,})、和一个可选的小数点(\.{0,1})再跟上0个或多个数字([0-9]{0,})，并且没有其他任何东西($)。下面你将知道能够使用的更为简单的方法。

特殊字符”?”与{0,1}是相等的，它们都代表着：“0个或1个前面的内容”或“前面的内容是可选的”。所以刚才的例子可以简化为：

^\-?[0-9]{0,}\.?[0-9]{0,}$

特殊字符”*”与{0,}是相等的，它们都代表着“0个或多个前面的内容”。最后，字符”+”与 {1,}是相等的，表示“1个或多个前面的内容”，所以上面的4个例子可以写成：

^[a-zA-Z0-9_]+$ //所有包含一个以上的字母、数字或下划线的字符串
^[0-9]+$ //所有的正数
^\-?[0-9]+$ //所有的整数
^\-?[0-9]*\.?[0-9]*$ //所有的小数

当然这并不能从技术上降低正规表达式的复杂性，但可以使它们更容易阅读。

posted @ 2006-10-14 21:59 xyang 阅读(404) | 评论 (0) | 编辑收藏

2006年10月10日

Open Source Portal Servers Written in Java

Liferay - Liferay is designed to deploy portlets that adhere to the Portlet API (JSR 168). Many useful portlets are bundled with the portal (Mail, Document Library, Calendar, Message Boards, to name a few) and can be used as examples for adding your own custom portlets.

Exo - The eXo platform is a powerful Open Source - JSR 168 compliant - enterprise portal built from several modules. Based on the most innovative tools, API and frameworks such as Java Server Faces, Pico Container, JbossMX and AspectJ.

Pluto - Pluto is the Reference Implementation of the Java Portlet Specfication. The current version of this specification is JSR 168.

JA-SIG uPortal - uPortal is a free, sharable portal under development by institutions of higher-education. Community tools, such as chat, forums, survey, and so on, build relationships among campus constituencies. uPortal is an open-standard effort using Java, XML, JSP and J2EE.

Redhat Portal Server - Red Hat Portal Server is a open source Portal solution. Supports multiple languages in its user interface and pervasive devices such as WAP, XHTML, and VoiceXML in its rendering pipeline. Portals can be built and targeted for the individual, for work groups or teams, for people with a common set of interests, and for large corporations and organizations.

Jakarta Jetspeed 2 Enterprise Portal - Jetspeed is an Open Source implementation of an Enterprise Information Portal, using Java and XML. etspeed-2 is the next-generation enterprise portal at Apache. Jetspeed-2 offers several architectural enhancements and improvements over Jetspeed 1.0. First, Jetspeed-2 is conformant to the Java Portlet Standard and will provide a standard mechanism for the deployment of portlets.

Jahia - An integrated web content management and corporate portal server; 100% Java based; Available under a collaborative source license (contribue or pay paradigm); Installed in minutes; Easy to use and to administer; Full Multilanguage and I18N support; Staging environement; Content Workflow; Content Versioning; Document Management (WebDAV Support); Built-in Portlet-based interface; Built-in support for standardized java web applications and web services (default servlets supported as portlets); Full web-based administration; Integrated with the Apache Lucene Search Engine; LDAP compliant; JSP and JSTL support for easy templates development; Integrated HTML cache engine; dynamic XML export module and much more...

Gluecode Portal Foundation Server - Gluecode PFS is built in collaboration with the largest open source communities, including JBoss and Apache. It adheres to J2EE specifications, as well as implementations of portal industry standards.

jPortlet - jPortlet is not JSR 168 compliant, but the jPortlet API is very similar to the IBM WebSpere Portal Server.

GridSphere - 100% JSR 168 Portlet API compliant. Portlet API implementation nearly fully compatible with IBM's WebSphere 4.2. Higher-level model for building complex portlets using visual beans and the GridSphere User Interface (UI) tag library. Built-in support for Role Based Access Control (RBAC) separating users into guests, users, admins and super users. Persistence of data provided using Hibernate for RDBMS database support Integrated Junit/Cactus unit tests. Localization support including English, French, German, Czech, Polish, Hungarian and Italian.

Cocoon Portal Framework - Apache Cocoon is a web development framework built around the concepts of separation of concerns and component-based web development. Cocoon implements these concepts around the notion of 'component pipelines', each component on the pipeline specializing on a particular operation. The Portal Framework is based on Cocoon and is rumored to eventually support JSR-168.

jPorta - jPorta is a fully functional portal engine built on top of the Jeenius Framework (http://jeenius.sourceforge.net). It works with any 2.3 compilant servlet engine and comes with a number of useful gadgets.

MyPersonalizer - MyPersonalizer is a J2EE-based framework. The controller layer is built upon Jakarta Struts. MyPersonalizer also provides a number of command line administration tools for initialization tasks and a web administration tool to administrate any portal built with the framework.

oPortal - The OWASP Portal project, oPortal, is a portal written in java that aims to become the standard for secure web applications. The OWASP portal is based on the Jakarta Struts framework and designed with security as a REQUIREMENT, not an option. A reference implementation of a secure portal, that will rival the likes of any commercially available portal. JSR-168 compliance scheduled for version 1.1 release.

CHEF - CompreHensive collaborativeE Framework. CHEF is a Java J2EE (Servlet) based application server. The portal engine is a version of Apache's Jetspeed. CHEF is a set of tools and services. Tools control an application's user interface. Services provide information modeling, persistence, and important application logic. The tools are a set of groupware applications (such as chat, schedule and resources). The services specifically support the tools (such as content hosting and messaging) and generally support the application environment (such as authentication, event tracking, security).

Siemens Intranet Portal Framework - The Siemens Intranet Portal Framework (SIPF) offers a personalized, structured access to information and seamless integration of applications. A web-based work environment is realized within a browser by hierarchically structured virtual desktops.

Lutece - Lutece is a web portal engine that lets you quickly create internet or intranet dynamic sites based on HTML, XML or database contents. This tool, developed by the Data Processing Department of the City of Paris for the districts web sites projects, is now used by more than 18 web sites of the city.

Sakai Project - Builds on JSR 168 and OKI open service interface definitions. A re-factored set of educational software tools that blends the best of features from the University of Michigan, Indiana University, MIT, Stanford, and the uPortal consortium. The Sakai Project will include an Enterprise Services-based Portal, a complete Course Management System with sophisticated assessment tools, a Research Support Collaboration System, a Workflow Engine, and a Technology Portability Profile as a clear standard for writing future tools that can extend this core set of educational applications. The Sakai Project Core universities are committing over $2 million per year to launch and support this two year project.

JBoss Portal - JBoss Portal 2.0 framework and architecture includes the portal container and supports a wide range of features including standard portlets, single sign-on, clustering and internationalization. Portal themes and layouts are configurable. Fine-grained security administration down to portlet permissions rounds out the security model. JBoss Portal 2.0 includes a rich content management system and message board support.

Stringbeans - Stringbeans is a platform for building enterprise information portals. The platform is composed of three components: a portal container/server, a Web Services framework, and a process automation engine. Compatible with JSR 168 standard, mobile client support (WML 1.1 and XHTML MP 1.0), JAAS-based user authentication, portlets capable of displaying RSS headlines, multi-page tabular data from database tables, reports, charts, XML documents via XSL tranformations. Stringbeans is deployed as a J2EE Web application in a container that supports Servlets 2.3 and Java Server Pages (JSP) 1.2 specification. EJB support is not required.

InfoGlue 2.0 - InfoGlue is a GPL-based content management and JSR 168 Portal system. Key features includes full multi-language support, excellent information reuse between sites and extensive integration capabilities. A dynamic visual page builder. This release supports advanced workflows as well as very detailed access control both internally and externally.

NodeVision Portal - NVPortal is the Java Enterprise JSR 168 compliant Portal solution based on a BSD-License. Features include a Business Process Engine and Search Engine based on SOAP, WSRP compliance, Multilingual, Single Sign On and a Graphical administration interface.

Pentaho - The Pentaho BI Project provides enterprise-class reporting, analysis, dashboard, data mining and workflow capabilities that help organizations operate more efficiently and effectively. The software offers flexible deployment options that enable use as embeddable components, customized BI application solutions, and as a complete out-of-the-box, integrated BI platform.

IPoint Open Edition - iPoint Open Edition has passed the JSR168 TCK. It is designed so that the portal can be developed within a browser. iPoint portal contains many prebuilt portlets and features complete browser based management and site construction.

Portals in Cocoon - The portal framework is a portal server that runs inside Cocoon - or to be more precise inside the Cocoon servlet. It contains a portlet container that is called coplet container. Coplet stands for Cocoon Portlet and is the Cocoon equivalent to portlet. The new portal engine is a replacement implementation of a portal engine which focuses on more flexibility and ease-of-use. In addition it supports the JSR-168.

Enterprise-class Portal Server Open Source project - The Portal Server open source project is derived from the Sun Java System Portal Server 7 product and will comprise of the following components and technologies: Portlet repository, JSR168 compliant portlet container, Web Services for Remote Portlets (WSRP) 1.0 based producer and consumer implementations, Portal aggregation and administration framework, Communities and collaboration framework/services, Full-text search engine with federated search and taxonomy capabilities, Secure remote access for SSL/VPN capabilities from outside the firewall and Multi-device mobile access capability to all portal content and applications.

posted @ 2006-10-10 09:44 xyang 阅读(694) | 评论 (0) | 编辑收藏

2006年10月9日

Java1.5语言新特性

1. 自动装箱与拆箱对应C#
例1.1
  Integer i = 10;
  int j = i;

2. 更优化的for循环对应就C#---foreach循环
例2.1
  String[] names = {"BadBoy","GoodBoy","HappyGirl","sadGirl"};
  for(String option: names) {
   System.out.println(option);
  }
例2.2 加泛型对应C++模板
  import java.util.*;

  ArrayList<String> animals = new ArrayList<String>();
  animals.add("Dog");
  animals.add("Cat");
  animals.add("Chick");
  animals.add("Cow");
  for(String option : animals) {
   System.out.println(option);
  }

3.参数可变的方法和printf
例3.1
  定义:
  public int sum(int... n) {  //传过来n为一个int型数组
   int tempSum;
   for(int option : n) {
    tempSum+=option;
   }
   /*
   for(int i = 0; i < n.length; i++) {
    tempSum+=n[i];
   }
   */
   return tempSum;
  }
  调用1: sum(1);
  调用2: sum(1,2);
  调用3: sum(1,2,3,4);
例3.2 printf方法,  对应c语言的printf
  int x = 10;
  int y = 20;
  int sum = x + y;
  System.out.printf("%d + %d = %d",x,y,sum);
4. 枚举
例4.1
  public enum MyColors {
   red,
   black,
   blue,
   green,
   yellow
  }

  MyColors color = MyColors.red;
  for(MyColors option : color.values()) {
   System.out.println(option);
  }

/**不能在switch语句里这样写case MyColors.red:
*这样编译器不会让你通过*/
switch(color) {
case red:
  System.out.println("best color is "+red);
  break;
case black:
  System.out.println("NO " + black);
  break;
default:
  System.out.println("What");
  break;
}

5.静态引用
例5.1
  1.5版本以前的写法是：

  　　import java.lang.Math; //程序开头处

  　　...

  　　double x = Math.random();
  1.5版本中可以这样写
   import static java.lang.Math.random; //程序开头处

   ...
  　　
   double x = random();

posted @ 2006-10-09 23:05 xyang 阅读(301) | 评论 (0) | 编辑收藏

使用xmlhttp和Java session监听改善站内消息系统( 转)

这个题目含有许多需要解释的概念，最容易说明的是“站内消息”，这是很多论坛都有的功能，可以通过web向其他的在线用户发送消息，很多用户都使用过。站内消息的第一个好处是大家都不需要安装客户端，你不用知道对方的MSN或者QQ，就能与他联系，称赞他的观点或者是给他一顿臭骂。第二个好处是客户管理方便，利用session来维护在线名单，各种脚本都已经把session操作封装得很易用了，不用像其他无状态的即时通信工具（比如使用UDP通信的工具）一样，要费一些脑细胞来解决在线名单的问题。缺点嘛，就是实时性不好，一般是在用户跳转或者刷新页面才能探测消息、更新在线名单。

　　Session监听嘛，没什么好解释的，java提供了很灵活的事件机制来监听session，可以监听session的创建和销毁，监控session所携带数据的创建、变化和销毁，可以监听session的锐化和钝化（了解对象序列化的兄弟应该知道这个），其他的平台是个什么情况我不太清楚，估计也差不多吧。如果能够对所有客户的session进行监控，就不用再去操作麻烦而危险的Application了。

　　Xmlhttp是MS推的一项技术，功能很复杂，可以做很多事情，比如客户端可以在简单的HTML中打开HTTP连接，主动向server请求数据并获得返回数据，是DOM技术一个非常重要的应用，利用它来写无刷新的动态页面简直是so easy，做过web开发的兄弟应该明白它的意义有多么重大。

一、 session监听

　　servlet中对session的监听有很多接口，功能很灵活，最常用的是监听Session和Attribute。这里要澄清一下概念，servlet中的session监听和Attribute监听含义有差别，session监听指的不是我们一般所理解的放置一个session或者销毁一个session，这是Attribute监听的功能，因为servlet中放置session的语法是session.setAttribute(“session名”,要放入的对象)。而session监听，监听的是HTTP连接，只要有用户与server连接，就算连接的是一个空白的jsp页面，也会触发session事件，所以此处的session实际上指的是connection，用来统计当前在线用户数最合适了。不知道我说清楚了没有。下面分别讲解这两种监听方式。

1、 session监听

　　首先编写一个session监听类，实作HttpSessionListener接口，它的作用是计算当前有多少个在线用户：

/**
*@Author bromon
*2004-6-12
*/
package org.bromon.test;
import javax.servlet.*;
import javax.servlet.http.*;
public class SessionCount implements HttpSessionListener
{
private static int count=0;
public void sessionCreated(HttpSessionEvent se)
{
count++;
System.out.println(“session创建：”+new java.util.Date());
}
public void sessionDestroyed(HttpSessionEvent se)
{
count--;
System.out.println(“session销毁:”+new java.util.Date());
}
public static int getCount()
{
return(count);
}
}

　　怎么样，是不是一目了然？count被定义为static，是因为要保证整个系统只有这一个count。如果你实在不放心，可以把它写成一个单例类。

　　然后在web.xml中声明这个监听器：
<listener>
<listener-class>
org.bromon.test.SessionCount
</listener-class>
</listener>

　　编写一个测试页面test.jsp，内容是获得count：
<%
int count=org.bromon.test.SessionCount.getCount();
out.println(count);
%>

　　需要注意的是，这里根本不涉及任何session的操作。重启动App server，试着连接test.jsp，可以看到监听器已经开始工作。

2、 Attribute监听
　　作为一个站内消息系统，肯定要获得所有登陆者的ID，才有可能互发消息。这就涉及Attribute监听。假设我们写了个用户登陆的模块，用户通过身份验证之后会产生一个session，保存它的相关信息，比如：

//check.jsp
<%
String name=request.getParameter(“name”);
Name=new String(name.getBytes(“ISO8859-1”));
session.setAttribute(“user”,name);
%>

　　做过jsp的兄弟应该对这段代码再熟悉不过了，下面写个监听器来监听用户登陆，把所有用户的ID保存到一个List当中，这个监听器实作HttpSessionAttributeListener接口：

/**
*@Author bromon
*2004-6-12
*/
package org.bromon.test;
import javax.servlet.*;
import javax.servlet.http.*;
import java.util.*;
public class OnlineList implements HttpSessionAttributeListener
{
private static List list=new ArrayList();
public void attributeAdded(HttpSessionBindingEvent se)
{
if(“user”.equals(se.getName()))
{
list.add(se.getValue());
}
}
public void attributeRemoved(HttpSessionBindingEvent se)
{
if(“user”.equals(se.getName()))
{
list.remove(se.getValue());
}
}
public void attributeReplaced(HttpSessionBindingEvent se){}
public static List getList()
{
return(list);
}
}

写个简单的jsp来得到用户列表：
<%
    java.util.List list=org.bromon.test.OnlineList.getList();
    out.println(“共有”+list.size()+”名用户已登陆：”);
    for(int I=0;I<lise.size();i++)
    {
        out.println(list.get(i));
    }
%>

也许你说，这有什么神奇呢，监听session而已，不着急，看看xmlhttp。

二、 XMLHTTP

　　XMLHTTP的用处很多，这里只说我们需要的，就是无刷新的与server通信，看这段代码：

<script language="javascript">
xml = new ActiveXObject("Microsoft.XMLHTTP");
var post=" ";//构造要携带的数据
xml.open("POST","http://localhost:7001/TestWL/index.jsp",false);//使用POST方法打开一个到服务器的连接，以异步方式通信
xml.setrequestheader("content-length",post.length);
xml.setrequestheader("content-type","application/x-www-form-urlencoded");
xml.send(post);//发送数据
var res = xml.responseText;//接收服务器返回的数据
document.write(res);
</script>

　　豁然开朗，这段代码就是打开一个HTTP连接，以标准的HTTP格式传递数据，如果你喜欢，可以用XML的格式来传递。更改一下xml对象的构造方式就可以兼容Mozilla和Netscape。下面来写一个轮询，每隔一段时间刷新一次用户列表，当然，是不需要刷新页面的：

<html>
<head><title>探测器</title>
<script language="javascript">
function detect()
{
xml = new ActiveXObject("Microsoft.XMLHTTP");
var post=" ";//构造要携带的数据
xml.open("POST","http://localhost:7001/TestWL/index.jsp",false);//使用POST方法打开一个到服务器的连接，以异步方式通信
xml.setrequestheader("content-length",post.length);
xml.setrequestheader("content-type","application/x-www-form-urlencoded");
xml.send(post);//发送数据
var res = xml.responseText;//接收服务器返回的数据
list.innerText=res;
setTimeout(“detect()”,5000);//每隔5秒钟轮询一次
}
</script>
<body onload=”detect()”>
<a id=”list”></a>
</body>
</html>
这样的通信方式数据量很小，不用重新传递整个页面，5秒钟轮一次，普通PC也能承受较大的在线数。构造一个探测器来监听在线列表和消息，效果是很好的，即使你的客户坐在电脑前袖手旁观，键鼠都不碰一下，也能保证数据即时传递，页面也不会发生跳转和刷新。

　　Session监听加上XMLHTTP通信，开发一个较为完善的站内消息系统实在易如反掌

posted @ 2006-10-09 22:58 xyang 阅读(1445) | 评论 (1) | 编辑收藏

2006年10月7日

计算机常用英语

计算机常用英语
计算机常用英语术语、词汇表
Computer Vocabulary In Common [color=darkblue][/color]Use
一、硬件类(Hardware)
二、软件类(Software)
三、网络类(Network)
四、其它

CPU(Center Processor Unit)中央处理单元
mainboard主板
RAM(random access
memory)随机存储器(内存)
ROM(Read Only Memory)只读存储器
Floppy Disk软盘
Hard Disk硬盘
CD-ROM光盘驱动器(光驱)
monitor监视器
keyboard键盘
mouse鼠标
chip芯片
CD-R光盘刻录机
HUB集线器
Modem= MOdulator-DEModulator,调制解调器
P-P(Plug and Play)即插即用
UPS(Uninterruptable Power Supply)不间断电源
BIOS(Basic-input-Output
System)基本输入输出系统
CMOS(Complementary Metal-Oxide-Semiconductor)互补金属氧化物半导体
setup安装
uninstall卸载
wizzard向导
OS(Operation Systrem)操作系统
OA(Office AutoMation)办公自动化
exit退出
edit编辑
copy复制
cut剪切
paste粘贴
delete删除
select选择
find查找
select all全选
replace替换
undo撤消
redo重做
program程序
license许可(证)
back前一步
next下一步
finish结束
folder文件夹
Destination Folder目的文件夹
user用户
click点击
double click双击
right click右击
settings设置
update更新
release发布
data数据
data base数据库
DBMS(Data Base Manege
System)数据库管理系统
view视图
insert插入
object对象
configuration配置
command命令
document文档
POST(power-on-self-test)电源自检程序
cursor光标
attribute属性
icon图标
service pack服务补丁
option pack功能补丁
Demo演示
short cut快捷方式
exception异常
debug调试
previous前一个
column行
row列
restart重新启动
text文本
font字体
size大小
scale比例
interface界面
function函数
access访问
manual指南
active激活
computer language计算机语言
menu菜单
GUI(graphical user
interfaces )图形用户界面
template模版
page setup页面设置
password口令
code密码
print preview打印预览
zoom in放大
zoom out缩小
pan漫游
cruise漫游
full screen全屏
tool bar工具条
status bar状态条
ruler标尺
table表
paragraph段落
symbol符号
style风格
execute执行
graphics图形
image图像
Unix用于服务器的一种操作系统
Mac OS苹果公司开发的操作系统
OO(Object-Oriented)面向对象
virus病毒
file文件
open打开
colse关闭
new新建
save保存
exit退出
clear清除
default默认
LAN局域网
WAN广域网
Client/Server客户机/服务器
ATM( Asynchronous
Transfer Mode)异步传输模式
Windows NT微软公司的网络操作系统
Internet互联网
WWW(World Wide Web)万维网
protocol协议
HTTP超文本传输协议
FTP文件传输协议
Browser浏览器
homepage主页
Webpage网页
website网站
URL在Internet的WWW服务程序上
用于指定信息位置的表示方法
Online在线
Email电子邮件
ICQ网上寻呼
Firewall防火墙
Gateway网关
HTML超文本标识语言
hypertext超文本
hyperlink超级链接
IP(Address)互联网协议(地址)
SearchEngine搜索引擎
TCP/IP用于网络的一组通讯协议
Telnet远程登录
IE(Internet Explorer)探索者(微软公司的网络浏览器)
Navigator引航者(网景公司的浏览器)
multimedia多媒体
ISO国际标准化组织
ANSI美国国家标准协会
able 能
activefile 活动文件
addwatch 添加监视点
allfiles 所有文件
allrightsreserved 所有的权力保留
altdirlst 切换目录格式
andfixamuchwiderrangeofdiskproblems 并能够解决更大范围内的磁盘问题
andotherinFORMation 以及其它的信息
archivefileattribute 归档文件属性
assignto 指定到
autoanswer 自动应答
autodetect 自动检测
autoindent 自动缩进
autosave 自动存储
availableonvolume 该盘剩余空间
badcommand 命令错
badcommandorfilename 命令或文件名错
batchparameters 批处理参数
binaryfile 二进制文件
binaryfiles 二进制文件
borlandinternational borland国际公司
bottommargin 页下空白
bydate 按日期
byextension 按扩展名
byname 按名称
bytesfree 字节空闲
callstack 调用栈
casesensitive 区分大小写
causespromptingtoconfirmyouwanttooverwritean 要求出现确认提示,在你想覆盖一个
centralpointsoftwareinc central point 软件股份公司
changedirectory 更换目录
changedrive 改变驱动器
changename 更改名称
characterset 字符集
checkingfor 正在检查
checksadiskanddisplaysastatusreport 检查磁盘并显示一个状态报告
chgdrivepath 改变盘/路径
china 中国
chooseoneofthefollowing 从下列中选一项
clearall 全部清除
clearallbreakpoints 清除所有断点
clearsanattribute 清除属性
clearscommandhistory 清除命令历史
clearscreen 清除屏幕
closeall 关闭所有文件
codegeneration 代码生成
colorpalette 彩色调色板
commandline 命令行
commandprompt 命令提示符
compressedfile 压缩文件
configuresaharddiskforusewithmsdos 配置硬盘,以为 MS-DOS 所用
conventionalmemory 常规内存
copiesdirectoriesandsubdirectorie***ceptemptyones 拷贝目录和子目录,空的除外
copiesfileswiththearchiveattributeset 拷贝设置了归档属性的文件
copiesoneormorefilestoanotherlocation 把文件拷贝或搬移至另一地方
copiesthecontentsofonefloppydisktoanother 把一个软盘的内容拷贝到另一个软盘上
copydiskette 复制磁盘
copymovecompfindrenamedeletevervieweditattribwordpprintlist C拷贝M移动 O比 F搜索R改名 D删除 V版本 E浏览A属性 W写字 P打印 L列表
copyrightc 版权(c
createdospartitionorlogicaldosdrive 创建DOS分区或逻辑DOS驱动器
createextendeddospartition 创建扩展DOS分区
createlogicaldosdrivesintheextendeddospartition 在扩展DOS分区中创建逻辑DOS驱动器
createprimarydospartition 创建DOS主分区
createsadirectory 创建一个目录
createschangesordeletesthevolumelabelofadisk 创建,改变或删除磁盘的卷标
currentfile 当前文件
currentfixeddiskdrive 当前硬盘驱动器
currentsettings 当前设置
currenttime 当前时间
cursorposition 光标位置
defrag 整理碎片
dele 删去
deletepartitionorlogicaldosdrive 删除分区或逻辑DOS驱动器
deletesadirectoryandallthesubdirectoriesandfilesinit 删除一个目录和所有的子目录及其中的所有文件
deltree 删除树
devicedriver 设备驱动程序
dialogbox 对话栏
directionkeys 方向键
directly 直接地
directorylistargument 目录显示变量
directoryof 目录清单
directorystructure 目录结构
diskaccess 磁盘存取
diskcopy 磁盘拷贝
diskservicescopycomparefindrenameverifyvieweditmaplocateinitialize 磁盘服务功能: C拷贝 O比较 F搜索R改卷名V校验浏览E编缉M图 L找文件 N格式化
diskspace 磁盘空间
displayfile 显示文件
displayoptions 显示选项
displaypartitioninFORMation 显示分区信息
displaysfilesinspecifieddirectoryandallsubdirectories 显示指定目录和所有目录下的文件
displaysfileswithspecifiedattributes 显示指定属性的文件
displaysorchangesfileattributes 显示或改变文件属性
displaysorsetsthedate 显示或设备日期
displayssetupscreensinmonochromeinsteadofcolor 以单色而非彩色显示安装屏信息
displaystheamountofusedandfreememoryinyoursystem 显示系统中已用和未用的内存数量
displaysthefullpathandnameofeveryfileonthedisk 显示磁盘上所有文件的完整路径和名称
displaysthenameoforchangesthecurrentdirectory 显示或改变当前目录
doctor 医生
doesn 不
doesntchangetheattribute 不要改变属性
dosshell DOS 外壳
doubleclick 双击
doyouwanttodisplaythelogicaldriveinFORMationyn 你想显示逻辑驱动器信息吗(y/n)?
driveletter 驱动器名
editmenu 编辑选单
emsmemory ems内存
endoffile 文件尾
endofline 行尾
enterchoice 输入选择
entiredisk 转换磁盘
environmentvariable 环境变量
esc esc
everyfileandsubdirectory 所有的文件和子目录
existingdestinationfile 已存在的目录文件时
expandedmemory 扩充内存
expandtabs 扩充标签
explicitly 明确地
extendedmemory 扩展内存
fastest 最快的
fatfilesystem fat 文件系统
fdiskoptions fdisk选项
fileattributes 文件属性
fileFORMat 文件格式
filefunctions 文件功能
fileselection 文件选择
fileselectionargument 文件选择变元
filesin 文件在
filesinsubdir 子目录中文件
fileslisted 列出文件
filespec 文件说明
filespecification 文件标识
filesselected 选中文件
findfile 文件查寻
fixeddisk 硬盘
fixeddisksetupprogram 硬盘安装程序
fixeserrorsonthedisk 解决磁盘错误
floppydisk 软盘
FORMatdiskette 格式化磁盘
FORMatsadiskforusewithmsdos 格式化用于MS-DOS的磁盘
FORMfeed 进纸
freememory 闲置内存
fullscreen 全屏幕
functionprocedure 函数过程
graphical 图解的
graphicslibrary 图形库
groupdirectoriesfirst 先显示目录组
hangup 挂断
harddisk 硬盘
hardwaredetection 硬件检测
hasbeen 已经
helpfile 帮助文件
helpindex 帮助索引
helpinFORMation 帮助信息
helppath 帮助路径
helpscreen 帮助屏
helptext 帮助说明
helptopics 帮助主题
helpwindow 帮助窗口
hiddenfile 隐含文件
hiddenfileattribute 隐含文件属性
hiddenfiles 隐含文件
howto 操作方式
ignorecase 忽略大小写
inbothconventionalanduppermemory 在常规和上位内存
incorrectdos 不正确的DOS
incorrectdosversion DOS 版本不正确
indicatesabinaryfile 表示是一个二进制文件
indicatesanasciitextfile 表示是一个ascii文本文件
insertmode 插入方式
insteadofusingchkdsktryusingscandisk 请用scandisk,不要用chkdsk
inuse 在使用
invaliddirectory 无效的目录
is 是
kbytes 千字节
keyboardtype 键盘类型
labeldisk 标注磁盘
laptop 膝上
largestexecutableprogram 最大可执行程序
largestmemoryblockavailable 最大内存块可用
lefthanded 左手习惯
leftmargin 左边界
linenumber 行号
linenumbers 行号
linespacing 行间距
listbyfilesinsortedorder 按指定顺序显示文件
listfile 列表文件
listof 清单
locatefile 文件定位
lookat 查看
lookup 查找
macroname 宏名字
makedirectory 创建目录
memoryinfo 内存信息
memorymodel 内存模式
menubar 菜单条
menucommand 菜单命令
menus 菜单
messagewindow 信息窗口
microsoft 微软
microsoftantivirus 微软反病毒软件
microsoftcorporation 微软公司
mini 小的
modemsetup 调制解调器安装
modulename 模块名
monitor mode 监控状态
monochromemonitor 单色监视器
move to 移至
multi 多
newdata 新建数据
newer 更新的
newfile 新文件
newname 新名称
newwindow 新建窗口
norton norton
nostack 栈未定义
noteusedeltreecautiously 注意:小心使用deltree
onlinehelp 联机求助
optionally 可选择地
or 或
pageframe 页面
pagelength 页长
pausesaftereachscreenfulofinFORMation 在显示每屏信息后暂停一下
pctools pc工具
postscript 附言
prefixmeaningnot 前缀意即\"不
prefixtoreverseorder 反向显示的前缀
presetswitchesbyprefixinganyswitchwithhyphenforexamplew 用前缀和放在短横线-后的开关(例如/-w)预置开关
pressakeytoresume 按一键继续
pressanykeyforfilefunctions 敲任意键执行文件功能
pressentertokeepthesamedate 敲回车以保持相同的日期
pressentertokeepthesametime 敲回车以保持相同的时间
pressesctocontinue 敲esc继续
pressesctoexit 敲<esc>键退出
pressesctoexitfdisk 敲esc退出fdisk
pressesctoreturntofdiskoptions 敲esc返回fdisk选项
previously 在以前
printall 全部打印
printdevice 打印设备
printerport 打印机端口
processesfilesinalldirectoriesinthespecifiedpath 在指定的路径下处理所有目录下的文件
programfile 程序文件
programmingenvironment 程序设计环境
promptsyoubeforecreatingeachdestinationfile 在创建每个目标文件时提醒你
promptsyoutopressakeybeforecopying 在拷贝前提示你敲一下键
pulldown 下拉
pulldownmenus 下拉式选单
quickFORMat 快速格式化
quickview 快速查看
readonlyfile 只读文件
readonlyfileattribute 只读文件属性
readonlyfiles 只读文件
readonlymode 只读方式
redial 重拨
repeatlastfind 重复上次查找
reportfile 报表文件
resize 调整大小
respectively 分别地
rightmargin 右边距
rootdirectory 根目录
runsdebugaprogramtestingandeditingtool 运行debug, 它是一个测试和编辑工具
runtimeerror 运行时出错
save all 全部保存
save as 另存为
scandisk 磁盘扫描程序
scandiskcanreliablydetect scandisk可以可靠地发现
screencolors 屏幕色彩
screenoptions 屏幕任选项
screensaver 屏幕暂存器
screensavers 屏幕保护程序
screensize 屏幕大小
scrollbars 翻卷栏
scrolllockoff 滚屏已锁定
searchfor 搜索
sectorspertrack 每道扇区数
selectgroup 选定组
selectionbar 选择栏
setactivepartition 设置活动分区
setupoptions 安装选项
shortcutkeys 快捷键
showclipboard 显示剪贴板
singleside 单面
sizemove 大小/移动
sorthelp S排序H帮助
sortorder 顺序

posted @ 2006-10-07 21:22 xyang 阅读(366) | 评论 (0) | 编辑收藏

2006年9月30日

HashMap与Hashtable的区别

HashTable的应用非常广泛，HashMap是新框架中用来代替HashTable的类，也就是说建议使用HashMap，不要使用HashTable。可能你觉得HashTable很好用，为什么不用呢？这里简单分析他们的区别。
1.HashTable的方法是同步的，HashMap未经同步，所以在多线程场合要手动同步HashMap这个区别就像Vector和ArrayList一样。

2.HashTable不允许null值(key和value都不可以),HashMap允许null值(key和value都可以)。

3.HashTable有一个contains(Object value)，功能和containsValue(Object value)功能一样。

4.HashTable使用Enumeration，HashMap使用Iterator。

以上只是表面的不同，它们的实现也有很大的不同。

5.HashTable中hash数组默认大小是11，增加的方式是 old*2+1。HashMap中hash数组的默认大小是16，而且一定是2的指数。

6.哈希值的使用不同，HashTable直接使用对象的hashCode，代码是这样的：
int hash = key.hashCode();
int index = (hash & 0x7FFFFFFF) % tab.length;
而HashMap重新计算hash值，而且用与代替求模：
int hash = hash(k);
int i = indexFor(hash, table.length);

static int hash(Object x) {
　　int h = x.hashCode();

　　h += ~(h << 9);
　　h ^= (h >>> 14);
　　h += (h << 4);
　　h ^= (h >>> 10);
　　return h;
}
static int indexFor(int h, int length) {
　　return h & (length-1);
}
以上只是一些比较突出的区别，当然他们的实现上还是有很多不同的，比如
HashMap对null的操作

posted @ 2006-09-30 21:44 xyang 阅读(951) | 评论 (0) | 编辑收藏

2006年9月28日

test code

public class hello {
2

public static void main(String a[]) throws java.io.IOException {
3

String tmp = " 中文 " ;
4

printHex(tmp, " Unicode " );
5

printHex(tmp, " GB2312 " );
6

printHex(tmp, " ISO8859-1 " );
7

printHex(tmp, " UTF-8 " );
8

}
9

private static void printHex(String str,String charset) throws java.io.IOException {
11

byte [] buf = str.getBytes(charset);
12

for ( int i = 0 ; i < buf.length; i ++ ) {
13

System.out.print(Integer.toHexString(buf[i]));
14

System.out.print( " " );
15

}
16

System.out.println( " " );
17

}
18

}

posted @ 2006-09-28 13:42 xyang 阅读(242) | 评论 (0) | 编辑收藏

字符编码

[概述]
计算机中的一切都是以数字来表示的，字符同样如此。字符编码就是将字符集编码成为数字序列，以便能让计算机识别。各个地区和国家使用的语言有别，将本地使用的语言符号进行编码就得到本地编码字符集。例如西欧国家使用的本地编码是ISO8859-1，中国大陆和新加坡等地区使用本地编码是GB2312或GBK，中国港台地区使用的本地编码是BIG5，韩国和日本的本地编码分别是euc-kr和Shift_JIS。电脑的操作系统支持各种本地编码字符集，操作系统默认的本地编码和你所安装的操作系统语言版本是一致的。本地集只对本地使用的文字符号进行了编码，并不包括其他地区使用的文字，即使两个本地集中包含了相同的字符，这个字符的编码值也是不同的。例如“中”的GB2312或GBK编码值为“0xD6D0”，而BIG5编码值为“0xA4A4”。
全球信息交流与融合的趋势要求实现对本地字符集的统一，1984年4月ISO成立了工作组，针对各国文字、符号进行统一编码，这种编码成为Unicode。Unicode于1992年6月通过DIS(DrafInternationalStandard)，V2.0版本于1996年发布。Unicode编码包括了符号6811个、汉字20902个、韩文11172个、等等。Unicode虽然实现了全球统一编码，但是在字符集数量和编码效率方面显然存在着不足，而UTF-8、UTF-16就是针对Unicode编码进行转换或扩充形成的编码，UTF是Unicode Translation Format的缩写。

[细节]
关于ASCII编码
ASCII编码是美国标准信息交换码，这种编码方式针对的是英文字符。ASCII编码使用一个字节对字符进行编码，而且字节的最高位都为0，因此ASCII编码的字符集大小是128个。由于英文字母仅有26个，再加上其他一些常用符号，总大小也不会超过128个，因此ASCII编码的空间是足够的。例如，字符“a”被编码为0x61，字符“b”被编码为0x62等等。注意，在有的时候ASCII泛指本地编码，例如文本编辑器UltraEdit中有诸如“ASCII转Unicode”的功能，这里的ASCII就泛指本地编码，如果本地编码是GBK，这个功能执行的就是GBK编码到Unicode编码的转换。

关于ISO8859-1编码
ISO8859-1是西欧语系国家通用的字符集编码，ISO8859-1使用一个字节对字符进行编码，编码值范围是0x00-0xFF。其中，0x00-0x1F用作控制字，0x20-0x7F表示字母、数字和符号这些图形字符，0xA0-0xFF作为附加部分使用。由于ASCII编码只使用了一个字节中的低7位，编码范围仅为0-127，虽然可以容纳英文字符和其他的一些符号，但是却不能包含除英文以外的其他西欧语言的字母，因此ASCII编码在西欧国家并不通用。针对这个问题ISO在ASCII编码的基础上进行了扩充，制定了ISO8859-1编码，ISO8859-1编码使用了一个字节的全部8位，编码范围是0-255，能包含西欧语系的所有字母和符号。

关于GB2312、GBK和BIG5编码
      GB2312码是中华人民共和国国家汉字信息交换使用码，全称《信息交换使用汉字编码字符集－基本集》，由国家标准总局发布，1981年5月1日实施，中国大陆和新加坡等地使用此编码。GB2312收录了简化汉字、符号、字母、日文假名等共计7445个字符，其中汉字占6763个。GB2312将代码表分区94个区(0xA1-0xFE)，对应第一个字节，每个区94个位(0xA1-0xFE)，对应了第二字节，两个字节的值分别为区号的值和位号的值加32(0x20)，因此也被称为区位码。GB2312的编码范7围是0x2121-0x777E，与ASCII有重叠，通常方法是将GB码的两个字节的最高位置1区别。
      GBK是GB2312-80的扩展，向上兼容，包含了20902个汉字，编码范围是0x8140-0xFEFE，剔除高位0x80的字位，其他字符都可以一一映射到Unicode2.0。GB18030-2000(GBK2K)在GBK的基础上增加了藏、蒙等少数民族的字符，GBK2K从根本上解决了字位不够、字形不足的问题。GBK2K首先要求实现能够完全映射到Unicode3.0标准的所有字形，现在还没有任何一个操作系统支持GBK2K。
      BIG5码被称为大五码，是中国港台地区使用的字符编码方式。TW-BIG5码将所有字分为两大群，即常用字区和次常用字区，每个字区分都采用笔画排序，同笔画的字依部首排序。TW-BIG5每个字由两个字节组成，第一个字节编码范围是0xA1-0xF9，第二个字节编码范围是0x40-0x7E和0xA1-0xFE，共计收入13868个字，其中包括5401个常用字、7652个次常用字、7个扩充字、以及808个其他符号。

关于Unicode编码
ISO（国际化标准组织）将全世界所有的符号进行统一编码，称为Unicode编码。Unicode编码的字符占用两个字符的大小，对于ASCII码表示的字符，Unicode只是简单的在ASCII码原来的一个字节码值上增加一个所有位全为0的字节。Unicode使用两个字节编码，因此能表示的字符集最大为65536，另外Unicode中还保留两千多个数值未用于字符编码。由于Unicode编码的空间有限，只能包含各个地区常用的字符而非所有字符，因此，在相当长的一段时间里，本地化字符编码和Unicode编码将共存。

关于UTF-8和UTF-16编码
UTF-8和UTF-16编码仍然属于Unicode编码，它们是在Unicode编码基础上进行了转换或扩展。例如在Windows XP和2000操作系统中，Unicode编码指的就是UTF-16编码。
UTF-8编码是将Unicode编码中不同范围的字符采用不同的字节进行编码，对于ASCII编码的字符仍使用一个字节进行编码，UTF-8编码完全兼容ASCII编码。与Unicode想比较，UTF-8编码使得英文文档的占用空间减小了一半，因此UTF-8颇受英语系国家的青睐。除此之外，UTF-8编码中不会出现值为0x0000的数据，这样避免了和某些程序语言产生冲突，而UTF-8编码的补充位使得数据能够被方便的检测出传输过程中是否发生错误。通常，UTF-8编码都使用“EF BB BF”三个字节数据作为文件开头。

      Unicode编码和UTF-8编码结构的对应关系如下：
        Unicode编码值                         UTF-8编码结构
      \u0001 - \u007E                      0XXXXXXX
      \u0080 - \u07FF 和 \u0000       110XXXXX 10XXXXXX
        \u0800 - \uFFFF                      1110XXXX 10XXXXXX 10XXXXXX

      Unicode编码与UTF-8编码的转换如下(U8代表UTF-8编码，U代表Unicode编码)：
      1) 位于Unicode编码空间 \u0001-\u007F之间的字符（即编码使用位小于8位的字符），UTF-8采用一个字节对这些字符进行编码。直接将Unicode编码的低位取出就得到了UTF-8编码。转换过程可表示为：U8 = (byte)U。
      2) 位于Unicode编码空间\u0080-\u07FF之间的字符以及\u0000表示的字符（即编码使用位为8-11位的字符，以及空字符），UTF-8采用两个字节对这些字符进行编码。这时候，将Unicode编码转换为UTF-8编码的方法是：将Unicode编码的低6位取出，在前面补充“10”作为低字节；将7-11位取出，在前面补充“110”作为高字节。转换过程可表示为：U8 = [(byte)(0xC0 | (0x01F & (U>>6)),(byte)(0x80 | (0x3F & U)]。
      3) 位于Unicode编码空间\u080-\uFFFF之间的字符（即编码使用位为12-16位的字符），UTF-8采用三个字节对这些字符进行编码。这时候，将Unicode编码转换为UTF-8编码的方法是：将Unicode编码的低6位取出，在前面补充“10”作为低字节；将7-12位取出，在前面补充“10”作为中字节；将13-16位取出，在前面补充“1110”作为高字节。转换过程可表示为：U8 = [(byte)(0xE0 | (0x0F & (U>>12))),(byte)(0x80 | (0x03F & (U>>6)),(byte)(0x80 | (0x3F & U)]。

UTF-16编码在Unicode基础上进行了一些细节上的扩充，增加了对Unicode编码没有包括的字符的表示方式。UTF-16对Unicode的扩充并没有影响Unicode编码中的原有字符，容易看出Unicode是UTF-16的子集。Unicode编码将0xD800-0xDFFF区间的数值保留，被称为代理区间，区间共包含2048个数值，其中0xD800-0xD6FF是高半代理区，0xDC00-0xDFFF是低半代理区。UTF-16编码就是在Unicode编码基础上利用代理区扩充字符编码的机制。UTF-16编码从两个区域分别取一个编码，组成一个4字节的代理对来表示一个编码字符，就能够在Unicode基础上扩充了1024*1024个字符。UTF-16足够用来编码全球的所有字符，微软从Windows2000开始支持UTF-16编码。

关于Little-Endian和Big-Endian
在不同体系的计算机系统中，编码的Unicode字符在内存中存储的顺序是不同的。使用Inter生产的CPU的计算机，内存中数据存储通常是低字节在前，高字节在后，这种存储方式被称为Little-Endian。在对于一些计算机，内存中数据存储通常是高字节在前，低字节在后，这种存储方式被称为Big-Endian。
UTF-16编码的文件通常在文件开头用字符标志出使用的存储方式：若文件开头是“0xFF 0xFF”，表示文件其余部分是Little-Endian的 UTF-16编码；若文件开头是“0xFE 0xFF”，表示文件其余部分是Big-Endian的 UTF-16编码。

posted @ 2006-09-28 11:36 xyang 阅读(685) | 评论 (0) | 编辑收藏

字符编码应用的一个奇怪现象

[概述]

在Windows操作系统中使用记事本新建一个文本文件，在文件里面写入“联通”两个字并保存。当再次打开这个文本文件时候，在记事本中看到得却不是刚刚输入的“联通”，而是乱码。网络上有人把这个奇怪现象包装成把戏，如果你曾遇到过这种把戏就会知道，他们往往让你建立两个文本文件进行对比，其中一个输入“联通”，另外一个可能是“移动”等等，最后试图八卦地让你相信联通、移动和微软之间有着种种恩怨情仇。

[解释]

这是一个字符编码应用的奇怪现象，讲的明白点，可以说是记事本开小差了！记事本为什么会犯错误？记事本犯了怎样的错误呢？也许你会迫不及待的想知道这些问题，如果是这样，我不会让你空腹而归的。
在简体中文操作系统中默认的本地字符集编码是GBK编码，除非你在保存记事本文本文件时候选择了其他编码方式，否则用记事本录入的字符信息将使用GBK编码进行储存。巧合的是，“联通”这两个字符的GBK编码具有UTF-8编码的特征，记事本犯下的错误正是将GBK编码存放的记录有“联通”两个字符的文件误认为UTF-8编码的文件。或许你会问，UTF-8编码的文件不是以“EF BB BF”三个特殊字节开头吗？既然这样，记事本怎么会犯这么低级的错误呢？没错，UTF-8编码规定使用UTF-8编码的文件以“EF BB BF”三个特殊字节开头，但并不是强制性要求，早期的UTF-8编码文件就不遵循这个规定。因此记事本不能依靠文件的开头字节判断一个文件是否是UTF-8编码，而只能对文件中的数据进行简单的编码分析来确定。正是这个原因，才有了字符编码应用中的这个奇怪又无法避免的现象。

[细节]

如果上面的解释对于你来说只是杯开胃红酒，那我还是块点把主食呈上吧，一份大峡谷香烤猪肋排。UTF-8编码采用1-3个字节对字符进行编码，编码字节数与字符的Unicode编码值有严格的对应关系，让我们回忆下UTF-8编码和Unicode的对应关系吧。

      Unicode编码值                             UTF-8编码结构
      \u0001 - \u007E                           0XXXXXXX
      \u0080 - \u07FF 和 \u0000           110XXXXX 10XXXXXX
      \u0800 - \uFFFF                            1110XXXX 10XXXXXX 10XXXXXX

“联通”这两个字符的GBK编码值是“C1 AA CD A8"，GBK编码方式使用两个字节对一个字符进行编码，因此以GBK编码方式存放的录有“联通”两个字符的文件的大小为四个字节。接下来分别观察“联通”这两个字符GBK编码值的二进制形式，你有发现有趣的事。

联 GBK 十六进制：C1 AA 二进制：1100 0001,1010 1010
通 GBK 十六进制：C1 AA 二进制：1100 1101,1010 1000

      请注意上面二进制数据的着色部分，你想到了什么？对，它们和UTF-8编码结构中的补充位完全一致，UTF-8编码的补充位使得编码值更有规律，而记事本刚好凭借这个特征区分UTF-8编码的文件。存有“联通”两个字符的文件的所有数据都符合这个特征，就是这样，记事本彻底的将文件误认为UTF-8编码的文件。
      将错就错，让我们来看看这个错误是怎样收场的。如果把“联通”的GBK编码值当作UTF-8编码值，那文件就成为一个写有数据“C1 AA CD A8”并以UTF-8编码的文件，当使用记事本再次打开的时候会看到什么呢？只要将UTF-8编码转换成Unicode编码就知道了。UTF-8编码“C1 AA CD A8”转换成Unicode编码后，编码值为“6A 00 68 03”（转换方法请参考本Blog中的《字符编码》一文）。0x006A这个Unicode编码值位于\u0001 - \u007E之间，若要转换为UTF-8编码，显然只能用一个字节进行编码，因此“联”的GBK编码“C1 AA”虽然特征上貌似UTF-8编码，但它却不对应任何一个UTF-8编码。接着看0x0368这个Unicode编码值，这个值对应了字符“ͨ”，这也正是我们将在记事本中看到的内容。或许你会说我看到的是一个黑色矩形啊，这只是字体的原因，你将字体改为宋体或者其他字体，看到的就是字符“ͨ”。
      对于中文字符，UTF-8编码要用三个字节进行编码，因此，如果你使用记事本录入“联通”，然后选择以UTF-8编码方式保存的话，文件大小应为9个字节（包含三个字节的开头数据），而同样的文件GBK编码却是4个字节。最后附上“联通”的GBK、UTF-8、Unicode编码值，以及记事本的错误思维。

联通 GBK C1 AA CD A8 UTF-8 E8 81 94 E9 80 9A Unicode 54 80 1A 90
联通 GBK C1 AA CD A8 UTF-8 C1 AA CD A8 Unicode 6A 00 68 03 （将GBK值误认为UTF-8值的结果）

posted @ 2006-09-28 11:36 xyang 阅读(324) | 评论 (0) | 编辑收藏

字符编码在编程中的问题

[概述]

在编程中字符编码绝对是个值得重视的问题，当读取一个文件或是得到一个输入流，你需要分析数据的编码方式、形态，以便能正确的处理、显示数据所表示的字符。

[细节]
1) 在简体中文操作系统中，从键盘输入的原始字符采用的是GBK编码方式，对应到其他操作系统，采用的应是系统默认的本地字符集。而在程序设计语言中，字符和字符串则通常是使用Unicode编码方式，这一点可以用下列代码说明（使用Java语言描述）。

      int ch = System.in.read(); //从键盘输入中读取一个字节的数据
      如果输入“中国”两个字符，使用上面的代码将所有的数据读取，将得到“D6 D0 B9 FA”，这写数据正是“中国”两个字符的GBK编码值。
      String tmp = "中国"; //定义字符串并赋值
      for(int i=0;i<tmp.length();i++)
      {
      //将字符串中的每个字符编码值以十六进制形式显示
         System.out.println(Integer.toHexString(ch));
      }

上面代码最后显示的内容是“4E2D 56FD”，而这正是“中国”两个字符的Unicode编码值。

2) 不仅是输入的原始字符采用GBK编码，屏幕输出的最终数据也要采用GBK编码，下面的代码能说明问题。

String tmp = "中国"; //定义字符串并赋值
System.out.println(tmp); //将字符串tmp输出到显示屏

代码运行后，在显示屏上显然能看到“中国”两个字符，而字符串tmp分明是采用Unicode进行编码的，是不是刚才提出的命题站不住脚呢？其实，在调用println()方法后，该方法自动的将字符串tmp的编码方式从Unicode转换成了本地编码GBK，这样才能在屏幕上正常的显示中文。如果你仍然怀疑，请继续往下看。

      byte [] buf1 = tmp.getBytes("Unicode"); //将字符串tmp以Unicode编码方式储存在字节数组中
      byte [] buf2 = tmp.getBytes("GB2312"); //将字符串tmp以UGBK编码方式储存在字节数组中
      //在屏幕输出流中直接写字节数组
      System.out.write(buf1);
      System.out.write(buf2);

这样的作法将会得到什么结果呢？结果也许会令你感到惊讶，buf1的数据输出后显示为乱码，而buf2的数据输出后赫然显示为“中国”两个字符。可以把命题说得明确点：如果要在屏幕上输出汉字，那么字符的最终编码方式必须是GBK编码方式。对于数字和英文字母，以及ASCII编码集中包含的符号，字符的最终编码方式可以是ASCII，这种情况下如果使用Unicode编码，那么显示的结果会是这样“1 2 3 a b c ”，本来想显示的内容是“123abc”。显示结果字符间多了个貌似空格的字符，这是因为ASCII编码使用一个字节，Unicode编码使用两个字节，在ASCII编码转换为Unicode时候，只是单纯地在编码值前面补充一个全为0的字节，这个字节在最终显示的时候被看做是空字符NUL。

3) 在涉及网页、网络流和关系数据库方面编程的时候，字符编码总喜欢戏弄编程人员，不花心思去驯服它的结果将是得到一堆乱码。例如在读取数据数据时候，数据库中的内容是中文字符，如果数据库没有考虑到中文支持问题就很容易得到乱码。再例如程序运行的平台默认编码并非GBK，在获取GBK编码的字符数据时候，程序会将数据看作默认编码，这样也容易产生乱码。在上述情况中编写程序的时候，就应该耐心的分析数据的编码方式，合理的编写代码防止乱码。

[例子]
记得在《Java手机程序设计入门与应用》（王森编著）一书的第13章－MIDP网络程序设计中有一段使用HTTP进行网络连接的实例代码，部分代码如下所示。

      String url = " http://127.0.0.1/test.html ";
      HttpConnection hc = (HttpConnection)Connector.open(url);
      DataInputStream dis = new DataInputStream(hc.openInputStream());
      String content = "";
      int ic;
      while((ic = dis.read()) != -1)
      {
          content += (char)ic;
      }
      Form f = new Form("HTTP Test");
      f.append(content);
      Display.getDisplay(this).setCurrent(f);

这段代码让手机通过HTTP协议与网络中的主机进行通信，然后获得网络主机上的文件test.html并将文件内容读取到字符串变量中,最后显示到程序窗体中。如果程序这般执行的话，你会发现MIDlet显示出来中文都是乱码。作者称“之所以会有这种结果，原因在于我们的仿真器支持Unicode的缘故。”，作者的意思似乎是MIDlet将本地编码的字符数据误认为了Unicode编码的数据，因此不能正常显示，然后推荐了一种解决方法：使用ASCII形态的Unicode。
所谓ASCII形态的Unicode指的是使用ASCII编码的字符来表示Unicode编码值，反过来说就是将Unicode的编码值看做字符，再用ASCII对这些字符进行编码存放。比如“中国”这两个字符的ASCII形态的Unicode编码字符为“\u4e2d\u56fd”，0x4E2D 0x56FD 分别为“中”和“国”的Unicode编码值，将编码值作为字符，然后在前面添加“\u”标识符，以便进行还原。再对这些字符进行ASCII编码就得到了ASCII形态的Unicode编码值，最终的值为“5C 75 34 65 32 64 5C 75 35 36 66 64”，一共12个字节的数据，分别对应了“\u4e2d\u56fd”中的一个字符。使用jdk*\bin文件夹下的native2ascii.exe程序可以很方便的将一个文件转换为ASCII形态的Unicode编码。将文件test.html转换形态后，MIDlet中需要再次将ASCII形态的Unicode转换为Unicode编码，这个转换方法需要自己写，最后MIDlet中显示出来的就是正常的中文字符。

在我看来，那本书的作者没有把握住问题的真正原因，也或许是我们使用的模拟器和平台不同。如果把握住真正的原因，问题的解决方法就变得很简单了。前面说过，要在屏幕上显示出中文，字符的最终编码形式必须是GBK，在中国大陆发现的手机都能显示中文，也就说明手机中都支持GBK编码。那为什么会出现中文字符乱码的问题呢？我的理由是手机中采用的默认编码是ISO8859-1，对于从网络中读入的字符数据，在没有指明的情况下，MIDlet一律将它们看作是ISO8859-1编码的数据。而test.html的编码方式是GBK，MIDlet犯了个错误，它将GBK编码的数据误认为了ISO8859-1编码的数据，然后在显示的时候又进行了一次ISO8859-1到GBK的编码转换，这样的结果是数据遭到了破坏，显示出来的中文也就变成了乱码。
把握住了原因，解决起来就十分方便了。既然MIDlet将GBK编码的数据误认为ISO8859-1编码的数据，那么我们只要在程序中指明数据的编码方式就可以了，而不用使用“ASCII形态的Unicode”这样的舍本求末的方法。下面是解决MIDlet网络连接中文乱码问题的代码，这些代码将证明我的观点。

      http://127.0.0.1/test.html;
      HttpConnection hc = (HttpConnection)Connector.open(url);
      byte [] buf = new byte[1024];
      int len = hc.openInputStream().read(buf); //读取网络数据
      String content = new String(buf,0,len,"GB2312"); //指定数据为GBK编码
      Form f = new Form("HTTP Test");
      f.append(content);
      display.setCurrent(f);

      上述代码中关键的一句是：
      String content = new String(buf,0,len,"GB2312");
      这句代码告诉MIDlet从网络中读取的数据使用的是GBK编码方式，然后MIDlet便能争取处理和显示这些数据。
      如果将这句代码改写为：
      String content = new String(buf,0,len);
      或者是：
      String content = new String(buf,0,len,"ISO8859-1");
      都将出现同样的中文乱码现象，由此断定错误的原因是手机默认编码使用ISO8859-1，MIDlet将从网络中读取的GBK编码的数据误认成了ISO8859-1编码的数据。

posted @ 2006-09-28 11:35 xyang 阅读(702) | 评论 (0) | 编辑收藏

仅列出标题下一页

正则表达式

Open Source Portal Servers Written in Java

Java1.5语言新特性

使用xmlhttp和Java session监听改善站内消息系统( 转)

计算机常用英语

HashMap与Hashtable的区别

test code

字符编码

字符编码应用的一个奇怪现象

字符编码在编程中的问题

日历

常用链接

留言簿(1)

随笔档案

常用资料

搜索

最新评论

阅读排行榜

评论排行榜