BlogJava-笨笨的思想片断-随笔分类-Java

一个通用的文件配置框架

笨笨 — Sun, 10 Feb 2008 07:44:00 GMT

一个通用的文件配置框架

配置需求说明

在工作中,项目需要实现多种程序配置方式,每种程序配置均有各自的文件复制,变量替换(替换文本文件中的变量占位符),修改脚本文件的需求. 为减少重复代码,简化配置实现,我们实现了此配置框架.需求片断示例:

复制文件到某处
创建/append 某个 properties/txt 文本文件
修改脚本文件,插入一段文本到脚本文件某处
通过JMX/JNDI连接到远程应用服务器, 用Java code修改应用服务器的配置.

需求分析

从上述需求来看,第一印象就是用ANT或类ANT XML文件就可以很好的满足上述需求, 但是还需要做下面增强才会好用:

配置过程需要有类似于事务的机制,以保证多处改动的一致性.
各种配置过程之间有许多相同之处,为减少重复,可以考虑引入公共配置片断文件.
由于配置过程相对固定, ANT BUILD XML文件的多个target以及依赖关系检查就不需要了,但是需要更加灵活的条件判断机制来控制单个配置动作和变量赋值.

实现简介

根据上述分析,项目最终的XML配置文件格式如下:

ResourceBundle Message Class

            class="CustomizedActionClass"
            index="1"
        />

            file="${Source File Variable}"
            dest="${Dest file Variable}"
            index="60"
            reason="Error Reason Key"
            />

            file="${File to Write}"
            index="20"
            reason="Error Reason Key"
        > ]]>

            file="${File to be expanded}"
            index="30"
        />

Action.performAction(): 实现正常配置动作,如果失败则返回错误码.
Action.performCompensation(): 实现回滚动作,负责将配置对象(如文件内容)回滚到修改前的状态.
Action.performComplete(): 实现正常配置完成动作, 负责释放配置过程占用的临时资源.

配置框架依次对每个要执行的动作调用performAction动作,如果当前Action返回失败错误码,则对已经成功执行的Action反向依次调用 performCompensation动作,执行回滚操作,从而保证配置过程的一致性; 如果全部成功,则依次调用performComplete操作,释放占用的临时资源,如下图:

为解决问题2,我们为每个action指定了一个index,用它规定执行顺序,配置框架从公共配置文件和私有配置文件中合并并排序所有的配置 action, 通过预先分配common action和private action的index范围, 每个单独的配置过程可以完全抽出重复配置动作.

为解决问题3, 每个action,每个变量定义(property 标记) 都可以有自己的condition 定义. 如此一来,配置文件的写法更类似于程序的执行过程,从开发角度也更加自然.

其它特性:脚本文件自动分析和插入配置行

应用服务器的启动脚本是用户可定制的,我们无法预见文件格式. 为解决这个问题,我们采用了如下方式:

对脚本进行语法分析,找出脚本的Java启动行(或Windows Service设置行),进而找出可用的shell变量和插入位置. 期望这种方式能够解决大多数用户自定义脚本.
对于复杂或分析条件不充分的脚本(如变量位于别的文件), 用户需要在合适位置插入一行有指定格式和参数的注释行(称之为anchor),配置框架会自动在该行后插入配置代码. 这种方式的主要的问题是用户理解困难,项目组支持的工作量大;不过这也是没有办法的办法了.

总结

本文介绍了一种多文件操作配置框架的思路,并具体解释类事务的配置动作实现过程, 该配置框架在项目实践中达到了预期目的,收到不错的效果.

笨笨 2008-02-10 15:44 发表评论

中文全文检索的实现以及一些经验(Java)

笨笨 — Mon, 30 Jul 2007 09:55:00 GMT

中文全文检索的实现以及一些经验(Java)

最近在项目中面临中文全文检索的需求，关键需求如下：

1 支持中文、英文字词的全文检索，待检索文本是古文言文。
2 全文检索表达式支持： AND,OR,NOT,NEAR,BEFORE 运算符，支持()。
3 速度要求：400M文本，要求在2-5秒内能够检索完毕。

尝试Lucene以及放弃原因：

在尝试Lucene和不同的中文Analyzer后，终告放弃。
原因如下：
由于待检索文本是古文，中文分词技术无法派上用场。在将分隔存储每个汉字后，发现从Lucene中检索到的文本远远少于关键字实际匹配的文本，这一问题对于较长的检索关键字尤其明显。
因为对于检索准确程度要求很高，故此放弃，但是Lucene出的这个问题的原因尚不清楚，希望能够有人提出解答。

自行实现中文全文检索原理以及方法：

1 构建过程，忽略标点符号，自行计算每个汉字在每个文本文件中的偏移量，并保存。
2 检索过程，定位每个汉字的偏移量，如果检索表达式中每个汉字的预期偏移量与实际偏移量吻合，则匹配成功。
3 采用 MappedByteBuffer 加快检索速度，采用二分查找加快偏移量匹配速度，3个左右的关键字复合检索能够在1秒内完成匹配（要求操作系统有足够大的缓存）。

目前实现的一些局限和优势：

0 中文检索速度足够，准确度比Lucene高（如果有高手能够解决这个问题，我会很高兴的废弃掉这些类的）
1 合适于中文，不适用英文文本
2 全文检索索引文件与原始文本文件的大小大约为2:3-3:4之间，300M大小，比Lucene大约多30M。
3 索引文件的构建时间长，400M大约需要3小时，同时由于如果任何文本文件更新，都需要重新构建索引文件，
因此不合适要经常变化的文本索引。

全文检索代码示例(TestFullTextQuery.java)：
File storeDir = new File("C:\\temp\\fulltext\\index");
StoreSearcher searcher = new StoreSearcher(storeDir);
String str = "大?藏 & 阿难"; //同时出现 "大?藏" 和 "阿难"， ?代表任意字符
searcher.queryBegin(str, true);
while(true){
    StoreSearcherResult ssr = searcher.getNextQueryResult();
    if ( ssr == null ){
        break;
    }
    System.out.println("ID "+ssr.docId+":"+ssr.matchedCount);
}
searcher.queryEnd();
searcher.close();

运行结果
ID T01n0001.TXT:320
ID T01n0002.TXT:3
ID T01n0004.TXT:2
ID T01n0005.TXT:202
ID T01n0006.TXT:131
....

附：全文检索表达式举例

关键字中间可以出现?，表明匹配任意字符。

运算符名称：运算符字符
AND:&
OR:,
BEFORE:*
NEAR:+
NOT:-

表达式举例：
(KEY1 KEY2) & (NOT KEY3)
KEY1 KEY2 (关键字之间无运算符假设为AND)

附：全文检索文件格式信息

DocInfoStore(文档信息)
--HEAD--
DocCount:Integer                    文档数目
--DOC HEAD(PER DOC)--
DocSeq:    Integer                        文档顺序号，内部使用
DocId:     Char[128]                    文档唯一ID，字符串格式
DocSepOfs: Integer                文档分隔符数组的Ofs
--DOC SEP OFS(PER DOC)--
DocOfs:    ArrayOfInteger        文档分隔数组

WordInfoStore(每个汉字信息)
--HEAD--
WordCount:Integer                    汉字数
--WORD IDX(Per Word)--
WordChar:Integer                    汉字的Unicode值
WordInfoOfs:Integer                汉字信息在文件中的偏移量
WordInfoSize:Integer            汉字信息大小
--WORD INFO(Per Word)--
DocCount:                                    汉字出现的文档数
DocSeq(Per Doc):                每个文档的顺序号
WordInDocs:ArrayOfInteger 每个文档中出现的汉字的偏移数组，从小到大排列

源文件及CLASS下载地址：
http://www.blogjava.net/Files/zhugf000/foreader2_ftsearch.zip

笨笨 2007-07-30 17:55 发表评论

JVM 内存结构的一张小图

笨笨 — Mon, 06 Feb 2006 06:21:00 GMT

笨笨 2006-02-06 14:21 发表评论

正则表达式说明

笨笨 — Mon, 12 Dec 2005 01:16:00 GMT

Java 正则表达式的翻译文档，附带有中文部分扩展说明，源代码在这里

正则表达式说明

匹配模式

匹配模式指得是正则表达式引擎将以何种模式匹配字符串。

模式名称	启用，禁用	缺省启用	说明
UNIX_LINES	(?d)启用，(?-d)禁用	是	启用Unix行模式。在此模式下，只有 `'\n'`被认为是行结束符。它会影响`.`, `^`, 和 `$` 的行为。
CASE_INSENSITIVE	(?i)启用，(?-i)禁用	否	启用忽略大小写模式。缺省时，忽略大小写模式只会影响 ASCII字符的匹配。而Unicode范围的忽略大小写匹配需要通过 UNICODE_CASE 标志与本标志联合使用。启用此模式会影响匹配性能。
COMMENTS	(?x)启用，(?-x)禁用	否	允许空格和注释出现在正则表达式中。在此模式下，空格被忽略，以#开始的单行注释被忽略。
MULTILINE	(?m)启用，(?-m)禁用	是	启用多行模式。 In multiline mode the expressions `^` and `$` match just after or just before, respectively, a line terminator or the end of the input sequence. By default these expressions only match at the beginning and the end of the entire input sequence.
DOTALL	(?s)启用，(?-s)禁用	否	让.可以匹配行结束符。在此模式下，元字符`.`可以匹配行结束符。缺省不允许如此匹配。
UNICODE_CASE	(?u)启用，(?-u)禁用	否	Enables Unicode-aware case folding. When this flag is specified then case-insensitive matching, when enabled by the `CASE_INSENSITIVE` flag, is done in a manner consistent with the Unicode Standard. By default, case-insensitive matching assumes that only characters in the US-ASCII charset are being matched. 启用此模式会影响性能。
CANON_EQ	(?c)启用，(?-c)禁用	否	Enables canonical equivalence. When this flag is specified then two characters will be considered to match if, and only if, their full canonical decompositions match. The expression `"a\u030A"`, for example, will match the string `"?"` when this flag is specified. By default, matching does not take canonical equivalence into account. 启用此模式会影响性能。

字符子集

字符子集可以含有别的字符子集，并且可以通过联合操作符（缺省）和交集操作符（&&）实现组合。联合操作符表示某个子集匹配它的子子集所匹配的任意字符。交集操作符表明某个字符子集只匹配它的子子集都匹配的字符。
字符子集所能够有的操作符的优先级如下，从高到低：

转义符\x
成组符 [...]
区间符 a-z
联合符 [a-e][i-u]
交集符 [a-z&&[aeiou]]

注意：在字符子集[]内部的语法根本不同于正则表达式其它部分中的语法。例如，在字符子集内部，正则表达式 . 失去了它原有的含义，而是成了一个匹配.的元字符。

行结束符

行结束符是一个或两个字符序列，用以表明输入字符序列中一行的结束。下面的字符被认为是行结束符：

一个换行符('\n')。
一个回车符加上一个换行符("\r\n")。
一个单独的回车符('\r')。
代表下一行的字符('\u0085')。
行分隔符('\u2028')，Unicode中被定义。
一个分段符('\u2029)，Unicode中被定义。

如果 UNIX_LINES 模式被启用，则只有换行符被认为是行结束符。
如果 MULTILINE 模式被启用，。

分组和引用

字符分组以它们的左括号的出现顺序来排序。例如在表达式((A)(B(C)))，有四个分组：

((A)(B(C)))
(A)
(B(C))
(C)

第0组永远表示表达式本身。
分组采用这样的命名方式，是因为，在一次匹配过程中，正则表达式会被匹配多次。以前的匹配子序列有可能在将来被使用；或者在匹配结束时，程序有可能需要重新获得所有匹配的子字符序列。
对于正则表达式中的某个分组而言，永远只保留最后匹配的字符序列。如果对某个分组匹配尝试失败，则会保留上次匹配成功的字符序列。例如，对于正则表达式(a(b)?)+而言，字符序列"aba"，将会让分组2匹配的字符序列为"b"。
以(?开始的分组，将不会计入分组数目，也不会被后续匹配所引用。

Unicode支持

本正则表达式匹配引擎的实现遵循了《Unicode技术报告：Unicode正则表达式指南》，实现了该指南的第二层所需的功能，但是在细微处有一些简单语法修改。
Unicode块(Block)和分类(Category)通过\p和\P通配苻表示。\p{prop}匹配含有prop的输入序列，而\P{prop}匹配不含有prop的输入序列。Unicode块通过前缀In表示，如\p{InMongolian}。Unicode分类通过可选的前缀Is表示，因此\p{L}和\p{IsL}都代表Unicode分类 letters。Unicode块和分类都可以在正则表达式子集外部和内部使用。
目前支持的Unicode块和分类是《Unicode标准，第三版》中所指定的块和分类。 Unicode块名称在《Unicode 字符数据库》的第14章被定义，文件名称叫Blocks-3.txt，但是名称中的空格被去掉了。例如"Basic Latin"成了"BasicLatin"。无论是标准化的还是非标准化的分类，都在该标准的第88页的第4-5表中被全部定义。

与Perl 5正则表达式语法对比

[TBD]

正则表达式参考

字符

正则表达式字符串	匹配的字符串
X	字符X，包括 CJK ExtB 区汉字
\\	反斜杠\
\0n	八进制0n代表的字符(0<=n<=7)
\0nn	八进制0nn代表的字符(0<=n<=7)
\0mnn	八进制0mnn代表的字符(0<=m<=3,0<=n<=7)
\xhh	十六进制 0xhh所代表的字符
\uhhhh	十六进制 0xhhhh所代表的字符。注意，目前尚不支持CJK ExtB区汉字。
\t	制表符('\u0009')
\n	换行('\u000A')
\r	回车('\u000D')
\a	响铃符('\u0007')
\e	取消符Escape('\001B')
\cx	x所代表的控制字符

逻辑操作符

正则表达式字符串	匹配的字符串
XY	X后面跟随Y
X\|Y	X或者Y
(X)	X作为分组表达式

向后引用

正则表达式字符串	匹配的字符串
\n	第n个匹配的分组

边界元字符

边界字符	匹配的字符串
^	行首
$	行末
\b	字符边界
\B	非字符边界
\A	输入流的开始
\G	上次匹配的结束处
\Z	输入流的结束，或者是最后一个行结束符，参见行结束符。
\z	输入流的结束

重复指示符

正则表达式字符串	匹配的字符串
X?	X重复一次，或者不重复
X*	X重复0次或多次
X+	X重复1次或多次
X{n}	X重复n次，不多也不少。
X{n,}	X至少重复n次
X{n,m}	X至少重复n次，至多重复m次。

注：X{n,m}、?、*、+方式可以联合使用。

字符子集

正则表达式字符串子集	匹配的字符串	组合方式
[abc]	字符a,b或c，包括 CJK ExtB 区汉字	简单子集
[^abc]	任意非a,b或c的字符。	排除
[a-zA-Z]	从a到z，或者A到Z，包含a,z,A,Z。	区间
[a-d[m-p]]	从a到d，或者m到p，等于[a-dm-p]。	联合
[a-z&&[def]]	d,e或者f。	交集
[a-z&&[^bc]]	从a到z，除了b和c，等于[ad-z]	扣除
[a-z&&[^m-p]]	从a到z，并且不包括从m到p，等于[a-lq-z]	扣除

预定义子集（元字符）

边界字符	匹配的字符串
.	任意字符，可能匹配行结束符。
\d	数字[0-9]
\D	非数字[^0-9]
\s	空白符[ \t\n\x0B\f\r]
\S	非空白符[^\s]
\w	单词符，包含有字母和数字[a-zA-Z_0-9]
\W	非单词符，不包含有字母和数字。

扩展子集（元字符）

正则表达式字符串	匹配的字符串

扩展中文子集（元字符）

名称	块名称（\p{InXXX}）	简化通配符	标准Unicode块，或者汉字列表
任意双字节字符（汉字或全角符号）	\p{InQuqnJiao}	\E	任意由GBK表示的汉字，不包括GB18030扩展部分，以及CJK ExtB区的汉字。
任意单字节字符	\p{InFQuanJiao}	\~E	任意单字节字符。
任意全角ASCII字符	\p{InQJAscii}	\H	标准HalfwidthandFullwidthForms块
任意收录在BIG5码集中的双字节字符	\p{InBig5}	\I	Big5可编码双字节字符
匹配未收录在BIG5码集中的双字节字符	\p{InFBig5}	\~I	非Big5可编码双字节字符
匹配任意汉字(不包括符号)	\p{InHanziOrCJKExtB}	\X	任意汉字，包括GB18030扩展部分。
匹配任意汉字(不包括符号)	\p{InHanzi}	\M	任意汉字，不包括GB18030扩展部分。
匹配非汉字的双字节字符	\p{InFHanzi}	\~M	任意非汉字的双字节字符，包括GB18030扩展部分。
地支字符	\p{InDiZhi}	\U	子丑寅卯辰巳午未申酉戌亥
匹配收录在GB码集中的双字节字符	\p{InGB}	\g	收录在GB码集中的双字节字符，不包括GB18030扩展部分。
匹配非收录在GB码集中的双字节字符	\p{InFGB}	\~g	未收录在GB码集中的双字节字符，不包括GB18030扩展部分。
匹配收录在GBK码集中的双字节字符	\p{InGBK}	\h	收录在GBK码集中的双字节字符，不包括GB18030扩展部分。
匹配非收录在GBK码集中的双字节字符	\p{InFGBK}	\~h	未收录在GBK码集中的双字节字符，不包括GB18030扩展部分。
大写希腊字母	\p{InDaXila}	\K	ΑΒΓΔΕΖΗΘΙΚΛΜΝ ΞΟΠΡΣΤΥΦΧΨΩ
日文片假名	\p{InPianJia}	\j	标准Katakana块
日文平假名	\p{InPingJia}	\J	标准Hiragana块
小写希腊字母	\p{InXiaoXila}	\k	αβγδεζηθικλμν ξοπρστυφχψω
数学符号	\p{InMathe}	\m	±×÷∶∧∨∑∏∪∩∈∷√⊥∥∠⌒⊙ ∫∮≡≌≈∽∝≠≮≯≤≥∞∵∴
中文数字	\p{InCnDigit}	\i	〇一二三四五六七八九十百千万亿兆吉京
大写中文数字	\p{InDaCnDigit}	\N	零壹贰叁肆伍陆柒捌玖拾佰仟萬亿兆吉京
全角标点符号	\p{InQJBiaoDian}	\o	、。·ˉˇ¨〃々—～‖…‘’“”〔〕〈〉《》「」『』〖〗【】！＂＇（），－．：；＜＝＞？［］｛｜｝｀﹉﹊﹋﹌﹍﹎﹏﹐﹑﹒﹔﹕﹖﹗﹙﹚ ﹛﹜﹝﹞︵︶︹︺︿﹀︽︾﹁﹂﹃﹄︻︼︷︸︱︳︴
小写俄文字母	\p{InXiaoEWen}	\l	абвгдеёжзийклмн опрстуфхцчшщъыьэюя
大写俄文字母	\p{InDaEWen}	\R	АБВГДЕЁЖЗИЙКЛМНО ПРСТУФХЦЧШЩЪЫЬЭЮЯ
中文序号	\p{InCnSN}	\q	ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅪⅫ ⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹ 再加上Unicode标准EnclosedAlphanumerics块
天干字符	\p{InTianGan}	\T	甲乙丙丁戊己庚辛壬癸
竖排标点符号	\p{InSPBiaoDian}	\V	︵︶︹︺︿﹀︽︾﹁﹂﹃﹄︻︼︷︸︱︳︴
拼音字符	\p{InPinyin}	\y	āáǎàēéěèīíǐìōóǒòūúǔùǖǘǚǜüêɑńňɡ GBK -> 0xA8A1- 0xA8C0 只是Unicode标准LatinExtended-A块的一部分。
注音字符	\p{InZhuyin}	\Y	标准Bopomofo块
制表字符	\p{InZhiBiao}	\C	标准BoxDrawing块。经检查发现 textpro 的算法含有部分非标准Unicode制表符：“∟∣≒≦≧⊿═”。

POSIX字符子集（只适用于ASCII）

正则表达式字符串	匹配的字符串
\p{Lower}	小写字母[a-z]
\p{Upper}	大写字母[A-Z]
\p{ASCII}	所有的ASCII字符[\x00-\x7F]
\p{Alpha}	大小写字母[\p{Lower}\p{Upper}]
\p{Digit}	数字[0-9]
\p{Alnum}	字母数字符，包含大小写字母和数字[\p{Alpha}\p{Digit}]
\p{Punct}	标点符号，!"#$%&'()*+,-./:;<=>?@[\]^_`{\|}~之一。
\p{Graph}	可显示字符[\p{Alnum}\p{Punct}]
\p{Print}	可打印字符[\p{Graph}]
\p{Blank}	空格或者制表符[ \t]
\p{Cntrl}	控制字符[\x00-\x1F\x7F
\p{XDigit}	十六进制数字[0-9a-fA-F]
\p{Space}	空白符[ \t\n\x0B\f\r]

Unicode块和分类

块	中文名称（摘自Word XP）	代码区域
BasicLatin	基本拉丁语	\u0000-\u007F
Latin-1Supplement	拉丁语-1	\u0080-\u00FF
LatinExtended-A	拉丁语扩充-A	\u0100-\u017F
LatinExtended-Bound	拉丁语扩充-B	\u0180-\u024F
IPAExtensions	国际音标扩充	\u0250-\u02AF
SpacingModifierLetters	进格的修饰字符	\u02B0-\u02FF
CombiningDiacriticalMarks	组合用发音符	\u0300-\u036F
Greek	基本希腊语	\u0370-\u03FF
Cyrillic	西里尔语	\u0400-\u04FF
Armenian		\u0530-\u058F
Hebrew		\u0590-\u05FF
Arabic		\u0600-\u06FF
Syriac		\u0700-\u074F
Thaana		\u0780-\u07BF
Devanagari		\u0900-\u097F
Bengali		\u0980-\u09FF
Gurmukhi		\u0A00-\u0A7F
Gujarati		\u0A80-\u0AFF
Oriya		\u0B00-\u0B7F
Tamil		\u0B80-\u0BFF
Telugu		\u0C00-\u0C7F
Kannada		\u0C80-\u0CFF
Malayalam		\u0D00-\u0D7F
Sinhala		\u0D800-\uDFF
Thai		\u0E00-\u0E7F
Lao		\u0E80-\u0EFF
Tibetan	藏语	\u0F00-\u0FFF
Myanmar		\u1000-\u109F
Georgian		\u10A0-\u10FF
HangulJamo		\u1100-\u11FF
Ethiopic		\u1200-\u137F
Cherokee		\u13A0-\u13FF
UnifiedCanadianAboriginalSyllabics		\u1400-\u167F
Ogham		\u1680-\u169F
Runic		\u16A0-\u16FF
Khmer		\u1780-\u17FF
Mongolian	蒙古语	\u1800-\u18AF
LatinExtendedAdditional		\u1E00-\u1EFF
GreekExtended		\u1F00-\u1FFF
GeneralPunctuation	广义标点	\u2000-\u206F
SuperscriptsandSubscripts		\u2070-\u209F
CurrencySymbols	货币符号	\u20A0-\u20CF
CombiningMarksforSymbols		\u20D0-\u20FF
LetterlikeSymbols	类似字母的符号	\u2100-\u214F
NumberForms	数字形式	\u2150-\u218F
Arrows	箭头	\u2190-\u21FF
MathematicalOperators	数学运算符	\u2200-\u22FF
MiscellaneousTechnical	零杂技术用符号	\u2300-\u23FF
ControlPictures		\u2400-\u243F
OpticalCharacterRecognition		\u2440-\u245F
EnclosedAlphanumerics	带括号的字母数字	\u2460-\u24FF
BoxDrawing	制表符	\u2500-\u257F
BlockElements	方块图形	\u2580-\u259F
GeometricShapes	几何图形	\u25A0-\u25FF
MiscellaneousSymbols	零杂丁贝符（示意符等）	\u2600-\u26FF
Dingbats		\u2700-\u27BF
BraillePatterns		\u2800-\u28FF
CJKRadicalsSupplement		\u2E80-\u2EFF
KangxiRadicals		\u2F00-\u2FDF
IdeographicDescriptionCharacters		\u2FF0-\u2FFF
CJKSymbolsandPunctuation	CJK符号和标点	\u3000-\u303F
Hiragana	平假名	\u3040-\u309F
Katakana	片假名	\u30A0-\u30FF
Bopomofo	注音	\u3100-\u312F
HangulCompatibilityJamo		\u3130-\u318F
Kanbun		\u3190-\u319F
BopomofoExtended	扩展注音	\u31A0-\u31BF
EnclosedCJKLettersandMonths	带括号的CJK字母及月份	\u3200-\u32FF
CJKCompatibility	CJK兼容字符	\u3300-\u33FF
CJKUnifiedIdeographsExtensionA	CJK统一汉字扩展-A	\u3400-\u4dBF
CJKUnifiedIdeographs	CJK统一汉字	\u4E00-\u9fAF
YiSyllables		\uA000-\uA48F
YiRadicals		\uA490-\uA4CF
HangulSyllables		\uAC00-\uD7A3
HighSurrogates		\uD800-\uDB7F
HighPrivateUseSurrogates		\uDB80-\uDBFF
LowSurrogates		\uDC00-\uDFFF
PrivateUse	专用区	\uE000-\uF8FF
CJKCompatibilityIdeographs	CJK兼容汉字	\uF900-\uFAFF
AlphabeticPresentationForms		\uFB00-\uFB4F
ArabicPresentationForms-A		\uFB50-\uFDFF
CombiningHalfMarks		\uFE20-\uFE2F
CJKCompatibilityForms	CJK兼容形式	\uFE30-\uFE4F
SmallFormVariants	小写变体	\uFE50-\uFE6F
ArabicPresentationForms-Bound		\uFE70-\ufeFF
Specials		\uFFF0-\uFFFF
HalfwidthandFullwidthForms	半形及全形字符	\uFF00-\uFFEF

分类	全称	说明
Cn		UNASSIGNED
Lu		UPPERCASE_LETTER
Ll		LOWERCASE_LETTER
Lt		TITLECASE_LETTER
Lm		MODIFIER_LETTER
Lo		OTHER_LETTER
Mn		NON_SPACING_MARK
Me		ENCLOSING_MARK
Mc		COMBINING_SPACING_MARK
Nd		DECIMAL_DIGIT_NUMBER
Nl		LETTER_NUMBER
No		OTHER_NUMBER
Zs		SPACE_SEPARATOR
Zl		LINE_SEPARATOR
Zp		PARAGRAPH_SEPARATOR
Cc		CNTRL
Cf		FORMAT
Co		PRIVATE_USE
Cs		SURROGATE
Pd		DASH_PUNCTUATION
Ps		START_PUNCTUATION
Pe		END_PUNCTUATION
Pc		CONNECTOR_PUNCTUATION
Po		OTHER_PUNCTUATION
Sm		MATH_SYMBOL
Sc		CURRENCY_SYMBOL
Sk		MODIFIER_SYMBOL
So		OTHER_SYMBOL
L		LETTER
M		MARK
N		NUMBER
Z		SEPARATOR
C		CONTROL
P		PUNCTUATION
S		SYMBOL
LD		LETTER_OR_DIGIT
L1		Latin-1
all		ALL
ASCII		ASCII
Alnum		字母数字(0-9,a-z,A-Z)
Alpha		字母(a-z,A-Z)
Blank		空格和制表符(' '\|\t)
Cntrl		控制字符，不可打印
Digit		数字(0-9)
Graph		可打印且可视字母（例如空格' '是可打印的但不是可视字母，而 `a' 两者都是。）
Lower		小写字母
Print		可打印字母（非控制字符）
Punct		标符号（字母、数字、控制、空白符以外的字母），如：!@#$%}{<>,./?[]等等。
Space		空白符(' ',\t,0x09,0x0A,0x0B,0x0C,0x0D,0x20)
Upper		大写字母
XDigit		十六进制数字(0-9，a-f, A-F)

替换表达式

特殊字符

特殊字符介绍	描述
\n	换行
\b	向前删除一个字符。当这个字符位于替换串之首时，将删除匹配串之前的一个字符。若匹配串位于行首，将使匹配串所在行与前一行相合并。
\d	向后删除一个字符。当这个字符位于替换串之末时，将删除匹配串之后的一个字符。若匹配串位于行末，将使匹配串所在行与下一行相合并。
\e	插入一个ESC字符
\t	插入一个TAB字符
\n	n代表查找正则表达式中的子表达式（组）。\1代表第一个子表达式，\2代表第二个子表达式，依次类推。\0代表整个匹配到的字符串。
\v	大写下一个字母
\U	全部大写以后的字母，直到碰到其它指示符为止。
\l	小写下一个字母
\L	全部小写以后的字母，直到碰到其它指示符为止。
\E	取消所有的字母大小写指示符。

自定义替换表

在查找／替换中使用自定义替换表
有的时候，上述简单的自定义替换功能是不够的。例如，用户可能希望只把出现在括号内的源串替换为目标串。这种文本处理可以通过在查找/替换中使用自定义替换表来解决。

在查找/替换功能中使用自定义替换表的替换函数是\Tn，其中n是0-9的数字，注意n为0表示第10张替换表。如果略去n，其效果相当于\T1，即使用第一张替换表。例如要把所有放在方括号中的汉字替换为拼音，可以查找“\[(\E)\]”，替换为“\T{\1}”。即把第一个子表达式的匹配内容按自定义替换表转换。注意，如果\T函数的参数不在替换表的源串中，\T函数的结果与源串相同，即不做任何变换。

有些情况下，用户可能希望只使用替换表的一部分内容。还是以拼音为例，前面给出的替换表中包含了拼音的音调，如果在替换时不希望加上这些音调数字，可以使用“过滤”功能。所谓过滤，其实是用一个正则表达式去分析替换表的目标串，并把其中的某个子表达式取出来。

使用“过滤”时，在“设置自定义替换表”对话框中，点“过滤”按钮，在弹出的对话框中填入一个正则表达式。再以拼音为例，表达式可以写为“(\p{Alpha}+)(\d)”，其中第一对括号中的是不含音调的拼音，第二对括号是音调。在调用\T函数时，JTextPro会在目标串中查找这个正则表达式。但是如何把其中的子表达式取出来呢？\T函数还有一个可选的下标，取第n个子表达式的值就写作\T{...}[n]。所以，把放在方括号中的汉字替换为不带调的拼音，可以查找“\[(\E)\]”，替换为“\T{\1}[1]”

笨笨 2005-12-12 09:16 发表评论

减少全局竞争性同步，提高应用的垂直扩展能力

笨笨 — Mon, 12 Dec 2005 01:05:00 GMT

减少全局竞争性同步，提高应用的垂直扩展能力

垂直扩展，简单的说，是当单一系统硬件升级扩展时，如增加CPU，内存，应用程序能够随之线性提高业务处理能力。
多线程是服务端 Java 应用的标准处理方式，其优点不用赘述。本文要讨论的是，如何在设计阶段降低多线程之间的竞争性同步开销。

假设一个Web应用，需要为当前用户维护在线用户信息。此用户信息列表会放在 Application 范围的一个 Map 中，那么我们增加或删除一个在线用户的操作会是这样：。
Map clientMap = ...// from Application Context
synchronized(clientMap){
clientMap.put(clientId,clientObject);
}
这是一个典型的全局同步代码，当并发线程增加时，这部分代码就有可能会存在潜在垂直扩展瓶颈。

最简单解决办法：用 ConcurrentHashMap。
ConcurrentHashMap的多线程下的表现要比HashMap好的多，可以做到随着线程数增长性能基本保持稳定。
参见：http://www-128.ibm.com/developerworks/cn/java/j-jtp07233/index.html
对 ConcurrentHashMap 的分析，参见：http://www-128.ibm.com/developerworks/cn/java/j-jtp08223/index.html

在 ConcurrentMap/ConcurrentLinkedQueue 不能帮助我们的情况下，我们需要明确设计以避免全局竞争。
基本原则是：
1 预分配，降低争用出现的频率。
2 降低锁的粒度，将全局竞争变为局部竞争。

预分配策略示例：
对于一在线交易处理系统，需要为每个交易生成交易流水号，假设有多台交易服务器按照集群方式配置，同时提供服务。那么需要在交易服务器之间进行同步，以保证交易流水号的正常增长。
一种处理方式为：在数据库中保存当前交易流水号的最高值，每台机器一次预分配1000流水，内部采用线程同步进行分配，用完再从数据库分配。这里数据库充当了全局存储和全局同步工具，如果每来一条交易，就访问一次数据库，考虑到数据库同步和事务的负担，这里会成为严重的性能瓶颈。

降低锁粒度策略示例：
1 ConcurrentHashMap 本身就是个很好的模范。它采用32颗锁，来代替普通 HashMap 的单颗对象锁。
2 对于数据库中并发大的表，可以考虑将表级锁改为行级锁，提高并发性。

暂时想不起来示例，有空再补

笨笨 2005-12-12 09:05 发表评论

JDK 1.5 对超大字符集的支持

笨笨 — Fri, 09 Dec 2005 03:27:00 GMT

JDK 1.5 对超大字符集的支持

Unicode 与超大字符集
国标 GB18030 规定了4字节扩展部分，这部分区域目前在 Unicode 规范中作为CJK Ext B区存在，即常说的中文超大字符集。这部分区域编码为 \U20000 - \U2A6D6。

UTF-16与Java String/Character 对象
一个完整的 Unicode 字符叫代码点/CodePoint，而一个 Java char 叫代码单元 code unit。
String 对象以UTF-16保存 Unicode 字符，需要用2个字符表示一个超大字符集的汉字，这这种表示方式称之为 Surrogate，第一个字符叫 Surrogate High，第二个就是 Surrogate Low。

判断一个char是否是 Surrogate 区的字符，用 Character的 isHighSurrogate()/isLowSurrogate()方法。
从两个Surrogate High/Low 字符，返回一个完整的 Unicode CodePoint 用 Character.toCodePoint()/codePointAt()方法。

一个 Code Point ，可能需要一个也可能需要两个char表示，因此不能直接使用 CharSequence.length()方法直接返回一个字符串到底有多少个汉字，而需要用String.codePointCount()/Character.codePointCount()。

要定位字符串中的第N个字符，不能直接将 N 作为偏移量，而需要从字符串头部依次遍历得到，需要用String/Character.offsetByCodePoints() 方法。

从字符串的当前字符，找到上一个字符，也不能直接用offset -- 实现，而需要用 String.codePointBefore()/Character.codePointBefore()，或用 String/Character.offsetByCodePoints()

从当前字符，找下一个字符，不能直接用 offset ++ 实现，需要判断当前 CodePoint 的长度后，再计算得到，或用 String/Character.offsetByCodePoints() 。

Swing 对超大字符集的支持
JTextPane增加了对超大字符集的支持，只要设置字体正确，就可以显示和编辑超大字符集。

笨笨 2005-12-09 11:27 发表评论

Java 多线程或内存泄漏缺陷排查的一些经验

笨笨 — Wed, 07 Dec 2005 09:07:00 GMT

Java 多线程或内存泄漏缺陷排查的一些经验

JVM Thread DUMP 基本功
Windows 下用Ctrl-Break,Unix 下用 kill -3 的命令让JVM输出 thread dump。
每隔几秒 thread dump 一次，多做几次，分析比较。

Thread Dump分析的一些经验
1 找出这几次Thread dump 文件中，有哪些 Java Thread 处于长时间等待状态，很有可能就是问题之所在。
2 如果Java 线程等在某些不可能出错的地方，如 java.lang.XXX/java.util.XXX对象的某个方法，则很有可能是因为出现了 OutOfMemoryError 异常，原因不外乎是JVM 堆内存过小或出现内存泄漏。
3 对于死锁，最直接的表现就是至少两个线程长时间等待相互持有的对象（每个线程所持有的对象和它当前等待的对象都可以从 dump 中看到）。
4 对于死循环，要辅助CPU占用率确定；如果发现CPU至少一颗使用率为100%，并且有线程长时间位于用户代码处，则很有可能是死循环引起。

多线程缺陷排查
对于Java死锁问题很少出现，多线程访问变量时冲突很常见。
一般出在多线程共享同一对象实例如全局Map，Servlet,Interceptor，或如多线程同时访问某个静态方法，而此静态方法不巧又访问另一个静态变量。
这类问题自测发现不了，在并发压力测试时才能发现。如果代码的入口检查做得好，多半会抛出一些莫名其妙的异常；要不然就会出现正常运行但数据库记录不对的情况。
对这种问题，并无多好的办法解决，主要还是靠看异常堆栈和静态代码分析来解决。

内存泄漏排查
一般用商用辅助工具排查，但有可能出现在JVM heap dump 模式下，运行极度缓慢的情况。
笨笨曾经用过一个非常简单的工具，效果不错，它可以做到在不影响jvm 执行速度的情况下，做heap dump，然后对dump出的文件进行排序，检查即可。

heapprofile(http://www.virtualmachine.de/)

笨笨 2005-12-07 17:07 发表评论

With or Without EJB?

笨笨 — Wed, 07 Dec 2005 07:54:00 GMT

With or Without EJB?

EJB 运行时所享受的 J2EE 基础服务

1 参与AppServer 提供分布式事务管理(JTA,JTS)。
2 AppServer 提供高性能通讯框架(基于RMI 或 IIOP实现)和大并发处理。
1) AppServer 如 WebLogic/WebSphere 替换了 Sun 标准 RMI 实现（基于著名的多线程阻塞IO），国内的 Apusic 4 则基于纯 NIO 的 IIOP通讯协议实现EJB 远程通讯。
2) AppServer 提供 EJB 实例池、请求队列、执行线程池等等服务。

3 AppServer 提供透明 EJB 集群管理（负载均衡、故障恢复），保证应用的处理能力能够水平扩展。
4 J2EE 安全体系
5 AppServer 特有的附加增值服务
1) 如 WebLogic WTC EJB，可实现从TUXEDO Service(C语言) 高性能访问 EJB。

大型项目所关注的重点

对于大型项目如全国集中这一级别而言，它所关注的重点风险反而是系统的性能、吞吐量、稳定性、高可用性这样的一些基本属性，这里并非说具体的业务功能就不重要；而是与上述的基本属性相比，业务功能可以说是相对的不重要。
基本属性如果有某一项没有达到，直接后果就是项目失败，或者运行时存在高风险。
业务功能则主要是堆时间、堆人、堆代码、堆测试人员的问题，如果实在来不及了，那就放到第二期去做好了，不影响主旋律么。

对于大型项目而言，采用新技术的关注点主要是：
1 能否满足基本质量属性，无重大运行时风险。
比如说，数据访问层，从性能和稳定性角度而言，还算直接采用 JDBC 编码合适，最多采用SQL映射型JDO。对于带缓冲的JDO实现则不宜采用，会带来水平扩展和稳定性风险。

2 项目组相关人员是否有此技术的经验，最好不要付出学习成本，避免因不熟悉所带来的风险。

EJB 和 IoC 框架如 Spring 的定位比较

Spring IoC/Context/AOP 可以认为是一个代码组织(Assembler)框架，关注代码如何组织和去耦。

EJB 则是运行结构，关注我们的应用如何运行，如何做集群，系统计算资源如何分配等等。
EJB 3 的改进主要还是从代码组织角度做出的，对于 EJB 运行时架构并没有多少变化（如果说错了，还请指正）；BEA 还有过将 EJB 3的代码翻译为 EJB 2.1 运行时架构的考虑（参见 BEA 的关于 EJB 3 的一篇文章http://www.javaworld.com/javaworld/jw-08-2004/jw-0809-ejb_p.html）。

从上述角度来看，EJB 和 Spring 是从不同的角度看待应用，我们完全可以做到用 Spring 组织代码实现EJB。

With or Without EJB?
从上述讨论可以看出，用Spring还是用EJB并不是个问题，最终还是看用户的实际需求而定。小Web项目多半不关注性能、并发、集群等等属性，出于开发过程简单和学习成本的考虑，完全可以不用EJB；而大型项目可能还是得用EJB。

笨笨 2005-12-07 15:54 发表评论

Java 与 C 性能比较的一些经验数据

笨笨 — Fri, 02 Dec 2005 08:17:00 GMT

Java 与 C 性能比较的一些经验数据

太细的数据也拿不到，必须要针对具体平台和JVM

基本代码执行
Java与C在 1:3-1:5左右，在Intel平台上用JDK1.4测得。
JNI不快，一次基本JNI调用差不多等于一次Java方法调用（未考虑大数据量传输）

数据库访问
JDBC与数据库本地接口差距较大，差不多在1到2个数量级左右，或更多。可以认为在1:10 - 1:50之间

socket网络传输
Java要分普通多线程和NIO方式
多线程方式，并发受限，一般不会超过150-200个并发，再多性能不会增加。这种方式下，网络传输性能与C差距可以认为在1个数量级左右，即1:10-1:30。
NIO方式，并发不错，能够支持到几千个并发，性能差距小些，可以做到在1:3 -- 1:5 左右。
C 通过select/poll/epoll技术，并发10000没有多少问题，并且通过Zero-Copy技术，可以避开Java 所无法避免缓冲区复制(Java->C缓冲区复制)的问题。

总的来看，Java与C在普通多层Web应用方面，差距可以认为在1个数量级左右，关键应用如TP Monitor目前还无法使用Java。

笨笨 2005-12-02 16:17 发表评论

Java中文&编码问题小结

笨笨 — Sun, 09 Oct 2005 08:52:00 GMT

摘要: Java中文&编码问题小结笨笨 Java字符编码转换过程说明常见问题 JVM JVM启动后，JVM会设置一些系统属性以表明JVM的缺省区域。 user.language,user.region,file.encoding等。可以使用System.getPropertie... 阅读全文

笨笨 2005-10-09 16:52 发表评论

BlogJava-笨笨的思想片断-随笔分类-Java

一个通用的文件配置框架

一个通用的文件配置框架

配置需求说明

需求分析

实现简介

其它特性:脚本文件自动分析和插入配置行

总结

中文全文检索的实现以及一些经验(Java)

中文全文检索的实现以及一些经验(Java)

最近在项目中面临中文全文检索的需求，关键需求如下：

尝试Lucene以及放弃原因：

自行实现中文全文检索原理以及方法：

目前实现的一些局限和优势：

JVM 内存结构的一张小图

正则表达式说明

正则表达式说明

目录

匹配模式

字符子集

行结束符

分组和引用

Unicode支持

与Perl 5正则表达式语法对比

正则表达式参考

字符

逻辑操作符

向后引用

边界元字符

重复指示符

字符子集

预定义子集（元字符）

扩展子集（元字符）

扩展中文子集（元字符）

POSIX字符子集（只适用于ASCII）

Unicode块和分类

替换表达式

减少全局竞争性同步，提高应用的垂直扩展能力

JDK 1.5 对超大字符集的支持

Java 多线程或内存泄漏缺陷排查的一些经验

With or Without EJB?

Java 与 C 性能比较的一些经验数据

Java中文&编码问题小结