语源科技BlogJava-笨笨的思想片断

一个通用的文件配置框架

笨笨 — Sun, 10 Feb 2008 07:44:00 GMT

一个通用的文件配置框架

配置需求说明

在工作中,项目需要实现多种程序配置方式,每种程序配置均有各自的文件复制,变量替换(替换文本文件中的变量占位符),修改脚本文件的需求. 为减少重复代码,简化配置实现,我们实现了此配置框架.需求片断示例:

复制文件到某处
创建/append 某个 properties/txt 文本文件
修改脚本文件,插入一段文本到脚本文件某处
通过JMX/JNDI连接到远程应用服务器, 用Java code修改应用服务器的配置.

需求分析

从上述需求来看,第一印象就是用ANT或类ANT XML文件就可以很好的满足上述需求, 但是还需要做下面增强才会好用:

配置过程需要有类似于事务的机制,以保证多处改动的一致性.
各种配置过程之间有许多相同之处,为减少重复,可以考虑引入公共配置片断文件.
由于配置过程相对固定, ANT BUILD XML文件的多个target以及依赖关系检查就不需要了,但是需要更加灵活的条件判断机制来控制单个配置动作和变量赋值.

实现简介

根据上述分析,项目最终的XML配置文件格式如下:

ResourceBundle Message Class

            class="CustomizedActionClass"
            index="1"
        />

            file="${Source File Variable}"
            dest="${Dest file Variable}"
            index="60"
            reason="Error Reason Key"
            />

            file="${File to Write}"
            index="20"
            reason="Error Reason Key"
        > ]]>

            file="${File to be expanded}"
            index="30"
        />

Action.performAction(): 实现正常配置动作,如果失败则返回错误码.
Action.performCompensation(): 实现回滚动作,负责将配置对象(如文件内容)回滚到修改前的状态.
Action.performComplete(): 实现正常配置完成动作, 负责释放配置过程占用的临时资源.

配置框架依次对每个要执行的动作调用performAction动作,如果当前Action返回失败错误码,则对已经成功执行的Action反向依次调用 performCompensation动作,执行回滚操作,从而保证配置过程的一致性; 如果全部成功,则依次调用performComplete操作,释放占用的临时资源,如下图:

为解决问题2,我们为每个action指定了一个index,用它规定执行顺序,配置框架从公共配置文件和私有配置文件中合并并排序所有的配置 action, 通过预先分配common action和private action的index范围, 每个单独的配置过程可以完全抽出重复配置动作.

为解决问题3, 每个action,每个变量定义(property 标记) 都可以有自己的condition 定义. 如此一来,配置文件的写法更类似于程序的执行过程,从开发角度也更加自然.

其它特性:脚本文件自动分析和插入配置行

应用服务器的启动脚本是用户可定制的,我们无法预见文件格式. 为解决这个问题,我们采用了如下方式:

对脚本进行语法分析,找出脚本的Java启动行(或Windows Service设置行),进而找出可用的shell变量和插入位置. 期望这种方式能够解决大多数用户自定义脚本.
对于复杂或分析条件不充分的脚本(如变量位于别的文件), 用户需要在合适位置插入一行有指定格式和参数的注释行(称之为anchor),配置框架会自动在该行后插入配置代码. 这种方式的主要的问题是用户理解困难,项目组支持的工作量大;不过这也是没有办法的办法了.

总结

本文介绍了一种多文件操作配置框架的思路,并具体解释类事务的配置动作实现过程, 该配置框架在项目实践中达到了预期目的,收到不错的效果.

笨笨 2008-02-10 15:44 发表评论

JSRB设计思想－无状态的,粗粒度的SERVICE

笨笨 — Thu, 20 Dec 2007 06:23:00 GMT

JSRB设计思想－无状态的,粗粒度的SERVICE

出于提高性能和负载均衡实现的考虑，JSRB 采取了无状态的，粗粒度的SERVICE请求和响应机制。
该思想与有状态的ORB(如CORBA或EJB Container)的设计思想截然相反.本文将详述原因.

JSRB定位与想要解决的问题

JSRB定位于传统的SERVICE REQUEST BROKER地位,就是原始意义上的中间件的位置: 负责将大量客户端(N千或N万)的请求,排队到几十或几百个的请求处理进程(线程)中,最优化的使用系统资源,从而达到吞吐量最大化的目的.
从这个角度来看, EJB Container和CORBA ORB是标准的中间件. Java Web Container由于内建了线程池,也算是中间件(前端协议HTTP,后端协议是JDBC).

无状态vs有状态,远程调用的选择.

有状态要求服务器在远程调用之间保存对应客户端的Session数据,这种设计思想会简化程序代码,有助于将分布式的程序写得更像非分布式程序.

但是在某些情况下,这种设计会带来严重的性能问题.在金融的在线交易系统中,业务系统需要处理十万至千万级别的用户信息(例如网银系统),而中间件服务器较为合适的session池数量不过万.要在中间件服务器的JVM内存中处理如此巨量的数据,肯定会将系统撑爆; 而如果存储大部分数据到硬盘(钝化技术)来应对,则就会面临IO性能还不如 RDBMS 的窘境. RDBMS 在目前阶段始终是最快速的数据存储方案.

当业务系统面临大数据量的问题时,需要采用应用相关的解决方案(数据分区,存储过程等等)解决.将问题推给应用服务器固然方便,但是却会带来系统的性能和可扩展性的问题.远程调用的代价本来就很大,不必要让ORB再承担session数据的重担了.与之相反,无状态的远程调用在可扩展性和负载均衡方面的实现要简单得多,也没有session迁移的问题.

SERVICE的粒度问题

SERVICE远程调用的粒度需要粗一点,在保证SERVICE可重用的前提下,应该尽量减少SERVICE的调用次数, 因为SERVICE的调用开销非常大(一般的远程调用都是以毫秒记,而普通方法的执行时间是以微秒或纳秒为单位的).
有状态SERVICE的一个副作用就是容易出现过细粒度的设计(同时由于Stub/Skeleton的生成很方便,这种设计就更加容易出现了),导致交互次数过多,会严重降低业务系统的性能.

这方面一个鲜明的对比是大型机的智能终端和telnet协议.智能终端只有等到用户填充完一个表单并确认发送后,才会将请求数据发送到主机,并且自行解释和显示主机返回的数据(非常像Broswer/HTTP), 而telnet协议则将每个按键事件发送到主机,主机处理保存有所有的session数据. 主机可以毫不费劲的处理N万个并发的客户端,而UNIX主机在连接了几千个telnet客户端后,自身的正常运行都会出问题了.

顺便说一句, 类似的, 从个人项目经历来看, 由于 Hibernate 隐藏JDBC调用很成功,查询或更新数据库非常方便, 程序员就很容易滥用; 有可能导致程序从逻辑上来看毫无问题, 但是运行起来却出现性能低下, 并且这种性能问题还很难改正(性能低下是由于数据库查询过多引起的,要调整的代码遍布整个项目).

其它

本文的一些思想来源于MidWay(midway.sourceforge.net)和个人的项目经验,仅为一家之言.
大型项目(企业级)和小项目(部门级)的区别主要就在于,大项目在各个阶段都要将非功能性的要求(性能,容错,恢复,分布式,响应时间,事务等等)放在设计/实现/测试首要考虑的位置,而小项目则几乎无需考虑这样的问题.
本文和JSRB主要集中在真正的中间层( Service/Object Request Broker/EJB Container).

笨笨 2007-12-20 14:23 发表评论

Java Service Request Broker简介

笨笨 — Tue, 11 Dec 2007 16:15:00 GMT

Java Service Request Broker 简介

Java Service Request Broker(JSRB)是一个 Java/C/C++ 的开源项目
Project URL http://jsrb.sourceforge.net

项目目标按照优先顺序依次是:
1 高效,透明的通讯框架,屏蔽本地/远程网络架构的复杂性(高效来源于基于poll/epoll的NIO通讯框架,透明来源于多个JSRB Server之间的动态级联机制).
2 高效率,稳定的服务请求处理机制(高效来源于服务端为C语言实现,稳定来源于对服务进程的不间断监控和自动重启动机制)
3 分布式事务处理能力(JSRB 作为分布式事务管理器,初步实现了DTP XA协议,还在开发过程中).
4 客户端语言中立(语言无关通讯协议,客户端提供Java或C API库).

JSRB 大致架构如下:

JSRB SERVICE 特性/访问方式

1 SERVICE 无状态,通过二进制数据传递输入输出数据
2 运行时,可以有多个SERVICE实现进程, JSRB会平衡调度这些进程.

SERVICE支持同步/异步两种访问方式:
SERVICE之间也支持forward和嵌套调用两种方式

同步访问SERVICE:
Response Data = JsrbConection.syncCall("SERVICE NAME",Request Data);
当客户端从syncCall中返回时,它已经获得SERVICE的返回数据

异步访问SERVICE
long key = JsrbConnection.asyncCall("SERVICE",Request Data);
...
Response Data = JsrbConnection.fetchReply(key);
客户端可以提交服务请求后,过一段时间再去尝试获取数据, 便衣客户端同时提交多个服务请求,增加并发性.

SERVICE FORWARD
客户端访问SVC1, SVC1完成后将该请求forward到SVC2, SVC2完成后直接返回客户端数据.

SERVICE的嵌套调用
SVC1 调用SVC2 并获得SVC2的返回数据.

一般问题:
1 为什么会选择用Java 实现Service Request Broker
答: Java跟C语言相比, 代码执行速度其实并不慢. 我们一般感觉J2EE 应用慢,主要是由于IO(特别是socket和JDBC)慢造成的.
Java 在多线程编程, 开发的方便性方面比C/C++强.
JSRB在实现过程中,自行定义和实现了一套NIO框架, 增加了对于Linux epoll(Edge Triggered Mode)的支持, 同时为了实现与C进程的高效通讯,自行实现了Sysv IPC和创建子进程方面的Native代码.

2 为什么要用C实现业务代码,作为Service的实现语言.
从企业端的应用来看, 企业应用必定要跟数据库打交道, 实际上C语言访问数据库要比Java访问数据库快1到两个数量级. 甚至可以说, J2EE应用响应的大部分的延迟时间都耗费在JDBC上.
从大型项目的实施经验来看, 将这部分代码放在C进程中, 尽管要多付出通讯方面的代价,总体还是要比纯Java的方案快得多.

3 为什么分布式事务的优先级最低
从大型项目的实施经验来看, 分布式事务由于运行代价过高, 业务系统中用到的概率很小(基本上直接用数据库的事务). 对于CICS/TUXEDO应用而言,首先还是将CICS/TUXEDO 作为一个高效/稳定的通讯和服务请求处理排队框架来用.
如果真要有分布式的交易的需求,一般采用流水对帐+冲正处理方式解决.

4 为什么选择无状态方式实现SERVICE
无状态是提高并发效率, 实现透明故障迁移的最佳方式. Server端资源有限,为并发的成千上万个用户同时维护状态是非常困难的,这样也会造成集群实现的困难.
由于Client端是有状态的,所以这在实现上其实问题不大.

今后得空还会慢慢写更多文档介绍JSRB的一些组件的实现方式和特性.

笨笨 2007-12-12 00:15 发表评论

DTP/XA 规范及XA API调用研究

笨笨 — Thu, 06 Dec 2007 06:07:00 GMT

DTP/XA 规范及XA API调用研究

分布式事务(Distributed Transaction Processing/XA)规范是一个业界标准规范，它定义了分布式事务中各方角色和标准两阶段提交的协议规范(XA Protocol)，该规范为广为业界所支持(CICS/TUXEDO/Enica，后来的OTS/JTS规范以及微软的MTS的莫不源于此。

XA规范中关键角色简述如下
AP: 客户应用程序，负责连接TM,RM，使用RM的提供的API访问和更改数据，声明分布式事务的开始和结束阶段点(Transaction Demarcation)。
TM: 事务管理器，负责管理、协调、准备和提交分布式事务，对AP的接口标准为TX接口, 并非所有的 TM 实现都遵循这个标准, 但是都会提供类似的接口函数.
RM: 资源管理器，在AP访问数据时，关联事务相关的数据修改，并根据TM的命令提交或回滚数据修改，通常为数据库, IBM MQSeries实现了RM接口。
RM分为静态和动态两种,静态RM需要TM明确调用xa_start/xa_end关联事务与RM的联系. 动态RM在数据发生更改时,会自动回调TM提供的ax_reg/ax_unreg函数,动态关联到当前活动的分布式事务中.

XA API中定义的xa_****和ax_****函数。
ax_reg     向事务管理器注册资源管理器。
ax_unreg     向事务管理器取消注册资源管理器。
xa_close     终止应用程序对资源管理器的使用。
xa_commit     通知资源管理器提交事务分支。
xa_complete     测试异步 xa 操作是否完成。
xa_end     取消线程与事务分支的关联。
xa_forget     允许资源管理器丢弃启发完成的事务分支的信息。
xa_open     初始化资源管理器，供应用程序使用。
xa_prepare     请求资源管理器准备提交事务分支。
xa_recover     获取资源管理器已准备或启发完成的事务标识符 (XID) 列表。
xa_rollback     通知资源管理器回滚事务分支。
xa_start     启动或恢复事务分支；将 XID 与资源管理器请求线程的未来工作关联。

ax_ 例程可让资源管理器调用事务管理器；所有事务管理器必须提供这些例程。在 DTP 环境中操作时，xa_ 例程由资源管理器提供，并由事务管理器调用。当应用程序调用事务管理器以启动全局事务时，事务管理器可以使用 xa_ 接口通知事务分支的资源管理器。

分布式事务各个阶段相关API调用如下：
1 AP 通知TM打开RM连接， AP-->TM tx_open()
TM 会在该函数中调用RM提供的xa_open函数，打开到RM的连接。
在TUXEDO SERVICE中，需要在tpsvrinit()函数中调用tpopen()函数完成这项工作。

2 AP 声明事务开始 AP-->TM tx_begin()
在声明后，该线程后续对RM的所有访问和更新均属于该事务。
对于static RM, TM 需要调用xa_start() 明确关联事务和RM。

在TUXEDO SERVICE/CLIENT中，tpbegin()函数完成类似工作.
当TUXEDO SERVICE被调用时, 如果已经处于事务中, TUXEDO 会自动调用与SERVICE关联的RM的xa_start()函数(只对于 static RM).

3 AP访问RM，使用RM规定的API访问，XA规范未作定义。
对于dynamic RM, 如果访问时发生了数据更改,例如提交一个UPDATE SQL 语句, RM会自动回调TM的ax_reg函数关联到当前事务.

4 AP声明事务分支结束
在TUXEDO SERVICE调用完成后, 自动调用 RM 的xa_end()函数(对于static RM和未调用ax_unreg的dynamic RM)。

说明: 根据业务需要,上述2-4步骤会在不同的进程(TUXEDO SERVICE)中重复出现, 只要事务ID( Global XID )相同,这多个事务分支(Branch) 均被认为属于同一个事务.

5 AP 要求提交或回滚事务(TM tx_commit/tx_rollback )
AP要求提交事务时, TM 需要检查事务状态, 确定事务并未标记为MARKED_ROLLBACK(只能回滚),否则会回滚并报告错误.

TUXEDO CLIENT/SERVICE 调用 tpcommit/tpabort 提交或回滚事务.
在TUXEDO中,由于实现的原因,所有xa_prepare/xa_commit/xa_rollback都是由单独的TMS进程发起调用的, TUXEDO SERVICE 进程不会发起相关调用.
TUXEDO配置文件中,每个TUXEDO SERVICE GROUP可以关联一个RM和多个TMS,每个GROUP内的SERVICE 进程和TMS进程启动时都会使用相同的 XA OpenInfo String打开到RM的连接.

标准两阶段事务提交过程:
1 (准备)更改事务状态为PREPARING, 依次调用事务关联RM的xa_prepare(), 任意RM返回错误则进入回滚过程, RM都PREPARE完成事务状态改变为PREPARED.
2 (提交)更改事务状态为COMMITTING, 记录事务日志到硬盘中, 依次调用RM的xa_commit方法,再更新事务日志, 更改事务状态为COMMITTED.事务提交完成.
3 (回滚)更改事务状态为ROLLING_BACK, 依次调用事务关联RM的的xa_rollback,更改事务状态为ROLLED_BACK

简化一阶段事务提交过程:
1 (提交)更改事务状态为COMMITTING, 记录事务日志到硬盘中, 调用RM的xa_commit(TMONEPHASE)方法,再更新事务日志, 更改事务状态为COMMITTED.事务提交完成.

启发式事务提交和回滚:
部分RM支持启发式提交或回滚, xa_commit/xa_rollback 返回时,可能会返回XA_HEUR***的值, 表明RM执行了启发式优化.
此时TM需要后续调用RM的xa_forget(), 让RM彻底释放该事务相关的资源.

目前JSRB(Java Service Request Broker)已经部分实现上述TM的功能, 项目继续进展中...: http://jsrb.sourceforge.net

参考资料：
Distributed Transaction Processing_ The XA Specification

IBM WebSphere 开发者技术期刊: 在中间件环境中配置和使用 XA
http://www.ibm.com/developerworks/cn/websphere/techjournal/0704_sood/0704_sood.html

XA接口的一阶段提交与两阶段提交有何区别？
http://www-1.ibm.com/support/docview.wss?uid=csc148256d65004dc82448256d65004276f0

笨笨 2007-12-06 14:07 发表评论

中文全文检索的实现以及一些经验(Java)

笨笨 — Mon, 30 Jul 2007 09:55:00 GMT

中文全文检索的实现以及一些经验(Java)

最近在项目中面临中文全文检索的需求，关键需求如下：

1 支持中文、英文字词的全文检索，待检索文本是古文言文。
2 全文检索表达式支持： AND,OR,NOT,NEAR,BEFORE 运算符，支持()。
3 速度要求：400M文本，要求在2-5秒内能够检索完毕。

尝试Lucene以及放弃原因：

在尝试Lucene和不同的中文Analyzer后，终告放弃。
原因如下：
由于待检索文本是古文，中文分词技术无法派上用场。在将分隔存储每个汉字后，发现从Lucene中检索到的文本远远少于关键字实际匹配的文本，这一问题对于较长的检索关键字尤其明显。
因为对于检索准确程度要求很高，故此放弃，但是Lucene出的这个问题的原因尚不清楚，希望能够有人提出解答。

自行实现中文全文检索原理以及方法：

1 构建过程，忽略标点符号，自行计算每个汉字在每个文本文件中的偏移量，并保存。
2 检索过程，定位每个汉字的偏移量，如果检索表达式中每个汉字的预期偏移量与实际偏移量吻合，则匹配成功。
3 采用 MappedByteBuffer 加快检索速度，采用二分查找加快偏移量匹配速度，3个左右的关键字复合检索能够在1秒内完成匹配（要求操作系统有足够大的缓存）。

目前实现的一些局限和优势：

0 中文检索速度足够，准确度比Lucene高（如果有高手能够解决这个问题，我会很高兴的废弃掉这些类的）
1 合适于中文，不适用英文文本
2 全文检索索引文件与原始文本文件的大小大约为2:3-3:4之间，300M大小，比Lucene大约多30M。
3 索引文件的构建时间长，400M大约需要3小时，同时由于如果任何文本文件更新，都需要重新构建索引文件，
因此不合适要经常变化的文本索引。

全文检索代码示例(TestFullTextQuery.java)：
File storeDir = new File("C:\\temp\\fulltext\\index");
StoreSearcher searcher = new StoreSearcher(storeDir);
String str = "大?藏 & 阿难"; //同时出现 "大?藏" 和 "阿难"， ?代表任意字符
searcher.queryBegin(str, true);
while(true){
    StoreSearcherResult ssr = searcher.getNextQueryResult();
    if ( ssr == null ){
        break;
    }
    System.out.println("ID "+ssr.docId+":"+ssr.matchedCount);
}
searcher.queryEnd();
searcher.close();

运行结果
ID T01n0001.TXT:320
ID T01n0002.TXT:3
ID T01n0004.TXT:2
ID T01n0005.TXT:202
ID T01n0006.TXT:131
....

附：全文检索表达式举例

关键字中间可以出现?，表明匹配任意字符。

运算符名称：运算符字符
AND:&
OR:,
BEFORE:*
NEAR:+
NOT:-

表达式举例：
(KEY1 KEY2) & (NOT KEY3)
KEY1 KEY2 (关键字之间无运算符假设为AND)

附：全文检索文件格式信息

DocInfoStore(文档信息)
--HEAD--
DocCount:Integer                    文档数目
--DOC HEAD(PER DOC)--
DocSeq:    Integer                        文档顺序号，内部使用
DocId:     Char[128]                    文档唯一ID，字符串格式
DocSepOfs: Integer                文档分隔符数组的Ofs
--DOC SEP OFS(PER DOC)--
DocOfs:    ArrayOfInteger        文档分隔数组

WordInfoStore(每个汉字信息)
--HEAD--
WordCount:Integer                    汉字数
--WORD IDX(Per Word)--
WordChar:Integer                    汉字的Unicode值
WordInfoOfs:Integer                汉字信息在文件中的偏移量
WordInfoSize:Integer            汉字信息大小
--WORD INFO(Per Word)--
DocCount:                                    汉字出现的文档数
DocSeq(Per Doc):                每个文档的顺序号
WordInDocs:ArrayOfInteger 每个文档中出现的汉字的偏移数组，从小到大排列

源文件及CLASS下载地址：
http://www.blogjava.net/Files/zhugf000/foreader2_ftsearch.zip

笨笨 2007-07-30 17:55 发表评论

在龙芯盒子上编译 Eclipse-3.2.2

笨笨 — Thu, 15 Mar 2007 06:06:00 GMT

在龙芯盒子上编译 Eclipse-3.2.2

by zhugf 2007/03/15

软件准备：
安装 GNOME 开发包 apt-get install libgnome*
安装 X11 开发报 apt-get install libxtst*
安装 ant 下载 apache-ant-1.7.0
准备特别版本 jdk
1 将 /usr/lib/jvm/sun-java 复制到本地目录，改名 jdk_1.5.0_142
2 从 jdk1.4.2/jre/lib/rt.jar 中找到 java/io/Writer.class 和 java/io/PrintWriter.class，
替换掉 jdk_1.5.0_142/jre/lib/rt.jar 中对应文件

从 http://dev.lemote.com/projects/eclipsetp/ 用 SVN 下载所需文件

设置环境变量：
ANT_HOME=apache-ant-1.7.0
export ANT_HOME
JAVA_HOME=jdk_1.5.0_142
export JAVA_HOME
PATH=$ANT_HOME/bin:$JAVA_HOME/bin:$PATH
export PATH

释放文件：

下载eclipse-sourceBuild-srcIncluded-3.2.2.zip 并解开到某个目录 eclipse-3.2.2

将 eclipse-src-3.2.2目录下的文件覆盖掉解开的目录下同名的文件

编译：

1 手工编译 Eclipse native 库

cd eclipse-3.2.2/plugins/org.eclipse.core.filesystem/natives/unix/linux

make

mkdir ../../../../org.eclipse.core.filesystem.linux.mips32/os/

mkdir ../../../../org.eclipse.core.filesystem.linux.mips32/os/linux/

mkdir ../../../../org.eclipse.core.filesystem.linux.mips32/os/linux/mips32

cp lib*.so ../../../../org.eclipse.core.filesystem.linux.mips32/os/linux/mips32/

cd eclipse-3.2.2/plugins/org.eclipse.update.core.linux/src

ant

2 编译 Eclipse

cd eclipse-3.2.2
./build -os linux -ws gtk -arch mips32 -java5home /usr/lib/jvm/sun-java -compilelibs

整个编译过程需要半个小时或更长，编译后目录在： eclipse-3.2.2/eclipse
编译时如果出现某个Java文件编译错误，而错误原因是 Eclipse JDT Compiler 内部错误，可以将此文件的头部License注释删除，再重新编译。

3 复制 Eclipse 启动文件

cd eclipse-3.2.2

cp launchertmp/eclipse eclipse

替换 jar 包：

编译好后的 eclipse 由于部分文件修改错误，会导致启动失败的问题，这时需要用 eclipse-3.2.2-linux-x86.tgz 文件中的原始文件来替换。

替换如下文件：

org.eclipse.osgi_3.2.2.R32x_v20070118.jar
org.eclipse.sdk_3.2.2.r322_v20070212
org.eclipse.ui.cheatsheets_3.2.1.R321_v20060720.jar
org.eclipse.jdt_3.2.1.r321_v20060823.jar
org.eclipse.osgi.services_3.1.100.v20060601.jar
org.eclipse.osgi.util_3.1.100.v20060601.jar
org.eclipse.pde.ui_3.2.1.v20060816-0800.jar
org.eclipse.ui.console_3.1.100.v20060605.jar

文档结束

笨笨 2007-03-15 14:06 发表评论

ASP 程序的国际化/本地化

笨笨 — Mon, 20 Mar 2006 08:11:00 GMT

前段时间在写一个小程序。用的是 ASP+MSSQL/MYSQL。要求能够同时出简/繁中文版本。
就碰到了一些ASP的国际化、本地化的问题，其中的一些处理技巧，与大家共享。

1 HTML页面、Web应用、ASP 程序源文件全部采用 UTF-8 编码。
在文件头部加入行<%@ LANGUAGE=JScript CODEPAGE=65001%>

2 SQL Server 2000 数据库：
1 数据库字符串字段采用 NVARCHAR/NTEXT/NCHAR Unicode 字符类型。
2 数据库操作SQL 中，字符串全部加 N 前缀： SELECT * FROM TABLE WHERE FIELD LIKE N'中文%'

3 ASP 程序如果要访问文件，需要用如下代码打开 UTF-16 格式文件：
FileSystemObject.OpenTextFile(file,1,false,-1);
保证在不同平台下，相同文件都能够正确读取。

4 ASP 源文件中，不包含任何语言相关字符串，如标题、错误消息。这些消息统一保存到某个文件inc_l10n.asp中。另外，提供一个 inc_strutil.asp 程序，辅助格式化字符串。
这样，要更换语言版本，只要更新的 inc_l10n.asp 即可。

inc_l10n.asp
<%
var l10n_title = "ASP Application Title";
var l10n_about= "About ASP Application";
var l10n_dict_homename = "HOME NAME";
%>

inc_strutil.asp:
<%
//Replace a substring in a String
//
function replaceAll(data, from, to) {
    var buf = "";
    var pos = -1;
    var i = 0;
    while ((pos = data.indexOf(from, i)) != -1) {
        buf = buf + (data.substring(i, pos))+ to;
        i = pos + from.length;
    }
    buf = buf + data.substring(i);
    return buf;
}

//return the substitution result from Resource String
//Invoke examples: getString("Substitution Example: $1 $2","111","222")
//Invoke Result: "Substitution Example: 111 222"
function getString()
{
    if ( arguments.length == 0 )
        return "";
    if ( arguments.length == 1 )
        return ""+arguments[0];
    var rawStr = arguments[0];
    var i = 0;
    for(i=1;i        rawStr = replaceAll(rawStr,"$"+i,arguments[i]);
    }
    return rawStr;
}
%>

笨笨 2006-03-20 16:11 发表评论

JVM 内存结构的一张小图

笨笨 — Mon, 06 Feb 2006 06:21:00 GMT

笨笨 2006-02-06 14:21 发表评论

架构师的工作

笨笨 — Sat, 17 Dec 2005 12:13:00 GMT

架构师的工作

就笨笨所理解，其实很简单：
1 把意图表达出来，主要做法是画图。
2 把意图贯彻下去，主要做法是喷，对象是项目组、客户、公司领导。

业务架构的目标

按照优先级排列
1 固化开发和测试模式，减小开发人员的自由发挥余地，从而做到：
1 将业务代码实现简单化和固定化，降低对开发人员的技术要求（如要求了解J2EE框架或HTTP交互过程等）
2 复用开发人员的经验，在下个使用业务架构的项目中，不需要再行学习

2 减少项目的基础性技术代码开发工作和步骤，这里的技术代码，指与业务无关的部分，如配置、日志、文件上传、ORM 等等。这个目标需要在组织级维护跨项目的技术框架，单靠个人是无法做到的。

3 实现对项目的业务代码的重用。这个目标几乎不可能实现，业务代码重用的前提是它经过业务专家的提炼、业务过程完整、可完全配置。假如这个目标能够实现，那么开发人员的角色类似于 SAP 实施人员，主要工作是配置，而不是写代码。

国内公司的业务架构实现的困境

对于国内公司来说，由于中长期利益与短期利益的冲突，架构一般很难坚持下去。
国内公司限于成本压力，经常会要求架构师在项目中实现业务框架；但是这个目标与项目的直接目标是有冲突的。

业务框架为了达到可重用的目标，是需要比项目完成要多做好多工作的，如框架文档、辅助工具等等，这需要大量的开发工作量，会与项目的直接目标发生冲突，而冲突出现时，公司和项目经理一般都会选择牺牲重用的业务框架这个目标，保证项目的完成。在项目完成后，公司也很少单独组织人力对项目成果进行评估和重构，结果最终还是得不到一个重用的业务框架。

笨笨 2005-12-17 20:13 发表评论

基于J2EE的业务产品/框架(PPT)

笨笨 — Thu, 15 Dec 2005 04:49:00 GMT

笨笨10月份写的一个自我小结的大纲，缺乏开发模式的部分。
点击这里下载。

提纲

•

技术产品与业务产品的差别比较

业务产品的结构层次与实现重点

应用业务框架

业务框架发展策略
业务框架支持代码复用
业务框架支持CMM实施

感谢好刚刚同志对这篇文稿的意见，感谢 ji_cao 同志的从博弈论角度看待软件开发的思路。

笨笨 2005-12-15 12:49 发表评论

变，还是不变？

笨笨 — Tue, 13 Dec 2005 02:05:00 GMT

变，还是不变？

变的是概念，不变的是产品
IBM 的 MQ Series 的定位从老早的 Link/Queue ，变为 MOM ，再变为 EAI ，再变为 SOA 的基础架构。MQ Series 产品的结构始终不变，但 IBM 将它用不同的概念包装起来，推向市场；客户为概念付费，而 IBM 在收获真金白银。

变的是皮毛，不变的是基础
变的是排列组合，不变的是基本原理
仔细考究这些概念，就会发现，概念其实只不过是对角色、数据、处理和它们之间的相互关系，将其固定化和明确化，再起个新名词。很多现在热炒的新概念，在70年代的主机上可以找到原型；代码不管是OOP 还是 AOP ，最终还是要翻译成机器码，由CPU 执行的。
别被新概念给骗了，我们现在用的计算机的结构，从1950's 诺伊曼提出开始，就没有什么新变化。在可预见的将来，除非人工智能或量子计算机有什么新突破，我们还是要继续跟诺伊曼体系打交道。

变的是银弹，不变的是失望(?)
巨型厂商所推的概念，更多程度上是为了营销所作的吹嘘。从用户角度来看，只要开发速度足够快，运行稳定，后续支持维护升级能够跟上；到底采用什么技术，是无所谓的事情。而技术或框架之间的差别，其实也没有它们的简称之间的差别那么大。

笨笨 2005-12-13 10:05 发表评论

正则表达式说明

笨笨 — Mon, 12 Dec 2005 01:16:00 GMT

Java 正则表达式的翻译文档，附带有中文部分扩展说明，源代码在这里

正则表达式说明

匹配模式

匹配模式指得是正则表达式引擎将以何种模式匹配字符串。

模式名称	启用，禁用	缺省启用	说明
UNIX_LINES	(?d)启用，(?-d)禁用	是	启用Unix行模式。在此模式下，只有 `'\n'`被认为是行结束符。它会影响`.`, `^`, 和 `$` 的行为。
CASE_INSENSITIVE	(?i)启用，(?-i)禁用	否	启用忽略大小写模式。缺省时，忽略大小写模式只会影响 ASCII字符的匹配。而Unicode范围的忽略大小写匹配需要通过 UNICODE_CASE 标志与本标志联合使用。启用此模式会影响匹配性能。
COMMENTS	(?x)启用，(?-x)禁用	否	允许空格和注释出现在正则表达式中。在此模式下，空格被忽略，以#开始的单行注释被忽略。
MULTILINE	(?m)启用，(?-m)禁用	是	启用多行模式。 In multiline mode the expressions `^` and `$` match just after or just before, respectively, a line terminator or the end of the input sequence. By default these expressions only match at the beginning and the end of the entire input sequence.
DOTALL	(?s)启用，(?-s)禁用	否	让.可以匹配行结束符。在此模式下，元字符`.`可以匹配行结束符。缺省不允许如此匹配。
UNICODE_CASE	(?u)启用，(?-u)禁用	否	Enables Unicode-aware case folding. When this flag is specified then case-insensitive matching, when enabled by the `CASE_INSENSITIVE` flag, is done in a manner consistent with the Unicode Standard. By default, case-insensitive matching assumes that only characters in the US-ASCII charset are being matched. 启用此模式会影响性能。
CANON_EQ	(?c)启用，(?-c)禁用	否	Enables canonical equivalence. When this flag is specified then two characters will be considered to match if, and only if, their full canonical decompositions match. The expression `"a\u030A"`, for example, will match the string `"?"` when this flag is specified. By default, matching does not take canonical equivalence into account. 启用此模式会影响性能。

字符子集

字符子集可以含有别的字符子集，并且可以通过联合操作符（缺省）和交集操作符（&&）实现组合。联合操作符表示某个子集匹配它的子子集所匹配的任意字符。交集操作符表明某个字符子集只匹配它的子子集都匹配的字符。
字符子集所能够有的操作符的优先级如下，从高到低：

转义符\x
成组符 [...]
区间符 a-z
联合符 [a-e][i-u]
交集符 [a-z&&[aeiou]]

注意：在字符子集[]内部的语法根本不同于正则表达式其它部分中的语法。例如，在字符子集内部，正则表达式 . 失去了它原有的含义，而是成了一个匹配.的元字符。

行结束符

行结束符是一个或两个字符序列，用以表明输入字符序列中一行的结束。下面的字符被认为是行结束符：

一个换行符('\n')。
一个回车符加上一个换行符("\r\n")。
一个单独的回车符('\r')。
代表下一行的字符('\u0085')。
行分隔符('\u2028')，Unicode中被定义。
一个分段符('\u2029)，Unicode中被定义。

如果 UNIX_LINES 模式被启用，则只有换行符被认为是行结束符。
如果 MULTILINE 模式被启用，。

分组和引用

字符分组以它们的左括号的出现顺序来排序。例如在表达式((A)(B(C)))，有四个分组：

((A)(B(C)))
(A)
(B(C))
(C)

第0组永远表示表达式本身。
分组采用这样的命名方式，是因为，在一次匹配过程中，正则表达式会被匹配多次。以前的匹配子序列有可能在将来被使用；或者在匹配结束时，程序有可能需要重新获得所有匹配的子字符序列。
对于正则表达式中的某个分组而言，永远只保留最后匹配的字符序列。如果对某个分组匹配尝试失败，则会保留上次匹配成功的字符序列。例如，对于正则表达式(a(b)?)+而言，字符序列"aba"，将会让分组2匹配的字符序列为"b"。
以(?开始的分组，将不会计入分组数目，也不会被后续匹配所引用。

Unicode支持

本正则表达式匹配引擎的实现遵循了《Unicode技术报告：Unicode正则表达式指南》，实现了该指南的第二层所需的功能，但是在细微处有一些简单语法修改。
Unicode块(Block)和分类(Category)通过\p和\P通配苻表示。\p{prop}匹配含有prop的输入序列，而\P{prop}匹配不含有prop的输入序列。Unicode块通过前缀In表示，如\p{InMongolian}。Unicode分类通过可选的前缀Is表示，因此\p{L}和\p{IsL}都代表Unicode分类 letters。Unicode块和分类都可以在正则表达式子集外部和内部使用。
目前支持的Unicode块和分类是《Unicode标准，第三版》中所指定的块和分类。 Unicode块名称在《Unicode 字符数据库》的第14章被定义，文件名称叫Blocks-3.txt，但是名称中的空格被去掉了。例如"Basic Latin"成了"BasicLatin"。无论是标准化的还是非标准化的分类，都在该标准的第88页的第4-5表中被全部定义。

与Perl 5正则表达式语法对比

[TBD]

正则表达式参考

字符

正则表达式字符串	匹配的字符串
X	字符X，包括 CJK ExtB 区汉字
\\	反斜杠\
\0n	八进制0n代表的字符(0<=n<=7)
\0nn	八进制0nn代表的字符(0<=n<=7)
\0mnn	八进制0mnn代表的字符(0<=m<=3,0<=n<=7)
\xhh	十六进制 0xhh所代表的字符
\uhhhh	十六进制 0xhhhh所代表的字符。注意，目前尚不支持CJK ExtB区汉字。
\t	制表符('\u0009')
\n	换行('\u000A')
\r	回车('\u000D')
\a	响铃符('\u0007')
\e	取消符Escape('\001B')
\cx	x所代表的控制字符

逻辑操作符

正则表达式字符串	匹配的字符串
XY	X后面跟随Y
X\|Y	X或者Y
(X)	X作为分组表达式

向后引用

正则表达式字符串	匹配的字符串
\n	第n个匹配的分组

边界元字符

边界字符	匹配的字符串
^	行首
$	行末
\b	字符边界
\B	非字符边界
\A	输入流的开始
\G	上次匹配的结束处
\Z	输入流的结束，或者是最后一个行结束符，参见行结束符。
\z	输入流的结束

重复指示符

正则表达式字符串	匹配的字符串
X?	X重复一次，或者不重复
X*	X重复0次或多次
X+	X重复1次或多次
X{n}	X重复n次，不多也不少。
X{n,}	X至少重复n次
X{n,m}	X至少重复n次，至多重复m次。

注：X{n,m}、?、*、+方式可以联合使用。

字符子集

正则表达式字符串子集	匹配的字符串	组合方式
[abc]	字符a,b或c，包括 CJK ExtB 区汉字	简单子集
[^abc]	任意非a,b或c的字符。	排除
[a-zA-Z]	从a到z，或者A到Z，包含a,z,A,Z。	区间
[a-d[m-p]]	从a到d，或者m到p，等于[a-dm-p]。	联合
[a-z&&[def]]	d,e或者f。	交集
[a-z&&[^bc]]	从a到z，除了b和c，等于[ad-z]	扣除
[a-z&&[^m-p]]	从a到z，并且不包括从m到p，等于[a-lq-z]	扣除

预定义子集（元字符）

边界字符	匹配的字符串
.	任意字符，可能匹配行结束符。
\d	数字[0-9]
\D	非数字[^0-9]
\s	空白符[ \t\n\x0B\f\r]
\S	非空白符[^\s]
\w	单词符，包含有字母和数字[a-zA-Z_0-9]
\W	非单词符，不包含有字母和数字。

扩展子集（元字符）

正则表达式字符串	匹配的字符串

扩展中文子集（元字符）

名称	块名称（\p{InXXX}）	简化通配符	标准Unicode块，或者汉字列表
任意双字节字符（汉字或全角符号）	\p{InQuqnJiao}	\E	任意由GBK表示的汉字，不包括GB18030扩展部分，以及CJK ExtB区的汉字。
任意单字节字符	\p{InFQuanJiao}	\~E	任意单字节字符。
任意全角ASCII字符	\p{InQJAscii}	\H	标准HalfwidthandFullwidthForms块
任意收录在BIG5码集中的双字节字符	\p{InBig5}	\I	Big5可编码双字节字符
匹配未收录在BIG5码集中的双字节字符	\p{InFBig5}	\~I	非Big5可编码双字节字符
匹配任意汉字(不包括符号)	\p{InHanziOrCJKExtB}	\X	任意汉字，包括GB18030扩展部分。
匹配任意汉字(不包括符号)	\p{InHanzi}	\M	任意汉字，不包括GB18030扩展部分。
匹配非汉字的双字节字符	\p{InFHanzi}	\~M	任意非汉字的双字节字符，包括GB18030扩展部分。
地支字符	\p{InDiZhi}	\U	子丑寅卯辰巳午未申酉戌亥
匹配收录在GB码集中的双字节字符	\p{InGB}	\g	收录在GB码集中的双字节字符，不包括GB18030扩展部分。
匹配非收录在GB码集中的双字节字符	\p{InFGB}	\~g	未收录在GB码集中的双字节字符，不包括GB18030扩展部分。
匹配收录在GBK码集中的双字节字符	\p{InGBK}	\h	收录在GBK码集中的双字节字符，不包括GB18030扩展部分。
匹配非收录在GBK码集中的双字节字符	\p{InFGBK}	\~h	未收录在GBK码集中的双字节字符，不包括GB18030扩展部分。
大写希腊字母	\p{InDaXila}	\K	ΑΒΓΔΕΖΗΘΙΚΛΜΝ ΞΟΠΡΣΤΥΦΧΨΩ
日文片假名	\p{InPianJia}	\j	标准Katakana块
日文平假名	\p{InPingJia}	\J	标准Hiragana块
小写希腊字母	\p{InXiaoXila}	\k	αβγδεζηθικλμν ξοπρστυφχψω
数学符号	\p{InMathe}	\m	±×÷∶∧∨∑∏∪∩∈∷√⊥∥∠⌒⊙ ∫∮≡≌≈∽∝≠≮≯≤≥∞∵∴
中文数字	\p{InCnDigit}	\i	〇一二三四五六七八九十百千万亿兆吉京
大写中文数字	\p{InDaCnDigit}	\N	零壹贰叁肆伍陆柒捌玖拾佰仟萬亿兆吉京
全角标点符号	\p{InQJBiaoDian}	\o	、。·ˉˇ¨〃々—～‖…‘’“”〔〕〈〉《》「」『』〖〗【】！＂＇（），－．：；＜＝＞？［］｛｜｝｀﹉﹊﹋﹌﹍﹎﹏﹐﹑﹒﹔﹕﹖﹗﹙﹚ ﹛﹜﹝﹞︵︶︹︺︿﹀︽︾﹁﹂﹃﹄︻︼︷︸︱︳︴
小写俄文字母	\p{InXiaoEWen}	\l	абвгдеёжзийклмн опрстуфхцчшщъыьэюя
大写俄文字母	\p{InDaEWen}	\R	АБВГДЕЁЖЗИЙКЛМНО ПРСТУФХЦЧШЩЪЫЬЭЮЯ
中文序号	\p{InCnSN}	\q	ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅪⅫ ⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹ 再加上Unicode标准EnclosedAlphanumerics块
天干字符	\p{InTianGan}	\T	甲乙丙丁戊己庚辛壬癸
竖排标点符号	\p{InSPBiaoDian}	\V	︵︶︹︺︿﹀︽︾﹁﹂﹃﹄︻︼︷︸︱︳︴
拼音字符	\p{InPinyin}	\y	āáǎàēéěèīíǐìōóǒòūúǔùǖǘǚǜüêɑńňɡ GBK -> 0xA8A1- 0xA8C0 只是Unicode标准LatinExtended-A块的一部分。
注音字符	\p{InZhuyin}	\Y	标准Bopomofo块
制表字符	\p{InZhiBiao}	\C	标准BoxDrawing块。经检查发现 textpro 的算法含有部分非标准Unicode制表符：“∟∣≒≦≧⊿═”。

POSIX字符子集（只适用于ASCII）

正则表达式字符串	匹配的字符串
\p{Lower}	小写字母[a-z]
\p{Upper}	大写字母[A-Z]
\p{ASCII}	所有的ASCII字符[\x00-\x7F]
\p{Alpha}	大小写字母[\p{Lower}\p{Upper}]
\p{Digit}	数字[0-9]
\p{Alnum}	字母数字符，包含大小写字母和数字[\p{Alpha}\p{Digit}]
\p{Punct}	标点符号，!"#$%&'()*+,-./:;<=>?@[\]^_`{\|}~之一。
\p{Graph}	可显示字符[\p{Alnum}\p{Punct}]
\p{Print}	可打印字符[\p{Graph}]
\p{Blank}	空格或者制表符[ \t]
\p{Cntrl}	控制字符[\x00-\x1F\x7F
\p{XDigit}	十六进制数字[0-9a-fA-F]
\p{Space}	空白符[ \t\n\x0B\f\r]

Unicode块和分类

块	中文名称（摘自Word XP）	代码区域
BasicLatin	基本拉丁语	\u0000-\u007F
Latin-1Supplement	拉丁语-1	\u0080-\u00FF
LatinExtended-A	拉丁语扩充-A	\u0100-\u017F
LatinExtended-Bound	拉丁语扩充-B	\u0180-\u024F
IPAExtensions	国际音标扩充	\u0250-\u02AF
SpacingModifierLetters	进格的修饰字符	\u02B0-\u02FF
CombiningDiacriticalMarks	组合用发音符	\u0300-\u036F
Greek	基本希腊语	\u0370-\u03FF
Cyrillic	西里尔语	\u0400-\u04FF
Armenian		\u0530-\u058F
Hebrew		\u0590-\u05FF
Arabic		\u0600-\u06FF
Syriac		\u0700-\u074F
Thaana		\u0780-\u07BF
Devanagari		\u0900-\u097F
Bengali		\u0980-\u09FF
Gurmukhi		\u0A00-\u0A7F
Gujarati		\u0A80-\u0AFF
Oriya		\u0B00-\u0B7F
Tamil		\u0B80-\u0BFF
Telugu		\u0C00-\u0C7F
Kannada		\u0C80-\u0CFF
Malayalam		\u0D00-\u0D7F
Sinhala		\u0D800-\uDFF
Thai		\u0E00-\u0E7F
Lao		\u0E80-\u0EFF
Tibetan	藏语	\u0F00-\u0FFF
Myanmar		\u1000-\u109F
Georgian		\u10A0-\u10FF
HangulJamo		\u1100-\u11FF
Ethiopic		\u1200-\u137F
Cherokee		\u13A0-\u13FF
UnifiedCanadianAboriginalSyllabics		\u1400-\u167F
Ogham		\u1680-\u169F
Runic		\u16A0-\u16FF
Khmer		\u1780-\u17FF
Mongolian	蒙古语	\u1800-\u18AF
LatinExtendedAdditional		\u1E00-\u1EFF
GreekExtended		\u1F00-\u1FFF
GeneralPunctuation	广义标点	\u2000-\u206F
SuperscriptsandSubscripts		\u2070-\u209F
CurrencySymbols	货币符号	\u20A0-\u20CF
CombiningMarksforSymbols		\u20D0-\u20FF
LetterlikeSymbols	类似字母的符号	\u2100-\u214F
NumberForms	数字形式	\u2150-\u218F
Arrows	箭头	\u2190-\u21FF
MathematicalOperators	数学运算符	\u2200-\u22FF
MiscellaneousTechnical	零杂技术用符号	\u2300-\u23FF
ControlPictures		\u2400-\u243F
OpticalCharacterRecognition		\u2440-\u245F
EnclosedAlphanumerics	带括号的字母数字	\u2460-\u24FF
BoxDrawing	制表符	\u2500-\u257F
BlockElements	方块图形	\u2580-\u259F
GeometricShapes	几何图形	\u25A0-\u25FF
MiscellaneousSymbols	零杂丁贝符（示意符等）	\u2600-\u26FF
Dingbats		\u2700-\u27BF
BraillePatterns		\u2800-\u28FF
CJKRadicalsSupplement		\u2E80-\u2EFF
KangxiRadicals		\u2F00-\u2FDF
IdeographicDescriptionCharacters		\u2FF0-\u2FFF
CJKSymbolsandPunctuation	CJK符号和标点	\u3000-\u303F
Hiragana	平假名	\u3040-\u309F
Katakana	片假名	\u30A0-\u30FF
Bopomofo	注音	\u3100-\u312F
HangulCompatibilityJamo		\u3130-\u318F
Kanbun		\u3190-\u319F
BopomofoExtended	扩展注音	\u31A0-\u31BF
EnclosedCJKLettersandMonths	带括号的CJK字母及月份	\u3200-\u32FF
CJKCompatibility	CJK兼容字符	\u3300-\u33FF
CJKUnifiedIdeographsExtensionA	CJK统一汉字扩展-A	\u3400-\u4dBF
CJKUnifiedIdeographs	CJK统一汉字	\u4E00-\u9fAF
YiSyllables		\uA000-\uA48F
YiRadicals		\uA490-\uA4CF
HangulSyllables		\uAC00-\uD7A3
HighSurrogates		\uD800-\uDB7F
HighPrivateUseSurrogates		\uDB80-\uDBFF
LowSurrogates		\uDC00-\uDFFF
PrivateUse	专用区	\uE000-\uF8FF
CJKCompatibilityIdeographs	CJK兼容汉字	\uF900-\uFAFF
AlphabeticPresentationForms		\uFB00-\uFB4F
ArabicPresentationForms-A		\uFB50-\uFDFF
CombiningHalfMarks		\uFE20-\uFE2F
CJKCompatibilityForms	CJK兼容形式	\uFE30-\uFE4F
SmallFormVariants	小写变体	\uFE50-\uFE6F
ArabicPresentationForms-Bound		\uFE70-\ufeFF
Specials		\uFFF0-\uFFFF
HalfwidthandFullwidthForms	半形及全形字符	\uFF00-\uFFEF

分类	全称	说明
Cn		UNASSIGNED
Lu		UPPERCASE_LETTER
Ll		LOWERCASE_LETTER
Lt		TITLECASE_LETTER
Lm		MODIFIER_LETTER
Lo		OTHER_LETTER
Mn		NON_SPACING_MARK
Me		ENCLOSING_MARK
Mc		COMBINING_SPACING_MARK
Nd		DECIMAL_DIGIT_NUMBER
Nl		LETTER_NUMBER
No		OTHER_NUMBER
Zs		SPACE_SEPARATOR
Zl		LINE_SEPARATOR
Zp		PARAGRAPH_SEPARATOR
Cc		CNTRL
Cf		FORMAT
Co		PRIVATE_USE
Cs		SURROGATE
Pd		DASH_PUNCTUATION
Ps		START_PUNCTUATION
Pe		END_PUNCTUATION
Pc		CONNECTOR_PUNCTUATION
Po		OTHER_PUNCTUATION
Sm		MATH_SYMBOL
Sc		CURRENCY_SYMBOL
Sk		MODIFIER_SYMBOL
So		OTHER_SYMBOL
L		LETTER
M		MARK
N		NUMBER
Z		SEPARATOR
C		CONTROL
P		PUNCTUATION
S		SYMBOL
LD		LETTER_OR_DIGIT
L1		Latin-1
all		ALL
ASCII		ASCII
Alnum		字母数字(0-9,a-z,A-Z)
Alpha		字母(a-z,A-Z)
Blank		空格和制表符(' '\|\t)
Cntrl		控制字符，不可打印
Digit		数字(0-9)
Graph		可打印且可视字母（例如空格' '是可打印的但不是可视字母，而 `a' 两者都是。）
Lower		小写字母
Print		可打印字母（非控制字符）
Punct		标符号（字母、数字、控制、空白符以外的字母），如：!@#$%}{<>,./?[]等等。
Space		空白符(' ',\t,0x09,0x0A,0x0B,0x0C,0x0D,0x20)
Upper		大写字母
XDigit		十六进制数字(0-9，a-f, A-F)

替换表达式

特殊字符

特殊字符介绍	描述
\n	换行
\b	向前删除一个字符。当这个字符位于替换串之首时，将删除匹配串之前的一个字符。若匹配串位于行首，将使匹配串所在行与前一行相合并。
\d	向后删除一个字符。当这个字符位于替换串之末时，将删除匹配串之后的一个字符。若匹配串位于行末，将使匹配串所在行与下一行相合并。
\e	插入一个ESC字符
\t	插入一个TAB字符
\n	n代表查找正则表达式中的子表达式（组）。\1代表第一个子表达式，\2代表第二个子表达式，依次类推。\0代表整个匹配到的字符串。
\v	大写下一个字母
\U	全部大写以后的字母，直到碰到其它指示符为止。
\l	小写下一个字母
\L	全部小写以后的字母，直到碰到其它指示符为止。
\E	取消所有的字母大小写指示符。

自定义替换表

在查找／替换中使用自定义替换表
有的时候，上述简单的自定义替换功能是不够的。例如，用户可能希望只把出现在括号内的源串替换为目标串。这种文本处理可以通过在查找/替换中使用自定义替换表来解决。

在查找/替换功能中使用自定义替换表的替换函数是\Tn，其中n是0-9的数字，注意n为0表示第10张替换表。如果略去n，其效果相当于\T1，即使用第一张替换表。例如要把所有放在方括号中的汉字替换为拼音，可以查找“\[(\E)\]”，替换为“\T{\1}”。即把第一个子表达式的匹配内容按自定义替换表转换。注意，如果\T函数的参数不在替换表的源串中，\T函数的结果与源串相同，即不做任何变换。

有些情况下，用户可能希望只使用替换表的一部分内容。还是以拼音为例，前面给出的替换表中包含了拼音的音调，如果在替换时不希望加上这些音调数字，可以使用“过滤”功能。所谓过滤，其实是用一个正则表达式去分析替换表的目标串，并把其中的某个子表达式取出来。

使用“过滤”时，在“设置自定义替换表”对话框中，点“过滤”按钮，在弹出的对话框中填入一个正则表达式。再以拼音为例，表达式可以写为“(\p{Alpha}+)(\d)”，其中第一对括号中的是不含音调的拼音，第二对括号是音调。在调用\T函数时，JTextPro会在目标串中查找这个正则表达式。但是如何把其中的子表达式取出来呢？\T函数还有一个可选的下标，取第n个子表达式的值就写作\T{...}[n]。所以，把放在方括号中的汉字替换为不带调的拼音，可以查找“\[(\E)\]”，替换为“\T{\1}[1]”

笨笨 2005-12-12 09:16 发表评论

减少全局竞争性同步，提高应用的垂直扩展能力

笨笨 — Mon, 12 Dec 2005 01:05:00 GMT

减少全局竞争性同步，提高应用的垂直扩展能力

垂直扩展，简单的说，是当单一系统硬件升级扩展时，如增加CPU，内存，应用程序能够随之线性提高业务处理能力。
多线程是服务端 Java 应用的标准处理方式，其优点不用赘述。本文要讨论的是，如何在设计阶段降低多线程之间的竞争性同步开销。

假设一个Web应用，需要为当前用户维护在线用户信息。此用户信息列表会放在 Application 范围的一个 Map 中，那么我们增加或删除一个在线用户的操作会是这样：。
Map clientMap = ...// from Application Context
synchronized(clientMap){
clientMap.put(clientId,clientObject);
}
这是一个典型的全局同步代码，当并发线程增加时，这部分代码就有可能会存在潜在垂直扩展瓶颈。

最简单解决办法：用 ConcurrentHashMap。
ConcurrentHashMap的多线程下的表现要比HashMap好的多，可以做到随着线程数增长性能基本保持稳定。
参见：http://www-128.ibm.com/developerworks/cn/java/j-jtp07233/index.html
对 ConcurrentHashMap 的分析，参见：http://www-128.ibm.com/developerworks/cn/java/j-jtp08223/index.html

在 ConcurrentMap/ConcurrentLinkedQueue 不能帮助我们的情况下，我们需要明确设计以避免全局竞争。
基本原则是：
1 预分配，降低争用出现的频率。
2 降低锁的粒度，将全局竞争变为局部竞争。

预分配策略示例：
对于一在线交易处理系统，需要为每个交易生成交易流水号，假设有多台交易服务器按照集群方式配置，同时提供服务。那么需要在交易服务器之间进行同步，以保证交易流水号的正常增长。
一种处理方式为：在数据库中保存当前交易流水号的最高值，每台机器一次预分配1000流水，内部采用线程同步进行分配，用完再从数据库分配。这里数据库充当了全局存储和全局同步工具，如果每来一条交易，就访问一次数据库，考虑到数据库同步和事务的负担，这里会成为严重的性能瓶颈。

降低锁粒度策略示例：
1 ConcurrentHashMap 本身就是个很好的模范。它采用32颗锁，来代替普通 HashMap 的单颗对象锁。
2 对于数据库中并发大的表，可以考虑将表级锁改为行级锁，提高并发性。

暂时想不起来示例，有空再补

笨笨 2005-12-12 09:05 发表评论

JDK 1.5 对超大字符集的支持

笨笨 — Fri, 09 Dec 2005 03:27:00 GMT

JDK 1.5 对超大字符集的支持

Unicode 与超大字符集
国标 GB18030 规定了4字节扩展部分，这部分区域目前在 Unicode 规范中作为CJK Ext B区存在，即常说的中文超大字符集。这部分区域编码为 \U20000 - \U2A6D6。

UTF-16与Java String/Character 对象
一个完整的 Unicode 字符叫代码点/CodePoint，而一个 Java char 叫代码单元 code unit。
String 对象以UTF-16保存 Unicode 字符，需要用2个字符表示一个超大字符集的汉字，这这种表示方式称之为 Surrogate，第一个字符叫 Surrogate High，第二个就是 Surrogate Low。

判断一个char是否是 Surrogate 区的字符，用 Character的 isHighSurrogate()/isLowSurrogate()方法。
从两个Surrogate High/Low 字符，返回一个完整的 Unicode CodePoint 用 Character.toCodePoint()/codePointAt()方法。

一个 Code Point ，可能需要一个也可能需要两个char表示，因此不能直接使用 CharSequence.length()方法直接返回一个字符串到底有多少个汉字，而需要用String.codePointCount()/Character.codePointCount()。

要定位字符串中的第N个字符，不能直接将 N 作为偏移量，而需要从字符串头部依次遍历得到，需要用String/Character.offsetByCodePoints() 方法。

从字符串的当前字符，找到上一个字符，也不能直接用offset -- 实现，而需要用 String.codePointBefore()/Character.codePointBefore()，或用 String/Character.offsetByCodePoints()

从当前字符，找下一个字符，不能直接用 offset ++ 实现，需要判断当前 CodePoint 的长度后，再计算得到，或用 String/Character.offsetByCodePoints() 。

Swing 对超大字符集的支持
JTextPane增加了对超大字符集的支持，只要设置字体正确，就可以显示和编辑超大字符集。

笨笨 2005-12-09 11:27 发表评论

业务驱动用例测试

笨笨 — Thu, 08 Dec 2005 09:09:00 GMT

业务驱动用例测试

笨笨所知的测试大致分类

单元测试/Unit test
基于代码中类或函数一级的测试

用例测试/Use case test.
基于一个完整业务用例的测试，可以不包括用户业务系统环境的完整操作流程。
如，银行网银系统的转账测试可以认为是一个完整业务用例测试，但是不必要要求测试用例先执行登录过程，再进行转账业务代码的测试。

集成测试/Integration test
由业务人员主导，业务系统作为一个完整黑盒，测试系统功能和性能。

用户接受测试/User Accept test
集成测试通过后，用户基于生产系统剥离的实际数据，再一次对业务系统执行测试；如果集成测试不充分，可以再一次有机会暴露系统的缺陷。

项目实施过程与测试

从项目的实施过程来说，单元测试是程序员自测，算在开发阶段，集成测试和用户接受测试所占用时间能够达到项目代码开发阶段的一倍到两倍，大型项目的测试阶段可能还要长。
而用例级测试目前很少作为一个正式的阶段在项目实施过程中存在，或由程序员自行自测，或合并到集成测试过程中。

对于大型业务系统，集成测试和用户测试所花费的主要工作量如下，可能不全。
1 数据准备，测试人员调配准备。
2 测试过程中，测试人员要找到哪些测试数据还能用，再手工操作系统界面，执行测试过程。对于大型业务系统来说，可用测试数据是随着测试进展不断变化的，很有可能某个用户数据刚刚状态正常，现在就欠费了。要想找到合适的数据来测试系统，这是个费劲且混乱的过程。
3 集成回归测试，业务系统如果有升级或改动，需要将所有交易重新测试一遍，以防止变更给原有代码引入缺陷。

用例测试
用例测试关注业务。

用例测试集中在业务服务这一层，业务服务直接对应了业务用例。
用例测试注重业务服务运行环境的模拟和重现，从而支持业务服务层的自动测试。

用例测试的价值
1 减少集成测试的时间和成本，降低集成测试发现缺陷数，从而降低项目总缺陷修复代价。
用例测试缺陷修复代价远低于集成测试的缺陷修复代价；用例测试发现大部分缺陷后，集成测试就相对轻松了。
2 可回归的用例测试支持快速代码重构。
3 ...

单元测试无法覆盖用例测试
业务代码运行需要底层资源如数据库或其它业务系统配合，单元测试工具缺乏提供业务服务运行所需环境的模拟，从Junit系列单元测试工具来说，它还是主要从技术角度考虑，从业务角度的考虑如：
底层资源（数据库，JMS）模拟
依赖服务模拟
服务访问模拟
自动检测、重放和比对服务运行时的输入输出参数、资源、依赖服务。
服务接口变动波及分析

代码重构的成本
代码重构需要付出代价。集成测试费时费力，但用户不可能因为程序员说“我保证代码重构不会改变系统功能”，就不对变动后代码进行测试。
用例回归测试支持可以以较小代价支持代码重构，因为它可在业务服务级自动对功能进行验证，集成测试工作能够相应的减少。

笨笨 2005-12-08 17:09 发表评论

Java 多线程或内存泄漏缺陷排查的一些经验

笨笨 — Wed, 07 Dec 2005 09:07:00 GMT

Java 多线程或内存泄漏缺陷排查的一些经验

JVM Thread DUMP 基本功
Windows 下用Ctrl-Break,Unix 下用 kill -3 的命令让JVM输出 thread dump。
每隔几秒 thread dump 一次，多做几次，分析比较。

Thread Dump分析的一些经验
1 找出这几次Thread dump 文件中，有哪些 Java Thread 处于长时间等待状态，很有可能就是问题之所在。
2 如果Java 线程等在某些不可能出错的地方，如 java.lang.XXX/java.util.XXX对象的某个方法，则很有可能是因为出现了 OutOfMemoryError 异常，原因不外乎是JVM 堆内存过小或出现内存泄漏。
3 对于死锁，最直接的表现就是至少两个线程长时间等待相互持有的对象（每个线程所持有的对象和它当前等待的对象都可以从 dump 中看到）。
4 对于死循环，要辅助CPU占用率确定；如果发现CPU至少一颗使用率为100%，并且有线程长时间位于用户代码处，则很有可能是死循环引起。

多线程缺陷排查
对于Java死锁问题很少出现，多线程访问变量时冲突很常见。
一般出在多线程共享同一对象实例如全局Map，Servlet,Interceptor，或如多线程同时访问某个静态方法，而此静态方法不巧又访问另一个静态变量。
这类问题自测发现不了，在并发压力测试时才能发现。如果代码的入口检查做得好，多半会抛出一些莫名其妙的异常；要不然就会出现正常运行但数据库记录不对的情况。
对这种问题，并无多好的办法解决，主要还是靠看异常堆栈和静态代码分析来解决。

内存泄漏排查
一般用商用辅助工具排查，但有可能出现在JVM heap dump 模式下，运行极度缓慢的情况。
笨笨曾经用过一个非常简单的工具，效果不错，它可以做到在不影响jvm 执行速度的情况下，做heap dump，然后对dump出的文件进行排序，检查即可。

heapprofile(http://www.virtualmachine.de/)

笨笨 2005-12-07 17:07 发表评论

With or Without EJB?

笨笨 — Wed, 07 Dec 2005 07:54:00 GMT

With or Without EJB?

EJB 运行时所享受的 J2EE 基础服务

1 参与AppServer 提供分布式事务管理(JTA,JTS)。
2 AppServer 提供高性能通讯框架(基于RMI 或 IIOP实现)和大并发处理。
1) AppServer 如 WebLogic/WebSphere 替换了 Sun 标准 RMI 实现（基于著名的多线程阻塞IO），国内的 Apusic 4 则基于纯 NIO 的 IIOP通讯协议实现EJB 远程通讯。
2) AppServer 提供 EJB 实例池、请求队列、执行线程池等等服务。

3 AppServer 提供透明 EJB 集群管理（负载均衡、故障恢复），保证应用的处理能力能够水平扩展。
4 J2EE 安全体系
5 AppServer 特有的附加增值服务
1) 如 WebLogic WTC EJB，可实现从TUXEDO Service(C语言) 高性能访问 EJB。

大型项目所关注的重点

对于大型项目如全国集中这一级别而言，它所关注的重点风险反而是系统的性能、吞吐量、稳定性、高可用性这样的一些基本属性，这里并非说具体的业务功能就不重要；而是与上述的基本属性相比，业务功能可以说是相对的不重要。
基本属性如果有某一项没有达到，直接后果就是项目失败，或者运行时存在高风险。
业务功能则主要是堆时间、堆人、堆代码、堆测试人员的问题，如果实在来不及了，那就放到第二期去做好了，不影响主旋律么。

对于大型项目而言，采用新技术的关注点主要是：
1 能否满足基本质量属性，无重大运行时风险。
比如说，数据访问层，从性能和稳定性角度而言，还算直接采用 JDBC 编码合适，最多采用SQL映射型JDO。对于带缓冲的JDO实现则不宜采用，会带来水平扩展和稳定性风险。

2 项目组相关人员是否有此技术的经验，最好不要付出学习成本，避免因不熟悉所带来的风险。

EJB 和 IoC 框架如 Spring 的定位比较

Spring IoC/Context/AOP 可以认为是一个代码组织(Assembler)框架，关注代码如何组织和去耦。

EJB 则是运行结构，关注我们的应用如何运行，如何做集群，系统计算资源如何分配等等。
EJB 3 的改进主要还是从代码组织角度做出的，对于 EJB 运行时架构并没有多少变化（如果说错了，还请指正）；BEA 还有过将 EJB 3的代码翻译为 EJB 2.1 运行时架构的考虑（参见 BEA 的关于 EJB 3 的一篇文章http://www.javaworld.com/javaworld/jw-08-2004/jw-0809-ejb_p.html）。

从上述角度来看，EJB 和 Spring 是从不同的角度看待应用，我们完全可以做到用 Spring 组织代码实现EJB。

With or Without EJB?
从上述讨论可以看出，用Spring还是用EJB并不是个问题，最终还是看用户的实际需求而定。小Web项目多半不关注性能、并发、集群等等属性，出于开发过程简单和学习成本的考虑，完全可以不用EJB；而大型项目可能还是得用EJB。

笨笨 2005-12-07 15:54 发表评论

基于Java的高性能TP Monitor的设想

笨笨 — Tue, 06 Dec 2005 09:49:00 GMT

目前的高性能TP Monitor如 TUXEDO CICS全部是基于 C/多进程开发而成

国内市场被BEA/IBM高度垄断，可能也就东方通TongEASY的能虎口夺食。

从TP Monitor的在金融业的应用经验来看，TP Monitor主要作用是：
1 提供一个高性能、高稳定的通讯框架：（如银行总分互联、应用之间互联）
2 支持大并发的交易处理平台（在线交易实时处理，但一般不作为事务管理器，因为全局事务代价过高，主要用数据库自身事务机制）。
3 支持软件负载均衡，支持水平扩展（如：TUXEDO MP）。

开源App Server如Jboss/Jonas 全部采用纯Java实现，性能是个问题，跟TUXEDO/CICS相比。

假设我们要自行实现一个可用的TP Monitor，必须要解决上述几点。

从Java的性能来看，它的内部代码执行效率不低，主要弱在：
1 socket通讯效率低
2 ipc机制不支持
3 数据库访问效率低（实际的交易实现效率低，不管用EJB还是POJO）

目前有考虑
1 高性能的通讯框架，必须采用C代码实现。Java做不到Zero Copy，并且JNI在Java和本地C代码之间复制内存代价也很高。
2 大并发的处理平台，这个是Java的优势所在，Java对于同步、并发的实现，写起来简单
3 IPC支持（SystemV消息队列、共享内存、信号灯），标准 Java 库缺乏，但是可以通过JNI实现，实现策略可以参考SWT的实现策略。
4 用户SERVICE实现（数据库访问），采用C实现，充分利用高效的数据库本地接口。

笨笨 2005-12-06 17:49 发表评论

不间断运行工作系统元数据更新策略

笨笨 — Fri, 02 Dec 2005 08:40:00 GMT

关键在于元数据更新的事务性

一般做法如下：

主动检查：每个进程内，有一个定时检查模块，定时检查数据库中元数据表的最后更新时间戳，发现需要重新加载的元数据。
被动通知：每个进程内，有一个等待更新消息通知的消息驱动Bean模块，接受元数据管理机发出的元数据更新JMS消息/MQ消息，更新指定元数据。

元数据更新的事务性：为保证业务处理模块不受元数据更新过程的影响；在程序设计上，采用双内存切换机制。即内存中，同时有两块内存用于存放元数据。任一时刻，元数据全局变量指向其中一块，为当前工作元数据内存块；元数据检查更新模块，则使用另一块内存，在元数据加载、校验过程结束后，再切换元数据全局变量指向新的元数据内存块；切换元数据全局变量的过程自身受共享锁保护。从而保证业务处理模块的处理过程不受后台元数据切换的影响，并且业务处理模块所访问的元数据始终是可用的，不会出现业务处理过程中，元数据变化的情况。

对于分布式应用，有可能需要自行编写元数据更新的分布式事务管理器，自行实现元数据更新的两阶段提交过程。如果想偷懒，也可以考虑用JCA自行实现Resource Manager，借用应用服务器的Transaction Manager。

笨笨 2005-12-02 16:40 发表评论

Java 与 C 性能比较的一些经验数据

笨笨 — Fri, 02 Dec 2005 08:17:00 GMT

Java 与 C 性能比较的一些经验数据

太细的数据也拿不到，必须要针对具体平台和JVM

基本代码执行
Java与C在 1:3-1:5左右，在Intel平台上用JDK1.4测得。
JNI不快，一次基本JNI调用差不多等于一次Java方法调用（未考虑大数据量传输）

数据库访问
JDBC与数据库本地接口差距较大，差不多在1到2个数量级左右，或更多。可以认为在1:10 - 1:50之间

socket网络传输
Java要分普通多线程和NIO方式
多线程方式，并发受限，一般不会超过150-200个并发，再多性能不会增加。这种方式下，网络传输性能与C差距可以认为在1个数量级左右，即1:10-1:30。
NIO方式，并发不错，能够支持到几千个并发，性能差距小些，可以做到在1:3 -- 1:5 左右。
C 通过select/poll/epoll技术，并发10000没有多少问题，并且通过Zero-Copy技术，可以避开Java 所无法避免缓冲区复制(Java->C缓冲区复制)的问题。

总的来看，Java与C在普通多层Web应用方面，差距可以认为在1个数量级左右，关键应用如TP Monitor目前还无法使用Java。

笨笨 2005-12-02 16:17 发表评论