BlogJava-海阔天空-文章分类-基础技术

零拷贝技术与实现

石头@ — Sun, 09 Aug 2009 03:09:00 GMT

一．基本概念
零拷贝（zero-copy）基本思想是：数据报从网络设备到用户程序空间传递的过程中，减少数据拷贝次数，减少系统调用，实现CPU的零参与，彻底消除 CPU在这方面的负载。实现零拷贝用到的最主要技术是DMA数据传输技术和内存区域映射技术。如图1所示，传统的网络数据报处理，需要经过网络设备到操作系统内存空间，系统内存空间到用户应用程序空间这两次拷贝，同时还需要经历用户向系统发出的系统调用。而零拷贝技术则首先利用DMA技术将网络数据报直接传递到系统内核预先分配的地址空间中，避免CPU的参与；同时，将系统内核中存储数据报的内存区域映射到检测程序的应用程序空间（还有一种方式是在用户空间建立一缓存，并将其映射到内核空间，类似于linux系统下的kiobuf技术），检测程序直接对这块内存进行访问，从而减少了系统内核向用户空间的内存拷贝，同时减少了系统调用的开销，实现了真正的“零拷贝”。

图1 传统数据处理与零拷贝技术之比较
二．实现
在redhat7.3 上通过修改其内核源码中附带的8139too.c完成零拷贝的试验，主要想法是：在8139too网卡驱动模块启动时申请一内核缓存，并建立一数据结构对其进行管理，然后试验性的向该缓存写入多个字符串数据，最后通过proc文件系统将该缓存的地址传给用户进程；用户进程通过读proc文件系统取得缓存地址并对该缓存进行地址映射，从而可以从其中读取数据。哈哈，为了偷懒，本文只是对零拷贝思想中的地址映射部分进行试验，而没有实现DMA数据传输（太麻烦了，还得了解硬件），本试验并不是一个IDS产品中抓包模块的一部分，要想真正在IDS中实现零拷贝，除了DMA外，还有一些问题需考虑，详见本文第三节的分析。以下为实现零拷贝的主要步骤，详细代码见附录。

步骤一：修改网卡驱动程序
a．在网卡驱动程序中申请一块缓存：由于在linux2.4.X内核中支持的最大可分配连续缓存大小为2M，所以如果需要存储更大量的网络数据报文，则需要分配多块非连续的缓存，并使用链表、数组或hash表来对这些缓存进行管理。

#define PAGES_ORDER 9
unsigned long su1_2
su1_2 = __get_free_pages(GFP_KERNEL,PAGES_ORDER);

b. 向缓存中写入数据：真正IDS产品中的零拷贝实现应该是使用DMA数据传输把网卡硬件接收到的包直接写入该缓存。作为试验，我只是向该缓存中写入几个任意的字符串，如果不考虑DMA而又想向缓存中写入真正的网络数据包，可以在8139too.c的rtl8139_rx_interrupt()中调用 netif_rx()后插入以下代码：

//put_pkt2mem_n++; //包个数
//put_mem(skb->data,pkt_size);
其中put_pkt2mem_n变量和put_mem函数见附录。

c. 把该缓存的物理地址传到用户空间：由于在内核中申请的缓存地址为虚拟地址，而在用户空间需要得到的是该缓存的物理地址，所以首先要进行虚拟地址到物理地址的转换，在linux系统中可以使用内核虚拟地址减3G来获得对应的物理地址。把缓存的地址传到用户空间需要在内核与用户空间进行少量数据传输，这可以使用字符驱动、proc文件系统等方式实现，在这里采用了proc文件系统方式。

int read_procaddr(char *buf,char **start,off_t offset,int count,int *eof,void *data)
{
     sprintf(buf,"%u\n",__pa(su1_2));
     *eof = 1;
     return 9;
}
create_proc_read_entry("nf_addr",0,NULL,read_procaddr,NULL);

步骤二：在用户程序中实现对共享缓存的访问
a.读取缓存地址：通过直接读取proc文件的方式便可获得。

char addr[9];
int fd_procaddr;
unsigned long ADDR;
fd_procaddr = open("/proc/nf_addr",O_RDONLY);
read(fd_procaddr,addr,9);
ADDR = atol(addr);

b.把缓存映射到用户进程空间中：在用户进程中打开/dev/mem设备(相当于物理内存），使用mmap把网卡驱动程序申请的缓存映射到自己的进程空间，然后就可以从中读取所需要的网络数据包了。

char *su1_2;
int fd;
fd=open("/dev/mem",O_RDWR);
su1_2 = mmap(0,PAGES*4*1024, PROT_READ|PROT_WRITE, MAP_SHARED, fd, ADDR);

三．分析
     零拷贝中存在的最关键问题是同步问题，一边是处于内核空间的网卡驱动向缓存中写入网络数据包，一边是用户进程直接对缓存中的数据包进行分析（注意，不是拷贝后再分析），由于两者处于不同的空间，这使得同步问题变得更加复杂。缓存被分成多个小块，每一块存储一个网络数据包并用一数据结构表示，本试验在包数据结构中使用标志位来标识什么时候可以进行读或写，当网卡驱动向包数据结构中填入真实的包数据后便标识该包为可读，当用户进程对包数据结构中的数据分析完后便标识该包为可写，这基本解决了同步问题。然而，由于IDS的分析进程需要直接对缓存中的数据进行入侵分析，而不是将数据拷贝到用户空间后再进行分析，这使得读操作要慢于写操作，有可能造成网卡驱动无缓存空间可以写，从而造成一定的丢包现象，解决这一问题的关键在于申请多大的缓存，太小的缓存容易造成丢包，太大的缓存则管理麻烦并且对系统性能会有比较大的影响。

四．附录
a.     8139too.c中加入的代码

/*add_by_liangjian for zero_copy*/
#include
#include
#include
#include
#define PAGES_ORDER 9
#define PAGES 512
#define MEM_WIDTH     1500
/*added*/

/*add_by_liangjian for zero_copy*/
struct MEM_DATA
{
     //int key;
     unsigned short width;/*缓冲区宽度*/
     unsigned short length;/*缓冲区长度*/
     //unsigned short wtimes;/*写进程记数,预留，为以后可以多个进程写*/
     //unsigned short rtimes;/*读进程记数,预留，为以后可以多个进程读*/
     unsigned short wi;/*写指针*/
     unsigned short ri;/*读指针*/
} * mem_data;
struct MEM_PACKET
{
     unsigned int len;
     unsigned char packetp[MEM_WIDTH - 4];/*sizeof(unsigned int) == 4*/
};
unsigned long su1_2;/*缓存地址*/
/*added*/

/*add_by_liangjian for zero_copy*/
//删除缓存
void del_mem()
{
     int pages = 0;
     char *addr;
     addr = (char *)su1_2;
     while (pages <=PAGES -1)
     {
         mem_map_unreserve(virt_to_page(addr));
         addr = addr + PAGE_SIZE;
         pages++;
     }
     free_pages(su1_2,PAGES_ORDER);
}
void init_mem()
/********************************************************
*                   初始化缓存
*       输入:   aMode:     缓冲区读写模式:   r,w         *
*       返回:   00:     失败                         *
*               >0:     缓冲区地址                   *
********************************************************/
{
     int i;
     int pages = 0;
     char *addr;
     char *buf;
     struct MEM_PACKET * curr_pack;

     su1_2 = __get_free_pages(GFP_KERNEL,PAGES_ORDER);
     printk("[%x]\n",su1_2);
     addr = (char *)su1_2;
     while (pages <= PAGES -1)
     {
         mem_map_reserve(virt_to_page(addr));//需使缓存的页面常驻内存
         addr = addr + PAGE_SIZE;
         pages++;
     }
     mem_data = (struct MEM_DATA *)su1_2;
     mem_data[0].ri = 1;
           mem_data[0].wi = 1;
           mem_data[0].length = PAGES*4*1024 / MEM_WIDTH;
           mem_data[0].width = MEM_WIDTH;
     /* initial su1_2 */
     for(i=1;i<=mem_data[0].length;i++)
     {
         buf = (void *)((char *)su1_2 + MEM_WIDTH * i);
         curr_pack = (struct MEM_PACKET *)buf;
         curr_pack->len = 0;
     }
}
int put_mem(char *aBuf,unsigned int pack_size)
/****************************************************************
*                 写缓冲区子程序                                 *
*       输入参数     :   aMem:   缓冲区地址                       *
*                       aBuf:   写数据地址                       *
*       输出参数     :   <=00 :   错误                             *
*                       XXXX :   数据项序号                       *
*****************************************************************/
{
     register int s,i,width,length,mem_i;
     char *buf;
     struct MEM_PACKET * curr_pack;

     s = 0;
     mem_data = (struct MEM_DATA *)su1_2;
     width   = mem_data[0].width;
     length = mem_data[0].length;
     mem_i   = mem_data[0].wi;
     buf = (void *)((char *)su1_2 + width * mem_i);

     for (i=1;i          curr_pack = (struct MEM_PACKET *)buf;
             if   (curr_pack->len == 0){
                     memcpy(curr_pack->packetp,aBuf,pack_size);
                     curr_pack->len = pack_size;;
                 s = mem_i;
             mem_i++;
                     if   (mem_i >= length)
                         mem_i = 1;
                 mem_data[0].wi = mem_i;
                 break;
             }
             mem_i++;
             if   (mem_i >= length){
                     mem_i = 1;
                     buf = (void *)((char *)su1_2 + width);
             }
             else buf = (char *)su1_2 + width*mem_i;
         }

     if(i >= length)
             s = 0;
     return s;
}
// proc文件读函数
int read_procaddr(char *buf,char **start,off_t offset,int count,int *eof,void *data)
{
     sprintf(buf,"%u\n",__pa(su1_2));
     *eof = 1;
     return 9;
}
/*added*/

在8139too.c的rtl8139_init_module()函数中加入以下代码：
/*add_by_liangjian for zero_copy*/
     put_pkt2mem_n = 0;
     init_mem();
     put_mem("data1dfadfaserty",16);
     put_mem("data2zcvbnm",11);
     put_mem("data39876543210poiuyt",21);
     create_proc_read_entry("nf_addr",0,NULL,read_procaddr,NULL);
/*added */

在8139too.c的rtl8139_cleanup_module()函数中加入以下代码：
/*add_by_liangjian for zero_copy*/
     del_mem();
     remove_proc_entry("nf_addr",NULL);
/*added*/

b．用户空间读取缓存代码

#include
#include
#include
#include
#include
#define PAGES 512
#define MEM_WIDTH 1500
struct MEM_DATA
{
     //int key;
     unsigned short width;/*缓冲区宽度*/
     unsigned short length;/*缓冲区长度*/
     //unsigned short wtimes;/*写进程记数,预留，为以后可以多个进程写*/
     //unsigned short rtimes;/*读进程记数,预留，为以后可以多个进程读*/
     unsigned short wi;/*写指针*/
     unsigned short ri;/*读指针*/
} * mem_data;

struct MEM_PACKET
{
     unsigned int len;
     unsigned char packetp[MEM_WIDTH - 4];/*sizeof(unsigned int) == 4*/
};

int get_mem(char *aMem,char *aBuf,unsigned int *size)
/****************************************************************
*                 读缓冲区子程序                                 *
*       输入参数     :   aMem:   缓冲区地址                       *
*                       aBuf:   返回数据地址, 其数据区长度应大于*
*                               缓冲区宽度                       *
*       输出参数     :   <=00 :   错误                             *
*                       XXXX :   数据项序号                       *
*****************************************************************/
{
     register int i,s,width,length,mem_i;
     char     *buf;
     struct MEM_PACKET * curr_pack;

     s = 0;
     mem_data = (void *)aMem;
     width   = mem_data[0].width;
     length = mem_data[0].length;
     mem_i   = mem_data[0].ri;
     buf = (void *)(aMem + width * mem_i);

     curr_pack = (struct MEM_PACKET *)buf;
     if   (curr_pack->len != 0){/*第一个字节为0说明该部分为空*/
             memcpy(aBuf,curr_pack->packetp,curr_pack->len);
             *size = curr_pack->len;
             curr_pack->len = 0;
             s = mem_data[0].ri;
             mem_data[0].ri++;
             if(mem_data[0].ri >= length)
                     mem_data[0].ri = 1;
             goto ret;
         }

     for (i=1;i              mem_i++;/*继续向后找，最糟糕的情况是把整个缓冲区都找一遍*/
             if   (mem_i >= length)
                 mem_i = 1;
             buf = (void *)(aMem + width*mem_i);
             curr_pack = (struct MEM_PACKET *)buf;
             if   (curr_pack->len == 0)
                     continue;
             memcpy(aBuf,curr_pack->packetp,curr_pack->len);
             *size = curr_pack->len;
             curr_pack->len = 0;
             s = mem_data[0].ri = mem_i;
             mem_data[0].ri++;
             if(mem_data[0].ri >= length)
             mem_data[0].ri = 1;
             break;
         }

     ret:
     return s;
}

int main()
{
     char *su1_2;
     char receive[1500];
     int i,j;
     int fd;
     int fd_procaddr;
     unsigned int size;
     char addr[9];
     unsigned long ADDR;

     j = 0;
     /*open device 'mem' as a media to access the RAM*/
     fd=open("/dev/mem",O_RDWR);
     fd_procaddr = open("/proc/nf_addr",O_RDONLY);
     read(fd_procaddr,addr,9);
     ADDR = atol(addr);
     close(fd_procaddr);
     printf("%u[%8lx]\n",ADDR,ADDR);
     /*Map the address in kernel to user space, use mmap function*/
     su1_2 = mmap(0,PAGES*4*1024, PROT_READ|PROT_WRITE, MAP_SHARED, fd, ADDR);
     perror("mmap");
     while(1)
     {
         bzero(receive,1500);
         i = get_mem(su1_2,receive,&size);
         if (i != 0)
         {
             j++;
             printf("%d:%s[size = %d]\n",j,receive,size);
         }
         else
         {
             printf("there have no data\n");
             munmap(su1_2,PAGES*4*1024);
             close(fd);
             break;
         }
     }
     while(1);
}

五．参考文献
1．CHRISTIAN KURMANN, FELIX RAUCH ,THOMAS M. STRICKER.
Speculative Defragmentation - Leading Gigabit Ethernet to True Zero-Copy Communication
2．ALESSANDRO RUBINI,JONATHAN CORBET.《LINUX DEVICE DRIVERS 2》,O’Reilly & Associates 2002.
3．胡希明,毛德操.《LINUX 内核源代码情景分析》,浙江大学出版社 2001

关于作者：梁健，华北计算技术研究所在读硕士研究生，研究方向：信息安全。论文开题为《基于系统调用分析的主机异常入侵检测与防御》。对IDS有两年多的研究经验，熟悉linux内核，熟悉linux c/c++编程、win32 API编程，对网络和操作系统安全感兴趣。
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
零拷贝技术分为两步：
1、硬件到内核，实现的前提是网卡必须支持DMA，对于不支持DMA的网卡无法实现零拷贝。
2、内核到用户层，将系统内核中存储数据报的内存区域映射到检测程序的应用程序空间或者在用户空间建立一缓存，并将其映射到内核空间。
很多相关公司都采用了这种技术Firewall/IDS等，这两种技术已经很成熟了

摘自：http://hi.baidu.com/msingle/blog/item/0ec4eb239db94e40ad34de18.html

石头@ 2009-08-09 11:09 发表评论

硬盘簇

石头@ — Sat, 08 Aug 2009 14:31:00 GMT

文件系统是操作系统与驱动器之间的接口，当操作系统请求从硬盘里读取一个文件时，会请求相应的文件系统（FAT 16/32/NTFS）打开文件。扇区是磁盘最小的物理存储单元，但由于操作系统无法对数目众多的扇区进行寻址，所以操作系统就将相邻的扇区组合在一起，形成一个簇，然后再对簇进行管理。每个簇可以包括2、4、8、16、32或64个扇区。显然，簇是操作系统所使用的逻辑概念，而非磁盘的物理特性。

为了更好地管理磁盘空间和更高效地从硬盘读取数据，操作系统规定一个簇中只能放置一个文件的内容，因此文件所占用的空间，只能是簇的整数倍；而如果文件实际大小小于一簇，它也要占一簇的空间。所以，一般情况下文件所占空间要略大于文件的实际大小，只有在少数情况下，即文件的实际大小恰好是簇的整数倍时，文件的实际大小才会与所占空间完全一致。

簇是指可分配的用来保存文件的最小磁盘空间，计算机中所有的信息都保存在簇中。簇越小，保存信息的效率就越高。在FAT16文件系统中，每个分区最多有65525个簇，簇大小默认值为32KB；在FAT32文件系统中使用的簇比FAT16小，默认为4KB。
那么在NTFS文件系统中磁盘簇的大小设为多少才合适呢?下面看看大家的讨论：

一、在NTFS文件系统中如何设置簇大小

默认的情况下，在格式化的时候如果没有指定簇的大小，那么系统会根据分区的大小选择默认的簇值。其实在NTFS文件系统中格式化的时候，可以在 “Format”命令后面添加“/a:UnitSize ”参数来指定簇的大小，UnitSize表示簇大小的值，NTFS支持512/1024/2048/4096/8192/16K/32K/64K。比如 “format d:/fs:NTFS /a:2048”，表示将D盘用NTFS文件系统格式化，簇的值为2048B。

二、使用默认的设置

对于初学者来说，其实没有必要去手工设置簇的大小，因为一般情况下使用默认的设置就可以了。比如在用NTFS文件系统格式化分区的时候，系统会根据分区的大小自动选择默认的簇大小，比如4KB。

三、簇的大小因硬盘分区大小而异

在NTFS文件系统中，当分区的大小在2GB以下时，簇的大小应该比相应的FAT32簇小，即小于4KB；当分区的大小在2GB以上时（2GB~2TB），簇的大小应该都为4KB。

四、使用压缩功能对簇大小的要求

在Windows 2000/XP系统中，为了使用压缩功能来节省磁盘空间，必须遵循两个条件：

1．磁盘分区必须是NTFS文件系统；
2．分区中簇的大小不得超过4KB（默认簇的大小，即4096字节）。

五、簇的大小的影响

在NTFS文件系统中，簇的大小会影响到磁盘文件的排列，设置适当的簇大小可以减少磁盘空间丢失和分区上碎片的数量。如果簇设置过大，会影响到磁盘存储效率；反之如果设置过小，虽然会提高利用效率，但是会产生大量磁盘碎片。

硬盘是计算机中极为重要的存储设备，计算机工作所用到的全部文件系统和数据资料的绝大多数都存储在硬盘中。硬盘是产生计算机软故障最主要的地方，常见的硬盘软故障有：硬盘重要参数及文件丢失，电脑不能起动；碎片过多，电脑运行速度变慢；硬盘分区后丢失容量等。对付硬盘软故障，只要我们肯动脑并利用一些硬盘维护工具，发挥一不怕苦、二不怕（硬盘）死的革命精神，外加胆大心细，当然还要掌握硬盘基本常识，这样就可以轻松搞定（说的容易、做起来可不简单 :( ）。因此，我收集了大量的资料整理汇编了“硬盘软故障完全修复手册”，希望能在与大家一起学习的过程中掌握硬盘常见故障的排除方法，做到“自已动手、丰衣足食”，凡事不求人的目的。
大家知道，一个硬盘要能存放文件，必须经过硬盘分区，格式化等操作步骤，因为经过这些步骤之后，在硬盘中就建立起了主分区，引导分区，确定了FAT16或 FAT32文件表。主分区的作用是保存硬盘中各逻辑分区在盘片上起始位置和终止位置及分区的容量大小。引导分区的作用是在固定的位置存放有操作系统文件，在电脑送电或复位时，由BIOS程序将处于固定位置的系统文件装入内存，再将电脑控制权交给系统文件人而完成引导过程。扩展分区作为一个主分区占用了主分区表的一个表项。在扩展分区起始位置所指示的扇区（即该分区的第一个扇区）中，包含有第一个逻辑分区表，同样从1BEH字节开始，每个分区表项占用16个字节。逻辑分区表一般包含两个分区表项，一个指向某逻辑分区，另一个则指向下一个扩展分区。下一个扩展分区的首扇区又包含了一个逻辑分区表，
这样以此类推，扩展分区中就可以包含多个逻辑分区。下面我们就来学习一下硬盘数据的基本结构。
★ 硬盘的数据结构 ★
① MBR（Main Boot Record 主引导记录区）
MBR位于整个硬盘的0磁道0柱面1扇区，包括硬盘引导程序和分区表。在总共512字节的硬盘主引导扇区中，MBR只占用了其中的446个字节，其最后两个字节“55 AA”是分区的结束标志。另外的64个字节交给了DPT（Disk Partition Table 硬盘分区表），从1BEH字节开始，共占用64个字节，包含四个分区表项。每个分区表项的长度为16个字节，它包含一个分区的引导标志、系统标志、起始和结尾的柱面号、扇区号、磁头号以及本分区前面的扇区数和本分区所占用的扇区数。其中“引导标志”表明此分区是否可引导，即是否活动分区。当引导标志为 “80”时，此分区为活动分区；“系统标志”决定了该分区的类型，如“06”为FAT16分区，“0B”为FAT32分区，“07”为NTFS分区，“63”为UNIX分区，等；起始和结尾的柱面号、扇区号、磁头号指明了该分区的起始和终止位置。
我们假设一个硬盘分区表从1BEH字节开始的16个字节为 80 01 01 00 06 0D 68 6D 28 00 00 00 78 20 03 00
硬盘分区表项的16个字节分配如下：
第1字节：是一个分区的激活标志，表示系统可引导。如是0则表示非活动分区。
第2字节：该分区起始磁头（HEAD）号
第3字节：该分区起始扇区（Sector）号
第4字节：该分区起始的柱面（Cylinder）号
第5字节：该分区系统类型标志
第6—8字节：该分区终止磁头（HEAD）号、分区结束的扇区号、分区结束的柱面号
第9-12字节：该分区首扇区的相对扇区号
第13-16字节：该分区占用的扇区总数
以上参数我们可以用NU 8.0中DISKEDIT工具软件可轻松获取，其功能非常强大，但应用不当会有很大错误，请各位注意使用方法。操作步骤如下：
以一台硬盘为270 MB，分为C盘（100 MB）和D盘（170 MB）的机子（老掉牙了 ^_^）为例，在纯DOS下启动DISKEDIT → 在对象菜单（Object）上选中驱动器（Drive）和物理磁盘选项后确定 → 在对象菜单（Object）上选中分区表（Partition Table） → 在显示菜单（View）中选择十六进制（Hex）
以下数据为主分区信息：
000001B0: 00 00 00 00 00 00 00 00 - 00 00 00 00 00 00 80 01
000001C0: 01 00 06 0D 68 6D 28 00 - 00 00 78 20 03 00 00 00
000001D0: 41 6E 05 0D E8 AE A0 20 - 03 00 30 EE 04 00 00 00
000001E0: 00 00 00 00 00 00 00 00 - 00 00 00 00 00 00 00 00
000001F0: 00 00 00 00 00 00 00 00 - 00 00 00 00 00 00 55 AA
② DBR（Dos Boot Record 操作系统引导记录区）
它通常位于硬盘的0磁道1柱面1扇区，是操作系统可直接访问的第一个扇区，它包括一个引导程序和一个被称为BPB（BIOS Parameter Block）的本分区参数记录表。引导程序的主要任务是当MBR将系统控制权交给它时，判断本分区跟目录前两个文件是不是操作系统的引导文件（以DOS为例，即是Io.sys和Msodos.sys）。如果确定存在，就把它们读入内存，并把控制权交给该文件。BPB参数块记录着本分区的起始扇区、结束扇区、文件存储格式、硬盘介质描述符、根目录大小、FAT个数、分配单元的大小等重要参数。DBR是由高级格式化程序（即Format等程序）所产生的。
③ FAT（File Allocation Table 文件分配表）
FAT是DOS、Windows 9X系统的文件寻址格式，位于DBR之后。
在解释文件分配表的概念的时候，我们有必要谈谈簇（Cluster）的概念。文件占用磁盘空间，基本单位不是字节而是簇。一般情况下，软盘每簇是1个扇区，硬盘每簇的扇区数与硬盘的总容量大小有关，可能是4、8、16、32、64……
同一个文件的数据并不一定完整地存放在磁盘的一个连续的区域内，而往往会分成若干段，像一条链子一样存放。这种存储方式称为文件的链式存储。由于硬盘上保存着段与段之间的连接信息（即FAT），操作系统在读取文件时，总是能够准确地找到各段的位置并正确读出。
为了实现文件的链式存储，硬盘上必须准确地记录哪些簇已经被文件占用，还必须为每个已经占用的簇指明存储后继内容的下一个簇的簇号。对一个文件的最后一簇，则要指明本簇无后继簇。这些都是由FAT表来保存的，表中有很多表项，每项记录一个簇的信息。由于FAT对于文件管理的重要性，所以为了安全起见，FAT有一个备份，即在原FAT的后面再建一个同样的FAT。初形成的FAT中所有项都标明为“未占用”，但如果磁盘有局部损坏，那么格式化程序会检测出损坏的簇，在相应的项中标为“坏簇”，以后存文件时就不会再使用这个簇了。FAT的项数与硬盘上的总簇数相当，每一项占用的字节数也要与总簇数相适应，因为其中需要存放簇号。FAT的格式有多种，最为常见的是FAT16和FAT32。
④ DIR （Directory 根目录区）
DIR位于第二个FAT表之后，记录着根目录下每个文件（目录）的起始单元，文件的属性等。定位文件位置时，操作系统根据DIR中的起始单元，结合FAT表就可以知道文件在硬盘中的具体位置和大小了。
⑤ DATA（数据区）
数据区是真正意义上的数据存储的地方，位于DIR区之后，占据硬盘的大部分空间。当将数据复制到硬盘时，数据就存放在DATA区。

石头@ 2009-08-08 22:31 发表评论

一个正则表达式工具类

石头@ — Sat, 08 Aug 2009 01:01:00 GMT

摘要: 一个java正规表达式工具类类中用到了 jakarta-oro-2.0.jar 包，请大家自己在 apache网站下下载在这是junit测试单元类我就不提交了，在main()方法中有几个小测试，有兴趣自己玩吧. 这个工具类目前主要有25种正规表达式(有些不常用，但那时才仔细深入的研究了一下正规，写上瘾了，就当时能想到的都写了): 匹配图象; 2 匹配email地... 阅读全文

石头@ 2009-08-08 09:01 发表评论

一个合格的程序员应具备的。。。

石头@ — Fri, 31 Jul 2009 12:45:00 GMT

每个程序员都应牢记的7种坏味道，11种原则，23种模式

(一)7种设计坏味道
1.僵化性：很难对系统进行改动，因为每个改动都会迫使许多对系统其他部分的其它改动。
2.脆弱性：对系统的改动会导致系统中和改动的地方在概念上无关的许多地方出现问题。
3.牢固性：很难解开系统的纠结，使之成为一些可在其他系统中重用的组件。
4.粘滞性：做正确的事情比做错误的事情要困难。
5.复杂性(不必要的)：设计中包含有不具任何直接好处的基础结构。
6.重复性(不必要的)：设计中包含有重复的结构，而该重复的结构本可以使用单一的抽象进行统一。
7.晦涩性：很难阅读、理解。没有很好地表现出意图。

(二)11种原则 - Principle
----类原则
1.单一职责原则 - Single Responsibility Principle(SRP)
就一个类而言，应该仅有一个引起它变化的原因。
(职责即为“变化的原因”。)
2.开放-封闭原则 - Open Close Principle(OCP)
软件实体（类、模块、函数等）应该是可以扩展的，但是不可修改。
(对于扩展是开放的,对于更改是封闭的.
关键是抽象.将一个功能的通用部分和实现细节部分清晰的分离开来.
开发人员应该仅仅对程序中呈现出频繁变化的那些部分作出抽象.
拒绝不成熟的抽象和抽象本身一样重要. )
3.里氏替换原则 - Liskov Substitution Principle(LSP)
子类型(subclass)必须能够替换掉它们的基类型(superclass)。
4.依赖倒置原则(IoCP) 或依赖注入原则 - Dependence Inversion Principle(DIP)
抽象不应该依赖于细节。细节应该依赖于抽象。
(Hollywood原则: "Don't call us, we'll call you".
程序中所有的依赖关系都应该终止于抽象类和接口。
针对接口而非实现编程。
任何变量都不应该持有一个指向具体类的指针或引用。
任何类都不应该从具体类派生。
任何方法都不应该覆写他的任何基类中的已经实现了的方法。)
5.接口隔离原则(ISP)
不应该强迫客户依赖于它们不用的方法。
接口属于客户，不属于它所在的类层次结构。
(多个面向特定用户的接口胜于一个通用接口。)
----包内聚原则
6.重用发布等价原则(REP)
重用的粒度就是发布的粒度。
7.共同封闭原则(CCP)
包中的所有类对于同一类性质的变化应该是共同封闭的。
一个变化若对一个包产生影响，
则将对该包中的所有类产生影响，
而对于其他的包不造成任何影响。
8.共同重用原则(CRP)
一个包中的所有类应该是共同重用的。
如果重用了包中的一个类，
那么就要重用包中的所有类。
(相互之间没有紧密联系的类不应该在同一个包中。)
----包耦合原则
9.无环依赖原则(ADP)
在包的依赖关系图中不允许存在环。
10.稳定依赖原则(SDP)
朝着稳定的方向进行依赖。
应该把封装系统高层设计的软件（比如抽象类）放进稳定的包中，
不稳定的包中应该只包含那些很可能会改变的软件（比如具体类）。
11.稳定抽象原则(SAP)
包的抽象程度应该和其稳定程度一致。
(一个稳定的包应该也是抽象的，一个不稳定的包应该是抽象的. )
----其它扩展原则----
12.BBP(Black Box Principle)黑盒原则
多用类的聚合，少用类的继承。
13.DAP(Default Abstraction Principle)缺省抽象原则
在接口和实现接口的类之间引入一个抽象类,这个类实现了接口的大部分操作.
14.IDP(Interface Design Principle)接口设计原则
规划一个接口而不是实现一个接口。
15.DCSP(Don't Concrete Supperclass Principle)不要构造具体的超类原则
避免维护具体的超类。
16.迪米特法则
一个类只依赖其触手可得的类。

(三)23种设计模式 - Pattern.
创建型
Abstract Factory（抽象工厂模式） -> (简单工厂模式)
Factory Method（工厂模式）
Builder（生成器模式）
Singleton（单件模式） -> (多例模式)
Prototype（原型模式）
结构型
Adapter（适配器模式）
Bridge（桥接模式）
Composite（组合模式）
Decorator（装饰模式）
Facade（外观模式，门面模式）
Flyweight（享元模式） -> (不变模式)
Proxy（代理模式）
行为型
Chain of Responsibility（职责链模式）
Command（命令模式）
Interpreter（解释器模式）
Iteartor（迭代器模式）
Mediator（中介者模式）
Memento（备忘录模式）
Observer（观察者模式）
State（状态模式）
Strategy（策略模式）
TemplateMethod（模板方法模式）
Visitor（访问者模式）

出自：http://www.javaeye.com/topic/41096

石头@ 2009-07-31 20:45 发表评论

网络服务器的性能分析

石头@ — Mon, 27 Jul 2009 14:13:00 GMT

摘要: 这篇文章分析网络服务的系统响应速度，阅读这篇文章需要一定的操作系统基础和网络编程基础，建议阅读《操作系统概念》、《Windows网络编程》、《UNIX高级网络编程》。网络服务的系统响应速度就是提交一个处理请求给网络服务系统开始计时，直到网络服务系统返回处理结果为止的时间间隔。系统响应速度越快表明服务器处理效率越高，用户满意度也越高。网络服务结构先看一个典... 阅读全文

石头@ 2009-07-27 22:13 发表评论

程序性能分析

石头@ — Mon, 27 Jul 2009 13:37:00 GMT

这篇文章主要是想谈谈在以CPU为中心的计算体系结构中影响程序性能的主要因素和性能的分析方法以及多线程对程序性能的影响，读这篇文章首先要具备一定的体系结构和操作系统基础，特别是进程调度，建议看《Operation System Concept》（中文《操作系统概论》）。

先定义一下程序的性能，就是在单位时间内能执行的任务数或者执行某个任务需要的时间。显然，在更短的时间内执行更多的任务性能就越高。

CPU和IO操作

言归正传，先看一个经典的入门的C程序Hello World!

int main(int argc, char * args[]) { int m = 0; for (int i = 0;i < 10;i ++) { m = m+i; } printf("Hello World! 1+2+…+10=%d\n", m); return 0; }

这个不算原始的经典的Hello World，比那个Hello World稍微复杂了点，加了一个循环，用来计算1+2+3…+10的值。

如果有了操作系统进程调度的基础，可以知道这个程序分成两段执行，第一段是计算1+2+…+10的值，主要在CPU（中央处理单元）中进行，C代码：

int m = 0; for (int i = 0;i < 10;i ++) { m = m+i; }

第二段是将计算结果输出到控制台的这段，将一串文本通过显卡驱动，传送到显示器上显示，主要在显卡上进行，C代码：

printf("Hello World! 1+2+…+10=%d\n", m);

整个程序顺序执行，所以CPU先计算完成得到1+2+…+10的值后，将这个值转换成一串字符串，然后将字符串发送给显示器，等待显示器显示完成后，整个程序结束，如果将CPU执行表示为蓝色，将显示器执行表示为红色，那么程序执行流程如下：

500)this.width=500;" border="0">

图1

假设CPU中计算1+2+…+10和将这个值变成字符串花费了11ns（纳秒），而显卡将字符串显示到显示器上花费了7ns，那么整个程序运行花费了18ns。

Hello World是最简单的程序，也是所有其他程序的基础，在以CPU为中心的计算机结构中，内存负责程序的存储，CPU负责程序的运算和流程控制，其他元件被看成跟上面Hello World中显卡类似的外围设备，也被称作IO设备，所以任何程序都可以看作是一系列CPU操作和一系列IO操作的符合体，如下图所示：

500)this.width=500;" border="0" width="500">

图2

所以影响程序性能的主要因素有两个方面：一是CPU操作的快慢，二是IO操作的快慢。

所以程序性能分析的主要方法就是正确区分哪些是CPU操作，哪些是IO操作。

CPU操作通常有这些：

赋值和计算，如：m = i*j;

流程控制，如：while(true) { i ++;}

IO操作通常有这些：

磁盘文件操作。

网络操作。

键盘和鼠标操作。

显卡操作，如在屏幕上绘图，显示文本等。

USB操作。

串口操作。

红外线操作。

磁带机操作。

通常除CPU和内存外的其他设备都可以看成IO操作，内存之所以不看作IO设备，是因为内存访问相对IO而言，通常要快几个数量级，所以像char * buff = new char[100];这样的操作通常也看作CPU操作。

通过分析划分出程序的CPU操作和IO操作程序段后，可以有针对性的进行优化。

对于CPU操作，常用的提升性能的方法是优化计算和流程控制代码，如相乘计算 m = i * 8，可以使用 m = i << 3，因为位操作比乘法操作速度快，通常在某种语言中都会讲到程序的优化，就属于优化CPU操作速度。

对于IO操作，如果IO操作过于频繁而成为系统瓶颈，可以清除一些不必要的IO操作，也可以更换速度更快的IO设备来提高速度，如把硬盘从5400转提升到7200转。

多线程

下面看看多线程对程序性能的影响，什么时候该使用多线程，什么时候使用多线程达不到预期的效果。

多线程是程序里面有像上面那样的多个执行流程，这些执行流程独立或者联合起来完成某些任务。

先看看计算机只有一个CPU，一个IO设备，程序有两个线程，两个线程执行同样的代码，可以画出执行流程：

500)this.width=500;" border="0" width="500">

图3

线程1按正常的执行流程执行，线程2虽然跟线程1执行同样的代码，却出现很多不连续的片段，比如2.2à2.3和2.4à2.5，这是因为只有一个CPU，所以CPU在进行线程1的CPU操作时，不能同时进行线程2的CPU操作，也就是2.4和2.5本来是跟线程1的1.3代码一样，但是却被CPU分两次执行，因为CPU正在执行1.7。2.2和2.3也是同样的道理，因为IO设备要执行1.4的代码，所以2.2和2.3被打断。但是两个线程的CPU操作和IO操作在时间上可以重叠，因为他们是不同的设备。

也就是在时间上，CPU和IO设备只能同时做一件事情，CPU和IO设备可以各自做自己的事情。

考察一种极端的情况，假设某个程序没有IO操作，只有CPU操作，那么流程图变成：

500)this.width=500;" border="0" width="500">

图4

线程1将占用所有的CPU时间，线程2将一直等待直到线程1完成，因为线程1完成任务后，依然可以再次执行任务，所以这时使用线程1完成任务和使用线程2完成任务没有区别，也就是线程2的存在并不会让程序多完成一些任务，所以线程2的存在，并不能提升程序性能。

所以，如果一个程序只有CPU操作，那么多线程并不能提升程序性能。

同理，如果一个程序只有IO操作，那么多线程并不能提升程序性能。

但是多线程在现实中确实有提高程序性能的时候，那是因为实际的程序像图3那样，有CPU操作和IO操作组成，CPU操作和IO操作在时间上可以重叠，所以，同一时间内，程序可以做更多的事情。

如果一个线程中CPU操作时间为M，IO操作时间为N，那么在单位时间内，平均有M/(M+N)在处理CPU操作，有N/(M+N)的时间CPU空闲，如果要让CPU充分利用，那么可以增加(N/(M+N))/(M/(M+N))=N/M个线程来填补CPU操作的空白，这样CPU能100%被利用，如果线程再增加，CPU没有空闲，几乎不会增加程序性能。

所以，让CPU 100%利用的线程最大数为1+N/M。

同你，让IO设备100%利用的线程最大数为1+M/N。

这两个公式只是一个度量式，不是一个计算式，因为随着线程数的增加，CPU操作时间和IO操作时间将会随着变化，M和N不再固定。

看两种常用的程序，服务器程序和用户交互程序。

服务器程序通常提供某种网络服务，如WEB服务器，这种程序要求能最大化的利用CPU和IO，在单位时间内处理尽可能多的任务，所以应该使用尽可能时CPU和IO都满符合工作，多线程数可以取1+N/M和1+M/N中较小的值，如果观察服务器的CPU和IO使用率，会发现他们常常接近90%。

用户交互程序通常根据用户的某些输入进行相应的操作，操作完成再次等待用户输入，如Microsoft Word，要求对用户的输入能及时反应，所以操作线程的CPU操作和IO操作应该有一定的空闲，使得用户输入线程能随时获取CPU来响应用户的输入，使用Microsoft Windows时，打开任务管理器，可以发现CPU使用率常常很低，如1%～20%。

IO复用

从上面的分析可以看出，多线程提升程序性能，主要得益于让CPU和IO设备能并行操作，另一种让CPU和IO设备并行操作的方法是IO复用，基本的思想是需要进行IO操作时，只是发送一个IO操作请求给IO设备而不必等待IO完成，CPU操作可以继续进行，IO操作完成后通过某种方法如事件通知程序，然后程序做相应的处理，流程如下：

500)this.width=500;" border="0" width="500">

图5

以前需要18ns执行的程序，现在只需要11ns就可以完成，性能提升。

常用的文件异步操作、网络异步操作都属于IO复用。

使用IO复用后，程序通常只需要一个线程就可以完成所有的功能，减少操作系统线程间切换的开销，并且不需要线程间同步，但是IO复用需要使用特定的方法监视IO状态，开发相对比较复杂。

Window 2000的IOCP（IO Complete Port）就是基于IO复用的思想。

总结

虽然上面的结论是在一个CPU并且没有考虑操作系统的进程调度和内存管理等因素的影响的前提下得出的，但是在以CPU为中心的计算机体系结构中，CPU操作和IO操作的划分确实普遍适用的，进程调度和内存管理本身也可以看成是CPU操作和IO操作复合的程序，对于多CPU的系统和多IO设备的系统，分析的基础是所有这些设备能并行操作，所以上面得出的结论是普遍适用的。

在分析过程中，对很多结论使用了粗体字，是为了醒目，不要死记硬背，要记住的是基本原理和分析方法，这样才能放之四海而皆准。

转自：http://blog.chinaunix.net/u1/52224/showart_417513.html

石头@ 2009-07-27 21:37 发表评论

文本处理(一)状态机(2)

石头@ — Fri, 10 Jul 2009 13:16:00 GMT

系统程序员成长计划-文本处理(一)

状态机(2)

o 用有穷状态机解一道面试题。

刚毕业的时候，我到一家外企面试，面试题里有这样一道题：

统计一篇英文文章里的单词个数。

有多种方法可以解这道题，这里我们选择用有穷状态机来解，做法如下：

先把这篇英文文章读入到一个缓冲区里，让一个指针从缓冲区的头部一直移到缓冲区的尾部，指针会处于两种状态：“单词内”或“单词外”，加上后面提到的初始状态和接受状态，就是有穷状态机的状态集。缓冲区中的字符集合就是有穷状态机的字母表。

如果当前状态为“单词内”，移到指针时，指针指向的字符是非单词字符(如标点和空格)，那状态会从“单词内”转换到“单词外”。如果当前状态为“单词外”，移到指针时，指针指向的字符是单词字符(如字母)，那状态会从“单词外”转换到“单词内”。这些转换规则就是状态转换函数。

指针指向缓冲区的头部时是初始状态。

指针指向缓冲区的尾部时是接受状态。

每次当状态从“单词内”转换到“单词外”时，单词计数增加一。
这个有穷状态机的图形表示如下：

下面我们看看程序怎么写：

int count_word(const char* text)



{



/*定义各种状态，我们不关心接受状态，这里可以不用定义。*/



enum _State



{



STAT_INIT,



STAT_IN_WORD,



STAT_OUT_WORD,



}state = STAT_INIT;







int count = 0;



const char* p = text;







/*在一个循环中，指针从缓冲区头移动缓冲区尾*/



for(p = text; *p != '\0'; p++)



{



switch(state)



{



case STAT_INIT:



{



if(IS_WORD_CHAR(*p))



{



/*指针指向单词字符，状态转换为单词内*/



state = STAT_IN_WORD;



}



else



{



/*指针指向非单词字符，状态转换为单词外*/



state = STAT_OUT_WORD;



}



break;



}



case STAT_IN_WORD:



{



if(!IS_WORD_CHAR(*p))



{



/*指针指向非单词字符，状态转换为单词外，增加单词计数*/



count++;



state = STAT_OUT_WORD;



}



break;



}



case STAT_OUT_WORD:



{



if(IS_WORD_CHAR(*p))



{



/*指针指向单词字符，状态转换为单词内*/



state = STAT_IN_WORD;



}



break;



}



default:break;



}



}







if(state == STAT_IN_WORD)



{



/*如果由单词内进入接受状态，增加单词计数*/



count++;



}







return count;



}

用状态机来解这道题目，思路清晰，程序简单，不易出错。

这道题目只是为了展示一些奇技淫巧，还是有一些实际用处呢？回答这个问题之前，我们先对上面的程序做点扩展，不只是统计单词的个数，而且要分离出里面的每个单词。

int word_segmentation(const char* text, OnWordFunc on_word, void* ctx)



{



enum _State



{



STAT_INIT,



STAT_IN_WORD,



STAT_OUT_WORD,



}state = STAT_INIT;







int count = 0;



char* copy_text = strdup(text);



char* p = copy_text;



char* word = copy_text;







for(p = copy_text; *p != '\0'; p++)



{



switch(state)



{



case STAT_INIT:



{



if(IS_WORD_CHAR(*p))



{



word = p;



state = STAT_IN_WORD;



}



break;



}



case STAT_IN_WORD:



{



if(!IS_WORD_CHAR(*p))



{



count++;



*p = '\0';



on_word(ctx, word);



state = STAT_OUT_WORD;



}



break;



}



case STAT_OUT_WORD:



{



if(IS_WORD_CHAR(*p))



{



word = p;



state = STAT_IN_WORD;



}



break;



}



default:break;



}



}







if(state == STAT_IN_WORD)



{



count++;



on_word(ctx, word);



}







free(copy_text);







return count;



}

状态机不变，只是在状态转换时，做是事情不一样。这里从“单词内”转换到其它状态时，增加单词计数，并分离出当前的单词。至于拿分离出的单词来做什么，由传入的回调函数决定，比如可以用来统计每个单词出现的频率。

但如果讨论还是限于英文文章，这个程序的意义仍然不大，现在来做进一步扩展。我们考虑的文本不再是英文文章，而是一些文本数据，这些数据由一些分隔符分开，我们把数据称为token，现在我们要把这些token分离出来。

typedef void (*OnTokenFunc)(void* ctx, int index, const char* token);







#define IS_DELIM(c) (strchr(delims, c) != NULL)



int parse_token(const char* text, const char* delims, OnTokenFunc on_token, void* ctx)



{



enum _State



{



STAT_INIT,



STAT_IN,



STAT_OUT,



}state = STAT_INIT;







int   count     = 0;



char* copy_text = strdup(text);



char* p         = copy_text;



char* token     = copy_text;







for(p = copy_text; *p != '\0'; p++)



{



switch(state)



{



case STAT_INIT:



case STAT_OUT:



{



if(!IS_DELIM(*p))



{



token = p;



state = STAT_IN;



}



break;



}



case STAT_IN:



{



if(IS_DELIM(*p))



{



*p = '\0';



on_token(ctx, count++, token);



state = STAT_OUT;



}



break;



}



default:break;



}



}







if(state == STAT_IN)



{



on_token(ctx, count++, token);



}







on_token(ctx, -1, NULL);



free(copy_text);







return count;



}

用分隔符分隔的文本数据有很多，如：

环境PATH，它由‘:’分开的多个路径组成。如：
/usr/lib/qt-3.3/bin:/usr/kerberos/bin:/backup/tools/jdk1.5.0_18/bin/:/usr/lib/ccache:/usr/local/bin:/bin:/usr/bin:/home/lixianjing/bin

文件名，它由‘/’分开的路径组成。如：
/usr/lib/qt-3.3/bin

URL中的参数，它‘&’分开的多个key/value对组成。
hl=zh-CN&q=limodev&btnG=Google+搜索&meta=&aq=f&oq=

所有这些数据都可以用上面的函数处理，所以这个小函数是颇具实用价值的。

石头@ 2009-07-10 21:16 发表评论

文本处理(一)状态机(1)

石头@ — Fri, 10 Jul 2009 11:37:00 GMT

系统程序员成长计划-文本处理(一)

状态机(1)

o 有穷状态机的形式定义

有穷状态机是一个五元组 (Q，Σ，δ，q0，F)，其中：
Q是一个有穷集合，称为状态集。
Σ是一个有穷集合，称为字母表。
δ: Q xΣQ称为状态转移函数。
q0 是初始状态。
F 是接受状态集。

教科书上是这样定义有穷自动机的，这个形式定义精确的描述了有穷状态机的含义。但是大部分人(包括我自己)第一次看到它时，反复的读上几遍，仍然不知道它在说什么。幸好通过一些实例，我们可以很容易明白有穷状态机的原理。

自动门是一个典型的有穷状态机：

它有“开”和“关”两种状态，这就是它的状态集，也就是上面所说的Q。

人可以从自动门进来或出去，当人进来或出去的时候，自动门会自动打开，如果在规定的时间内没有人进出，自动门会自动关上。人的进来、出去和超时三个事件是自动门的字母表，也就是上面所说的Σ。而自动门在当前状态下，对事件的响应，会引起状态的变化，这就是状态转换函数，也就是上面所说的δ。

自动门刚安装好的时候，我们可以认为它是关上的，所以关闭状态是自动门的初始状态。

在理想情况下，自动门会一直运行，所以它没有接受状态，接受状态集F是空集。

有穷状态机的形式定义很精确，文字描述比较通俗，而图形表示则比较直观。通用建模语言（UML）里的状态图是状态机的常用图形表示方法。简单的状态图包括一些状态，用圆角方框表示，里面有状态的名称。状态之间的转换，用箭头表示，上面可以加转换条件。自动门的状态机可以用下图表示：

有穷状态机很简单，在生活中可以找出很多这样的例子。但是教科书里讲得太复杂了，一会儿证明确定性有穷状态机和非确定性有穷状态机的等价性，一会儿证明正则表达式的正则运算是封闭的，一会儿又来个泵引理。花了很长时间，我才明白这些原理，但两年之后，我又把它们忘得一干二净。

主要原因是工作中没有机会运用它们，这些理论的证明于编程没有太大用处，不过状态机本身却是文本处理利器，由于程序员在很多场合下都是在与文本数据打交道，所以状态机是程序员必备的工具之一。这里我们将一起学习如何用状态机来处理文本数据，后面我们也会提到状态机的其它用途，不过不是本节的重点。

文章出处：http://www.limodev.cn/blog
作者联系方式：李先静

石头@ 2009-07-10 19:37 发表评论

文本处理(二)

石头@ — Fri, 10 Jul 2009 11:03:00 GMT

Builder模式

前面我们学习了状态机，并利用它来解析各种格式的文本数据。解析过程把线性的文本数据转换成一些基本的逻辑单元，但这通常只是任务的一部分，接下来我们还要对这些解析出来的数据进一步处理。对于特定格式的文本数据，它的解析过程是一样的，但是对解析出来的数据的处理却是多种多样的。为了让解析过程能被重用，就需要把数据的解析和数据的处理分开。

现在我们回过头来看一下前面写的函数parse_token，这个函数把用分隔符分隔的文本数据，分离出一个一个的token。

parse_token的函数原型如下：

typedef void (*OnTokenFunc)(void* ctx, int index, const char* token);
int parse_token(const char* text, const char* delims, OnTokenFunc on_token, void* ctx)

parse_token负责解析数据，但它并不关心数据代表的意义及用途。对数据的进一步处理由调用者提供的回调函数来完成，函数 parse_token每解析到一个token，就调用这个回调函数。parse_token负责数据的解析，回调函数负责数据的处理，这样一来，数据的解析和数据的处理就分开了。

parse_token可以认为是Builder模式最朴素的应用。现在我们看看Builder 模式：

Builder 模式的意图：将一个复杂对象的构建与它的表示分离，使得同样的构建过程可以创建不同的表示。“构建”其实就是前面的解析过程，而“表示”就是前面说的对数据的处理。

对象关系：

上面的parse_token与这里的Director对应。

上面的回调函数与这里的Builder对应。

具体的回调函数与这里的ConcreteBuilder对应。

对数据处理的结果就是Product。

对象协作：

Client是parse_token的调用者。

由于parse_token是按面向过程的方式设计的，所以ConcreteBuilder和Director的创建只是对应于一些初始化代码。

调用parse_token相当于调用aDirector的Construct函数。

调用回调函数相当于调用aConcreteBuilder的BuildPart函数。

回调函数可能把处理结果存在它的参数ctx中，GetResult是从里面获取结果，这是可选的过程，依赖于具体回调函数所做的工作。

parse_token的例子简单直接，对于理解Builder模式有较大的帮助，不过毕竟它是面向过程的。现在我们以前面的XML解析器为例来说明Builder模式，虽然我们的代码是用C写的，但完全是用面向对象的思想来设计的。Builder是一个接口，我们先把它定义出来：

struct _XmlBuilder;

typedef struct _XmlBuilder XmlBuilder; 



typedef void (*XmlBuilderOnStartElementFunc)(XmlBuilder* thiz, const char* tag, const char** attrs);

typedef void (*XmlBuilderOnEndElementFunc)(XmlBuilder* thiz, const char* tag);

typedef void (*XmlBuilderOnTextFunc)(XmlBuilder* thiz, const char* text, size_t length);

typedef void (*XmlBuilderOnCommentFunc)(XmlBuilder* thiz, const char* text, size_t length);

typedef void (*XmlBuilderOnPiElementFunc)(XmlBuilder* thiz, const char* tag, const char** attrs);

typedef void (*XmlBuilderOnErrorFunc)(XmlBuilder* thiz, int line, int row, const char* message);

typedef void (*XmlBuilderDestroyFunc)(XmlBuilder* thiz); 



struct _XmlBuilder

{

XmlBuilderOnStartElementFunc on_start_element;

XmlBuilderOnEndElementFunc   on_end_element;

XmlBuilderOnTextFunc         on_text;

XmlBuilderOnCommentFunc      on_comment;

XmlBuilderOnPiElementFunc    on_pi_element;

XmlBuilderOnErrorFunc        on_error;

XmlBuilderDestroyFunc        destroy; 



char priv[1];

}; 



static inline void xml_builder_on_start_element(XmlBuilder* thiz, const char* tag, const char** attrs)



{



return_if_fail(thiz != NULL && thiz->on_start_element != NULL);



thiz->on_start_element(thiz, tag, attrs);



return;



}



static inline void xml_builder_on_end_element(XmlBuilder* thiz, const char* tag)



{



return_if_fail(thiz != NULL && thiz->on_end_element != NULL);



thiz->on_end_element(thiz, tag);



return;



}



...

(其它inline函数不列在这里了)

XmlBuilder接口要求实现下列函数：

on_start_element：解析器解析到一个起始TAG时调用它。
on_end_element：解析器解析到一个结束TAG时调用它。
on_text：解析器解析到一段文本时调用它。
on_comment：解析器解析到一个注释时调用它。
on_pi_element：解析器解析到一个处理指令时调用它。
on_error：解析器遇到错误时调用它。
destroy：用销毁Builder对象。

on_start_element和on_end_element等函数相当于Builder模式中的BuildPartX函数。

XML解析器相当于Director，在前面我们已经写好了，不过它对解析出来的数据没有做任何处理。现在我们对它做些修改，让它调用XmlBuilder的函数。

XML解析器对外提供下面几个函数：

o 构造函数。

XmlParser* xml_parser_create(void);

o 为xmlParser设置builder对象。

void       xml_parser_set_builder(XmlParser* thiz, XmlBuilder* builder);

o 解析XML

void       xml_parser_parse(XmlParser* thiz, const char* xml);

o 析构函数

void       xml_parser_destroy(XmlParser* thiz);

在解析时，解析到相应的tag，就调用XmlBuilder相应的函数：

o 解析到起始tag时调用xml_builder_on_start_element

static void xml_parser_parse_start_tag(XmlParser* thiz)

{

enum _State

{

STAT_NAME,

STAT_ATTR,

STAT_END,

}state = STAT_NAME; 



char* tag_name = NULL;

const char* start = thiz->read_ptr - 1; 



for(; *thiz->read_ptr != '\0'; thiz->read_ptr++)

{

char c = *thiz->read_ptr; 



switch(state)

{

case STAT_NAME:

{

if(isspace(c) || c == '>' || c == '/')

{

tag_name = (char*)xml_parser_strdup(thiz, start, thiz->read_ptr - start);

state = (c != '>' && c != '/') ? STAT_ATTR : STAT_END;

}

break;

}

case STAT_ATTR:

{

xml_parser_parse_attrs(thiz, '/');

state = STAT_END; 



break;

}

default:break;

} 



if(state == STAT_END)

{

break;

}

} 



tag_name = thiz->buffer + (size_t)tag_name;

/*解析完成，调用builder的函数xml_builder_on_start_element。*/

xml_builder_on_start_element(thiz->builder, tag_name, (const char**)thiz->attrs); 



if(thiz->read_ptr[0] == '/')

{

/*如果tag以'/'结束，调用builder的函数xml_builder_on_end_element。*/

xml_builder_on_end_element(thiz->builder, tag_name);

} 



for(; *thiz->read_ptr != '>' && *thiz->read_ptr != '\0'; thiz->read_ptr++); 



return;

}

o 解析到结束tag时调用xml_builder_on_end_element

static void xml_parser_parse_end_tag(XmlParser* thiz)

{

char* tag_name = NULL;

const char* start = thiz->read_ptr;

for(; *thiz->read_ptr != '\0'; thiz->read_ptr++)

{

if(*thiz->read_ptr == '>')

{

tag_name = thiz->buffer + xml_parser_strdup(thiz, start, thiz->read_ptr-start);

/*解析完成，调用builder的函数xml_builder_on_end_element。*/

xml_builder_on_end_element(thiz->builder, tag_name); 



break;

}

} 



return;

}

o 解析到文本时调用xml_builder_on_text

static void xml_parser_parse_text(XmlParser* thiz)

{

const char* start = thiz->read_ptr - 1;

for(; *thiz->read_ptr != '\0'; thiz->read_ptr++)

{

char c = *thiz->read_ptr; 



if(c == '<')

{

if(thiz->read_ptr > start)

{

/*解析完成，调用builder的函数xml_builder_on_text。*/

xml_builder_on_text(thiz->builder, start, thiz->read_ptr-start);

}

thiz->read_ptr--;

return;

}

else if(c == '&')

{

xml_parser_parse_entity(thiz);

}

} 



return;

}

o 解析到注释时调用xml_builder_on_comment

static void xml_parser_parse_comment(XmlParser* thiz)

{

enum _State

{

STAT_COMMENT,

STAT_MINUS1,

STAT_MINUS2,

}state = STAT_COMMENT; 



const char* start = ++thiz->read_ptr;

for(; *thiz->read_ptr != '\0'; thiz->read_ptr++)

{

char c = *thiz->read_ptr; 



switch(state)

{

case STAT_COMMENT:

{

if(c == '-')

{

state = STAT_MINUS1;

}

break;

}

case STAT_MINUS1:

{

if(c == '-')

{

state = STAT_MINUS2;

}

else

{

state = STAT_COMMENT;

}

break;

}

case STAT_MINUS2:

{

if(c == '>')

{

/*解析完成，调用builder的函数xml_builder_on_comment。*/

xml_builder_on_comment(thiz->builder, start, thiz->read_ptr-start-2);

return;

}

}

default:break;

}

} 



return;

}

o 解析到处理指令时调用xml_builder_on_pi_element

static void xml_parser_parse_pi(XmlParser* thiz)

{

enum _State

{

STAT_NAME,

STAT_ATTR,

STAT_END

}state = STAT_NAME; 



char* tag_name = NULL;

const char* start = thiz->read_ptr; 



for(; *thiz->read_ptr != '\0'; thiz->read_ptr++)

{

char c = *thiz->read_ptr; 



switch(state)

{

case STAT_NAME:

{

if(isspace(c) || c == '>')

{

tag_name = (char*)xml_parser_strdup(thiz, start, thiz->read_ptr - start);

state = c != '>' ? STAT_ATTR : STAT_END;

} 



break;

}

case STAT_ATTR:

{

xml_parser_parse_attrs(thiz, '?');

state = STAT_END;

break;

}

default:break;

} 



if(state == STAT_END)

{

break;

}

} 



tag_name = thiz->buffer + (size_t)tag_name;

/*解析完成，调用builder的函数xml_builder_on_pi_element。*/

xml_builder_on_pi_element(thiz->builder, tag_name, (const char**)thiz->attrs);	 



for(; *thiz->read_ptr != '>' && *thiz->read_ptr != '\0'; thiz->read_ptr++); 



return;

}

从上面的代码可以看出，XmlParser在适当的时候调用了XmlBuilder的接口函数，至于XmlBuilder在这些函数里做什么，要看具体的Builder实现了。

先看一个最简单的XmlBuilder实现，它只是在屏幕上打印出传递给它的数据：

o 创建函数

XmlBuilder* xml_builder_dump_create(FILE* fp)

{

XmlBuilder* thiz = (XmlBuilder*)calloc(1, sizeof(XmlBuilder)); 



if(thiz != NULL)

{

PrivInfo* priv = (PrivInfo*)thiz->priv; 



thiz->on_start_element   = xml_builder_dump_on_start_element;

thiz->on_end_element    = xml_builder_dump_on_end_element;

thiz->on_text                  = xml_builder_dump_on_text;

thiz->on_comment         = xml_builder_dump_on_comment;

thiz->on_pi_element      = xml_builder_dump_on_pi_element;

thiz->on_error                = xml_builder_dump_on_error;

thiz->destroy                  = xml_builder_dump_destroy; 



priv->fp = fp != NULL ? fp : stdout;

} 



return thiz;

}

和其它接口的创建函数一样，它只是把接口要求的函数指针指到具体的实现函数上。

o 实现 on_start_element

static void xml_builder_dump_on_start_element(XmlBuilder* thiz, const char* tag, const char** attrs)

{

int i = 0;

PrivInfo* priv = (PrivInfo*)thiz->priv;

fprintf(priv->fp, "<%s", tag); 



for(i = 0; attrs != NULL && attrs[i] != NULL && attrs[i + 1] != NULL; i += 2)

{

fprintf(priv->fp, " %s=\"%s\"", attrs[i], attrs[i + 1]);

}

fprintf(priv->fp, ">"); 



return;

}

o 实现on_end_element

static void xml_builder_dump_on_end_element(XmlBuilder* thiz, const char* tag)

{

PrivInfo* priv = (PrivInfo*)thiz->priv;

fprintf(priv->fp, "\n", tag); 



return;

}

o 实现on_text

static void xml_builder_dump_on_text(XmlBuilder* thiz, const char* text, size_t length)

{

PrivInfo* priv = (PrivInfo*)thiz->priv;

fwrite(text, length, 1, priv->fp); 



return;

}

o 实现on_comment

static void xml_builder_dump_on_comment(XmlBuilder* thiz, const char* text, size_t length)

{

PrivInfo* priv = (PrivInfo*)thiz->priv;

fprintf(priv->fp, "\n"); 



return;

}

o 实现on_pi_element

static void xml_builder_dump_on_pi_element(XmlBuilder* thiz, const char* tag, const char** attrs)

{

int i = 0;

PrivInfo* priv = (PrivInfo*)thiz->priv;

fprintf(priv->fp, "fp, " %s=\"%s\"", attrs[i], attrs[i + 1]);

}

fprintf(priv->fp, "?>\n"); 



return;

}

o 实现on_error

static void xml_builder_dump_on_error(XmlBuilder* thiz, int line, int row, const char* message)

{

fprintf(stderr, "(%d,%d) %s\n", line, row, message); 



return;

}

上面的XmlBuilder实现简单，而且有一定的实用价值，我一般都会先写这样一个Builder。它不但对于调试程序有不小的帮助，而且只要稍做修改，就可以把它改进成一个美化数据格式的小工具，不管原始数据的格式(当然要合符相应的语法规则)有多乱，你都能以一种比较好看的方式打印出来。

下面我们再看一个比较复杂的XmlBuilder的实现，它根据接收的数据构建一棵XML树。

o 创建函数

XmlBuilder* xml_builder_tree_create(void)

{

XmlBuilder* thiz = (XmlBuilder*)calloc(1, sizeof(XmlBuilder)); 



if(thiz != NULL)

{

PrivInfo* priv = (PrivInfo*)thiz->priv; 



thiz->on_start_element   = xml_builder_tree_on_start_element;

thiz->on_end_element    = xml_builder_tree_on_end_element;

thiz->on_text                  = xml_builder_tree_on_text;

thiz->on_comment         = xml_builder_tree_on_comment;

thiz->on_pi_element      = xml_builder_tree_on_pi_element;

thiz->on_error                = xml_builder_tree_on_error;

thiz->destroy                  = xml_builder_tree_destroy; 



priv->root = xml_node_create_normal("__root__", NULL);

priv->current = priv->root;

} 



return thiz;

}

和其它接口的创建函数一样，它只是把接口要求的函数指针指到具体的实现函数上。这里还创建了一个根结点__root__，以保证整棵树只有一个根结点。

o 实现 on_start_element

static void xml_builder_tree_on_start_element(XmlBuilder* thiz, const char* tag, const char** attrs)

{

XmlNode* new_node = NULL;

PrivInfo* priv = (PrivInfo*)thiz->priv; 



new_node = xml_node_create_normal(tag, attrs);

xml_node_append_child(priv->current, new_node);

priv->current = new_node; 



return;

}

这里创建了一个新的结点，并追加为priv->current的子结点，然后让priv->current指向新的结点。

o 实现 on_end_element

static void xml_builder_tree_on_end_element(XmlBuilder* thiz, const char* tag)

{

PrivInfo* priv = (PrivInfo*)thiz->priv;

priv->current = priv->current->parent;

assert(priv->current != NULL); 



return;

}

这里只是让priv->current指向它的父结点。

o 实现 on_text

static void xml_builder_tree_on_text(XmlBuilder* thiz, const char* text, size_t length)

{

XmlNode* new_node = NULL;

PrivInfo* priv = (PrivInfo*)thiz->priv; 



new_node = xml_node_create_text(text);

xml_node_append_child(priv->current, new_node); 



return;

}

这里创建一个文本结点，并追加为priv->current的子结点。

o 实现 on_comment

static void xml_builder_tree_on_comment(XmlBuilder* thiz, const char* text, size_t length)

{

XmlNode* new_node = NULL;

PrivInfo* priv = (PrivInfo*)thiz->priv; 



new_node = xml_node_create_comment(text);

xml_node_append_child(priv->current, new_node); 



return;

}

这里创建一个注释结点，并追加为priv->current的子结点。

o 实现 on_pi_element

static void xml_builder_tree_on_pi_element(XmlBuilder* thiz, const char* tag, const char** attrs)

{

XmlNode* new_node = NULL;

PrivInfo* priv = (PrivInfo*)thiz->priv; 



new_node = xml_node_create_pi(tag, attrs);

xml_node_append_child(priv->current, new_node); 



return;

}

这里创建一个处理指令结点，并追加为priv->current的子结点。

o 实现on_error

static void xml_builder_tree_on_error(XmlBuilder* thiz, int line, int row, const char* message)

{

fprintf(stderr, "(%d,%d) %s\n", line, row, message); 



return;

}

下面我们再看XmlNode的数据结构和主要函数：

o 数据结构

typedef struct _XmlNode

{

XmlNodeType type;

union

{

char* text;

char* comment;

XmlNodePi pi;

XmlNodeNormal normal;

}u;

struct _XmlNode* parent;

struct _XmlNode* children;

struct _XmlNode* sibling;

}XmlNode;

type决定了结点的类型，可以是处理指令(XML_NODE_PI)、文本(XML_NODE_TEXT)、注释(XML_NODE_COMMENT)或普通TAG(XML_NODE_NORMAL)。

联合体用于存放具体结点信息。

parent指向父结点。

children指向第一个子结点。

sibling指向下一个兄弟结点。

o 创建普通TAG结点

XmlNode* xml_node_create_normal(const char* name, const char** attrs)

{

XmlNode* node = NULL;

return_val_if_fail(name != NULL, NULL);



if((node = calloc(1, sizeof(XmlNode))) != NULL)

{

int i = 0;

node->type = XML_NODE_NORMAL;

node->u.normal.name = strdup(name);



if(attrs != NULL)

{

for(i = 0; attrs[i] != NULL && attrs[i+1] != NULL; i += 2)

{

xml_node_append_attr(node, attrs[i], attrs[i+1]);

}

}

}



return node;

}

o 创建处理指令结点

XmlNode* xml_node_create_pi(const char* name, const char** attrs)

{

XmlNode* node = NULL;

return_val_if_fail(name != NULL, NULL);



if((node = calloc(1, sizeof(XmlNode))) != NULL)

{

int i = 0;

node->type = XML_NODE_PI;

node->u.pi.name = strdup(name);

if(attrs != NULL)

{

for(i = 0; attrs[i] != NULL && attrs[i+1] != NULL; i += 2)

{

xml_node_append_attr(node, attrs[i], attrs[i+1]);

}

}

}



return node;

}

o 创建文本结点

XmlNode* xml_node_create_text(const char* text)

{

XmlNode* node = NULL;

return_val_if_fail(text != NULL, NULL);



if((node = calloc(1, sizeof(XmlNode))) != NULL)

{

node->type = XML_NODE_TEXT;

node->u.text = strdup(text);

}



return node;

}

o 创建注释结点

XmlNode* xml_node_create_comment(const char* comment)

{

XmlNode* node = NULL;

return_val_if_fail(comment != NULL, NULL);



if((node = calloc(1, sizeof(XmlNode))) != NULL)

{

node->type = XML_NODE_COMMENT;

node->u.comment = strdup(comment);

}



return node;

}

o 追加一个兄弟结点

XmlNode* xml_node_append_sibling(XmlNode* node, XmlNode* sibling)

{

return_val_if_fail(node != NULL && sibling != NULL, NULL);



if(node->sibling == NULL)

{

/*没有兄弟结点，让兄弟结点指向sibling */

node->sibling = sibling;

}

else

{

/*否则，把sibling追加为最后一个兄弟结点*/

XmlNode* iter = node->sibling;

while(iter->sibling != NULL) iter = iter->sibling;

iter->sibling = sibling;

}

/*让兄弟结点的父结点指向自己的父结点*/



sibling->parent = node->parent;



return sibling;

}

o 追加一个子结点

XmlNode* xml_node_append_child(XmlNode* node, XmlNode* child)

{

return_val_if_fail(node != NULL && child != NULL, NULL);



if(node->children == NULL)

{

/*没有子结点，让子结点指向child */

node->children = child;

}

else

{

/*否则，把child 追加为最后一个子结点*/

XmlNode* iter = node->children;

while(iter->sibling != NULL) iter = iter->sibling;

iter->sibling = child;

}

/*让子结点的父结点指向自己*/



child->parent = node;



return child;

}

回头再看一下XmlParser，XmlBuilder及几个具体的XmlBuilder的实现，我们可以看到，它们的实现都非常简单，其实这完全得益于Builder模式的设计方法。它利用分而治之的思想，把数据的解析和数据的处理分开，降低了实现的复杂度。其次它利用了抽象的思想，从而数据的解析只关心处理数据处理的接口，而不关心的它的实现，使得数据解析和数据处理可以独立变化。

分而治之和抽象是降低复杂度最有效的手段之一，它们在Builder模式里得到了很好的体现。初学者应该多花些时间去体会。

文章出处：http://www.limodev.cn/blog
作者联系方式：李先静

石头@ 2009-07-10 19:03 发表评论

文本处理(一)

石头@ — Fri, 10 Jul 2009 10:57:00 GMT

文章出处：http://www.limodev.cn/blog
作者联系方式：李先静

系统程序员成长计划-文本处理(一)

状态机(4)

XML解析器

XML（Extensible Markup Language）即可扩展标记语言，也是一种常用的数据文件格式。相对于INI来说，它要复杂得多，INI只能保存线性结构的数据，而XML可以保存树形结构的数据。先看下面的例子：







all files and folders

第一行称为处理指令(PI)，是给解析器用的。这里告诉解析器，当前的XML文件遵循XML 1.0规范，文件内容用UTF-8编码。

第二行是一个起始TAG，TAG的名称为mime-type。它有两个属性，第一个属性的名称为xmlns，值为 http://www.freedesktop.org/standards/shared-mime-info。第二个属性的名称为type，值为 all/all。

第三行是一个注释。

第四行包括一个起始TAG，一段文本和结束TAG。

第五行是一个结束TAG。

XML本身的格式不是本文的重点，我们不详细讨论了。这里的重点是如何用状态机解析格式复杂的数据。

按照前面的方法，先把数据读入到一个缓冲区中，让一个指针指向缓冲区的头部，然后移动指针，直到指向缓冲区的尾部。在这个过程中，指针可能指向：起始TAG，结束TAG，注释，处理指令和文本。由此我们定义出状态机的主要状态：

1. 起始TAG状态
2. 结束TAG状态
3. 注释状态
4. 处理指令状态
5. 文本状态

由于起始TAG、结束TAG、注释和处理指令都在字符‘<’和‘>’之间，所以当读入字符‘<’时，我们还无法知道当前的状态，为了便于处理，我们引入一个中间状态，称为“小于号之后”的状态。在读入字符‘<’和‘!’之后，还要读入两个‘-’，才能确定进入注释状态，为了便于处理，再引入两个中间状态“注释前一”和“注释前二”。再引入一个“空”状态，表示不在上述任何状态中。

状态转换函数：
1. 在“空”状态下，读入字符‘<’，进入“小于号之后”状态。
2. 在“空”状态下，读入非‘<’非空白的字符，进入“文本”状态。
3. 在“小于号之后”状态下，读入字符‘！’，进入“注释前一” 状态。
4. 在“小于号之后”状态下，读入字符‘?’，进入“处理指令”状态。
5. 在“小于号之后”状态下，读入字符‘/’，进入“结束TAG”状态。
6. 在“小于号之后”状态下，读入有效的ID字符，进入“起始TAG”状态。
7. 在“注释前一” 状态下，读入字符‘-’，进入“注释前二” 状态。
8. 在“注释前二” 状态下，读入字符‘-’，进入“注释” 状态。
9. 在 “起始TAG” 状态、“结束TAG” 状态、“文本” 状态、“注释”状态和“处理指令”状态结束后，重新回到“空”状态下。

这个状态机的图形表示如下：

下面我们来看看代码实现：

void xml_parser_parse(XmlParser* thiz, const char* xml)

{

/*定义状态的枚举值*/

enum _State

{

STAT_NONE,

STAT_AFTER_LT,

STAT_START_TAG,

STAT_END_TAG,

STAT_TEXT,

STAT_PRE_COMMENT1,

STAT_PRE_COMMENT2,

STAT_COMMENT,

STAT_PROCESS_INSTRUCTION,

}state = STAT_NONE;



thiz->read_ptr = xml;

/*指针从头移动到尾*/

for(; *thiz->read_ptr != '\0'; thiz->read_ptr++)

{

char c = thiz->read_ptr[0];



switch(state)

{

case STAT_NONE:

{

if(c == '<')

{

/*在“空”状态下，读入字符‘<’，进入“小于号之后”状态。*/

xml_parser_reset_buffer(thiz);

state = STAT_AFTER_LT;

}

else if(!isspace(c))

{

/*在“空”状态下，读入非‘<’非空白的字符，进入“文本”状态。*/

state = STAT_TEXT;

}

break;

}

case STAT_AFTER_LT:

{

if(c == '?')

{

/*在“小于号之后”状态下，读入字符‘?’，进入“处理指令”状态。*/

state = STAT_PROCESS_INSTRUCTION;

}

else if(c == '/')

{

/*在“小于号之后”状态下，读入字符‘/’，进入“结束TAG”状态。*/

state = STAT_END_TAG;

}

else if(c == '!')

{

/*在“小于号之后”状态下，读入字符‘！’，进入“注释前一” 状态*/

state = STAT_PRE_COMMENT1;

}

else if(isalpha(c) || c == '_')

{

/*在“小于号之后”状态下，读入有效的ID字符，进入“起始TAG”状态。*/

state = STAT_START_TAG;

}

else

{

}

break;

}

case STAT_START_TAG:

{

/*进入子状态*/

xml_parser_parse_start_tag(thiz);

state = STAT_NONE;

break;

}

case STAT_END_TAG:

{

/*进入子状态*/

xml_parser_parse_end_tag(thiz);

state = STAT_NONE;

break;

}

case STAT_PROCESS_INSTRUCTION:

{

/*进入子状态*/

xml_parser_parse_pi(thiz);

state = STAT_NONE;

break;

}

case STAT_TEXT:

{

/*进入子状态*/

xml_parser_parse_text(thiz);

state = STAT_NONE;

break;

}

case STAT_PRE_COMMENT1:

{

if(c == '-')

{

/*在“注释前一” 状态下，读入字符‘-’， 进入“注释前二” 状态。*/

state = STAT_PRE_COMMENT2;

}

else

{

}

break;

}

case STAT_PRE_COMMENT2:

{

if(c == '-')

{

/*在“注释前二” 状态下，读入字符‘-’， 进入“注释” 状态。*/

state = STAT_COMMENT;

}

else

{

}

}

case STAT_COMMENT:

{

/*进入子状态*/

xml_parser_parse_comment(thiz);

state = STAT_NONE;

break;

}

default:break;

}



if(*thiz->read_ptr == '\0')

{

break;

}

}



return;

}

解析并没有在此结束，原因是像“起始TAG”状态和“处理指令”状态等，它们不是原子的，内部还包含一些子状态，如TAG名称，属性名和属性值等，它们需要进一步分解。在考虑子状态时，我们可以忘掉它所处的上下文，只考虑子状态本身，这样问题会得到简化。下面看一下起始TAG的状态机。

假设我们要解析下面这样一个起始TAG：

我们应该怎样去做呢？还是按前面的方法，让一个指针指向缓冲区的头部，然后移动指针，直到指向缓冲区的尾部。在这个过程中，指针可能指向，TAG名称，属性名和属性值。由此我们可以定义出状态机的主要状态：

1. “TAG名称”状态
2. “属性名”状态
3. “属性值”状态

为了方便处理，再引两个中间状态，“属性名之前”状态和“属性值之前”状态。

状态转换函数：

初始状态为“TAG名称”状态
1. 在“TAG名称”状态下，读入空白字符，进入“属性名之前”状态。
2. 在“TAG名称”状态下，读入字符‘/’或‘>’，进入“结束”状态。
3. 在“属性名之前”状态下，读入其它非空白字符，进入“属性名”状态。
4. 在“属性名”状态下，读入字符‘=’，进入“属性值之前”状态。
5. 在“属性值之前”状态下，读入字符‘“’，进入“属性值”状态。
6. 在“属性值”状态下，读入字符‘”’，成功解析属性名和属性值，回到“属性名之前”状态。
7. 在“属性名之前”状态下，读入字符‘/’或‘>’，进入“结束”状态。

由于处理指令(PI)里也包含了属性状态，为了重用属性解析的功能，我们把属性的状态再提取为一个子状态。这样，“起始TAG”状态的图形表示如下：

下面我们看代码实现：

static void xml_parser_parse_attrs(XmlParser* thiz, char end_char)

{

int i = 0;

enum _State

{

STAT_PRE_KEY,

STAT_KEY,

STAT_PRE_VALUE,

STAT_VALUE,

STAT_END,

}state = STAT_PRE_KEY;



char value_end = '\"';

const char* start = thiz->read_ptr;



thiz->attrs_nr = 0;

for(; *thiz->read_ptr != '\0' && thiz->attrs_nr < MAX_ATTR_NR; thiz->read_ptr++)

{

char c = *thiz->read_ptr;



switch(state)

{

case STAT_PRE_KEY:

{

if(c == end_char || c == '>')

{

/*在“属性名之前”状态下，读入字符‘/’或‘>’，进入“结束”状态。*/

state = STAT_END;

}

else if(!isspace(c))

{

/*在“属性名之前”状态下，读入其它非空白字符，进入“属性名”状态。*/

state = STAT_KEY;

start = thiz->read_ptr;

}

}

case STAT_KEY:

{

if(c == '=')

{

/*在“属性名”状态下，读入字符‘=’，进入“属性值之前”状态。*/

thiz->attrs[thiz->attrs_nr++] = (char*)xml_parser_strdup(thiz, start, thiz->read_ptr - start);

state = STAT_PRE_VALUE;

}



break;

}

case STAT_PRE_VALUE:

{

/*在“属性值之前”状态下，读入字符‘“’，进入“属性值”状态。*/

if(c == '\"' || c == '\'')

{

state = STAT_VALUE;

value_end = c;

start = thiz->read_ptr + 1;

}

break;

}

case STAT_VALUE:

{

/*在“属性值”状态下，读入字符‘”’，成功解析属性名和属性值，回到“属性名之前”状态。*/

if(c == value_end)

{

thiz->attrs[thiz->attrs_nr++] = (char*)xml_parser_strdup(thiz, start, thiz->read_ptr - start);

state = STAT_PRE_KEY;

}

}

default:break;

}



if(state == STAT_END)

{

break;

}

}



for(i = 0; i < thiz->attrs_nr; i++)

{

thiz->attrs[i] = thiz->buffer + (size_t)(thiz->attrs[i]);

}

thiz->attrs[thiz->attrs_nr] = NULL;



return;

}

记得在XML里，单引号和双引号都可以用来界定属性值，所以上面对此做了特殊处理。

static void xml_parser_parse_start_tag(XmlParser* thiz)

{

enum _State

{

STAT_NAME,

STAT_ATTR,

STAT_END,

}state = STAT_NAME;



char* tag_name = NULL;

const char* start = thiz->read_ptr - 1;



for(; *thiz->read_ptr != '\0'; thiz->read_ptr++)

{

char c = *thiz->read_ptr;



switch(state)

{

case STAT_NAME:

{

/*在“TAG名称”状态下，读入空白字符，属性子状态。*/

/*在“TAG名称”状态下，读入字符‘/’或‘>’，进入“结束”状态。*/

if(isspace(c) || c == '>' || c == '/')

{

state = (c != '>' && c != '/') ? STAT_ATTR : STAT_END;

}

break;

}

case STAT_ATTR:

{

/*进入“属性”子状态*/

xml_parser_parse_attrs(thiz, '/');

state = STAT_END;



break;

}

default:break;

}



if(state == STAT_END)

{

break;

}

}



for(; *thiz->read_ptr != '>' && *thiz->read_ptr != '\0'; thiz->read_ptr++);



return;

}

处理指令的解析和起始TAG的解析基本上是一样的，这里只是看一下代码：

static void xml_parser_parse_pi(XmlParser* thiz)

{

enum _State

{

STAT_NAME,

STAT_ATTR,

STAT_END

}state = STAT_NAME;



char* tag_name = NULL;

const char* start = thiz->read_ptr;



for(; *thiz->read_ptr != '\0'; thiz->read_ptr++)

{

char c = *thiz->read_ptr;



switch(state)

{

case STAT_NAME:

{

/*在“TAG名称”状态下，读入空白字符，属性子状态。*/

/*在“TAG名称”状态下，‘>’，进入“结束”状态。*/

if(isspace(c) || c == '>')

{

state = c != '>' ? STAT_ATTR : STAT_END;

}



break;

}

case STAT_ATTR:

{

/*进入“属性”子状态*/

xml_parser_parse_attrs(thiz, '?');

state = STAT_END;

break;

}

default:break;

}



if(state == STAT_END)

{

break;

}

}



tag_name = thiz->buffer + (size_t)tag_name;



for(; *thiz->read_ptr != '>' && *thiz->read_ptr != '\0'; thiz->read_ptr++);



return;

}

注释，结束TAG和文本的解析非常简单，这里结合代码看看就行了：

“注释”子状态的处理：

static void xml_parser_parse_comment(XmlParser* thiz)

{

enum _State

{

STAT_COMMENT,

STAT_MINUS1,

STAT_MINUS2,

}state = STAT_COMMENT;



const char* start = ++thiz->read_ptr;

for(; *thiz->read_ptr != '\0'; thiz->read_ptr++)

{

char c = *thiz->read_ptr;



switch(state)

{

case STAT_COMMENT:

{

/*在“注释”状态下，读入‘-’，进入“减号一”状态。*/

if(c == '-')

{

state = STAT_MINUS1;

}

break;

}

case STAT_MINUS1:

{

if(c == '-')

{

/*在“减号一”状态下，读入‘-’，进入“减号二”状态。*/

state = STAT_MINUS2;

}

else

{

state = STAT_COMMENT;

}

break;

}

case STAT_MINUS2:

{

if(c == '>')

{

/*在“减号二”状态下，读入‘>’，结束解析。*/

return;

}

else

{

state = STAT_COMMENT;

}

}

default:break;

}

}



return;

}

“结束TAG”子状态的处理：

static void xml_parser_parse_end_tag(XmlParser* thiz)

{

char* tag_name = NULL;

const char* start = thiz->read_ptr;

for(; *thiz->read_ptr != '\0'; thiz->read_ptr++)

{

/*读入‘>’，结束解析。*/

if(*thiz->read_ptr == '>')

{

break;

}

}



return;

}

“文本”子状态的处理：

static void xml_parser_parse_text(XmlParser* thiz)

{

const char* start = thiz->read_ptr - 1;

for(; *thiz->read_ptr != '\0'; thiz->read_ptr++)

{

char c = *thiz->read_ptr;

/*读入‘>’，结束解析。*/

if(c == '<')

{

if(thiz->read_ptr > start)

{

}

thiz->read_ptr--;

return;

}

else if(c == '&')

{

/*读入‘&’，进入实体(entity)解析子状态。*/

xml_parser_parse_entity(thiz);

}

}



return;

}

实体(entity)子状态比较简单，这里不做进一步分析了，留给读者做练习吧

石头@ 2009-07-10 18:57 发表评论

tomcat 在eclipse中的部署

石头@ — Wed, 17 Jun 2009 10:07:00 GMT

Tomcat源码学习（一）

转自:http://carllgc.blog.ccidnet.com/blog-htm-do-showone-uid-4092-type-blog-itemid-263093.html

石头@ 2009-06-17 18:07 发表评论

BlogJava-海阔天空-文章分类-基础技术

零拷贝技术与实现

硬盘 簇

一个正则表达式工具类

一个合格的程序员应具备的。。。

网络服务器的性能分析

程序性能分析

CPU和IO操作

多线程

IO复用

总结

文本处理(一)状态机(2)

文本处理(一)状态机(1)

文本处理(二)

文本处理(一)

tomcat 在eclipse中的部署

Tomcat源码学习（一）

硬盘簇