Microsoft的Office系列产品拥有大 量的用户,Word、Excel也成为办公文件的首选。在Java中,已经有很多对于Word、Excel的开源的解决方案,其中比较出色的是 Apache的Jakata项目的POI子项目。该项目的官方网站是http://jakarta.apache.org/poi/。
POI 包括一系列的API,它们可以操作基于MicroSoft OLE 2 Compound Document Format的各种格式文件,可以通过这些API在Java中读写Excel、Word等文件。POI是完全的Java Excel和Java Word解决方案。POI子项目包括:POIFS、HSSF、HDF、HPSF。表7-2对它们进行了简要介绍。
表7-2  POI子项目介绍
    
        
            | 
             子项目名 
             | 
            
             说明 
             | 
        
        
            | 
             POIFS(POI File System) 
             | 
            
             POIFS是POI项目中最早的最基础的一个模块,是Java到OLE 2 Compound Document Format的接口,支持读写功能,所有的其他项目都依赖与该项目。 
             | 
        
        
            | 
             HSSF(Horrible Spreadsheet Format) 
             | 
            
             HSSF是Java到Microsoft Excel 97(-2002)文件的接口,支持读写功能 
             | 
        
        
            | 
             HWPF(Horrible Word Processing Format) 
             | 
            
             HWPF是Java到Microsoft Word 97文件的接口,支持读写功能,但目前该模块还处于刚开始开发阶段,只能实现一些简单文件的操作,在后续版本中,会提供更强大的支持 
             | 
        
        
            | 
             HPSF(Horrible Property Set Format) 
             | 
            
             HPSF 是Java到OLE 2 Compound Document Format文件的属性设置的接口,属性设置通常用来设置文档的属性(标题,作者,最后修改日期等),还可以设置用户定义的属性。HPSF支持读写功能,当前发布版本中直支持读功能。 
             | 
        
    
7.3.1  对Excel的处理类
下 面通过HSSF提供的接口对Excel文件经行处理。首先需要下载POI的包,可以到apache的官方网站下载,地址为:http: //apache.justdn.org/jakarta/poi/,本书采用的是poi-2.5.1-final-20040804.jar,读者可以 下载当前的稳定版本。把下载的包按照前面介绍的方式加入Build Path,然后新建一个ch7.poi包,并创建一个ExcelReader类。
ExcelReader类可以读取一个XLS文件,然后将其内容逐行提取出来,写入文本文件。其代码如下。
java 代码
    7.3.2  ExcelReader的运行效果
    下面创建一个main函数,用来测试上面的ExcelReader类,代码如下。
    java 代码
    
    
        - public static void main(String[] args){  
 
        -       try{  
 
        -           ExcelReader er=new ExcelReader("c:\xp.xls");     
 
        -           String line=er.readLine();  
 
        -           while(line != null){  
 
        -               System.out.println(line);  
 
        -               line=er.readLine();  
 
        -           }  
 
        -           er.close();  
 
        -       }catch(Exception e){  
 
        -           e.printStackTrace();  
 
        -       }  
 
        -   }  
 
        
         
        
        main函数先创建一个ExcelReader类,然后调用它提供的接口readLine,对XLS文件进行读取,打印到控制台,处理前的XLS文件如图7-12所示。
        
        图7-12  处理前的XLS文件内容
        运行main函数进行内容提取后,Eclipse的控制台输出如图7-13所示。
        
        图7-13  输出结果
        可以看到,Excel文件中的内容已经被成功的输出了出来。
        
        
        7.3.3  POI中Excel文件Cell的类型
        在读取每一个Cell的值的时候,通过getCellType方法获得当前Cell的类型,在Excel中Cell有6种类型,如表7-3所示。
        表7-3  Cell的类型
        
            
                
                    | 
                     CellType 
                     | 
                    
                     说明 
                     | 
                
                
                    | 
                     CELL_TYPE_BLANK 
                     | 
                    
                     空值 
                     | 
                
                
                    | 
                     CELL_TYPE_BOOLEAN 
                     | 
                    
                     布尔型 
                     | 
                
                
                    | 
                     CELL_TYPE_ERROR 
                     | 
                    
                     错误 
                     | 
                
                
                    | 
                     CELL_TYPE_FORMULA 
                     | 
                    
                     公式型 
                     | 
                
                
                    | 
                     CELL_TYPE_STRING 
                     | 
                    
                     字符串型 
                     | 
                
                
                    | 
                     CELL_TYPE_NUMERIC 
                     | 
                    
                     数值型 
                     | 
                
            
        
        本 例采用了CELL_TYPE_STRING和CELL_TYPE_NUMERIC类型,因为在Excel文件中只有字符串和数字。如果Cell的Type 为CELL_TYPE_NUMERIC时,还需要进一步判断该Cell的数据格式,因为它有可能是Date类型,在Excel中的Date类型也是以 Double类型的数字存储的。Excel中的Date表示当前时间与1900年1月1日相隔的天数,所以需要调用HSSFDateUtil的 isCellDateFormatted方法,判断该Cell的数据格式是否是Excel Date类型。如果是,则调用getDateCellValue方法,返回一个Java类型的Date。
        实际上Excel的数据格式有很多,还支持用户自定义的类型,在Excel中,选择一个单元格然后右键选择“设置单元格格式”,在弹出的单元格格式中选中“数字”,如图7-14所示。
        
        图7-14  Excel的单元格格式
        图中的数据有数值、货币、时间、日期、文本等格式。这些数据格式在POI中的HSSFDataFormat类里都有相应的定义。
        HSSFDataFormat 是HSSF子项目里面定义的一个类。类HSSFDataFormat允许用户新建数据格式类型。HSSFDataFormat类包含静态方法 static java.lang.String getBuiltinFormat(short index),它可以根据编号返回内置数据类型。另外static short getBuiltinFormat(java.lang.String format)方法则可以根据数据类型返回其编号, static java.util.List getBuiltinFormats()可以返回整个内置的数据格式列表。
        在HSSFDataFormat里一共定义了49种内置的数据格式,如表7-4所示。
        
        表7-4  HSSFDataFormat的数据格式
        
        
            
                
                    | 
                     内置数据类型 
                     | 
                    
                     编号 
                     | 
                
                
                    | 
                     "General" 
                     | 
                    
                     0 
                     | 
                
                
                    | 
                     "0" 
                     | 
                    
                     1 
                     | 
                
                
                    | 
                     "0.00" 
                     | 
                    
                     2 
                     | 
                
                
                    | 
                     "#,##0" 
                     | 
                    
                     3 
                     | 
                
                
                    | 
                     "#,##0.00" 
                     | 
                    
                     4 
                     | 
                
                
                    | 
                     "($#,##0_);($#,##0)" 
                     | 
                    
                     5 
                     | 
                
                
                    | 
                     "($#,##0_);[Red]($#,##0)" 
                     | 
                    
                     6 
                     | 
                
                
                    | 
                     "($#,##0.00);($#,##0.00)" 
                     | 
                    
                     7 
                     | 
                
                
                    | 
                     "($#,##0.00_);[Red]($#,##0.00)" 
                     | 
                    
                     8 
                     | 
                
                
                    | 
                     "0%" 
                     | 
                    
                     9 
                     | 
                
                
                    | 
                     "0.00%" 
                     | 
                    
                     0xa 
                     | 
                
                
                    | 
                     "0.00E+00" 
                     | 
                    
                     0xb 
                     | 
                
                
                    | 
                     "# ?/?" 
                     | 
                    
                     0xc 
                     |