posts - 5,  comments - 7,  trackbacks - 0
Microsoft的Office系列产品拥有大 量的用户,Word、Excel也成为办公文件的首选。在Java中,已经有很多对于Word、Excel的开源的解决方案,其中比较出色的是 Apache的Jakata项目的POI子项目。该项目的官方网站是http://jakarta.apache.org/poi/。
POI 包括一系列的API,它们可以操作基于MicroSoft OLE 2 Compound Document Format的各种格式文件,可以通过这些API在Java中读写Excel、Word等文件。POI是完全的Java Excel和Java Word解决方案。POI子项目包括:POIFS、HSSF、HDF、HPSF。表7-2对它们进行了简要介绍。
表7-2  POI子项目介绍
子项目名
说明
POIFS(POI File System)
POIFS是POI项目中最早的最基础的一个模块,是Java到OLE 2 Compound Document Format的接口,支持读写功能,所有的其他项目都依赖与该项目。
HSSF(Horrible Spreadsheet Format)
HSSF是Java到Microsoft Excel 97(-2002)文件的接口,支持读写功能
HWPF(Horrible Word Processing Format)
HWPF是Java到Microsoft Word 97文件的接口,支持读写功能,但目前该模块还处于刚开始开发阶段,只能实现一些简单文件的操作,在后续版本中,会提供更强大的支持
HPSF(Horrible Property Set Format)
HPSF 是Java到OLE 2 Compound Document Format文件的属性设置的接口,属性设置通常用来设置文档的属性(标题,作者,最后修改日期等),还可以设置用户定义的属性。HPSF支持读写功能,当前发布版本中直支持读功能。
7.3.1  对Excel的处理类
下 面通过HSSF提供的接口对Excel文件经行处理。首先需要下载POI的包,可以到apache的官方网站下载,地址为:http: //apache.justdn.org/jakarta/poi/,本书采用的是poi-2.5.1-final-20040804.jar,读者可以 下载当前的稳定版本。把下载的包按照前面介绍的方式加入Build Path,然后新建一个ch7.poi包,并创建一个ExcelReader类。
ExcelReader类可以读取一个XLS文件,然后将其内容逐行提取出来,写入文本文件。其代码如下。
java 代码
  1. public class ExcelReader{   
       
       
    // 创建文件输入流   
       
       
    private BufferedReader reader = null;   
       
       
    // 文件类型   
       
       
    private String filetype;   
       
       
    // 文件二进制输入流   
       
       
    private InputStream is = null;   
       
       
    // 当前的Sheet   
       
       
    private int currSheet;   
       
       
    // 当前位置   
       
       
    private int currPosition;   
       
       
    // Sheet数量   
       
       
    private int numOfSheets;   
       
       
    // HSSFWorkbook   
       
       HSSFWorkbook workbook 
    = null;   
       
       
    // 设置Cell之间以空格分割   
       
       
    private static String EXCEL_LINE_DELIMITER = " ";   
       
       
    // 设置最大列数   
       
       
    private static int MAX_EXCEL_COLUMNS = 64;   
       
       
    // 构造函数创建一个ExcelReader   
       
       
    public ExcelReader(String inputfile) throws IOException, Exception{   
       
          
    // 判断参数是否为空或没有意义   
       
          
    if (inputfile == null || inputfile.trim().equals("")){   
       
             
    throw new IOException("no input file specified");   
       
          }
       
       
          
    // 取得文件名的后缀名赋值给filetype   
       
          
    this.filetype = inputfile.substring(inputfile.lastIndexOf("."+ 1);   
       
          
    // 设置开始行为0   
       
          currPosition 
    = 0;   
       
          
    // 设置当前位置为0   
       
          currSheet 
    = 0;   
       
          
    // 创建文件输入流   
       
          is 
    = new FileInputStream(inputfile);   
       
          
    // 判断文件格式   
       
          
    if (filetype.equalsIgnoreCase("txt")){   
       
             
    // 如果是txt则直接创建BufferedReader读取   
       
             reader 
    = new BufferedReader(new InputStreamReader(is));   
       
          }
       
       
    else if (filetype.equalsIgnoreCase("xls")){   
       
             
    // 如果是Excel文件则创建HSSFWorkbook读取   
       
             workbook 
    = new HSSFWorkbook(is);   
       
             
    // 设置Sheet数   
       
             numOfSheets 
    = workbook.getNumberOfSheets();   
       
          }
       
       
    else{   
       
             
    throw new Exception("File Type Not Supported");   
       
          }
       
       
       }
       
       
       
    // 函数readLine读取文件的一行   
       
       
    public String readLine() throws IOException{   
       
          
    // 如果是txt文件则通过reader读取   
       
          
    if (filetype.equalsIgnoreCase("txt")){   
       
             String str 
    = reader.readLine();   
       
             
    // 空行则略去,直接读取下一行   
       
             
    while (str.trim().equals("")){   
       
                str 
    = reader.readLine();   
       
             }
       
       
             
    return str;   
       
          }
       
       
          
    // 如果是XLS文件则通过POI提供的API读取文件   
       
          
    else if (filetype.equalsIgnoreCase("xls")){   
       
             
    // 根据currSheet值获得当前的sheet   
       
             HSSFSheet sheet 
    = workbook.getSheetAt(currSheet);   
       
             
    // 判断当前行是否到但前Sheet的结尾   
       
             
    if (currPosition > sheet.getLastRowNum()){   
       
                
    // 当前行位置清零   
       
                currPosition 
    = 0;   
       
                
    // 判断是否还有Sheet   
       
                
    while (currSheet != numOfSheets - 1){   
       
                   
    // 得到下一张Sheet   
       
                   sheet 
    = workbook.getSheetAt(currSheet + 1);   
       
                   
    // 当前行数是否已经到达文件末尾   
       
                   
    if (currPosition == sheet.getLastRowNum()){   
       
                      
    // 当前Sheet指向下一张Sheet   
       
                      currSheet
    ++;   
       
                      
    continue;   
       
                   }
     else{   
       
                      
    // 获取当前行数   
       
                      
    int row = currPosition;   
       
                      currPosition
    ++;   
       
                      
    // 读取当前行数据   
       
                      
    return getLine(sheet, row);   
       
                   }
       
       
                }
       
       
                
    return null;   
       
             }
       
       
             
    // 获取当前行数   
       
             
    int row = currPosition;   
       
             currPosition
    ++;   
       
             
    // 读取当前行数据   
       
             
    return getLine(sheet, row);   
       
          }
       
       
          
    return null;   
       
       }
       
       
       
    // 函数getLine返回Sheet的一行数据   
       
       
    private String getLine(HSSFSheet sheet, int row){   
       
          
    // 根据行数取得Sheet的一行   
       
          HSSFRow rowline 
    = sheet.getRow(row);   
       
          
    // 创建字符创缓冲区   
       
          StringBuffer buffer 
    = new StringBuffer();   
       
          
    // 获取当前行的列数   
       
          
    int filledColumns = rowline.getLastCellNum();   
       
          HSSFCell cell 
    = null;   
       
          
    // 循环遍历所有列   
       
          
    for (int i = 0; i < filledColumns; i++){   
       
             
    // 取得当前Cell   
       
             cell 
    = rowline.getCell((short) i);   
       
             String cellvalue 
    = null;   
       
             
    if (cell != null){   
       
                
    // 判断当前Cell的Type   
       
                
    switch (cell.getCellType()){   
       
                
    // 如果当前Cell的Type为NUMERIC   
       
                
    case HSSFCell.CELL_TYPE_NUMERIC:{   
       
                   
    // 判断当前的cell是否为Date   
       
                   
    if (HSSFDateUtil.isCellDateFormatted(cell)){   
       
                      
    // 如果是Date类型则,取得该Cell的Date值   
       
                      Date date 
    = cell.getDateCellValue();   
       
                      
    // 把Date转换成本地格式的字符串   
       
                      cellvalue 
    = cell.getDateCellValue().toLocaleString();   
       
                   }
       
       
                   
    // 如果是纯数字   
       
                   
    else{   
       
                      
    // 取得当前Cell的数值   
       
                      Integer num 
    = new Integer((int) cell   
       
                            .getNumericCellValue());   
       
                      cellvalue 
    = String.valueOf(num);   
       
                   }
       
       
                   
    break;   
       
                }
       
       
                
    // 如果当前Cell的Type为STRIN   
       
                
    case HSSFCell.CELL_TYPE_STRING:   
       
                   
    // 取得当前的Cell字符串   
       
                   cellvalue 
    = cell.getStringCellValue().replaceAll("'""''");   
       
                   
    break;   
       
                
    // 默认的Cell值   
       
                
    default:   
       
                   cellvalue 
    = " ";   
       
                }
       
       
             }
     else{   
       
                cellvalue 
    = "";   
       
             }
       
       
             
    // 在每个字段之间插入分割符   
       
             buffer.append(cellvalue).append(EXCEL_LINE_DELIMITER);   
       
          }
       
       
          
    // 以字符串返回该行的数据   
       
          
    return buffer.toString();   
       
       }
       
       
       
    // close函数执行流的关闭操作   
       
       
    public void close(){   
       
          
    // 如果is不为空,则关闭InputSteam文件输入流   
       
          
    if (is != null){   
       
             
    try{   
       
                is.close();   
       
             }
     catch (IOException e){   
       
                is 
    = null;   
       
             }
       
       
          }
       
       
          
    // 如果reader不为空则关闭BufferedReader文件输入流   
       
          
    if (reader != null){   
       
             
    try{   
       
                reader.close();   
       
             }
     catch (IOException e){   
       
                reader 
    = null;   
       
             }
       
       
          }
       
       
       }
       
       
    }
      
     
7.3.2  ExcelReader的运行效果
下面创建一个main函数,用来测试上面的ExcelReader类,代码如下。
java 代码
  1. public static void main(String[] args){   
          
    try{   
              ExcelReader er
    =new ExcelReader("c:\xp.xls");      
              String line
    =er.readLine();   
              
    while(line != null){   
                  System.out.println(line);   
                  line
    =er.readLine();   
              }
       
              er.close();   
          }
    catch(Exception e){   
              e.printStackTrace();   
          }
       
      }
      
     
main函数先创建一个ExcelReader类,然后调用它提供的接口readLine,对XLS文件进行读取,打印到控制台,处理前的XLS文件如图7-12所示。
图7-12  处理前的XLS文件内容
运行main函数进行内容提取后,Eclipse的控制台输出如图7-13所示。
图7-13  输出结果
可以看到,Excel文件中的内容已经被成功的输出了出来。

7.3.3  POI中Excel文件Cell的类型
在读取每一个Cell的值的时候,通过getCellType方法获得当前Cell的类型,在Excel中Cell有6种类型,如表7-3所示。
表7-3  Cell的类型
CellType
说明
CELL_TYPE_BLANK
空值
CELL_TYPE_BOOLEAN
布尔型
CELL_TYPE_ERROR
错误
CELL_TYPE_FORMULA
公式型
CELL_TYPE_STRING
字符串型
CELL_TYPE_NUMERIC
数值型
本 例采用了CELL_TYPE_STRING和CELL_TYPE_NUMERIC类型,因为在Excel文件中只有字符串和数字。如果Cell的Type 为CELL_TYPE_NUMERIC时,还需要进一步判断该Cell的数据格式,因为它有可能是Date类型,在Excel中的Date类型也是以 Double类型的数字存储的。Excel中的Date表示当前时间与1900年1月1日相隔的天数,所以需要调用HSSFDateUtil的 isCellDateFormatted方法,判断该Cell的数据格式是否是Excel Date类型。如果是,则调用getDateCellValue方法,返回一个Java类型的Date。
实际上Excel的数据格式有很多,还支持用户自定义的类型,在Excel中,选择一个单元格然后右键选择“设置单元格格式”,在弹出的单元格格式中选中“数字”,如图7-14所示。
图7-14  Excel的单元格格式
图中的数据有数值、货币、时间、日期、文本等格式。这些数据格式在POI中的HSSFDataFormat类里都有相应的定义。
HSSFDataFormat 是HSSF子项目里面定义的一个类。类HSSFDataFormat允许用户新建数据格式类型。HSSFDataFormat类包含静态方法 static java.lang.String getBuiltinFormat(short index),它可以根据编号返回内置数据类型。另外static short getBuiltinFormat(java.lang.String format)方法则可以根据数据类型返回其编号, static java.util.List getBuiltinFormats()可以返回整个内置的数据格式列表。
在HSSFDataFormat里一共定义了49种内置的数据格式,如表7-4所示。

表7-4  HSSFDataFormat的数据格式
内置数据类型
编号
"General"
0
"0"
1
"0.00"
2
"#,##0"
3
"#,##0.00"
4
"($#,##0_);($#,##0)"
5
"($#,##0_);[Red]($#,##0)"
6
"($#,##0.00);($#,##0.00)"
7
"($#,##0.00_);[Red]($#,##0.00)"
8
"0%"
9
"0.00%"
0xa
"0.00E+00"
0xb
"# ?/?"
0xc
posted on 2008-11-29 09:50 Vincent-chen 阅读(897) 评论(0)  编辑  收藏 所属分类: POIPrint

只有注册用户登录后才能发表评论。


网站导航: