分享java带来的快乐

我喜欢java新东西

java poi 读取excel各种数据

Microsoft的Office系列产品拥有大 量的用户,Word、Excel也成为办公文件的首选。在Java中,已经有很多对于Word、Excel的开源的解决方案,其中比较出色的是 Apache的Jakata项目的POI子项目。该项目的官方网站是http://jakarta.apache.org/poi/。
POI 包括一系列的API,它们可以操作基于MicroSoft OLE 2 Compound Document Format的各种格式文件,可以通过这些API在Java中读写Excel、Word等文件。POI是完全的Java Excel和Java Word解决方案。POI子项目包括:POIFS、HSSF、HDF、HPSF。表7-2对它们进行了简要介绍。
表7-2  POI子项目介绍
子项目名
说明
POIFS(POI File System)
POIFS是POI项目中最早的最基础的一个模块,是Java到OLE 2 Compound Document Format的接口,支持读写功能,所有的其他项目都依赖与该项目。
HSSF(Horrible Spreadsheet Format)
HSSF是Java到Microsoft Excel 97(-2002)文件的接口,支持读写功能
HWPF(Horrible Word Processing Format)
HWPF是Java到Microsoft Word 97文件的接口,支持读写功能,但目前该模块还处于刚开始开发阶段,只能实现一些简单文件的操作,在后续版本中,会提供更强大的支持
HPSF(Horrible Property Set Format)
HPSF 是Java到OLE 2 Compound Document Format文件的属性设置的接口,属性设置通常用来设置文档的属性(标题,作者,最后修改日期等),还可以设置用户定义的属性。HPSF支持读写功能,当前发布版本中直支持读功能。
7.3.1  对Excel的处理类
下 面通过HSSF提供的接口对Excel文件经行处理。首先需要下载POI的包,可以到apache的官方网站下载,地址为:http: //apache.justdn.org/jakarta/poi/,本书采用的是poi-2.5.1-final-20040804.jar,读者可以 下载当前的稳定版本。把下载的包按照前面介绍的方式加入Build Path,然后新建一个ch7.poi包,并创建一个ExcelReader类。
ExcelReader类可以读取一个XLS文件,然后将其内容逐行提取出来,写入文本文件。其代码如下。
java 代码
  1. public class ExcelReader{  
  2.   
  3.    // 创建文件输入流  
  4.   
  5.    private BufferedReader reader = null;  
  6.   
  7.    // 文件类型  
  8.   
  9.    private String filetype;  
  10.   
  11.    // 文件二进制输入流  
  12.   
  13.    private InputStream is = null;  
  14.   
  15.    // 当前的Sheet  
  16.   
  17.    private int currSheet;  
  18.   
  19.    // 当前位置  
  20.   
  21.    private int currPosition;  
  22.   
  23.    // Sheet数量  
  24.   
  25.    private int numOfSheets;  
  26.   
  27.    // HSSFWorkbook  
  28.   
  29.    HSSFWorkbook workbook = null;  
  30.   
  31.    // 设置Cell之间以空格分割  
  32.   
  33.    private static String EXCEL_LINE_DELIMITER = " ";  
  34.   
  35.    // 设置最大列数  
  36.   
  37.    private static int MAX_EXCEL_COLUMNS = 64;  
  38.   
  39.    // 构造函数创建一个ExcelReader  
  40.   
  41.    public ExcelReader(String inputfile) throws IOException, Exception{  
  42.   
  43.       // 判断参数是否为空或没有意义  
  44.   
  45.       if (inputfile == null || inputfile.trim().equals("")){  
  46.   
  47.          throw new IOException("no input file specified");  
  48.   
  49.       }  
  50.   
  51.       // 取得文件名的后缀名赋值给filetype  
  52.   
  53.       this.filetype = inputfile.substring(inputfile.lastIndexOf(".") + 1);  
  54.   
  55.       // 设置开始行为0  
  56.   
  57.       currPosition = 0;  
  58.   
  59.       // 设置当前位置为0  
  60.   
  61.       currSheet = 0;  
  62.   
  63.       // 创建文件输入流  
  64.   
  65.       is = new FileInputStream(inputfile);  
  66.   
  67.       // 判断文件格式  
  68.   
  69.       if (filetype.equalsIgnoreCase("txt")){  
  70.   
  71.          // 如果是txt则直接创建BufferedReader读取  
  72.   
  73.          reader = new BufferedReader(new InputStreamReader(is));  
  74.   
  75.       }  
  76.   
  77. else if (filetype.equalsIgnoreCase("xls")){  
  78.   
  79.          // 如果是Excel文件则创建HSSFWorkbook读取  
  80.   
  81.          workbook = new HSSFWorkbook(is);  
  82.   
  83.          // 设置Sheet数  
  84.   
  85.          numOfSheets = workbook.getNumberOfSheets();  
  86.   
  87.       }  
  88.   
  89. else{  
  90.   
  91.          throw new Exception("File Type Not Supported");  
  92.   
  93.       }  
  94.   
  95.    }  
  96.   
  97.    // 函数readLine读取文件的一行  
  98.   
  99.    public String readLine() throws IOException{  
  100.   
  101.       // 如果是txt文件则通过reader读取  
  102.   
  103.       if (filetype.equalsIgnoreCase("txt")){  
  104.   
  105.          String str = reader.readLine();  
  106.   
  107.          // 空行则略去,直接读取下一行  
  108.   
  109.          while (str.trim().equals("")){  
  110.   
  111.             str = reader.readLine();  
  112.   
  113.          }  
  114.   
  115.          return str;  
  116.   
  117.       }  
  118.   
  119.       // 如果是XLS文件则通过POI提供的API读取文件  
  120.   
  121.       else if (filetype.equalsIgnoreCase("xls")){  
  122.   
  123.          // 根据currSheet值获得当前的sheet  
  124.   
  125.          HSSFSheet sheet = workbook.getSheetAt(currSheet);  
  126.   
  127.          // 判断当前行是否到但前Sheet的结尾  
  128.   
  129.          if (currPosition > sheet.getLastRowNum()){  
  130.   
  131.             // 当前行位置清零  
  132.   
  133.             currPosition = 0;  
  134.   
  135.             // 判断是否还有Sheet  
  136.   
  137.             while (currSheet != numOfSheets - 1){  
  138.   
  139.                // 得到下一张Sheet  
  140.   
  141.                sheet = workbook.getSheetAt(currSheet + 1);  
  142.   
  143.                // 当前行数是否已经到达文件末尾  
  144.   
  145.                if (currPosition == sheet.getLastRowNum()){  
  146.   
  147.                   // 当前Sheet指向下一张Sheet  
  148.   
  149.                   currSheet++;  
  150.   
  151.                   continue;  
  152.   
  153.                } else{  
  154.   
  155.                   // 获取当前行数  
  156.   
  157.                   int row = currPosition;  
  158.   
  159.                   currPosition++;  
  160.   
  161.                   // 读取当前行数据  
  162.   
  163.                   return getLine(sheet, row);  
  164.   
  165.                }  
  166.   
  167.             }  
  168.   
  169.             return null;  
  170.   
  171.          }  
  172.   
  173.          // 获取当前行数  
  174.   
  175.          int row = currPosition;  
  176.   
  177.          currPosition++;  
  178.   
  179.          // 读取当前行数据  
  180.   
  181.          return getLine(sheet, row);  
  182.   
  183.       }  
  184.   
  185.       return null;  
  186.   
  187.    }  
  188.   
  189.    // 函数getLine返回Sheet的一行数据  
  190.   
  191.    private String getLine(HSSFSheet sheet, int row){  
  192.   
  193.       // 根据行数取得Sheet的一行  
  194.   
  195.       HSSFRow rowline = sheet.getRow(row);  
  196.   
  197.       // 创建字符创缓冲区  
  198.   
  199.       StringBuffer buffer = new StringBuffer();  
  200.   
  201.       // 获取当前行的列数  
  202.   
  203.       int filledColumns = rowline.getLastCellNum();  
  204.   
  205.       HSSFCell cell = null;  
  206.   
  207.       // 循环遍历所有列  
  208.   
  209.       for (int i = 0; i < filledColumns; i++){  
  210.   
  211.          // 取得当前Cell  
  212.   
  213.          cell = rowline.getCell((short) i);  
  214.   
  215.          String cellvalue = null;  
  216.   
  217.          if (cell != null){  
  218.   
  219.             // 判断当前Cell的Type  
  220.   
  221.             switch (cell.getCellType()){  
  222.   
  223.             // 如果当前Cell的Type为NUMERIC  
  224.   
  225.             case HSSFCell.CELL_TYPE_NUMERIC:{  
  226.   
  227.                // 判断当前的cell是否为Date  
  228.   
  229.                if (HSSFDateUtil.isCellDateFormatted(cell)){  
  230.   
  231.                   // 如果是Date类型则,取得该Cell的Date值  
  232.   
  233.                   Date date = cell.getDateCellValue();  
  234.   
  235.                   // 把Date转换成本地格式的字符串  
  236.   
  237.                   cellvalue = cell.getDateCellValue().toLocaleString();  
  238.   
  239.                }  
  240.   
  241.                // 如果是纯数字  
  242.   
  243.                else{  
  244.   
  245.                   // 取得当前Cell的数值  
  246.   
  247.                   Integer num = new Integer((int) cell  
  248.   
  249.                         .getNumericCellValue());  
  250.   
  251.                   cellvalue = String.valueOf(num);  
  252.   
  253.                }  
  254.   
  255.                break;  
  256.   
  257.             }  
  258.   
  259.             // 如果当前Cell的Type为STRIN  
  260.   
  261.             case HSSFCell.CELL_TYPE_STRING:  
  262.   
  263.                // 取得当前的Cell字符串  
  264.   
  265.                cellvalue = cell.getStringCellValue().replaceAll("'""''");  
  266.   
  267.                break;  
  268.   
  269.             // 默认的Cell值  
  270.   
  271.             default:  
  272.   
  273.                cellvalue = " ";  
  274.   
  275.             }  
  276.   
  277.          } else{  
  278.   
  279.             cellvalue = "";  
  280.   
  281.          }  
  282.   
  283.          // 在每个字段之间插入分割符  
  284.   
  285.          buffer.append(cellvalue).append(EXCEL_LINE_DELIMITER);  
  286.   
  287.       }  
  288.   
  289.       // 以字符串返回该行的数据  
  290.   
  291.       return buffer.toString();  
  292.   
  293.    }  
  294.   
  295.    // close函数执行流的关闭操作  
  296.   
  297.    public void close(){  
  298.   
  299.       // 如果is不为空,则关闭InputSteam文件输入流  
  300.   
  301.       if (is != null){  
  302.   
  303.          try{  
  304.   
  305.             is.close();  
  306.   
  307.          } catch (IOException e){  
  308.   
  309.             is = null;  
  310.   
  311.          }  
  312.   
  313.       }  
  314.   
  315.       // 如果reader不为空则关闭BufferedReader文件输入流  
  316.   
  317.       if (reader != null){  
  318.   
  319.          try{  
  320.   
  321.             reader.close();  
  322.   
  323.          } catch (IOException e){  
  324.   
  325.             reader = null;  
  326.   
  327.          }  
  328.   
  329.       }  
  330.   
  331.    }  
  332.   
  333. }  
7.3.2  ExcelReader的运行效果
下面创建一个main函数,用来测试上面的ExcelReader类,代码如下。
java 代码
  1. public static void main(String[] args){  
  2.       try{  
  3.           ExcelReader er=new ExcelReader("c:\xp.xls");     
  4.           String line=er.readLine();  
  5.           while(line != null){  
  6.               System.out.println(line);  
  7.               line=er.readLine();  
  8.           }  
  9.           er.close();  
  10.       }catch(Exception e){  
  11.           e.printStackTrace();  
  12.       }  
  13.   }  
main函数先创建一个ExcelReader类,然后调用它提供的接口readLine,对XLS文件进行读取,打印到控制台,处理前的XLS文件如图7-12所示。
图7-12  处理前的XLS文件内容
运行main函数进行内容提取后,Eclipse的控制台输出如图7-13所示。
图7-13  输出结果
可以看到,Excel文件中的内容已经被成功的输出了出来。

7.3.3  POIExcel文件Cell的类型
在读取每一个Cell的值的时候,通过getCellType方法获得当前Cell的类型,在Excel中Cell有6种类型,如表7-3所示。
表7-3  Cell的类型
CellType
说明
CELL_TYPE_BLANK
空值
CELL_TYPE_BOOLEAN
布尔型
CELL_TYPE_ERROR
错误
CELL_TYPE_FORMULA
公式型
CELL_TYPE_STRING
字符串型
CELL_TYPE_NUMERIC
数值型
本 例采用了CELL_TYPE_STRING和CELL_TYPE_NUMERIC类型,因为在Excel文件中只有字符串和数字。如果Cell的Type 为CELL_TYPE_NUMERIC时,还需要进一步判断该Cell的数据格式,因为它有可能是Date类型,在Excel中的Date类型也是以 Double类型的数字存储的。Excel中的Date表示当前时间与1900年1月1日相隔的天数,所以需要调用HSSFDateUtil的 isCellDateFormatted方法,判断该Cell的数据格式是否是Excel Date类型。如果是,则调用getDateCellValue方法,返回一个Java类型的Date。
实际上Excel的数据格式有很多,还支持用户自定义的类型,在Excel中,选择一个单元格然后右键选择“设置单元格格式”,在弹出的单元格格式中选中“数字”,如图7-14所示。
图7-14  Excel的单元格格式
图中的数据有数值、货币、时间、日期、文本等格式。这些数据格式在POI中的HSSFDataFormat类里都有相应的定义。
HSSFDataFormat 是HSSF子项目里面定义的一个类。类HSSFDataFormat允许用户新建数据格式类型。HSSFDataFormat类包含静态方法 static java.lang.String getBuiltinFormat(short index),它可以根据编号返回内置数据类型。另外static short getBuiltinFormat(java.lang.String format)方法则可以根据数据类型返回其编号, static java.util.List getBuiltinFormats()可以返回整个内置的数据格式列表。
在HSSFDataFormat里一共定义了49种内置的数据格式,如表7-4所示。

表7-4  HSSFDataFormat的数据格式
内置数据类型
编号
"General"
0
"0"
1
"0.00"
2
"#,##0"
3
"#,##0.00"
4
"($#,##0_);($#,##0)"
5
"($#,##0_);[Red]($#,##0)"
6
"($#,##0.00);($#,##0.00)"
7
"($#,##0.00_);[Red]($#,##0.00)"
8
"0%"
9
"0.00%"
0xa
"0.00E+00"
0xb
"# ?/?"
0xc

posted on 2009-04-23 00:07 强强 阅读(17856) 评论(2)  编辑  收藏

评论

# re: java poi 读取excel各种数据 2009-11-05 14:11 斯蒂芬

你上面要是多张sheet的话 有一个死循环  回复  更多评论   

# re: java poi 读取excel各种数据 2009-11-05 14:12 斯蒂芬

while (currSheet != numOfSheets - 1){

// 得到下一张Sheet

sheet = workbook.getSheetAt(currSheet + 1);

// 当前行数是否已经到达文件末尾
currSheet = currSheet+1;
if (currPosition == sheet.getLastRowNum()){
// 当前Sheet指向下一张Sheet
//currSheet++;
continue;

} else{   回复  更多评论   


只有注册用户登录后才能发表评论。


网站导航: