BlogJava-飞云小侠之风儿吹过-随笔分类-Java

MAVEN:如何为开发和生产环境建立不同的配置文件 --我的简洁方案

Scud(飞云小侠) — Wed, 27 Oct 2010 14:31:00 GMT

摘要: 其实也是最近才看Maven, 以前都是用ant+ivy, 对于轻量级的项目来说足够了, 而且非常灵活. 看了看Maven, 约定.... 现在编程都说约定, 约定是挺好, 问题是超出约定的事情太多了, 到头来还要依赖其他东西, 真不想用maven啊. 以前我们开发环境和生产环境的配置文件都是单独分开目录存放的, ant脚本搞个变量就自动打包不同的文件了. 我觉得管理起来也很容易, 所以... 阅读全文

Scud(飞云小侠) 2010-10-27 22:31 发表评论

对搜索引擎同义词支持的实验, 分析模拟

Scud(飞云小侠) — Mon, 16 Aug 2010 01:26:00 GMT

今天偶尔看到一个同义词库, 想到这个有什么用途哪? 肯定是用来判断2句话, 2篇文章的相似性的.

它对搜索引擎,对论文抄袭鉴定系统肯定有用, 于是去搜索引擎试了试, 结果大失所望失望, 貌似google,bing,baidu对同义词没有做处理, 感觉是很简单的东西, 竟然没有做相关处理.

而且不仅仅是没有做同义词处理, 相关度方面也很差, 真是很奇怪的事情.

我们随便找一句话: (从google的桌面工具文档里)

A: "我们十分关注您的安全并为此推出了一项功能",

对应样本为:

B: "我们非常关注您的安全并为此推出了一项功能"

我们搜索一下, 可以发现 A 可以匹配的很好, 如果改成B, 发现和A匹配的第一项不见了, 按照正常猜想即使改了一个词相关度应该还是很高, 不知道为什么会这样.

替换其中一个同义词: (发现原来的网页不在前面了, 翻了几页也没有找到)

我们暂且不考虑 "大胜美国队" 和 "大败美国队"的语义分析, 但是上面的结果肯定不尽人意, 因为你可能需要考虑所有同义词, 否则可能就错过你想要的结果.

下面我们做一个简单的分析和模拟来实现同义词的相关逻辑, 假设的流程如下:

首先我们要有同义词对应表(多对多,可以有权重)
收录网页时把相应同义词映射到同一个词, 当然可以映射多个
在搜索时先预处理用户输入的内容
根据匹配算法计算

1. 同义词表结构如下

一百分 -->满分, 0.8
十分 --> 满分, 0.8

十分 --> 非常, 0.95
特别 --> 非常, 0.9
格外 --> 非常, 0.9

关心 --> 关注, 0.95
注意 --> 关注, 0.85

......

所有同义词映射到同一个词语, 并赋予一个权重. 当然还有多义词的问题, 会出现多个映射.

当然同义词的整理也是个巨大的工作量, 网上也有一些词库.

2. 根据同义词库的映射

   原内容: 我们十分关注您的安全并为此推出了一项功能
   映射后: 我们满分*0.8|非常*0.95|(十分) 关注您的安全并为此推出了一项功能

   "|"表示有多个选择, "()"表示为原内容.

3. 对输入内容的分析映射

   用户输入: 我们非常关心您的安全并为此推出了一项功能
   分析映射: 我们非常关注*0.95|(关心) 您的安全并为此推出了一项功能

4. 匹配查找

   匹配查找就是搜索引擎核心的逻辑了, 当然在遇到 "满分*0.8|非常*0.95|(十分)" 需要增加同义词判断逻辑, 根据2个权重可以得出一个同义词的匹配度, 然后继续分析即可.

以上只是一个非常简单的分析模拟, 和实际的搜索引擎逻辑差别非常大, 仅供参考.

Scud(飞云小侠) 2010-08-16 09:26 发表评论

不重复的排列组合示例

Scud(飞云小侠) — Thu, 29 Jul 2010 01:55:00 GMT

昨天看到个帖子, 然后想了想写出一段程序来. 有空该补补排列组合的知识了.

1 /**
2  * 各字符不重复的组合, 组合数小于等于最大可能性(否则就重复了).
3  *
4  * @author scud(飞云)
5  */
6 public class ShortCombineTest
7 {
8     static int count = 0;
9
10     public static void main(String[] args)
11     {
12         String s = "123456"; //all items content
13         int howmany = 3; //how many object
14
15         char[] c = s.toCharArray();
16         char[] dest = new char[howmany];
17
18         combine(c, dest, howmany, s.length(), 0);
19
20         System.out.println("max combine：" + count);
21     }
22
23     public static void combine(char[] array, char[] dest, int howmany, int maxitem, int index)
24     {
25         //break & end
26         if (index == howmany)
27         {
28             System.out.println(dest);
29             count++;
30             return;
31         }
32
33         while(array.length>0)
34         {
35             dest[index] = array[0];
36             char[] nextarray = getLeftChar(array, 0);
37             array = nextarray;
38             combine(nextarray, dest, howmany, maxitem, index + 1);
39         }
40     }
41
42     public static char[] getLeftChar(char[] c, int index)
43     {
44         char[] left = new char[c.length - 1];
45
46         for (int i = 0, j = 0; i < c.length; i++)
47         {
48             if (i != index)
49             {
50                 left[j] = c[i];
51                 j++;
52             }
53         }
54
55         return left;
56     }
57
58
59 }
60

Scud(飞云小侠) 2010-07-29 09:55 发表评论

最近在编写DBHelper的文档

Scud(飞云小侠) — Mon, 20 Feb 2006 05:54:00 GMT

摘要: DBHelper是一个自己一直在用的一个JDBC的工具包,虽然比不上Hibernate那么好,但是简单,方便,也用了好多年了
阅读全文

Scud(飞云小侠) 2006-02-20 13:54 发表评论

读"Under the Hood of J2EE Clustering" J2EE集群

Scud(飞云小侠) — Wed, 28 Sep 2005 15:53:00 GMT

摘要: 读"Under the Hood of J2EE Clustering" J2EE集群阅读全文

Scud(飞云小侠) 2005-09-28 23:53 发表评论

几个提高代码质量,检查代码规范的工具

Scud(飞云小侠) — Mon, 29 Aug 2005 03:49:00 GMT

1.FindBugs:查错
目前版本0.9.1,有for eclipse的插件. 网址是http://findbugs.sourceforge.net.

工作原理:检查程序生成的class的工具.

界面:独立运行的提供图形界面,很友好,有bug报告.

可用性:大多数提示有用,值得改

插件:
  可以设置基本和检查的错误类别.
  插件保存设置有问题,我是关闭项目后台修改了配置文件,在装入才成功改了配置的.
  bug临时解决: 使用独立的findbugs设置规则,然后到C:\Documents and Settings\XXX\下找.Findbugs_prefs,然后改名覆盖eclipse project下的.fbprefs (先关闭你的project)

配置没有查找功能,不过缩写能让我们很快找到某个规则

2.PMD:主要是查错
目前版本3.2,有for eclipse以及其他ide的插件.网址是http://pmd.sourceforge.net
工作原理:检查源码
可用性:一部分值得修改,有些过于严格
界面:独立运行的是命令行界面,命令比较简单.
插件:可以配置规则,有一个独立的窗口显示提示,分5级提示,很友好

使用:建立自己的规范,然后用于实际使用中.

3.CheckStyle:主要查代码规范
目前版本4.0 beta 5,有for eclipse的插件.网址是http://checkstyle.sourceforge.net.
工作原理:检查源码,对javadoc,书写格式等进行检查.
规则定义:默认的规则是sun的编码规范.不过按照sun的规则则过于严格,而且每个公司也有自己的规范,和sun的不同,所以需要自定义规范.

4.JTest 重量级的商业工具
目前版本7.0.7,有for eclipse的插件.网址是http://www.parasoft.com/

不推荐使用,不过功能强大,可以进行代码检查,可以自动生成单元测试和进行单元测试.(不过就是太慢了,而且生成的单元测试没太大用途)

使用感觉:

安装上插件后,对自己的项目进行检查,发现警告太多了,有点发蒙的感觉.不过把警告看一遍,觉得都很有道理,有些也确实是一些错误.
当然PMD和CheckStyle的规范太严格,最后还是配置了一下.

通过改正警告,感觉还是不错,至少可以说自己的代码可以通过工具的检测了.

当然基础代码和项目代码还是不一样的,基础代码往往比较复杂,所以和普通项目代码的规范应该有所不同.有些规则只能用在普通代码上,用在基础类代码上往往没法处理.

其他

代码查错推荐使用Findbugs和PMD,代码书写规范推荐使用CheckStyle进行检查.这样不仅能查出一些基本的错误,也能提高项目的代码质量.对提高自己的代码水平也是非常好.

推荐项目组建立统一的规则,代码复查的时候就使用这些工具,省时省力.

实乃居家旅行,杀人越货必备之工具也.(因为肯定有人要骂你,呵呵,也是你找"差"的工具)

Scud(飞云小侠) 2005-08-29 11:49 发表评论

分析XML中的CDATA类型在RSS中的使用

Scud(飞云小侠) — Mon, 22 Aug 2005 10:49:00 GMT

除经特别注明外,本站文章版权归JScud Develop团队或其原作者所有.
转载请注明作者和来源. scud(飞云小侠) 欢迎访问 JScud Develop

根据XML中CDATA类型的规范可以知道:"&"和"<"不需要也不能被转换. ">" 如果出现在"]]>" 的内容而不是表示结束时,必须被转义为>

但是这样就存在一个问题,如果我需要输入"]]>",正确的处理是保存为"]]>",但是如果我想输入"]]>",那么应该如何保存哪? 我想了很久,除非加空格或者采用特殊的办法,否则是没有办法解决的.

1.如果我们不考虑输入"]]>"的问题,来考虑一下"]]>"的处理,看看各种XML解析器是如何处理的?

xml解析器的测试包含2个部分:设置cdata类型的数据和读出cdata类型的数据.

首先我们写一个测试的例子,计划使用JDom 1.0和Dom4j来测试一下:

package com.jscud.test;

public class XmlTestBase
{
     public static String xmlpart =
      ""+
         "" +
         ""+
         "" +
         "" +
         "";

     public static void print(String str)
     {
         System.out.println(str);
     }
}

JDom测试的例子如下:

package com.jscud.test;

import java.io.*;
import org.jdom.*;
import org.jdom.input.SAXBuilder;
import org.jdom.output.*;

//@author scud http://www.jscud.com

public class JDomXmlFileTest extends XmlTestBase
{

     public static void main(String[] args) throws Exception
     {
         readDocument();
         print("===========================");
         createDocument();
     }

     public static void readDocument() throws Exception
     {
         Reader reader = new StringReader(xmlpart);
         SAXBuilder builder = new SAXBuilder();

         Document doc = builder.build(reader);

         Element aRoot = doc.getRootElement();

         Element anode = aRoot.getChild("test").getChild("hello");

         print(anode.getText());
     }

     public static void createDocument() throws Exception
     {
         Document doc = new Document();

         doc.setRootElement(new Element("root"));

         CDATA node = new CDATA("hello alt=]]>");

         //throw Exception
         //node.setText("hello]]>");

         Element ele = new Element("hello");

         ele.setContent(node);

         Element root = doc.getRootElement();

         root.getChildren().add(ele);

         XMLOutputter outputter = new XMLOutputter();
         Format aFormat = Format.getCompactFormat();
         aFormat.setEncoding("GB2312");

         String sResult = outputter.outputString(doc.getRootElement().getChildren());

        print(sResult);

     }
}

编译并运行上面的代码结果,我们可以看到JDom无法设置Cdata的值为"]]>",会报异常.从xml字符串读出cdata的结果也没有把字串"]]>"翻译为"]]>".

接着再来测试Dom4J:

package com.xml.test;

import java.io.StringReader;

import org.dom4j.*;
import org.dom4j.io.SAXReader;
import org.dom4j.tree.DefaultCDATA;

/**
* 测试XML的CData数据类型.
*
* @author scud http://www.jscud.com
*
*/

public class Dom4jXmlTest extends XmlTestBase
{

     public static void main(String[] args) throws Exception
     {
         readDocument();
         print("===========================");
         createDocument();
     }

     public static void createDocument()
     {
         Document document = DocumentHelper.createDocument();
         Element root = document.addElement( "root" );

         DefaultCDATA cdata = new DefaultCDATA("sample]]>");
         DefaultCDATA cdata2 = new DefaultCDATA("sample]]>");

         Element anode = root.addElement("cdata");
         anode.add(cdata);

         print(anode.getText());
         print(anode.asXML());

         Element anode2 = root.addElement("cdata2");
         anode2.add(cdata2);

         print(anode2.getText());
         print(anode2.asXML());
     }

     public static void readDocument() throws Exception
     {
         StringReader strreader = new StringReader(xmlpart);

         SAXReader reader = new SAXReader();
         Document document = reader.read(strreader);

         Node node = document.selectSingleNode( "//test/hello" );

         print(node.getText());

         print(node.getStringValue());
     }

}

我们可以看到Dom4j也是没有做任何处理,输入的时候不作任何转换,原样输出,这样必然导致xml错误.读出的时候也没有做转换.

根据上面的测试我们可以得出结论:很多xml解析器没有正确解析cdata的数据,(jdom和dom4j用的人比较多),不要太相信这些解析器.

2.我们再来看看阅读RSS的RSS阅读器吧,例如FeedDemon和POTU,我们准备了一个CData类型的description字段,来进行测试.

内容:

Some Where
http://www.jscud.com/

Test
http://www.jscud.com
scud
Mon, 22 Aug 2005 10:22:22 GMT
<hr>
]]>
]]>

结果:
1.POTU没有做任何处理
2.FeedDemon做了处理,不过同时也把其他的> <等等都翻译了,这就更不对了..

本来我是打算在RSS里使用CDATA类型的description字段的,经过几番试验和测试,最后决定还是使用普通的description字段了,不在使用CDATA了.

CDATA? 鸡肋乎? 呵呵

Scud(飞云小侠) 2005-08-22 18:49 发表评论

使用FreeMarker/Jsp(webwork)生成静态/动态RSS文件

Scud(飞云小侠) — Fri, 19 Aug 2005 06:11:00 GMT

scud(飞云小侠) http://www.jscud.com 转载请注明作者/来源

关键字:rss,freemarker,rss.xml,webwork2

RSS在网络上大行其道,各种网站都加上RSS支持,我最近也研究了一下,给我的文章也加上了RSS订阅.

RSS目前用的也有几个版本,很是混乱,下面以RSS2.0为例来说明.

网络上有个rsslibj库,是用来生成rss支持文件的,不过已经好久没有更新了,它是用xml的方式生成的.本文的例子不用到任何xml解析器,不过当然要知道最后生成的XML文件的格式才行,关于RSS规范,可以浏览一下 http://blogs.law.harvard.edu/tech/rss .

在计划生成RSS文件的时候,顺便搜索了一下JIRA和Confluence的程序,发现它们分别是用模板方式和JSP动态页面来展示的.于是我也想到两种方式:
1.用FreeMarker生成静态文件,适用于更新不是很频繁的内容.
2.用JSP动态展示,适合更新频率高,种类繁多的内容.

还是以本站的新闻举例,其中的新闻信息类参考 http://www.jscud.com/srun/news/viewhtml/3_2005_8/76.htm ,此处不在列出.

(一) 先说FreeMarker方式.

根据RSS的规范,得到模板如下:

JScud Develop
http://www.jscud.com/
zh-cn
JScud Develop By Scud
xxx@21cn.com(scud)
${rssutil.formatRssDate(now)}

<#list newslist as onenews>

   ${onenews.title?xml}
   http://www.jscud.com/srun/news/viewhtml/${onenews.htmlFilePath}/${onenews.nid}.htm
   ${rssutil.formatRssDate(onenews.addtime)}
     ${rssutil.formatRssCData(onenews.showContent)}
   ]]>

其中的网址和网站名称可以根据自己的实际情况修改.

我每次取出最新的20条文章来生成RSS,不过内容比较多,生成的RSS文件比较大,看到有的网站的description只是放了文章摘要的内容,这样文件就小多了.总之是根据自己的需求设计吧.

其中用到的RssUtil函数库的函数如下(日期的函数参考上一篇文章):

    /**
     * 把]]>替换为]]>
     * @param content 内容
     * @return 格式化后的内容
     */
    public static String formatRssCData(String content)
    {
        String result = StringFunc.replace(content,"\\]\\]>","]]>");

        return result;
    }

    /**
     * 格式化为xml需要的字符串
     * @param field 内容
     * @return 格式化后的串
     */
    public static String formatString2XML(String field)
    {
        return StringFunc.str2TextXML(field);
    }

    public static String getNowDateTime()
    {
        return formatRssDate(DateTime.getNowTimestamp());
    }

利用FreeMarker生成静态文件的代码如下:

private Configuration freemarker_cfg = null;

    protected Configuration getFreeMarkerCFG()
    {
        if (null == freemarker_cfg)
        {
            // Initialize the FreeMarker configuration;
            // - Create a configuration instance
            freemarker_cfg = new Configuration();

freemarker_cfg.setClassForTemplateLoading(this.getClass(), "/htmlskin");

freemarker_cfg.setDefaultEncoding("GBK");
}

return freemarker_cfg;
}

    public boolean geneFileByFreeMarker(String templateFileName, Map propMap, String filePath,
                    String fileName, String encode)
    {
        try
        {
            Template t = getFreeMarkerCFG().getTemplate(templateFileName);

File afile = new File(filePath + "/" + fileName);

Writer out = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(afile),
encode));

propMap.put("baseurl", PropSet.getStringProp("url.root"));

            t.process(propMap, out);
        }
        catch (TemplateException e)
        {
            LogMan.error("Error while processing FreeMarker template " + templateFileName, e);
            return false;
        }
        catch (IOException e)
        {
            LogMan.error("Error while generate File " + fileName, e);
            return false;
        }

return true;
}

新闻系统中调用重新生成RSS文件的代码如下:

    /**
     * 重新生成RSS文件.
     *
     * @param nid 更新的新闻的id,如果不包含在最新的新闻里,则不更新RSS.nid <1则更新
     *
     * @return 是否成功
     */
    private boolean renewRSS(int nid)
    {
        List newsList = 装载新闻的代码

        boolean shouldUpdate = false;
        if (nid > 0)
        {
            for (int i = 0; i < newsList.size(); i++)
            {
                NewsItem aNews = (NewsItem) newsList.get(i);
                if (aNews.getNid() == nid)
                {
                    shouldUpdate = true;
                    break;
                }
            }
        }
        else
        {
            shouldUpdate = true;
        }

        //不更新,则返回
        if (!shouldUpdate)
        {
            return true;
        }

        Map root = new HashMap();

        root.put("rssutil",new RSSUtil());

        root.put("newslist", newsList);

        root.put("now",DateTime.getNowTimestamp());

geneFileByFreeMarker("/news/rss.ftl", root, PropSet.getStringProp("rss.rssdir"), PropSet
.getStringProp("rss.rssfile"), "UTF-8");

return true;
}

在增加或者更新/删除新闻的地方需要调用这个renewRSS函数.

(二)JSP动态方式

相对静态方式而言,简单的多,不过效率上可能就不太好了.

webwork2的Action代码如下:

newsList = 装载新闻代码
return SUCCESS;

视图Jsp如下:

<%@ page contentType="text/xml; charset=UTF-8"%>
<%@ taglib uri="jscud" prefix="jscud" %>
<%@ taglib uri="webwork" prefix="ww" %>

JScud Develop
http://www.jscud.com/
zh-cn
JScud Develop By Scud
xxx@21cn.com(scud)

   <ww:property value="#rssUtil.formatString2XML(title)"/>
   http://www.jscud.com/srun/news/viewhtml//.htm


   ]]>

jsp的方式简单多了,上面的jsp里面还演示了ww:bean的使用 :)

上面的类里面引用了很多其他的工具类,这里不一一列出,可以自己实现它们,都是很简单的类. :)

Scud(飞云小侠) 2005-08-19 14:11 发表评论

Rss 中日期格式的研究

Scud(飞云小侠) — Wed, 17 Aug 2005 10:11:00 GMT

scud(飞云小侠) http://www.jscud.com 转载请注明来源/作者

rss中日期格式要求遵守rfc822规范,其中是这么写的:

     date-time   =  [ day "," ] date time        ; dd mm yy
                                                 ;  hh:mm:ss zzz

     day         =  "Mon"  / "Tue" /  "Wed"  / "Thu"
                 /  "Fri"  / "Sat" /  "Sun"

     date        =  1*2DIGIT month 2DIGIT        ; day month year
                                                 ;  e.g. 20 Jun 82

     month       =  "Jan"  /  "Feb" /  "Mar"  /  "Apr"
                 /  "May"  /  "Jun" /  "Jul"  /  "Aug"
                 /  "Sep"  /  "Oct" /  "Nov"  /  "Dec"

     time        =  hour zone                    ; ANSI and Military

     hour        =  2DIGIT ":" 2DIGIT [":" 2DIGIT]
                                                 ; 00:00:00 - 23:59:59

     zone        =  "UT"  / "GMT"                ; Universal Time
                                                 ; North American : UT
                 /  "EST" / "EDT"                ;  Eastern:  - 5/ - 4
                 /  "CST" / "CDT"                ;  Central:  - 6/ - 5
                 /  "MST" / "MDT"                ;  Mountain: - 7/ - 6
                 /  "PST" / "PDT"                ;  Pacific:  - 8/ - 7
                 /  1ALPHA                       ; Military: Z = UT;
                                                 ;  A:-1; (J not used)
                                                 ;  M:-12; N:+1; Y:+12
                 / ( ("+" / "-") 4DIGIT )        ; Local differential
                                                 ;  hours+min. (HHMM)

可以看出,前面的星期X是可以省略的,后面的时间是要求有时区的.

示例如下(以在中国的中文操作系统机器为例):

1.Tue, 16 Aug 2005 15:33:33 GMT
2.Tue, 16 Aug 2005 23:33:33 +0800

其实这个rfc822应该也是电子邮件内容格式的规范,找一个邮件看看内容,也可以看出,邮件的时间格式也是遵循这个规范的.

要输入第一种格式,使用SimpleDateFormat格式化即可,代码如下

    public static void test1(Date date)
    {
        SimpleDateFormat sdfTemp = new SimpleDateFormat("EEE, d MMM yyyy HH:mm:ss z",Locale.US);

        SimpleTimeZone aZone = new SimpleTimeZone(8,"GMT");
        sdfTemp.setTimeZone(aZone);

        System.out.println(sdfTemp.format(date));
    }

注意,其中设置了时区为GMT,否则会输出:

Tue, 16 Aug 2005 23:33:33 CST

这里的CST意思是代表"中国时间",但是一经搜索,发现CST代表了好几个时区,太让人混乱了.而在RTF822里面,CST仅代表美国中部时间.所以如果使用SimpleDateFormat,要设置时区以GMT表示,否则容易让人迷惑而且不知道是那个时区.

假设你在中国,想根据当地时间输入复合当地时间的字符串,让人一看就能明白文章的日期,那么就使用第二种格式.(我推荐使用第二种方式,当然你的频道主要给外国朋友浏览登除外)

上面说到和邮件有关,于是我们看看JavaMail包里面的javax.mail.internet.MailDateFormat,可以用来格式化日期:
(MyEclipse 3.8.4附带的J2EE 1.3中的JavaMail包)

        MailDateFormat mdf = new MailDateFormat();

        SimpleTimeZone aZone = new SimpleTimeZone(8,"GMT");
        //mdf.setTimeZone(aZone);

        System.out.println(mdf.format(date));

输出结果为:

Tue, 16 Aug 2005 23:33:33 +0800 (CST)

如果设置了时区为GMT,则输出:

Tue, 16 Aug 2005 15:33:33 +0000 (GMT)

可以看到相对RTF822而言,好像多了一个后面的时区的说明及其括号.不知道这到底是怎么回事?

在硬盘上查找一番,发现在JIRA程序和Confluence中的RSS里都使用了这个日期格式.

注意到这个不同,我浏览了一下outlook Express里面的邮件,发现两种时间格式的邮件都存在,真是让人迷惑,或许都可以吧,呵呵 :)

如果不想使用MailDateFormat的格式,那么就自己写一个类来实现吧,例如

public class RssDateFormat extends MailDateFormat
{
     public RssDateFormat()
     {
         applyPattern("EEE, d MMM yyyy HH:mm:ss ’XXXXX’");
     }

}

这是最简单的了,当然可以把MailDateFormat的源码拿过来改改更好一点,还不用依赖JavaMail了. :)

至此,我的RSS中的日期终于正确而且让我满意了. :)

Scud(飞云小侠) 2005-08-17 18:11 发表评论

使用Lucene进行全文检索(三)---进行搜索

Scud(飞云小侠) — Fri, 12 Aug 2005 09:34:00 GMT

scud(飞云小侠) http://www.jscud.com 转载请注明来源/作者

关键字:lucene,html parser,全文检索,IndexReader,Document,Field,IndexWriter,Term,HTMLPAGE

无论是建立索引还是分析内容,都是为了用户的搜索服务.

在Lucene中,如果需要使用搜索,需要使用Searcher类,这是一个抽象类,它有2个子类:IndexSearcher和MultiSearcher.

IndexSearcher是对一个索引进行搜索,如果你需要对多个索引进行搜索,可以使用MultiSearcher.下面的内容只介绍了IndexSearcher.

搜索涉及到几个问题:分页,组合条件,根据条件过滤,排序等等.

分页:分页在记录列表的地方都会遇到,这里不在赘述,我也实现过一个保存分页结果和显示结果的类,用于自己的实际工作,下面也会用到保存分页结果的类,代码如下:

  package com.jscud.support;


  /**
   * 分页显示用的参数.
   *
   * @author scud(飞云小侠) http://www.jscud.com
   *
   */

  public class DivPageInfo
  {

      //开始记录数
      private int recStart;

      //结束记录数
      private int recEnd;

      //总页数
      private int pageCount;

      //当前页
      private int page;

      //记录总数
      private int recCount;

      //每页记录数
      private int perPageRows;

      public int getNicePageCount()
      {
          return getNicePageNum(pageCount);
      }

      //get,set等,不在列出
      //......


      /**
       * 得到友好的页数数字,页数为0时,返回1.
       *
       * @return 得到友好的页数
       */
      public static int getNicePageNum(int nPage)
      {
              if (nPage == 0)
              {
                      return 1;
              }
              else
              {
                      return nPage;
              }
      }
  }

显示分页结果的类就需要大家根据自己使用的框架来具体实现了.我使用的是WebWork.

组合条件:在Lucene中,搜索的条件可以组合的很复杂,相关的类有BooleanQuery, FilteredQuery, MultiTermQuery, PhrasePrefixQuery, PhraseQuery, PrefixQuery, RangeQuery, SpanQuery, TermQuery 等等,从而可以组合出很复杂的条件用于查询.
另外QueryParser可以根据用户输入的字符串和设定的解析器和字段设置等,可以自动产生新的组合条件用于查询,例如用户输入"john AND black",QueryParser可以自己分析出用户是需要查询字段中同时包含"john"和"black"的结果.

过滤条件:有时候根据具体的用户需求,有些记录对于一些用户是不可见的,此时就要使用过滤器来防止不合法的用户看到不应该看到的记录.过滤器同时也可以根据一些具体的条件来过滤掉一些用户不想看到的记录.如果需要实现自己的filter,只要参考QueryFilter,DateFilter实现Filter即可.

排序:有时候,可能需要根据某个字段进行排序,例如按照时间排序.当然更多的时候是按照搜索结果的符合度进行排序,lucene默认的排序就是按照符合度来进行排序的.

进行搜索的代码如下,根据自己的需要进行代码的修改:

/**
* 进行搜索.
*
* 参数依次为:搜索内容(支持lucene语法),当前页,每页记录数,分页信息对象
*
*/
    public static List search(String searchText, int page, int perpage, final DivPageInfo pageinfo)
    {
        List docs = new ArrayList();

        if(!LuceneSearch.indexExist(indexDir)) { return docs; }

        Searcher searcher = null;
        try
        {
            StandardAnalyzer analyzer = new StandardAnalyzer();

            //处理检索条件
            Query titleQuery = QueryParser.parse(searchText, "title", analyzer);
            Query contextQuery = QueryParser.parse(searchText, "content", analyzer);
            Query otherQuery = QueryParser.parse(searchText, "other", analyzer);

            BooleanQuery query = new BooleanQuery();
            query.add(titleQuery, false, false);
            query.add(contextQuery, false, false);
            query.add(otherQuery, false, false);

            //分页检索
            searcher = new IndexSearcher(indexDir);
            Hits hits = searcher.search(query);

DivPageInfo.divPage(hits.length(), perpage, page, pageinfo);

            //取出当前页的记录
            for (int i = pageinfo.getRecStart(); i <= pageinfo.getRecEnd(); i++)
            {
                docs.add(LuceneDocument.getDocument(hits.doc(i - 1)));
            }
        }
        catch (IOException e)
        {
            LogMan.error("Error occur When Search Lucene", e);
        }
        catch (ParseException e)
        {
            LogMan.error("Error occur When Search Lucene", e);
        }
        finally
        {
            try
            {
                if (null != searcher)
                {
                    searcher.close();
                }
            }
            catch (IOException e)
            {
                LogMan.warn("Close searcher Error");
            }
        }

return docs;
}

代码中出现了一个新的类Hits,Hits是lucene的搜索结果集,是lazy load的结果集,只有你真正访问它,它才去装载真正的数据.

代码中还出现了一个LuceneDocument,这是为了在页面中显示而写的一个辅助类,因为lucene的Document是final的,无法进行扩展,而要显示时间字段必须要调用DateField中的函数,这样在页面中显示就不太直观了,所以写了这个辅助类,代码如下:

  package com.jscud.www.support.search;

  import java.sql.Timestamp;
  import java.util.Date;

  import org.apache.lucene.document.DateField;
  import org.apache.lucene.document.Document;
  import org.apache.lucene.document.Field;

  /**
   * 对Lucene的Document的封装,用于显示目的.
   *
   * @author scud(飞云小侠) http://www.jscud.com
   *
   */
  public class LuceneDocument
  {
      private Document doc;

      public LuceneDocument(Document doc)
      {
          this.doc = doc;
      }

      public static LuceneDocument getDocument(Document doc)
      {
          return new LuceneDocument(doc);
      }

      public String getValue(String name)
      {
          return doc.get(name);
      }

      public Field getField(String name)
      {
          return doc.getField(name);
      }

      public Timestamp getDateTime(String name)
      {
          String value = doc.get(name);
          return new Timestamp( DateField.stringToTime(value));
      }

      public Date getDate(String name)
      {
          String value = doc.get(name);
          return DateField.stringToDate(value);
      }
  }

使用WebWork对结果集进行了显示,代码如下:

          " target="_blank" >

          ()

然后调用分页信息显示tag即可.

通过以上的应用,可以看到,其实使用lucene很简单,以前总觉得很神秘,所以一直没有使用过,用过之后才觉得如此简单.

当然,对于大容量数据下,群集情况下,在网上都有很多解决方案,在此不一一提出,感兴趣的读者可以自己去搜索. :)

Scud(飞云小侠) 2005-08-12 17:34 发表评论

使用Lucene进行全文检索(二)---得到有效的内容

Scud(飞云小侠) — Fri, 12 Aug 2005 09:33:00 GMT

scud(飞云小侠) http://www.jscud.com 转载请注明来源/作者

关键字:lucene,html parser,全文检索,IndexReader,Document,Field,IndexWriter,Term,HTMLPAGE

在使用lucene对相关内容进行索引时,会遇到各种格式的内容,例如Html,PDF,Word等等,那么我们如何从这么文档中得到我们需要的内容哪?例如Html的内容,一般我们不需要对Html标签建立索引,因为那不是我们需要搜索的内容.这个时候,我们就需要从Html内容中解析出我们所需要的内容.对于PDF,Word文档,也是类似的要求.

总之,我们只需要从内容中提取出我们需要的文本来建立索引,这样用户就能搜索到需要的内容,然后访问对应的资源即可.

Lucene本身带的例子中有一个解析Html的代码,不过不是纯JAVA的,所以在网上我又找到了另外一个Html解析器,网址如下:http://htmlparser.sourceforge.net.

对PDF解析的相关项目有很多,例如PDFBox.在PDFBox里面提出pdf的文本内容只需要一句话即可:



Document doc = LucenePDFDocument.getDocument( file );


当然如果需要更高级的设置,就要使用PDFBox中PDFTextStripper等类来实现更高级的操作了.

对Word文档解析的相关有POI,网址是 http://jakarta.apache.org/poi/.

HtmlParser本身提供的功能很强大,我们下面主要来关注我们需要的功能.首先给出几个函数如下:

/**
* 解析一个Html页面,返回一个Html页面类.
*
* @param resource 文件路径或者网址
*/
    public static SearchHtmlPage parseHtmlPage(String resource)
    {
        String title = "";
        String body = "";
        try
        {
            Parser myParser = new Parser(resource);

            //设置编码:根据实际情况修改
            myParser.setEncoding("GBK");

            HtmlPage visitor = new HtmlPage(myParser);

            myParser.visitAllNodesWith(visitor);

            title = visitor.getTitle();

            body = combineNodeText(visitor.getBody().toNodeArray());
        }
        catch (ParserException e)
        {
            LogMan.error("Parse Html Page " + resource + " Error!");
        }

        SearchHtmlPage result = new SearchHtmlPage(title, body);

        return result;
    }

    /**
     * 解析Html内容,得到普通文本和链接的内容.
     *
     * @param content 要解析的内容
     * @return 返回解析后的内容
     */
    public static String parseHtmlContent(String content)
    {
        Parser myParser;
        NodeList nodeList = null;

        myParser = Parser.createParser(content, "GBK");

        NodeFilter textFilter = new NodeClassFilter(TextNode.class);
        NodeFilter linkFilter = new NodeClassFilter(LinkTag.class);

        //暂时不处理 meta
        //NodeFilter metaFilter = new NodeClassFilter(MetaTag.class);

        OrFilter lastFilter = new OrFilter();
        lastFilter.setPredicates(new NodeFilter[] { textFilter, linkFilter });

        try
        {
            nodeList = myParser.parse(lastFilter);
        }
        catch (ParserException e)
        {
            LogMan.warn("Parse Content Error", e);
        }

        //中场退出了
        if (null == nodeList)
        {
            return "";
        }

        Node[] nodes = nodeList.toNodeArray();

        String result = combineNodeText(nodes);
        return result;
    }

//合并节点的有效内容
    private static String combineNodeText(Node[] nodes)
    {
        StringBuffer result = new StringBuffer();

        for (int i = 0; i < nodes.length; i++)
        {
            Node anode = (Node) nodes[i];

            String line = "";
            if (anode instanceof TextNode)
            {
                TextNode textnode = (TextNode) anode;
                //line = textnode.toPlainTextString().trim();
                line = textnode.getText();
            }
            else if (anode instanceof LinkTag)
            {
                LinkTag linknode = (LinkTag) anode;

                line = linknode.getLink();
                //过滤jsp标签
                line = StringFunc.replace(line, "<%.*%>", "");
            }

            if (StringFunc.isTrimEmpty(line)) continue;

            result.append(" ").append(line);
        }

        return result.toString();
    }


其中SearchHtmlPage类是表示一个Html页面的模型,包含标题和内容,代码如下:


package com.jscud.www.support.search;

/**
* 搜索时解析Html后返回的页面模型.
*
* @author scud(飞云小侠) http://www.jscud.com
*
*/
public class SearchHtmlPage
{
     /**标题*/
     private String title;

     /**内容*/
     private String body;

     public SearchHtmlPage(String title, String body)
     {
         this.title = title;
         this.body = body;
     }

     public String getBody()
     {
         return body;
     }

     public void setBody(String body)
     {
         this.body = body;
     }

     public String getTitle()
     {
         return title;
     }

     public void setTitle(String title)
     {
         this.title = title;
     }
}

当然,使用HtmlParser解析Html资源还有很多其他的方法,可以设置很多的条件来满足用户的解析要求,用户可以阅读其他的文章或者HtmlParser的文档来了解,在此不多介绍.

下一节讲解如何进行搜索.

Scud(飞云小侠) 2005-08-12 17:33 发表评论

使用Lucene进行全文检索(一)---处理索引

Scud(飞云小侠) — Fri, 12 Aug 2005 09:31:00 GMT

scud(飞云小侠) http://www.jscud.com 转载请注明来源/作者

关键字:lucene,html parser,全文检索,IndexReader,Document,Field,IndexWriter,Term,HTMLPAGE

Lucene是一个全文检索的引擎,目前有Java和.Net 等几个版本.Java版本的网址是http://lucene.apache.org.相关的一个项目是车东的WebLucene: http://sourceforge.net/projects/weblucene.

首先,基于一个简单的新闻系统,要想做全文检索.新闻系统的管理等在这里不在具体提出,下面列出新闻对象的类:

注:程序用会到一些工具类,不在此列出,用户可以自己实现.

  package com.jscud.website.newsinfo.bean;


  import java.sql.Timestamp;

  import com.jscud.util.DateTime;
  import com.jscud.util.StringFunc;
  import com.jscud.website.newsinfo.NewsConst;


  /**
   * 一个新闻.
   *
   * @author scud(飞云小侠) http://www.jscud.com
   *
   */
  public class NewsItem
  {

      private int nid; //新闻编号

      private int cid; //类别编号

      private String title;//标题

      private int showtype; //内容类型:目前支持url和html

      private String content;//内容

      private String url;//对应网址,如果内容类型是url的话

      private Timestamp addtime; //增加时间

      private int click; //点击数

      //对应的get,set函数,较多不在列出,可以使用工具生成
      //......


      /**
       * 按照类型格式化
       */
      public String getShowContent()
      {
          String sRes = content;
          if(showtype == NewsConst.ShowType_HTML)
          {
          }
          return sRes;
      }

      public String getTarget()
      {
          if(showtype == NewsConst.ShowType_URL)
          {
              return "_blank";
          }
          else
              return "";
      }

      /**
       * 静态Html文件的路径及其名字
       */
      public String getHtmlFileName()
      {
          int nYear = DateTime.getYear_Date(getAddtime());
          int nMonth = DateTime.getMonth_Date(getAddtime());

          String sGeneFileName =
             "/news/" + getCid() + "/" + nYear + "/" + nMonth +"/" + getNid() + ".htm";

          return sGeneFileName;
      }

      /**
       * 静态Html文件的路径
       */
      public String getHtmlFilePath()
      {
          int nYear = DateTime.getYear_Date(getAddtime());
          int nMonth = DateTime.getMonth_Date(getAddtime());

          String sGeneFilePath =
             getCid() + "_" + nYear + "_" + nMonth;

          return sGeneFilePath;
      }
  }

可以看到,我们需要对标题和内容进行检索,为了这个目的,我们首先需要来研究一下lucene.

在Lucene中,如果要进行全文检索,必须要先建立索引然后才能进行检索,当然实际工作中还会有删除索引和更新索引的工作.

在此之前,介绍一个最基本的类(摘抄自http://www.blogjava.net/cap/archive/2005/07/17/7849.html):

Analyzer 文件的分析器（听起来别扭，还是叫Analyzer好了)的抽象，这个类用来处理分词(对中文尤其重要，转换大小写(Computer->computer,实现查询大小写无关)，转换词根(computers->computer),消除stop words等,还负责把其他格式文档转换为纯文本等.

在lucene中,一般会使用StandardAnalyzer来分析内容,它支持中文等多字节语言,当然可以自己实现特殊的解析器.StandardAnalyzer目前对中文的处理是按照单字来处理的,这是最简单的办法,但是也有缺点,会组合出一些没有意义的结果来.

首先我们来了解建立索引,建立索引包含2种情况,一种是给一条新闻建立索引,另外的情况是在开始或者一定的时间给批量的新闻建立索引,所以为了通用,我们写一个通用的建立索引的函数:

(一般一类的索引都放在一个目录下,这个配置可以在函数中定义,也可以写在配置文件中,通过参数传递给函数.)

    /**
     * 生成索引.
     *
     * @param doc 目标文档
     * @param indexDir 索引目录
     */
    public static void makeIndex(Document doc, String indexDir)
    {
        List aList = new ArrayList();
        aList.add(doc);
        makeIndex(aList, indexDir);
    }

    /**
     * 生成索引.
     *
     * @param doc 生成的document.
     * @param indexDir 索引目录
     */
    public static void makeIndex(List docs, String indexDir)
    {
        if (null == docs)
        {
            return;
        }
        boolean indexExist = indexExist(indexDir);

        IndexWriter writer = null;
        try
        {
            StandardAnalyzer analyzer = new StandardAnalyzer();

            //如果索引存在,就追加.如果不存在,就建立新的索引.lucene要是自动判决就好了.
            if(indexExist)
            {
                writer = new IndexWriter(indexDir, analyzer, false);
            }
            else
            {
                writer = new IndexWriter(indexDir, analyzer, true);
            }

            //添加一条文档
            for (int i = 0; i < docs.size(); i++)
            {
                Document doc = (Document) docs.get(i);
                if (null != doc)
                {
                    writer.addDocument(doc);
                }
            }

            //索引完成后的处理
            writer.optimize();
        }
        catch (IOException e)
        {
            LogMan.warn("Error in Make Index", e);
        }
        finally
        {
            try
            {
                if (null != writer)
                {
                    writer.close();
                }
            }
            catch (IOException e)
            {
                LogMan.warn("Close writer Error");
            }
        }
    }

可以看到,建立索引用到类是IndexWrite,它可以新建索引或者追加索引,但是需要自己判断.判断是通过IndexReader这个类来实现的,函数如下:

/**
     * 检查索引是否存在.
     * @param indexDir
     * @return
     */
    public static boolean indexExist(String indexDir)
    {
        return IndexReader.indexExists(indexDir);
    }

如果每次都是新建索引的话,会把原来的记录删除,我在使用的时候一开始就没有注意到,后来观察了一下索引文件,才发现这个问题.

还可以看到,建立索引是给用户的Document对象建立索引,Document表示索引中的一条文档记录.那么我们如何建立一个文档那?以新闻系统为例,代码如下:

     /**
      * 生成新闻的Document.
      *
      * @param aNews 一条新闻.
      *
      * @return lucene的文档对象
      */
     public static Document makeNewsSearchDocument(NewsItem aNews)
     {
         Document doc = new Document();

         doc.add(Field.Keyword("nid", String.valueOf(aNews.getNid())));

         doc.add(Field.Text("title", aNews.getTitle()));

         //对Html进行解析,如果不是html,则不需要解析.或者根据格式调用自己的解析方法
         String content = parseHtmlContent(aNews.getContent());

         doc.add(Field.UnStored("content", content));

         doc.add(Field.Keyword("addtime", aNews.getAddtime()));

         //可以加入其他的内容:例如新闻的评论等
         doc.add(Field.UnStored("other", ""));

         //访问url
         String newsUrl = "/srun/news/viewhtml/" + aNews.getHtmlFilePath() + "/" + aNews.getNid()
                         + ".htm";

         doc.add(Field.UnIndexed("visiturl", newsUrl));

         return doc;
     }

通过上面的代码,我们把一条新闻转换为lucene的Document对象,从而进行索引工作.在上面的代码中,我们又引入了lucene中的Field(字段)类.Document文档就像数据库中的一条记录,它有很多字段,每个字段是一个Field对象.

从别的文章摘抄一段关于Field的说明(摘抄自http://www.blogjava.net/cap/archive/2005/07/17/7849.html):
[quote]
    类型                               Analyzed Indexed Stored 说明
    Field.Keyword(String,String/Date) N Y Y                    这个Field用来储存会直接用来检索的比如(编号,姓名,日期等)
    Field.UnIndexed(String,String)     N N Y                    不会用来检索的信息,但是检索后需要显示的,比如,硬件序列号,文档的url地址
    Field.UnStored(String,String)      Y Y N                    大段文本内容,会用来检索,但是检索后不需要从index中取内容,可以根据url去load真实的内容
    Field.Text(String,String)          Y Y Y                    检索,获取都需要的内容,直接放index中,不过这样会增大index
    Field.Text(String,Reader)          Y Y N                    如果是一个Reader, lucene猜测内容比较多,会采用Unstored的策略.
[/quote]

我们可以看到新闻的编号是直接用来检索的,所以是Keyword类型的字段,新闻的标题是需要检索和显示用的,所以是Text类型,而新闻的内容因为是Html格式的,所以在经过解析器的处理用,使用的UnStored的格式,而新闻的时间是直接用来检索的,所以是KeyWord类型.为了在新闻索引后用户可以访问到完整的新闻页面,还设置了一个UnIndexed类型的访问地址字段.

(对Html进行解析的处理稍后在进行讲解)

为一条新闻建立索引需要两个步骤:获取Document,传给makeIndex函数,代码如下:

    public static void makeNewsInfoIndex(NewsItem aNews)
    {
        if (null == aNews)
        {
            return;
        }
        makeIndex(makeNewsSearchDocument(aNews),indexDir);
    }

建立索引的工作就进行完了,只要在增加新闻后调用 makeNewsInfoIndex(newsitem); 就可以建立索引了.

如果需要删除新闻,那么也要删除对应的索引,删除索引是通过IndexReader类来完成的:

    /**
     * 删除索引.
     * @param aTerm 索引删除条件
     * @param indexDir 索引目录
     */
    public static void deleteIndex(Term aTerm, String indexDir)
    {
        List aList = new ArrayList();
        aList.add(aTerm);
        deleteIndex(aList, indexDir);
    }

    /**
     * 删除索引.
     *
     * @param aTerm 索引删除条件.
     * @param indexDir 索引目录
     *
     */
    public static void deleteIndex(List terms, String indexDir)
    {
        if (null == terms)
        {
            return;
        }

        if(!indexExist(indexDir)) { return; }

        IndexReader reader = null;
        try
        {
            reader = IndexReader.open(indexDir);
            for (int i = 0; i < terms.size(); i++)
            {
                Term aTerm = (Term) terms.get(i);
                if (null != aTerm)
                {
                    reader.delete(aTerm);
                }
            }
        }
        catch (IOException e)
        {
            LogMan.warn("Error in Delete Index", e);
        }
        finally
        {
            try
            {
                if (null != reader)
                {
                    reader.close();
                }
            }
            catch (IOException e)
            {
                LogMan.warn("Close reader Error");
            }
        }
    }

删除索引需要一个条件,类似数据库中的字段条件,例如删除一条新闻的代码如下:

     public static void deleteNewsInfoIndex(int nid)
     {
         Term aTerm = new Term("nid", String.valueOf(nid));
         deleteIndex(aTerm,indexDir);
     }

通过新闻的ID,就可以删除一条新闻.

如果需要更新新闻,如何更新索引哪? 更新索引需要先删除索引然后新建索引2个步骤,其实就是把上面的代码组合起来,例如更新一条新闻:

     public static void updateNewsInfoIndex(NewsItem aNews)
     {
         if (null == aNews)
         {
             return;
         }
         deleteNewsInfoIndex(aNews.getNid());
         makeNewsInfoIndex(aNews);
     }

至此,索引的建立更新和删除就告一段落了.其中批量更新新闻的代码如下:
(批量更新应该在访问人数少或者后台程序在夜间执行)

    public static void makeAllNewsInfoIndex(List newsList)
    {
        List terms = new ArrayList();
        List docs = new ArrayList();

        for (int i = 0; i < newsList.size(); i++)
        {
            NewsItem aitem = (NewsItem) newsList.get(i);
            if (null != aitem)
            {
                terms.add(new Term("nid", String.valueOf(aitem.getNid())));
                docs.add(makeNewsSearchDocument(aitem));
            }
        }

        deleteIndex(terms,indexDir);
        makeIndex(docs,indexDir);
    }

下一节讲解如何对要建立索引的内容进行解析,例如解析Html等内容.

Scud(飞云小侠) 2005-08-12 17:31 发表评论

分析/解析Html页面:HTML Parser的试用

Scud(飞云小侠) — Thu, 11 Aug 2005 14:31:00 GMT

作者:scud(飞云小侠) http://www.jscud.com 转载请注明作者来源.否则请勿转载,谢谢.

最近在研究lucene的全文检索,在很多地方需要解析或者说分析Html内容或者Html页面,Lucene本身的演示程序中也提供了一个Html Parser,但是不是纯Java的解决方案.于是到处搜索,在网上找到了一个"HTMLParser".

网址是: http://htmlparser.sourceforge.net ,当前版本为1.5.

下载下来,试用一番,感觉不错,完全能满足lucene解析Html的需求.

过几天贴出lucene进行全文检索的代码.(检索本站的文章等).

试用代码如下,供大家参考:

package com.jscud.test;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStreamReader;

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.OrFilter;
import org.htmlparser.nodes.TextNode;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.HtmlPage;
import org.htmlparser.visitors.TextExtractingVisitor;

import com.jscud.util.LogMan; //一个日志记录类

/**
* 演示了Html Parse的应用.
*
* @author scud http://www.jscud.com
*/

public class ParseHtmlTest
{

    public static void main(String[] args) throws Exception
    {
        String aFile = "e:/jscud/temp/test.htm";

String content = readTextFile(aFile, "GBK");

test1(content);
System.out.println("====================================");

test2(content);
System.out.println("====================================");

test3(content);
System.out.println("====================================");

test4(content);
System.out.println("====================================");

test5(aFile);
System.out.println("====================================");

        //访问外部资源,相对慢
        test5("http://www.jscud.com");
        System.out.println("====================================");

}

    /**
     * 读取文件的方式来分析内容.
     * filePath也可以是一个Url.
     *
     * @param resource 文件/Url
     */
    public static void test5(String resource) throws Exception
    {
        Parser myParser = new Parser(resource);

//设置编码
myParser.setEncoding("GBK");

HtmlPage visitor = new HtmlPage(myParser);

myParser.visitAllNodesWith(visitor);

String textInPage = visitor.getTitle();

System.out.println(textInPage);
}

    /**
     * 按页面方式处理.对一个标准的Html页面,推荐使用此种方式.
     */
    public static void test4(String content) throws Exception
    {
        Parser myParser;
        myParser = Parser.createParser(content, "GBK");

HtmlPage visitor = new HtmlPage(myParser);

myParser.visitAllNodesWith(visitor);

String textInPage = visitor.getTitle();

System.out.println(textInPage);
}

    /**
     * 利用Visitor模式解析html页面.
     *
     * 小优点:翻译了<>等符号
     * 缺点:好多空格,无法提取link
     *
     */
    public static void test3(String content) throws Exception
    {
        Parser myParser;
        myParser = Parser.createParser(content, "GBK");

TextExtractingVisitor visitor = new TextExtractingVisitor();

myParser.visitAllNodesWith(visitor);

String textInPage = visitor.getExtractedText();

System.out.println(textInPage);
}

    /**
     * 得到普通文本和链接的内容.
     *
     * 使用了过滤条件.
     */
    public static void test2(String content) throws ParserException
    {
        Parser myParser;
        NodeList nodeList = null;

myParser = Parser.createParser(content, "GBK");

NodeFilter textFilter = new NodeClassFilter(TextNode.class);
NodeFilter linkFilter = new NodeClassFilter(LinkTag.class);

//暂时不处理 meta
//NodeFilter metaFilter = new NodeClassFilter(MetaTag.class);

OrFilter lastFilter = new OrFilter();
lastFilter.setPredicates(new NodeFilter[] { textFilter, linkFilter });

nodeList = myParser.parse(lastFilter);

Node[] nodes = nodeList.toNodeArray();

        for (int i = 0; i < nodes.length; i++)
        {
            Node anode = (Node) nodes[i];

            String line = "";
            if (anode instanceof TextNode)
            {
                TextNode textnode = (TextNode) anode;
                //line = textnode.toPlainTextString().trim();
                line = textnode.getText();
            }
            else if (anode instanceof LinkTag)
            {
                LinkTag linknode = (LinkTag) anode;

                line = linknode.getLink();
                //@todo 过滤jsp标签:可以自己实现这个函数
                //line = StringFunc.replace(line, "<%.*%>", "");
            }

if (isTrimEmpty(line))
continue;

            System.out.println(line);
        }
    }

    /**
     * 解析普通文本节点.
     *
     * @param content
     * @throws ParserException
     */
    public static void test1(String content) throws ParserException
    {
        Parser myParser;
        Node[] nodes = null;

myParser = Parser.createParser(content, null);

nodes = myParser.extractAllNodesThatAre(TextNode.class); //exception could be thrown here

        for (int i = 0; i < nodes.length; i++)
        {
            TextNode textnode = (TextNode) nodes[i];
            String line = textnode.toPlainTextString().trim();
            if (line.equals(""))
                continue;
            System.out.println(line);
        }

}

    /**
     * 读取一个文件到字符串里.
     *
     * @param sFileName 文件名
     * @param sEncode   String
     * @return 文件内容
     */
    public static String readTextFile(String sFileName, String sEncode)
    {
        StringBuffer sbStr = new StringBuffer();

        try
        {
            File ff = new File(sFileName);
            InputStreamReader read = new InputStreamReader(new FileInputStream(ff),
                    sEncode);
            BufferedReader ins = new BufferedReader(read);

            String dataLine = "";
            while (null != (dataLine = ins.readLine()))
            {
                sbStr.append(dataLine);
                sbStr.append("\r\n");
            }

            ins.close();
        }
        catch (Exception e)
        {
            LogMan.error("read Text File Error", e);
        }

return sbStr.toString();
}

    /**
     * 去掉左右空格后字符串是否为空
     * @param astr String
     * @return boolean
     */
    public static boolean isTrimEmpty(String astr)
    {
        if ((null == astr) || (astr.length() == 0))
        {
            return true;
        }
        if (isBlank(astr.trim()))
        {
            return true;
        }
        return false;
    }

    /**
     * 字符串是否为空:null或者长度为0.
     * @param astr 源字符串.
     * @return boolean
     */
    public static boolean isBlank(String astr)
    {
        if ((null == astr) || (astr.length() == 0))
        {
            return true;
        }
        else
        {
            return false;
        }
    }

}

Scud(飞云小侠) 2005-08-11 22:31 发表评论