大漠驼铃

置身浩瀚的沙漠，方向最为重要，希望此blog能向大漠驼铃一样，给我方向和指引。
Java,Php,Shell,Python,服务器运维,大数据，SEO, 网站开发、运维,云服务技术支持，IM服务供应商, FreeSwitch搭建，技术支持等. 技术讨论QQ群：428622099

随笔 - 238, 文章 - 3, 评论 - 117, 引用 - 0

数据加载中……

为lucene加入简单中文分词

看到很多人做lucene的应用时候都要面临中文分词怎么加的问题，下面介绍一个简单的中文词库，这个词库附带相应的算法，数据结构学过的人看懂没什么问题，只要简单的构造一个对象，就可以分词了，对于不是太大的应用来说，还是相当可行的，点击下载

      该分词库使用很简单，先初试化该类
      ChineseSegmenter seg = ChineseSegmenter.getGBSegmenter();
     然后调用seg.segmentLine("要分词的中文段", " ")//第二个参数为分词之间以什么间隔
      譬如

public static void main(String[] args) throws Exception {

      ChineseSegmenter seg = ChineseSegmenter.getGBSegmenter();
      System.out.println(seg.segmentLine("儿童节日", " "));

   }

    输出为儿童节日儿童节

     下面简要说以下如何加到搜索代码里，
      lucene 建立索引的代码引入的analysis分词法为 WhitespaceAnalyzer
      import org.apache.lucene.analysis.WhitespaceAnalyzer;

  IndexWriter writer = new IndexWriter(Directory, new WhitespaceAnalyzer(),true);

    public void AddDocument(String Title , String Content , ..)
    {
        Document doc = new Document();

        ChineseSegmenter cs= ChineseSegmenter.getGBSegmenter();    //初始化该类

            doc.add(Field.Text("content", cs.segmentLine(Content, " "))); // 将分好的词写进索引

            doc.add(Field.Text("title", cs.segmentLine(Title, " ")));

        try
        {
            writer.addDocument(doc);
        }
        catch(IOException e)
        {
            System.out.println("wrong");
            e.printStackTrace();
        }
    }

posted on 2009-03-03 11:34 草原上的骆驼阅读(279) 评论(0) 编辑收藏所属分类: 搜索服务

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理
相关文章: Lucene 索引数据库2 用Lucene索引数据库 Lucene索引查询分页实例 Lucene基本使用介绍为lucene加入简单中文分词用Lucene检索数据库 Lucene全文检索实践