﻿<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/"><channel><title>BlogJava-学习笔迹-随笔分类-mmseg4j</title><link>http://www.blogjava.net/chenlb/category/39247.html</link><description>好记性不如烂笔头! 
&lt;div style="position:relative;width:468px;left:160px;top:40px;"&gt;
	&lt;div style="position:absolute;width:468px;bottom:0px;"&gt;&lt;/div&gt;
&lt;/div&gt;
&lt;div&gt;&lt;/div&gt;</description><language>zh-cn</language><lastBuildDate>Tue, 20 Oct 2009 03:05:01 GMT</lastBuildDate><pubDate>Tue, 20 Oct 2009 03:05:01 GMT</pubDate><ttl>60</ttl><item><title>中文分词 mmseg4j-1.8 版发布</title><link>http://www.blogjava.net/chenlb/archive/2009/10/19/298800.html</link><dc:creator>流浪汗</dc:creator><author>流浪汗</author><pubDate>Mon, 19 Oct 2009 01:28:00 GMT</pubDate><guid>http://www.blogjava.net/chenlb/archive/2009/10/19/298800.html</guid><wfw:comment>http://www.blogjava.net/chenlb/comments/298800.html</wfw:comment><comments>http://www.blogjava.net/chenlb/archive/2009/10/19/298800.html#Feedback</comments><slash:comments>1</slash:comments><wfw:commentRss>http://www.blogjava.net/chenlb/comments/commentRss/298800.html</wfw:commentRss><trackback:ping>http://www.blogjava.net/chenlb/services/trackbacks/298800.html</trackback:ping><description><![CDATA[<p>想发布新版的 <a href="http://code.google.com/p/mmseg4j/" target="_blank">mmseg4j</a> 到现在已经有二个多月了。主要是因为这段时间忙其它事情了。现 Lucene 2.9 发布了，solr 1.4 也应该会比较快就要发布了。对 mmseg4j 兼容新版的 lucene/solr 也是个任务。</p>
<p>现 mmseg4j 发布新版 1.8，可以下载：<a href="http://mmseg4j.googlecode.com/files/mmseg4j-1.8.zip" target="_blank">mmseg4j-1.8.zip</a> 包括了源码与词库，还有创建文件。下面说下此版的主要变更：</p>
<p>new:</p>
<p>1、有检测词典变更的接口，外部程序可以使用 wordsFileIsChange() 和 reload() 来完成检测与加载的工作. (内部不实现自动检测与加载，留给外部程序去做。)</p>
<p>2、添加 MMseg4jHandler 类，可以在solr中用url的方式来控制加载检测词库。</p>
<p>3、增加 CutLetterDigitFilter过虑器，切分&#8220;字母和数&#8221;混在一起的过虑器。比如：mb991ch 切为 "mb 991 ch"。</p>
<p>changes:</p>
<p>1、默认在 classpath 中加载 data 目录（词库目录），找不到再找 user.dir/data 目录。但是优先 mmseg.dic.path 系统属性指定的。</p>
<p>2、新词库，去除 sogou 高频无词性的词，合并 rmmseg 提供的词（是 mmseg4j 1.0 使用的词库），共计（14W 多词）。</p>
<p>3、数字或英文开头的数字或英文不独立分出。如 MB991CH/A 分为 mb991ch a，cq40-519tx 分为 CQ40 519TX</p>
<p>4、内置支持小写，不需要 LowerCaseFilter 了。MMSegAnalyzer 去除了小写过虑。</p>
<p>5、支持 solr 1.3/1.4、lucene 2.3/2.4/2.9</p>
<p>6、尝试加载 jar 里的 words.dic，并构建含有 words.dic 的 jar(mmseg4j-*-with-dic.jar)。</p>
<p>bugs:</p>
<p>1、Dictionary 添加 finalize 方法。修正 tomcat reload 时 OOM 的 bug: http://code.google.com/p/mmseg4j/issues/detail?id=4</p>
<p>2、MMSegTokenizer 在 lucene 2.4 编译的 在 lucene 2.9 中会报 java.lang.NoSuchFieldError: input。bug: http://code.google.com/p/mmseg4j/issues/detail?id=5<br />
<br />
详情：<a href="http://blog.chenlb.com/2009/10/chinese-segment-mmseg4j-1_8-release.html">http://blog.chenlb.com/2009/10/chinese-segment-mmseg4j-1_8-release.html</a></p>
<img src ="http://www.blogjava.net/chenlb/aggbug/298800.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.blogjava.net/chenlb/" target="_blank">流浪汗</a> 2009-10-19 09:28 <a href="http://www.blogjava.net/chenlb/archive/2009/10/19/298800.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>中文分词 mmseg4j 1.7.2 版发布</title><link>http://www.blogjava.net/chenlb/archive/2009/04/27/267767.html</link><dc:creator>流浪汗</dc:creator><author>流浪汗</author><pubDate>Mon, 27 Apr 2009 12:00:00 GMT</pubDate><guid>http://www.blogjava.net/chenlb/archive/2009/04/27/267767.html</guid><wfw:comment>http://www.blogjava.net/chenlb/comments/267767.html</wfw:comment><comments>http://www.blogjava.net/chenlb/archive/2009/04/27/267767.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.blogjava.net/chenlb/comments/commentRss/267767.html</wfw:commentRss><trackback:ping>http://www.blogjava.net/chenlb/services/trackbacks/267767.html</trackback:ping><description><![CDATA[中文分词 mmseg4j 1.7.2 版发布，其实两天前就发布了，只是没有写博客而已。与引版本发布的还有 1.6.2，两者基本一样，只是词库的数据结构不同，1.7的是键树，1.6的是数组与二分查找。 mmseg4j 1.7.2 版的主要更新：
<ul>
    <li>修复由 1.7-beta 升级到 1.7 版的 bug：添加 lowerCaseFilter 后的一个 bug: NullPointerException。
    <li>核发程序与 lucene 和 solr 扩展分开打包, 同时给出低版本的 lucene 扩展(lucene 1.9 到 2.2; lucene 2.3) </li>
</ul>
如何从源码编译：下载源码：<a href="http://mmseg4j.googlecode.com/files/mmseg4j-1.7.2-src.zip" target="_blank">mmseg4j-1.7.2-src</a> 或 <a href="http://mmseg4j.googlecode.com/files/mmseg4j-1.6.2-src.zip" target="_blank">mmseg4j-1.6.2-src</a>。解压到如：e:/mmseg4j-1.7.2-src。然后到这个目录，运行：<br />
<br />
&nbsp;<textarea class="java" name="code">ant</textarea> <br />
<br />
或 <br />
<br />
<textarea class="java" name="code">ant build</textarea> <br />
上面编译是在 solr 1.3 和 lucene 2.4 环境下的。如果您要在 低版本的 lucene 中使用，到 e:/mmseg4j-1.7.2-src/contrib/lucene_1_9 或 e:/mmseg4j-1.7.2-src/contrib/lucene_2_3 运行：<br />
<br />
&nbsp;<textarea class="java" name="code">ant build</textarea> <br />
<br />
说明：到 contrib 下的子项目中编译的话，先要编译 mmseg4j，contrib/lucene_1_9 可以支持到 2.2。<br />
<br />
如果有任何疑问、建议，欢迎到论坛 <a href="http://groups.google.com/group/mmseg4j/topics?hl=zh_CN" target="_blank">http://groups.google.com/group/mmseg4j/topics?hl=zh_CN</a> 讨论。或与我联系 chenlb2008#gmail.com。<br />
<br />
还要感谢网友&#8220;苦涩可乐&#8221;提示 NullPointerException 的bug。 <br />
<br />
官方博客：<a href="http://blog.chenlb.com/category/mmseg4j">mmseg4j</a>，项目：<a href="http://code.google.com/p/mmseg4j/">google code mmseg4j</a> 
<img src ="http://www.blogjava.net/chenlb/aggbug/267767.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.blogjava.net/chenlb/" target="_blank">流浪汗</a> 2009-04-27 20:00 <a href="http://www.blogjava.net/chenlb/archive/2009/04/27/267767.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item></channel></rss>