摘要: 我同意要想写出一个自己的分词器,去分析别人的代码是必须的,但毫无疑问地是这肯定也是个相当痛苦的过程!
我分析过Lucene自带的StandardAnalyzer,刚开始的时候我是想要直接修改StandardAnalyzer的分词就好了,在单字分词的基础上增加基于字典分词的功能,但不久后我发现我得改弦易辙了,因为看上去实在太复杂了,我实在想不出来为啥写个分词器还要动用到javacc这个东西,没办法先去掌握了javacc这个东西如何生成java文件后,发现还是让人感觉太复杂,简单的单字分词就总共有10个类文件!所以我就转而求其他解决方法了。
阅读全文