语源科技BlogJava-刀剑笑

三种中文分词算法优劣比较

刀剑笑 — Sat, 01 Nov 2008 12:16:00 GMT

===============================================================================

如有需要可以转载，但转载请注明出处，并保留这一块信息，谢谢合作！

部分内容参考互联网,如有异议,请跟我联系!

作者:刀剑笑(Blog:http://blog.csdn.net/jyz3051)

Email:jyz3051 at yahoo dot com dot cn('at'请替换成'@'，'dot'请替换成'.' )

===============================================================================

关键词：中文分词，中文分词算法，基于字符串匹配的分词，基于理解的分词，基于统计的分词

到目前为止，中文分词包括三种方法：1）基于字符串匹配的分词；2）基于理解的分词；3）基于统计的分词。到目前为止，还无法证明哪一种方法更准确，每种方法都有自己的利弊，有强项也有致命弱点，简单的对比见下表所示：

各种分词方法的优劣对比

分词方法	基于字符串匹配分词	基于理解的分词	基于统计的分词
歧义识别	差	强	强
新词识别	差	强	强
需要词典	需要	不需要	不需要
需要语料库	否	否	是
需要规则库	否	是	否
算法复杂性	容易	很难	一般
技术成熟度	成熟	不成熟	成熟
实施难度	容易	很难	一般
分词准确性	一般	准确	较准
分词速度	快	慢	一般

（1）歧义识别

歧义识别指一个字符串有多种分词方法，计算机难以给出到底哪一种分词算法才是正确的分词系列。如"表面的"可以分为"表面/的"或"表/面的"。计算机无法判断哪一种才是准确的分词系列。

基于字符串的分词算法：仅仅是跟一个电子词典进行比较，故不能进行歧义识别；

基于理解的分词算法：指通过理解字符串的含义，故有很强的歧义识别能力；

基于统计的分词算法：根据字符连续出现次数的多少，得到分词系列，故常常能够给出正确的分词系列选择，但是也有可能判断错误的情况。

（2）新词识别

新词识别也称作未登录词识别，指正确识别词典中没有出现的词语。姓名、机构名、地址、称谓等千变万化，词典中常常不能完全收录这些词语；另外，网络中出现的流行用语也是一种未登录词的常见来源，如"打酱油"为最近出现在网络中，并迅速流行，从而成为一个新词。大量的研究证明新词识别是中文分词准确性的一个重要影响因素。

基于字符串的分词算法：无法正确识别未登录词，因为这种算法仅仅与词典中存在的词语进行比较；

基于理解的分词算法：理解字符串的含义，从而有很强的新词识别能力；

基于统计的分词算法：这种算法对第二种未登录词有很强的识别能力，因为出现次数多，才会当作一个新词；对于第二类未登录词，这类词语有一定的规律，如姓名："姓"+ 名字，如李胜利；机构：前缀+称谓，如希望集团；故需要结合一定的规则进行识别，仅仅统计方法难以正确识别。

（3）需要词典

基于字符串的分词算法：基本思路就是与电子词典进行比较，故电子词典是必须的。并且词典越大，分词的正确率越高，因为词典越大，未登录词越少，从而可以大大减少未登录词识别的错误；

基于理解的分词算法：理解字符串的含义，故不需要一个电子词典；

基于统计的分词算法：仅仅根据统计得到最终的结果，故电子词典不是必须的。

（4）需要语料库

基于字符串的分词算法：分词过程仅仅与一个已经存在的电子词典进行比较，故不需要语料库；

基于理解的分词算法：理解字符串的含义，故不需要电子词典；

基于统计的分词算法：需要语料库进行统计训练，故语料库是必须的；且好的语料库是分词准确性的保证。

（5）需要规则库

基于字符串的分词算法：分词过程仅仅与一个已经存在的电子词典进行比较，不需要规则库来进行分词；

基于理解的分词算法：规则是计算机进行理解的基础，故准确、完备的规则库是这种分词算法的前提；

基于统计的分词算法：根据语料库统计训练，故规则库不是必须的。

（6）算法复杂性

基于字符串的分词算法：仅仅进行字符串的比较操作，故算法简单；

基于理解的分词算法：需要充分处理各种规则，故算法非常复杂；事实上到目前为止，还没有成熟的这类算法；

基于统计的分词算法：需要语料库进行训练，虽然算法也比较复杂，但是已经比较常见，故这种分词的复杂性比第一种大，比第二种容易。现在的实用分词系统都采用这种算法。

（7）技术成熟度

基于字符串的分词算法：是最早出现也是最成熟的算法；

基于理解的分词算法：是最不成熟的一类算法，到目前为止还没有成熟的算法；

基于统计的分词算法：已经有多种成熟的这类算法，基本上能够满足实际的应用。

故技术成熟度：基于匹配的分词算法〉基于理解的分词算法〉基于统计的分词算法。

（8）实施复杂性

同上面的道理，实施复杂性：基于理解的分词算法〉基于统计的分词算法〉基于匹配的分词算法。

（9）分词准确性

到目前为止还没有一个准确的结论，不过从理论上说，基于理解的分词算法有最高的分词准确性，理论上有100%的准确性；而基于匹配的分词算法和基于统计的分词算法是一种"浅理解"的分词方法，不涉及真正的含义理解，故可能会出现错误，难以达到100%的准确性。

（10）分词速度

基于匹配的分词算法：算法简单，操作容易，故分词速度快，所以这种算法常常作为另外两种算法的预处理，进行字符串的粗分；

基于理解的分词算法：这种算法常常需要操作一个巨大的规则库，故速度最慢；

基于统计的分词算法：这种分词算法仅仅是与一个统计结果进行比较，故速度一般。

故一般的分词速度从快到慢依次为：基于匹配的分词算法〉基于统计的分词算法〉基于理解的分词算法。

刀剑笑 2008-11-01 20:16 发表评论

ICTCLAS分词系统研究（一）（转）

刀剑笑 — Fri, 28 Dec 2007 15:58:00 GMT

ICTClAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统，难能可贵的是该版的Free版开放了源代码，为我们很多初学者提供了宝贵的学习材料。

但有一点不完美的是，该源代码没有配套的文档，阅读起来可能有一定的障碍，尤其是对C/C++不熟的人来说.本人就一直用Java/VB作为主要的开发语言,C/C++上大学时倒是学过,不过工作之后一直没有再使用过,语法什么的忘的几乎一干二净了.但语言这东西,基本的东西都相通的,况且Java也是在C/C++的基础上形成的,有一定的相似处.阅读一遍源代码,主要的语法都应该不成问题了.

虽然在ICTCLAS的系统中没有完整的文档说明,但是我们可以通过查阅张华平和刘群发表的一些相关论文资料,还是可以窥探出主要的思路.

该分词系统的主要是思想是先通过CHMM(层叠形马尔可夫模型)进行分词,通过分层,既增加了分词的准确性,又保证了分词的效率.共分五层,如下图一所示:

基本思路:先进行原子切分,然后在此基础上进行N-最短路径粗切分,找出前N个最符合的切分结果,生成二元分词表,然后生成分词结果,接着进行词性标注并完成主要分词步骤.

下面是对源代码的主要内容的研究：

１.首先，ICTCLAS分词程序首先调用CICTCLAS_WinDlg::OnBtnRun()开始程序的执行.并且可以从看出它的处理方法是把源字符串分段处理。并且在分词前，完成词典的加载过程，即生成m_ICTCLAS对象时调用构造函数完成词典库的加载。关于词典结构的分析，请参加分词系统研究（二）。

void CICTCLAS_WinDlg::OnBtnRun()
{

......

//在此处进行分词和词性标记

if(!m_ICTCLAS.ParagraphProcessing((char *)(LPCTSTR)m_sSource,sResult))
        m_sResult.Format("错误：程序初始化异常！");
   else
       m_sResult.Format("%s",sResult);//输出最终分词结果

......

}

２.在OnBtnRun()方法里面调用分段分词处理方法bool CResult::ParagraphProcessing(char *sParagraph,char *sResult)完成分词的整个处理过程，包括分词的词性标注.其中第一个参数为源字符串，第二个参数为分词后的字符串.在这两个方法中即完成了整个分词处理过程，下面需要了解的是在此方法中，如何调用其它方法一步步按照上图所示的分析框架完成分词过程.为了简单起见，我们先不做未登录词的分析。

//Paragraph Segment and POS Tagging
bool CResult::ParagraphProcessing(char *sParagraph,char *sResult)
{

........

Processing(sSentence,1); //Processing and output the result of current sentence.
Output(m_pResult[0],sSentenceResult,bFirstIgnore); //Output to the imediate result

.......

}

３.主要的分词处理是在Processing()方法里面发生的，下面我们对它进行进一步的分析.

bool CResult::Processing(char *sSentence,unsigned int nCount)
{

......

//进行二叉分词

m_Seg.BiSegment(sSentence, m_dSmoothingPara,m_dictCore,m_dictBigram,nCount);

......

//在此处进行词性标注

m_POSTagger.POSTagging(m_Seg.m_pWordSeg[nIndex],m_dictCore,m_dictCore);

......

}

４.现在我们先不管词性标注，把注意力集中在二叉分词上，因为这个是分词的两大关键步骤的第一步.

参考文章:

1.<<基于层叠隐马模型的汉语词法分析>>,刘群张华平等

2.<<基于N-最短路径的中文词语粗分模型>>,张华平刘群

来源：http://blog.csdn.net/sinboy/archive/2006/03/12/622596.aspx

刀剑笑 2007-12-28 23:58 发表评论

ICTCLAS 中科院分词系统代码注释中文分词词性标注（转）

刀剑笑 — Fri, 28 Dec 2007 14:10:00 GMT

中科院分词系统概述

这几天看完了中科院分词程序的代码，现在来做一个概述，并对一些关键的数据结构作出解释

〇、总体流程

考虑输入的一句话，sSentence="张华平欢迎您"

总体流程:

一、分词 "张/华/平/欢迎/您"

二、posTagging "张/q 华/j 平/j 欢迎/v 您/r"

三、NE识别:人名识别,音译名识别,地名识别 "张/q 华/j 平/j 欢迎/v 您/r" "张华平/nr"

四、重新分词:"张华平/欢迎/您"

五、重新posTagging: "张华平/nr 欢迎/v 您/r"

技术细节

一、分词

分词程序首先在其头末添加开始符和结束符
sSentence="始##始张华平欢迎您末##末"

然后是分词,基本思想就是分词的得到的词的联合概率最大

假设 "张华平欢迎您" 分为 "w_1/w_2/.../w_k" 则
w_1/w_2/.../w_k=argmax_{w_1'/w_2'/.../w_k'}P(w_1',w_2',...,w_k')=argmax_{w_1'/w_2'/.../w_k'}P(w_1')P(w_2')...P(w_k')

细节:

首先给原句按字划分,所有汉字一个一段,连续的字母,数字一段,比如"始##始张华平2006欢迎您asdf末##末"被划为"始##始/张/华/平/2006/欢/迎/您/asdf/末##末"

接着找出这个句子中所有可能出现的词,比如"始##始张华平欢迎您末##末",出现的词有"始##始","张","华","平","欢","迎","您","末##末","欢迎"
并查找这些词所有可能的词性和这些词出现的频率。

将这些词保存在一个结构中,具体实现如下:

m_segGraph中有一个(PARRAY_CHAIN)m_pHead，是一个链

(PARRAY_CHAIN)p->row//记录该词的头位置
(PARRAY_CHAIN)p->col//记录该词的末位置
(PARRAY_CHAIN)p->value//记录该词的-log(出现的概率),出现的频率指所有该词的所有词性下出现的概率的总和。
(PARRAY_CHAIN)p->nPos//记录该词的词性，比如人名标记为'nr'，则对应的nPos='n'*256+'r',如果该词有很多词性,则nPos=0
(PARRAY_CHAIN)p->sWord//记录该词
(PARRAY_CHAIN)p->nWordLen//记录该词的长度

举个例子：
"0 始##始 1 张 2 华 3 平 4 欢 5 迎 6 您 7 末##末 8"

对于"张"来说,
row=1
col=2
value=-log[("张"出现的频率+1)/(MAX_FREQUENCE)]
nPos=0//"张"有5种词性
sWord="张"
nWordLen=2

保存的顺序是按col升序row升序的次序排列

m_segGraph.m_pHead "始##始"
   "张"
   "华"
   "平"
   "欢"
   "欢迎"
   "迎"
   "您"
   "末##末"

m_segGraph.m_nRow=7
m_segGraph.m_nCol=8

然后是生成一幅给予各种组合情况的图,并按照出现的概率大小保存概率最大的前m_nValueKind个结果。

细节:

初始化,
(CNShortPath)sp.m_apCost=m_segGraph;
(CNShortPath)sp.m_nVertex=m_segGraph.m_nCol+1
(CNShortPath)sp.m_pParent=CQueue[m_segGraph.m_nCol][m_nValueKind]
(CNShortPath)sp.m_pWeight=ELEMENT_TYPE[m_segGraph.m_nCol][m_nValueKind]//m_pWeight[0][0]表示1处的weight

sp.ShortPath()函数中,
for(nCurNode=1;nCurNode {
CQueue queWork;//零时的CQueue
eWeight=m_apCost->GetElement(-1,nCurNode,0,&pEdgeList);//取出col=nCurNode的第一个PARRAY_CHAIN的value,比如nCurNode=6,则pEdgeList指向"欢迎",eWeight="pEdgeList->value
while(pEdgeList&&pEdgeList->col==nCurNode)//对每一个col=nCurNode的pEdgeList
{

  for(i=0;i   {
   queWork.Push(pEdgeList->row,0,eWeight+m_pWeight[pEdgeList->row-1][i]);
   //将所有col=nCurNode的pEdgeList按照其weight升序放到queWork中
  }
}//比如
/*
  "欢迎"          m_pWeight[3][0]=0.2     eWight=0.2    =>queWork.Push(4,0,0.4);
  "0 始##始 1 张 2 华 3 平   4 欢    5   迎 6 您 7 末##末 8"
  "欢"          m_pWeight[4][0]=0.5 eWight=0.1  =>queWork.Push(5,0,0.6);
            m_pWeight[4][1]=0.6 eWight=0.1  =>queWork.Push(5,0,0.7);

queWork  "欢迎"  0.4
   "迎"  0.6
   "迎"  0.7

*/
for(i=0;i while(ivalue
{
  m_pWeight[nCurNode-1][i]=eWeight;//取前m_nValueKind个结果
  m_pParent[nCurNode-1][i].Push(nPreNode,nIndex);//按照pEdgeList->value的升序,也就是P的降序放入m_pParent
}
}

得到m_pParent之后,按照m_pWeight[m_segGraph.m_nCol-1]的升序,生成path
CNShortPath::GetPaths(unsigned int nNode,unsigned int nIndex,int **nResult,bool bBest)
//nNode=m_segGraph.m_nCol,nIndex从0取到m_nValueKind-1,nResult输出结果,bBest=true只输出最佳结果
比如"始##始张华平欢迎您末##末"的结果为
nResult[0]={0,1,2,3,4,6,7,8,-1} "始##始/张/华/平/欢迎/您/末##末"
nResult[1]={0,1,2,3,4,5,6,7,8,-1} "始##始/张/华/平/欢/迎/您/末##末"
没有第三种结果

取出所有nResult[i]作为分词结果,结果保存在m_graphOptimum中,m_graphOptimum和m_segGraph结构一样,只不过只存nResult[i]中的结果:

如果m_nValueKind=1则
m_graphOptimum.m_pHead "始##始"
   "张"
   "华"
   "平"
   "欢迎"
   "您"
   "末##末"

m_graphOptimum.m_nRow=7
m_graphOptimum.m_nCol=8

如果m_nValueKind=2则

m_graphOptimum.m_pHead "始##始"
   "张"
   "华"
   "平"
   "欢"
   "欢迎"
   "迎"
   "您"
   "末##末"

m_graphOptimum.m_nRow=7
m_graphOptimum.m_nCol=8

见 bool CSegment::GenerateWord(int **nSegRoute, int nIndex)这里的nSegRoute=上面的nResult,是输入参数;nIndex表示第nIndex个分词结果

同时,CResult.m_Seg.m_pWordSeg[nIndex][k]中保存了第nIndex个结果的第k个词的信息:

CResult.m_Seg.m_pWordSeg[nIndex][k].sWord//词
CResult.m_Seg.m_pWordSeg[nIndex][k].nHandle//词性
CResult.m_Seg.m_pWordSeg[nIndex][k].dValue//-logP

至此,分词部分结束

二、posTagging

m_POSTagger.POSTagging(m_Seg.m_pWordSeg[nIndex],m_dictCore,m_dictCore);//对第nIndex个分词结果用标准的字典标注
方便起见,下面假设m_nValueKind=1

m_POSTagger用HMM对分词进行标注，这里输出概率为P(w_i|c_i)，c_i为词性，w_i为词；转移概率为P(c_i|c_{i-1})，初始状态为P(c_0)即P("始##始"的词性)
用维特比算法求出一个c_1/c_2/.../c_k=argmax_{c_1'/c_2'/.../c_k'}P(w_1',w_2',...,w_k')

将句子分成若干段,每段以有唯一pos的w结尾,也就是分词中CResult.m_Seg.m_pWordSeg[0][k].nHandle>0的那些词

比如,举个例子
"0 始##始 1 张 2   华   3   平   4   欢迎   5   您   6 末##末 7"
    pos1   pos1   pos1     pos1      pos1      pos1     pos1
           pos2   pos2     pos2      pos2
           pos3   pos3               pos3
           pos4
           pos5

则该句被划分为
"0 始##始"
"1 张 2 华 3 平 4 欢迎 5 您"
"6 末##末"
对每一段用维特比算法确定一个唯一的postag

细节：

首先P(w,c)的输出概率存储在dict中，比如dictCore,dictUnknow,通过dict.GetFrequency(char *sWord, int nHandle)函数获取 sWord pos为nHandle的函数
概率P(c)存储在context中,比如m_context,通过context.GetFrequency(int nKey, int nSymbol)函数获取 pos为nSymbol的函数,nKey=0
转移概率P(c|c')存储在context中,比如m_context,通过context.GetContextPossibility(int nKey, int nPrev, int nCur)函数获取 c'=nPrev,c=nCur的转移概率,nKey=0

重要的数据结构

m_nTags[i][k]表示第i个w的第k个pos
在GetFrom函数中表示 -log(第i个w的第k个pos的输出概率)
在CSpan::Disamb()函数中
m_dFrequency[i][k]表示 -log(从第0个w到第i个w的第k个pos的联合最大输出概率),比如

w_j w_{j+1}
m_dFrequency[j][0]-- m_dFrequency[j+1][0]
m_dFrequency[j][1] -- m_dFrequency[j+1][1]
--m_dFrequency[j+1][2]

则图中的路径的权为W([j,0]->[j+1,2])=m_dFrequency[j][0]-log(m_context.GetContextPossibility(0,m_nTags[j][0],m_nTags[j+1][2]))
这样,选择
m_dFrequency[j+1][2]=min{W([j,0]->[j+1,2]),W([j,1]->[j+1,2])}

m_nCurLength表示当前段的w个数+1

在m_POSTagger.POSTagging中,以上面的例子为例
while(i>-1&&pWordItems[i].sWord[0]!=0)//将执行段的个数次,比如上例中将执行3次
{
i=GetFrom(pWordItems,nStartPos,dictCore,dictUnknown);//i=GetFrom(pWordItems,0,dictCore,dictUnknown)=1
//i=GetFrom(pWordItems,1,dictCore,dictUnknown)=6
//i=GetFrom(pWordItems,6,dictCore,dictUnknown)=7
//从nStartPos向前取w,一直取到一个有唯一pos的w为止,该过程中记录每个w的pos,保存在m_nTags中,记录log(w|c)输出概率保存在m_dFrequency中
GetBestPOS();//调用Disamb()函数,用维特比算法找出该段的最佳(联合输出概率最大)的标注,最佳路径保存在m_nBestTag中
通过读取m_nBestTag对pWordItems.nHandle进行赋值
}

三、NE识别:人名识别,音译名识别,地名识别

其基本思路和PosTagging一样，只不过词性c换成了role r，以人名识别为例,首先识别出人名的tag(即pos)，见
"Chinese Named Entity Recognition Using Role Model"
在函数CUnknowWord::Recognition(PWORD_RESULT pWordSegResult, CDynamicArray &graphOptimum,CSegGraph &graphSeg,CDictionary &dictCore)中
每个被切开的段被识别完之后，用m_roleTag.POSTagging(pWordSegResult,dictCore,m_dict);对第一步分词的结果进行一次标记。
首先用dictUnknown.GetHandle(m_sWords[i],&nCount,aPOS,aFreq);获得m_sWords[i]在NE词典中的role,
接着用dictCore.GetHandle(m_sWords[i],&nCount,aPOS,aFreq);获得m_sWords[i]在标准词典中的tag,这里只要m_sWords[i]在标准词典中有tag，那么tag一律标记为0，该tag下的输出概率为P(w|c)=P(sum_{aFreq}|c=0)
接下来用SplitPersonPOS(dictUnknown)函数将其中tag为LH和TR的w拆成两个
比如"张/SS 华/GH 平欢/TR 迎/RC 您/RC"中"平欢"被拆成"平/GT" "欢/12"
接着在PersonRecognize(dictUnknown);函数中,用一些模板进行匹配,"SS/GH/TR"将匹配到"张华平"。匹配得到的片断保存在m_nUnknownWords中，其nHandle被设置为人名，地名，音译名中的一个
对第一步中的graphOptimum，加入m_nUnknownWords的边：
graphOptimum.GetElement(nAtomStart,nAtomEnd,&dValue,&nPOSOriginal);
if(dValue>m_roleTag.m_dWordsPossibility[i])//Set the element with less frequency
graphOptimum.SetElement(nAtomStart,nAtomEnd,m_roleTag.m_dWordsPossibility[i],m_nPOS);

四、重新分词

对上一步的graphOptimum，用第一步中对m_segGraph分词的方法，找出一个联合概率最大的分词结果：
m_Seg.OptimumSegmet(nCount);

五、重新标注

对于四中分好的结果，用标准词典对其进行posTagging:
for(nIndex=0;nIndex {
m_POSTagger.POSTagging(m_Seg.m_pWordSeg[nIndex],m_dictCore,m_dictCore);
}

最后，用Sort();对标注结果按照联合输出概率的大小降序排序，并按照用户的需求输出前几个

来源：http://qxred.yculblog.com/post.1204714.html

刀剑笑 2007-12-28 22:10 发表评论

SharpICTCLAS 1.0 发布! （转）

刀剑笑 — Fri, 28 Dec 2007 12:55:00 GMT

SharpICTCLAS 1.0 发布（感谢工控网发现了一个问题，问题出在字符串比较上，目前已经修正，请重新下载。2007年4月20日）

下载 SharpICTCLAS 1.0

一、SharpICTCLAS 1.0 版相对于测试版的改进

1、修改了原子分词代码，使得对于全角字母有较好的识别

2、修改了部分词性标注部分的代码

因为词性标注部分的代码存在问题（应当是从ICTCLAS就存在的问题），主要表现在如果某个汉字没有词性，则在词性标注时会出现异常。例如：“这些是永远也没有现成的答桉的”其中“答案”写错了，当对这个有错别字的句子分词时，“桉”字是没有词性的，程序在此时将出现错误。

目前的解决办法是对于这些没有词性的词在最终标注时标注为“字符串”。

2、修改了地名识别的一些问题

这个问题出现在Span类的PlaceRecognize方法中，nStart与nEnd在某些时候会计算错误。在测试版SharpICTCLAS中，句子“明定陵是明十三陵中第十座陵墓”在分词时会因为这个问题导致异常。

3、修改了基于CCID的字符串比较代码

原有代码没有很好考虑对全角、半角混合字符串的比较问题，现在修正过来了。

4、修改了向词库添加词汇的代码

原有代码存在错误，现在改正了过来。

二、仍然有待改进的地方

现在的程序仍然有很多地方有待改进，例如原子分词部分的代码对电子邮件、URL等识别还不是很好，日后可利用正则表达式加以改进；除此之外，对于词性标注以及人名地名识别部分代码，我除了修改了部分问题代码外，没有做任何改进和调整，这使得整个代码显得凌乱，有待做一次全面重构。

三、SharpICTCLAS使用时的一些示例代码

为了能够更好的使用SharpICTCLAS，现提供一些示例代码，主要完成的工作包括：1）向词库中添加新词汇；2）对文件的预处理，实现繁体向简体的转换、全角字符向半角字符的转换、利用正则表达式过滤多余HTML标记以及断句等。具体可以访问我的文章《SharpICTCLAS分词系统简介(9)词库扩充》。

目前经过调整后的SharpICTCLAS运行效果还算不错。在对博客园一万五千篇文章进行分词测试过程中，向词库中添加了一千三百多个词汇然后进行分词，效果还不错，分词异常一共发生了15次，其中有9处是因为存在大量日文字符，另外6处是一句话中单词过多，超出了软件限制（200词）。分词效率也比较令人满意（尽管总体还是比较慢），15000篇文章总用时2.5小时，但这不只是分词的时间，还包括了繁体转简体、利用正则表达式去掉HTML符号，统计词频（这需要进行重复词的判别，我使用了AVL树，共统计得到16万词汇）、将分词结果写入SQL Server 2005数据库。如果不考虑这些因素的话，感觉应当和C＋＋程序效率差不多，当然这是没有经过严格测试的结论。

如果大家在使用时发现什么新问题，还请及时告知，我会继续修正这些问题。

ICTCLAS简介：

计算所汉语词法分析系统ICTCLAS（Institute of Computing Technology, Chinese Lexical Analysis System），功能有：中文分词；词性标注；未登录词识别。分词正确率高达97.58%(973专家评测结果)，未登录词识别召回率均高于90%，其中中国人名的识别召回率接近98%;处理速度为31.5Kbytes/s。

遵循协议：自然语言处理开放资源许可证1.0

Email: zhanghp@software.ict.ac.cn

Homepage: http://www.i3s.ac.cn

SharpICTCLAS：

.net平台下的ICTCLAS，是由河北理工大学经管学院吕震宇根据Free版ICTCLAS改编而成，并对原有代码做了部分重写与调整。

Email: zhenyulu@163.com

Blog: http://www.cnblogs.com/zhenyulu

来源：http://www.cnblogs.com/zhenyulu/category/85598.html

刀剑笑 2007-12-28 20:55 发表评论

SharpICTCLAS分词系统简介(9)词库扩充（转）

刀剑笑 — Fri, 28 Dec 2007 12:43:00 GMT

1、SharpICTCLAS中词库的扩充

如果对SharpICTCLAS目前词库不满意的化，可以考虑扩充现有词库。扩充方法非常简单，代码如下：

语源科技BlogJava-刀剑笑

三种中文分词算法优劣比较

ICTCLAS分词系统研究（一） （转）

ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注（转）

SharpICTCLAS 1.0 发布! （转）

一、SharpICTCLAS 1.0 版相对于测试版的改进

二、仍然有待改进的地方

三、SharpICTCLAS使用时的一些示例代码

SharpICTCLAS分词系统简介(9)词库扩充（转）

1、SharpICTCLAS中词库的扩充

2、其它工具

SharpICTCLAS分词系统简介(8)其它（转）

1、SharpICTCLAS中的事件

2、SharpICTCLAS的使用

SharpICTCLAS分词系统简介(7)OptimumSegment（转）

1、OptimumSegment的运算过程

2、人名与地名的识别

SharpICTCLAS分词系统简介(6)Segment（转）

1、主体部分

2、原子分词

3、对结果的处理

4、日期、数字合并策略

SharpICTCLAS分词系统简介(5)NShortPath-2(转)

1、数据表示

2、运算过程

3、具体实现

4、求解N-最短路径

SharpICTCLAS分词系统简介(4)NShortPath-1（转）

1、数据表示

2、计算出每个结点上可达最短路的PreNode

3、求解最短路径

ICTCLAS分词系统研究（一）（转）

ICTCLAS 中科院分词系统代码注释中文分词词性标注（转）