使用复旦大学基准语料库所做的对比实验并非我本人进行的,我只是引用了文献“周文霞:现代文本分类技术研究,武警学院学报,2007.12”的实验结果。因此我手头没有该文作者所使用的预处理程序。但复旦大学的语料库在中科院中文自然语言处理开放平台上有提供下载,页面地址是http://www.nlp.org.cn/docs/doclist.php?cat_id=16&type=15,可能需要注册用户,待管理员审批完成之后方可下载。我已经下载了一份,训练集与测试集共100MB的样子,大家有需要的话也可以想办法分发给大家。
另外,搜狗实验室提供的文本分类语料库也有在线下载版本,地址是http://www.sogou.com/labs/dl/c.html,共有10个类别,8万篇左右的文本.
在此只是提醒大家,文本分类语料库的建立是需要很多人力成本的,无论复旦大学还是搜狗实验室,既然免费与大家共享,就希望大家在使用的时候至少注明出处,也不枉别人对我们的信任。
谢谢。

P.S.实在没有办法下载到的朋友也可以加我的QQ49900829,在消息中注明需要复旦语料库,我可以在线传送给大家。