posts - 30,  comments - 3,  trackbacks - 0
大致内容:
这篇论文的任务是对twitter上的短文本进行分类,分到预先定义的5个类别中:news,event,opinions,deal,PM(private message)。该论文摒弃传统的BOW特征模型而别出心裁地选取了8个特征(8F):
1个是名词性特性:用户。这个特征是8F特征中最为主要的特征,因为它反映了信息源的主要类别特征。如,企业的用户和个人用户通常有着不同的用户行为,这个特征可以限定该用户tweet的分类范围。
另外7个是binary feature(存在特征):
俚语与词语缩写的使用:俚语和词语缩写通常不会是一个新闻
time-event短语:Event类别的重要特征
评论性词语:Opinion类重要特征
词语的强调(大写或字母重要,如veeery):同上
currency和percentage标志:如¥$%,这些都是Deal类别的重要特征
@usrname:这是PM的重要特征,当然也有可能是Event类中的一个特征(participants)。
实验表明8F比BOW在精度上均为大幅提高。

使用工具:
weka

论文:
Bharath Sriram, Dave Fuhry, Engin Demir, Hakan Ferhatosmanoglu, Murat Demirbas:Short Text Classification in Twitter to Improve Information Filtering. Proceeding of the 33rd international ACM SIGIR conference on Research and development in information retrieval, Jul. 2010

论文链接:
SIGIR2010_Short_Text_Classification_in_Twitter_to_Improve_Information_Filtering.pdf
posted on 2012-02-18 12:32 Seraphi 阅读(1262) 评论(0)  编辑  收藏

只有注册用户登录后才能发表评论。


网站导航: