OHSUMED数据集
1. OHSUMED数据集介绍#此前在首页部分显示#

本实验中采用OHSUMED测试数据集合(其也被用于第9 届国际文本检索竞赛TREC9 的文档过滤子竞赛)。OHSUMED 数据集合由William Hersh和他的同事们一起建立，其文档来源于医药信息数据库MEDLINE10，它包含了从1987 年到1991 年五年间270 个医药类杂志的标题和/或摘要，包含了348566个文档。一个OHSUMED 文档由8 个域组成，含义如下：

z .I 文章的OHSUMED 序列号，从1 到348566

z .U MEDLINE 标识

z .S 文章来源

z .M MeSH 索引词

z .T 文章标题

z .P 文章类型

z .W 文章摘要

z .A 文章作者

OHSUMED 的作者还为文档集合构造了106 个查询，这些查询来源于医生在给病人看病的过程中所提交的查询字符串，每一个查询由两部分组成：病人情况的简单描述和所需信息的描述。一个OHSUMED 查询由如下3 不同域组成：

z .I 文章的OHSUMED 序列号，从1 到106

z .B 患者信息

z .W 信息需求

基于以上的文档集合和查询集合，OHSUMED 一共标注了16140 个查询－文

档对，每一个查询－文档对都被标注成相关(definitely relevant)、部分相关(partially relevant)或者不相关(not relevant)，最终的标注结果中一共包含了2557个相关、2932 个部分相关以及12498 个不相关的查询－文档对（一个文档可能被标记成多个级别，在本节的实验中，取其级别最高的标号作为其最终标号）。

2.实验特征选择

没有办法传图片郁闷拉。

其中low-level的10个特征取自标题＋摘要（如有需要可以分别来计算），|C|是所有文档的个数，c（qi，d）是qi在文档d中出现的次数，df（qi）是qi的文档频率。BM25可以用lemur或者Lucene计算。highlevel的是5个特征。

3. 实验数据分割及评价标准

本节的实验索引了文档中的标题域(.T)和摘要域(.W)，标题＋摘要被建立索引进行查询，查询中的查询信息需求(.W)被直接用作查询字符串，.I 被用于标识文档或查询，文档和查询的其他域都暂时都没有被利用。

将106个query分为5份，4份用于训练，1份用于测试，剩下的1份用于检验（已整理好可以直接用于训练）。在计算评价指标平均查准率的均值(MAP)时，由于其要求文档被标注成两个等级：相关和不相关，因此把标注为相关的文档(definitely relevant)看成相关的文档，其他两个级别的文档(部分相关(partially relevant)和不相关(not relevant))都看成不相关文档；对于NDCG 的计算，我们把相关映射为数值3、部分相关为1、不相关映射为0。

20 newsgroup
1.特征选择同OHSUMED。 2. 实验数据分割及评价标准

20 newsgroup包含20个类，每个类包含将近1000篇文章，我们在20newsgroup中随机选取6个类，分别为comp.graphics， comp.os.ms-windows.misc， rec.motorcycles ，rec.sport.baseball，sci.space和 talk.politics.mideast，在每个类中选取前60篇document共组成360篇文档，选择前15个文档作为query组成90个query，分为6份，5份做训练，1份测试。关于查询-文档对的相关性我们有如下的判定方法：如果属于同一个子类则标注为相关，映射为数值3，属于一个同一个大类的标注为半相关，映射为数值1，其他的标注为不相关，映射为数值为0.评价标准同OHSUMED。

ps：实验数据格式见OHSUMED文件，其中第一个为label（相关性3，1或0），然后为query的id号qid，剩下的25个为特征向量，最后是对应的document id号docid。

posted on 2012-03-15 14:46 愤怒的考拉阅读(1025) 评论(0) 编辑收藏

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问

2026年6月

日

一

二

三

四

五

六

常用链接

留言簿

随笔档案

2012年5月 (1)

常用链接

留言簿

随笔档案

文章档案

搜索

最新评论