关于web mining的调研报告

Gridking — Mon, 04 Jun 2007 02:44:00 GMT

1．引言

Internet/Web技术的快速普及和迅猛发展，使各种信息可以以非常低的成本在网络上获得，正是鉴于这种，现在的用户面临着信息过载的问题[86]，现在的信息用户在与web交互时存在着如下的问题：

(a.) 发现相关信息。当用户想在web上查找特定信息而使用搜索服务时，他会发现查询的结果大部分是不相关的东西。当前的搜索存在着第准确度和低召回率等问题[20]。(b) 在可用的web信息的基础上生成知识。这可以看作是上个问题的子问题，一些研究[34，85，29] 侧重于把web用作决策的知识库。(c.) 信息显示的个性化。(d.) 个性化用户的学习。这实际上是上一个问题的特定子问题。

而 web 挖掘则能直接或间接的解决上述问题。Web挖掘指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研究领域，包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。

2．历史发展

Web mining，这个术语是Oren Etzioni,[1]于1996年正式提出来的，这个概念提出来以后，很多研究人员在他们的文章用它来指代不同的含义， Jaideep Srivastava[2]和他的同事的定义为：web 挖掘是利用数据挖掘的技术从web 文档或服务上自动的发现和抽取信息。根据Etzioni[41] ，web 挖掘可以分解为四个子任务：

a. 查找资源：任务是从目标Web文档中得到数据，值得注意的是有时信息资源不仅限于在线Web文档，还包括电子邮件、电子文档、新闻组，或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。
b．信息选择和预处理：任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。
c．归类：在同一个站点内部或在多个站点之间进行自动进行通用模式发现。
d．模式分析：验证、解释上一步骤产生的模式。可以是机器自动完成，也可以是与分析人员进行交互来完成。

Web 挖掘涉及到从web数据发现潜在的有用的或没用的信息或知识的所有过程，它隐含的实现了数据知识发现的标准处理过程(KDD)[43]，可以看作是KDD在web数据上的应用扩展。目前，研究人员将web挖掘分为三个大类[2，3]：

a. web 内容挖掘。它应用数据挖掘的技术来挖掘发布在因特网上资源的内容，通常是html文件（半结构化的），无格式文本和xml文档（结构化的）。

b．web 结构挖掘依靠web的超链接结构。这种图形结构可以提供关于page rank的信息[4]或权威性[5] ，通过过滤能提高搜索的结果。

c. web用法挖掘分析用户和web服务器的互操作结果，包括 web日志，点击流和数据库事务等。Web用法挖掘涉及到了隐私的问题现在引起了不少的争论。

Fabrizio Sebastini[6]和Soumen Chakrabarti[7] 详细的探讨了web 内容挖掘的技术 Furnkranz 则对web结构挖掘进行了总结工作

3．现状评述

Web内容挖掘和结构挖掘中，工作多集中在如下：

把web看作是一个数据库，数据库领域的早期研究工作集中在web的层次观点，在半结构化的web上层置一层包含某些相关语义信息的抽象层，weblog[10]和webSql[11]正是这种基于数据库的方法，在这个领域，最近大部分的工作重点在实现语义web。

文档分类同样是当前一个研究的热点问题，早期的文档分类工作是把文本挖掘技术直接到web数据上，但是后期的研究工作表明：充分利用web的图形结构或以html为表现形式的半结构化内容，有助于提高分类的结果[14]，Google新闻（http://new.google.com）便是从当前的新闻信息中自动的聚合分类的.

网页权重问题。Larry Page和他的同事提出了pagerank[4],并通过google的搜寻引擎的成功运用推广流行，利用pagerank 爬虫能提前计算出网页的排序，并将其结果返回，网页的pagerank的计算是基于该网页对其他网页的链接度。Sepandar Kamwar[14]对基本的pagerank算法进行了改进，对计算量代价有明显的提高。但这种基本的方法并没有考虑到链接的语义。聪明的做法就是利用网页的内容来进行评定。对那些与查询相似的链接给与更高的权重。Soumen Chakrabarti正是基于这种考虑提出了改进的算法[14]。实验结果表明，这种改进比同等方法相比，效果有明显提高。

Web用法挖掘在电子商务有许多的应用，包括：个性化，交通分析和针对性广告等。图形化分析工具如webviz[15]的发展使得web事务的挖掘流行起来。这个领域中的主要工作是web日志数据的预处理和从处理的数据中发现有用模式[16，17]。Etzioni[19]将web用法挖掘用在飞机票的购买应用上。其方法是根据时间挖掘出网上可用的飞机票价格以此来推荐用户在最合适的时间来购票。Web用法挖掘还涉及到个人的隐私问题，不再叙述。

当前一个一个比较新的课题是语义web 挖掘，在语义网中，向web资源中添加语义，是通过添加基于本体的注解来实现的，但不能寄希望于人工手动完成，因为这虽然简单但却不不能扩展。因此我们必须通过本体学习，匹配，归并和实例学习来自动实现注解。语义网和web 挖掘相互促进，web 挖掘能促进语义网的出现，而语义网则使得web 挖掘的效率更高。 4．发展前景预测

根据目前的研究状况预测,今后几年Web 挖掘研究的主要方向可能会有:

1) 在数据预处理方面,多种Web 数据的收集、结构转换等处理技术的研究 ;
2) Web 挖掘方法和模式识别技术在构造自适应站点以及智能站点服务的个性化和性能优化方面的研究;
3) Web 知识库的动态维护、更新,各种知识和模式的评价综合方法的研究;
4) 基于Web 挖掘和信息检索的,高效的、具有自动导航功能的智能搜索引擎相关技术的研究;
5) 半结构、结构的文本数据、图形图像数据、多媒体数据的高效挖掘算法;
6) 研究专门用于知识发现的数据挖掘语言及其标准化;
7) 研究和开发基于Web 的多层数据体系结构和智能集成系统,提供相应的查询语言,优化和维护机制;
8) 现有的数据挖掘方法与技术的改进及其向Web 数据的扩展,挖掘算法的适应性和时效性的研究;
9) Web 文档内的模式发现及其在信息提取、文本分析中的应用研究等;
10) Web 挖掘的相关技术在电子商务领域的应用研究等。

5．小结

不难看出 web 挖掘牵扯到太多的诸如信息检索信息抽取数据挖掘人工智能等技术，现在的掌握的技术和时间来看，从其中的某一个点选则突破比较好。我比较倾向于web数据的收集工作。.................

网页的自动聚合分类，向网页自动添加标注使其体现语义的特征，都可以作为研究方向进行下去。

6．参考文献

Gridking 2007-06-04 10:44 发表评论

BlogJava-Gridking-随笔分类-信息检索（IE）

关于web mining的调研报告