yuping322

 
 

常用链接

  • 我的随笔
  • 我的评论
  • 我的参与

留言簿(2)

  • 给我留言
  • 查看公开留言
  • 查看私人留言

随笔档案

  • 2007年8月 (10)

搜索

  •  

最新评论

阅读排行榜

  • 1. [导入] xml文件解析-DOM4J (534)
  • 2. [导入]ext 学习笔记(471)
  • 3. [导入]OSGI学习(386)
  • 4. [导入]Java中类与类的关系(377)
  • 5. [导入]信息采集系统的技术实现(366)

评论排行榜

  • 1. [导入]信息采集系统的技术实现(0)
  • 2. [导入]行业搜索、垂直搜索(0)
  • 3. [导入]Web数据挖掘(0)
  • 4. [导入]ext 学习笔记(0)
  • 5. [导入]掌握JDK1.5枚举类型(0)

Powered by: 博客园
模板提供:沪江博客
BlogJava | 首页 | 发新随笔 | 发新文章 | 联系 | 聚合 | 管理

2007年8月24日

[导入]信息采集系统的技术实现

网站:JavaEye 作者:yuping322 发表时间: 2007-08-24 20:26 此文章来自于 http://www.JavaEye.com
声明:本文系JavaEye网站原创文章,未经JavaEye网站或者作者本人书面许可,任何其他网站严禁擅自发表本文,否则必将追究法律责任!
原文链接: http://yuping.javaeye.com/blog/116248

信息采集系统的技术实现


        信息采集系统指的是按标准格式采集指定网络信息,同搜索引擎的区别在于其采集的目的性更强,采集源范围也比较小。这里简单介绍一下信息采集系统实现上的几个关键问题:


1) 采集网页数据

        VC,Java,VB的网络通讯功能都足够实现信息采集,VC中的Get/Post方式可采集网页信息,也可以直接用socket方式采集,但一般用前一种模式,另外为了提高采集效率都采用多线程技术,在网上的一些Spider程序都是多线程的,可以借鉴.


2) 如何按关键字来信息

        信息采集的一大特点是按多个关键字将信息拆分出来,例如供求信息中的商机标题、联系人、电话、Email、内容等,实现时需要事先定义好这些关键字,然后在网页中搜索,将夹在两个关键字当中的信息采集出来,另外还要注意,网页中的许多关键字是包含空格的,空格数量也不能确定,例如"邮   件",这就要求在查找关键字时要把关键字按单个汉字拆开来匹配,遇到中间的空格要跳过去.这一步实现了,信息就会变的非常有规则,也就可以导入本地库了.


3) 网页中的链结获取算法

        了解HTML的应该清楚,网页中的链结都是通过的标签定义的,但也会分很多情况,例如:  < a href = "...">  这是常见的链结格式,但要注意采集出来的链结可能是完整的http://...,也可能是相对路径,要分别处理;  < a href = ''> 用单引号分隔的,所以用算法获取链结的时候要根据双引号和单引号两种标记来分隔;< a href = .. onclick = javascript:view('..','')> 通过javascript的函数处理链结,算法上就麻烦了许多。


4) 无效数据的过滤

        即使通过关键字的方式摒弃了许多广告信息,但在关键字信息中也会有不少无效数据,包括一些信息开头的空格


5) 特定数据的获取算法

        Email,电话等数据符合一定的规范,一般可以用一些算法提取出来,也可以用正则表达式技术来获取,在网络上有不少此类算法.在信息采集中,Email和电话等关键信息是比较分散的,需要用提取算法把这些信息提取出来放在正确的位置.这是非常有必要的,因为信息采集系统往往会有邮件群发的功能.


信息采集的整个流程可总结如下:


 a) 首先,获取网页的完整信息

 b) 用算法获取网页中的正文信息,即抛弃HTML的标签文本

 c) 去除多余的空行

 d) 按定义好的关键字将信息分隔开

 e) 对信息进行无效数据过滤

 f) 信息入本地库

 g) 获取网页中的链结,对该链结从a)步骤开始重复,但注意网页中的许多链结是广告或无效的,因此要事先定义好一些链结关键字,只有包含关键字的链结才处理




《 信息采集系统的技术实现 》 的评论也很精彩,欢迎您也添加评论。查看详细 >>





JavaEye推荐
上海乐福狗信息技术有限公司:诚聘技术经理和开发工程师
免费下载IBM社区版软件--它基于开放的标准,支持广泛的开发类型,让您的开发高效自主!
京沪穗蓉四地免费注册,SOA技术高手汇聚交锋.
上海:优秀公司德比:高薪诚聘 资深Java工程师
广州:优易公司:诚聘Java工程师,开发经理
上海:尤恩斯国际集团:诚聘开发工程师
北京:优秀公司NHNChina招聘:WEB开发,系统管理,JAVA开发, DBA



文章来源: http://yuping.javaeye.com/blog/116248
posted @ 2007-08-24 20:26 fengzhi 阅读(366) | 评论 (0) | 编辑 收藏
 
[导入]行业搜索、垂直搜索

网站:JavaEye 作者:yuping322 发表时间: 2007-08-24 20:05 此文章来自于 http://www.JavaEye.com
声明:本文系JavaEye网站原创文章,未经JavaEye网站或者作者本人书面许可,任何其他网站严禁擅自发表本文,否则必将追究法律责任!
原文链接: http://yuping.javaeye.com/blog/116244

行业搜索、垂直搜索引擎。


行业搜索:搜索对象针对所在的行业,采用类似传统通用搜索引擎的分词索引技术,返回关键词最匹配的结果。


垂直搜索:搜索对象针对所在的行业,采用数据采集、数据挖掘、数据整理等技术,返回经过加工处理的结果。


一、综合搜索


酷讯www.kooxoo.com :招聘、房产、汽车、火车票、机票、餐饮、交友、购物、旅游


奇虎www.qihoo.com :论坛、博客、新闻、招聘、房产、视频、音乐、图片、火车票、餐饮、经验?、折扣


cgogo搜个够www.cgogo.com :社区、招聘、票务、住房、视频、本地(地图)、博客、无线


我酷网 www.wooqoo.com                  (五花八门,该有都有)


开拓搜索www.kaitoo.com                  (五花八门,该有都有)


每步搜索 http://cnc.meibu.com/ (综合)


八百搜www.800so.com (五花八门,该有都有,站内搜索和站外搜索并列)


酷爱 www.koooi.com (网页 MP3 房产 餐饮 交友 搜人 资源)


soso88   www.soso88.net (政府采购 人才职位 房源地产 建材装饰)



二、求职招聘: (18)


职友集   www.jobbui.com


搜职网  www.globehr.com


南京搜职网  www.sozhi.cn


托托搜索 www.totojob.com


1010job精英招聘 www.1010job.com


牛耳搜职网 www.newerjob.com


数字英才(职通车) www.01hr.com


深度搜索 www.deepdo.com


淘职网 www.go2work.com.cn


我搜网 www.alsox.com


校园招聘 www.zhaopinbbs.com


易聘  www.yipin.cc


找工作 www.meijob.com


热职工作引擎 www.rezhi.com


职场快线 www.jobems.com


职脉搜索 www.jobmet.com


高八斗 www.gao8dou.com         区域搜索引擎联合,在各地都有独立一级域名,单一数据库。


安徽人才总网 www.ah668.com/rc/ (安徽区域搜索)





三、房屋房产 (9)


搜房引擎 search.soufun.com


房老大 www.fanglaoda.com


焦点房产seek.focus.cn


家家看网 www.jjto.com


我住网 www.wozhu.com


搜房网 www.sofang.com.cn


寻捕房 www.xpfang.com



房网搜索 www.house163.com


百房 www.100fang.com




四:商务商机、人文 (20)


联络家  http://www.linkist.com/


优库  www.ucloo.com        (搜人 公司 学校 )


Anyso商业搜索引擎  www.anyso.com


accoona  www.accoona.cn


国通网 www.guton.com


享者  www.hengzhe.com


品搜 www.pinsou.com


品通 www.joingoo.com


搜商 www.bseek.cn


商搜 www.shangsou.com


商宝 www.b2b8.com


jow  http://jqw.com/


企业门户 www.yie.cn


搜库网 www.souku.com.cn


伊索  http://china.eceel.com/


天网商搜 http://china.eceel.com/


信援 www.xinsos.com


一呼百应 www.youboy.com


易购搜索 www.ego321.com


浙搜 http://zhesou.com/ (区域性搜索)


五、生活、购物消费 (17)


8848(比较购物)http://esearch.8848.com/


丫丫比较购物 http://askyaya.com/


大拿网(比较购物) http://www.danawa.com.cn/


普加 Pojaa http://www.pojaa.com/




搜狗 http://shopping.sogou.com/


购物搜索www.gobygo.com

中搜
http://shopping.zhongsou.com/


Soaso http://www.soaso.com/


搜评网 http://www.souping.com/


无忧城市网 http://www.51city.com


亿起搜  http://www.eqiso.com/


365.com  www.365.com (生活搜索综合)


快搜测评网 www.ksou.com.cn (IT硬件相关)


搜教网 www.soojoo.cn (教育资源相关)


乐逊外卖搜索 www.lexun.com.cn


友买网 www.uobuy.com


马可波罗 www.makepolo.com/


易购搜索 www.ego321.com



六、地图公交、出行 (15)


公交查询 http://www.8684.cn/


瘦驴旅游搜索引擎  http://www.souluu.com/


E都市 http://www.edushi.com/


Mapabc地图 http://www.mapabc.com/


图吧  http://main.mapbar.com/


UUMAP http://www.uumap.com/


城市通 http://www.52tong.com/


华夏图网 http://www.map2china.com/


都市圈-三维地图 http://www.o.cn/


第1搜 http://www.d1so.com/


都市吧 http://www.city8.com/


活图网 http://www.livemap.cn/


我要地图 http://www.51ditu.com/


丁丁地图 www.ddmap.com


坐车网 http://www1.zuoche.com/ (广州区域搜索)


google、百度、搜狗、MSN虚拟地球http://virtualearth.msn.com/


七、医疗健康


康Q www.kangq.com


Souvv http://search.souvv.com/


医搜 http://www.yiso.cc/


放心医苑网 http://www.120so.com/


博睿  http://search.chinamtcm.com


八、图书搜索


爱搜书网 http://www.isoshu.com/


读秀知识库 http://www.duxiu.com/



九、分类信息


国通网http://www.guton.com



十、手机搜索引擎


悠悠村  http://www.uucun.com/


儒豹手机搜索 http://www.roboo.com/




十一、软件IT、BT资源


迅雷资源搜索 http://so.xunlei.com


BT联盟搜索引擎 http://search.btchina.net/


BT全球搜索 http://bt.it.com.cn/


BT特工 http://bt.souyo.com/


飞客BT搜索 http://bt.fkee.com/


天天BT 电影 http://www.ttbt.cn/


网游搜索 www.37ss.com


FTP搜索引擎 www.tooooold.com



十二、娱乐综合、电影、音乐等


搜刮  http://www.sogua.com/


易搜 http://bt.souyo.com/               (娱乐综合、软件IT、游戏、电影)


狗载社区 http://www.ppgou.com/

OpenV开放视频 http://www.openv.tv/


第九频道 www.tvix.cn


动漫搜索 http://share.greedland.net/


奇客网 http://v.qirss.com/


CCTV视频搜索 http://vsearch.cctv.com/


优酷视频搜索  http://www.youku.com/



十三、电视节目


电视猫  www.tvmao.com


e准 - 电视节目预告 www.ezhun.com


搜视网 http://www.tvsou.com/


我爱电视剧 http://www.5idsj.com/ (剧情搜索)



十四、博客、论坛搜索


贴易 http://search.teein.com/


Souyo http://www.souyo.com/


博狗 http://www.blogool.com/


大旗 http://search.chinabbs.com/


博客查号台  http://www.blog114.com.cn/


博搜 http://www.booso.com/


中文RSS搜索 http://www.booso.com/


名人博客 http://www.starlogs.com/


中国博客网搜索 http://search.blogcn.com/



十五、其它


搜农 www.sounong.net (来自安徽的和农业相关综合搜索引擎)


农搜 www.agrisou.com


性搜 http://www.sinsoo.com/


中国建筑黄页 www.agoo.com.cn


搜网(图片搜索) http://home.souwang.com/


金聚网(游戏搜索) http://www.jj160.com/




游戏网(搜索引擎?)http://ks.pcgames.com.cn/


乐虎网(手机图片) http://www.joyhoo.com/


全国驾校搜索 www.jxedt.com

个性搜索       www.deyeb.cn




《 行业搜索、垂直搜索 》 的评论也很精彩,欢迎您也添加评论。查看详细 >>





JavaEye推荐
上海乐福狗信息技术有限公司:诚聘技术经理和开发工程师
免费下载IBM社区版软件--它基于开放的标准,支持广泛的开发类型,让您的开发高效自主!
京沪穗蓉四地免费注册,SOA技术高手汇聚交锋.
上海:优秀公司德比:高薪诚聘 资深Java工程师
广州:优易公司:诚聘Java工程师,开发经理
上海:尤恩斯国际集团:诚聘开发工程师
北京:优秀公司NHNChina招聘:WEB开发,系统管理,JAVA开发, DBA



文章来源: http://yuping.javaeye.com/blog/116244
posted @ 2007-08-24 20:05 fengzhi 阅读(206) | 评论 (0) | 编辑 收藏
 
[导入]Web数据挖掘

网站:JavaEye 作者:yuping322 发表时间: 2007-08-24 19:52 此文章来自于 http://www.JavaEye.com
声明:本文系JavaEye网站原创文章,未经JavaEye网站或者作者本人书面许可,任何其他网站严禁擅自发表本文,否则必将追究法律责任!
原文链接: http://yuping.javaeye.com/blog/116243

   引言

数据挖掘(Data Mining,DM)是从大量数据中提取或“挖掘”知识,是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。[1] 随着网络的不断发展,因特网目前已成为一个巨大的、分布广泛的和全球性的信息服务中心。从海量的网络信息中寻找有用的知识,早已成为人们的迫切需求。各种类似Google、Baidu等的搜索引擎也层出不穷,Web数据挖掘的应用在现实中不断体现。

Web数据挖掘建立在对大量的网络数据进行分析的基础上,采用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、数据筛选、数据转换、数据挖掘和模式分析,最后做出归纳性的推理、预测客户的个性化行为以及用户习惯,从而帮助进行决策和管理,减少决策的风险。

Web数据挖掘涉及多个领域,除数据挖掘外,还涉及计算机网络、数据库与数据仓储、人工智能、信息检索、可视化、自然语言理解等技术。


2   Web数据挖掘面临的问题

Web的巨大、分布广泛和内容多样使得目前的Web挖掘面临着众多问题和挑战。首先,对有效的数据仓库和数据挖掘来说,Web上的数据过于庞大。而且,Web上的数据具有极强的动态性,不仅数量增长快而且更新十分迅速。但是面对如此大量的Web上的信息,有调查却表明:99%的Web信息对于99%的用户是无用的。这样看来,面对网络上形形色色各式各样的用户群体,许多由Web搜索引擎所检索到的资料将会被淹没。

另外,由于Web页面缺乏同一的结构,其结构又比任何传统文本文档都要复杂,所以要实现基于Web的数据挖掘和信息检索在目前来说是非常具有挑战性的。


 


3   Web数据挖掘的分类

Web数据挖掘是一项具有挑战性的课题。它实现对Web存取模式,Web结构和规则,以及动态的Web内容的查找。一般来说,Web数据挖掘可分为四类:Web内容挖掘、Web结构挖掘、Web使用记录挖掘和Web用户性质挖掘。其中,Web内容挖掘、Web结构挖掘和Web使用记录挖掘是Web1.0时代就已经有了的,而Web用户性质挖掘则是伴随着Web2.0的出现而出现的。


3.1 Web内容挖掘

Web内容挖掘主要包括文本挖掘和多媒体挖掘两类,其对象包括文本、图像、音频、视频、多媒体和其他各种类型的数据。这些数据一般由非结构化的数据(如文本) 、半结构化的数据(如HTML 文档) 和结构化的数据(如表格) 构成。对非结构化文本进行的Web挖掘,称为文本数据挖掘或文本挖掘,是Web挖掘中比较重要的技术领域。Web挖掘中另一个比较重要的技术领域是Web多媒体数据挖掘。

目前,关于Web内容挖掘的研究大体以Web文本内容挖掘为主。Web内容挖掘一般从资源查找和数据库两个不同的方面进行研究。

从资源查找的方面来看,Web内容挖掘的任务是从用户的角度出发,怎样提高信息质量和帮助用户过滤信息。主要是对非结构化文档和半结构化文档的挖掘。非结构化文档主要指Web上的自由文本,如小说、新闻等。Web上的半结构化文档挖掘指在加入了HTML、超链接等附加结构的信息上进行挖掘,其应用包括超链接文本的分类、聚类、发现文档之间的关系、提出半结构化文档中的模式和规则等。

从数据库的观点进行Web内容挖掘主要是试图建立Web站点的数据模型并加以集成, 以支持复杂查询,而不只是简单的基于关键词的搜索。这要通过找到Web文档的模式、建立Web知识库来实现。

对文本数据进行挖掘的文档分类和模型质量评价方法与传统的数据挖掘方法相类似,分类算法主要应用朴素贝叶斯(Naive Bayes Classifier)。对模型的质量评价主要有分类的正确率(Classification Accuracy)、准确率( Precision)和信息估值( Information Score)。 SAAS

Web多媒体数据挖掘从多媒体数据库中提取隐藏的知识、多媒体数据关联、或者是其他没有直接储存在多媒体数据库中的模式。多媒体数据挖掘包括对图像、视频和声音的挖掘。多媒体挖掘首先进行特征提取,然后再应用传统的数据挖掘方法进行进一步的信息挖掘。对网页中的多媒体数据进行特征的提取,应充分利用HTML的标签信息。[3]

3.2 Web结构挖掘

由于有用的知识不仅包含在Web页面的内容中,而且也包含在页面的结构中。所以Web结构挖掘是从站点的组织结构和页面结构中推导出知识,对Web页面间的结构进行挖掘,找出数据链的结构进行分类、聚类,从而发现页面间的关系,进而改进搜索引擎的性能。

Web结构挖掘的对象是Web本身的超链接,即对Web文档的结构进行挖掘。Web结构挖掘的基本思想是将Web看作一个有向图,他的顶点是Web页面,页面间的超链就是图的边。然后利用图论对Web的拓扑结构进行分析。常见的算法有HITS ( Hypertext Induced Topic Search) 、PageRank、发现虚拟社区的算法、发现相似页面的算法、发现地理位置的算法和页面分类算法。Web结构挖掘的算法一般可分为查询相关算法和查询无关算法两类。查询相关算法需要为每一个查询进行一次超链分析从而进行一次值的指派;而查询独立算法则为每个文档仅进行一次值的指派,对所有的查询都使用此值。HITS和PageRank分别是查询相关算法和查询独立算法的代表。




3.3 Web使用记录挖掘

Web使用记录挖掘也叫Web日志挖掘或Web访问信息挖掘。它是通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式,通过分析日志记录中的规律,可以识别用户的喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。

Web使用记录数据除了服务器的日志记录外, 还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、等一切用户与站点之间可能的交互记录。

Web使用记录挖掘方法主要有以下两种:

(1) 将网络服务器的日志文件作为原始数据,应用特定的预处理方法进行处理后再进行挖掘;

(2) 将网络服务器的日志文件转换为图表,然后再进行进一步的数据挖掘。通常,在对原始数据进行预处理后就可以使用传统的数据挖掘方法进行挖掘。



3.4 Web用户性质挖掘

Web用户性质挖掘是伴随着Web2.0的出现而出现的。基于RSS、Blog、SNS、Tag以及WiKi等互联网软件的广泛应用,Web2.0帮助人们从Web1.0时代各大门户网站“填鸭”式的信息轰炸,过渡到了“人人对话”,每个普通用户既是信息的获取者,也是信息的提供者。[4]面对Web2.0的诞生,Web数据挖掘技术又面临着新的挑战。

如果说Web使用记录挖掘是挖掘网站访问者在各大网站上留下的痕迹,那么Web用户性质挖掘则是要去Web用户的老巢探寻究竟。在Web2.0时代,网络彻底个人化了,它完全允许客户用自己的方式、喜好和个性化的定制服务创造自己的互联网,它一方面给予互联网用户最大的自由度,另一方面给予有心商家有待发掘的高含金量信息数据。通过对Web用户自建的RSS、Blog等Web2.0功能模块下客户信息的统计分析,能够帮助运营商以较低成本获得准确度较高的客户兴趣倾向、个性化需求以及新业务发展趋势等信息。有关Web2.0下的数据挖掘正在进一步的研究中。

相关研究方向

 


4   结束语

Web数据挖掘是当今世界上的热门研究领域,其研究具有广阔的应用前景和巨大的现实意义。目前国内的Web数据挖掘尚处于学习、跟踪和探索阶段。Web数据挖掘有许多问题有待于进一步的研究和深化。Web2.0的出现给Web数据挖掘提出了新的要求。基于Web2.0的数据挖掘目前还处于起步阶段,它必将成为Web数据挖掘中很重要的一个研究领域。




《 Web数据挖掘 》 的评论也很精彩,欢迎您也添加评论。查看详细 >>





JavaEye推荐
上海乐福狗信息技术有限公司:诚聘技术经理和开发工程师
免费下载IBM社区版软件--它基于开放的标准,支持广泛的开发类型,让您的开发高效自主!
京沪穗蓉四地免费注册,SOA技术高手汇聚交锋.
上海:优秀公司德比:高薪诚聘 资深Java工程师
广州:优易公司:诚聘Java工程师,开发经理
上海:尤恩斯国际集团:诚聘开发工程师
北京:优秀公司NHNChina招聘:WEB开发,系统管理,JAVA开发, DBA



文章来源: http://yuping.javaeye.com/blog/116243
posted @ 2007-08-24 19:52 fengzhi 阅读(266) | 评论 (0) | 编辑 收藏