spark的自留地(ofbiz/eclipse rcp/shark/opentaps)

  BlogJava :: 首页 :: 联系 :: 聚合  :: 管理
  54 Posts :: 0 Stories :: 112 Comments :: 0 Trackbacks
好象有日子没更新过blog了,写篇来证明博主的存在吧。

好多哥们建了网站,都不知道如何吸引别人的眼球。其实我觉得的,要么功能,要么内容。可是个人办的网站,就是二十四小时挂在网上不停的拷贝粘贴又能做得了多少内容? 懒人自有懒办法,写个程序去抓去?


嗯,想到就得动手,不然过阵就忘记了,当然喽,还是谋定而后动,打算怎么整呢?先选择好技术:

1、谁去抓?好象好多人都推荐使用nutch或是herixtrix,不过我觉得象一般的小网站玩玩,就不必这么费事了,就用HTMLParser吧,抓取与解析一体化解决吧。

2、谁来格式化数据?同上了,俺用正则习惯了,正好node + regex 够你用了。

3、如何存储抓来的数据? 我是用惯JavaEE了,那就 ibatis + mysql 吧,hiberate 就不必了,虽然我没打算做个多高负载的应用,但hibernate怎么也感觉不是很合适吧? (喜欢hiberate别拍砖,我不喜欢口水战,各人有自喜好,而且hibernate我也很喜欢)

4、如何把你抓来的数据表现出来呢? 这个就得看你自己的需要喽,CMS 还是 B2B电子商务程序? 还是一个 CRM或ERP程序(如果这样的话,倒不妨试试opentaps?)

5、性能是不是问题? 如果你打算做个专业的搜索引擎或是阿里巴巴之类的电子商务引擎,除去硬件的考虑、数据库的优化,也许你要更多地考虑cache的管理,还有可能考虑文件索引(如用lunece)

6、差点忘记了,谁来调度这些爬虫及程序之间的任务执行顺序呢? 试试Quartz?!

又犯困了,先写这吧,正好有个朋友要我帮忙指导做个类似玩意儿,下次再记录吧。

posted on 2009-08-04 21:33 shanghai_spark 阅读(1407) 评论(5)  编辑  收藏

Feedback

# re: 建了网站没内容咋办?整队网络爬虫出去抓去呀(一) 2009-08-05 00:04 小人物
对这个很感兴趣,希望博主能够写这一系列的教程。呵呵。  回复  更多评论
  

# re: 建了网站没内容咋办?整队网络爬虫出去抓去呀(一) 2009-08-05 09:00 popoer
互联网上的垃圾信息就是这样产生的...  回复  更多评论
  

# re: 建了网站没内容咋办?整队网络爬虫出去抓去呀(一) 2009-08-05 09:10 隔叶黄莺
自己用 HTMLParser,然后 node+regex 去解析会很麻烦的。  回复  更多评论
  

# re: 建了网站没内容咋办?整队网络爬虫出去抓去呀(一) 2009-08-05 16:56 r
抓出来缺胳膊少腿的内容,垃圾网都这样  回复  更多评论
  

# re: 建了网站没内容咋办?整队网络爬虫出去抓去呀(一) 2009-08-07 03:58 Bond
对这方面很感兴趣,希望能向博主请教,QQ:329069383  回复  更多评论
  


只有注册用户登录后才能发表评论。


网站导航: