BlogJava-lucene + hadoop 分布式并行计算搜索框架-随笔分类-开发工具

BlogJava-lucene + hadoop 分布式并行计算搜索框架-随笔分类-开发工具http://www.blogjava.net/nianzai/category/52727.htmlzh-cnSat, 29 Sep 2012 06:59:03 GMTSat, 29 Sep 2012 06:59:03 GMT60脚本、Ajax网页内容抓取工具(第二版) http://www.blogjava.net/nianzai/archive/2012/09/29/388838.htmlnianzainianzaiSat, 29 Sep 2012 06:26:00 GMThttp://www.blogjava.net/nianzai/archive/2012/09/29/388838.htmlhttp://www.blogjava.net/nianzai/comments/388838.htmlhttp://www.blogjava.net/nianzai/archive/2012/09/29/388838.html#Feedback0http://www.blogjava.net/nianzai/comments/commentRss/388838.htmlhttp://www.blogjava.net/nianzai/services/trackbacks/388838.html
在原有的基础上增加自定义命令脚本抓取功能。该功能能够通过用户自定义的脚本来实现与网页的交互，比如填写内容，点击网页上的提交按钮。
这样便能抓取需要提交的网页内容了，特别是需要提交的ajax网页。

Ajax、脚本网页内容抓取工具(第二版) 点这下载

nianzai 2012-09-29 14:26 发表评论

]]>Ajax、脚本网页内容抓取小工具http://www.blogjava.net/nianzai/archive/2011/04/27/349112.htmlnianzainianzaiWed, 27 Apr 2011 05:37:00 GMThttp://www.blogjava.net/nianzai/archive/2011/04/27/349112.htmlhttp://www.blogjava.net/nianzai/comments/349112.htmlhttp://www.blogjava.net/nianzai/archive/2011/04/27/349112.html#Feedback1http://www.blogjava.net/nianzai/comments/commentRss/349112.htmlhttp://www.blogjava.net/nianzai/services/trackbacks/349112.html

1、文件路径为带抓取网页地址，格式如下：
1,http://www.google.com
2,http://www.baidu.com
......
......

2、保存路径为抓取下来的网页保存路径

Ajax、脚本网页内容抓取小工具点这下载

nianzai 2011-04-27 13:37 发表评论

]]>