﻿<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/"><channel><title>BlogJava-lucene + hadoop 分布式并行计算搜索框架-随笔分类-开发工具</title><link>http://www.blogjava.net/nianzai/category/52727.html</link><description /><language>zh-cn</language><lastBuildDate>Sat, 29 Sep 2012 06:59:03 GMT</lastBuildDate><pubDate>Sat, 29 Sep 2012 06:59:03 GMT</pubDate><ttl>60</ttl><item><title>脚本、Ajax网页内容抓取工具(第二版) </title><link>http://www.blogjava.net/nianzai/archive/2012/09/29/388838.html</link><dc:creator>nianzai</dc:creator><author>nianzai</author><pubDate>Sat, 29 Sep 2012 06:26:00 GMT</pubDate><guid>http://www.blogjava.net/nianzai/archive/2012/09/29/388838.html</guid><wfw:comment>http://www.blogjava.net/nianzai/comments/388838.html</wfw:comment><comments>http://www.blogjava.net/nianzai/archive/2012/09/29/388838.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.blogjava.net/nianzai/comments/commentRss/388838.html</wfw:commentRss><trackback:ping>http://www.blogjava.net/nianzai/services/trackbacks/388838.html</trackback:ping><description><![CDATA[
原理：通过浏览器去访问要抓取的Ajax、脚本网页地址，通过读取浏览器内存document来得到脚本执行以后的网页内容<br /><br />在原有的基础上增加 自定义命令脚本 抓取功能。该功能能够通过用户自定义的脚本来实现与网页的交互，比如填写内容，点击网页上的提交按钮。<br />这样便能抓取需要提交的网页内容了，特别是需要提交的ajax网页。<br /><br /><img border="0" alt="" src="http://www.blogjava.net/images/blogjava_net/nianzai/ajax.jpg" width="884" height="543" /><br /><br />Ajax、脚本网页内容抓取工具(第二版)&nbsp; <span style="font-size: 18pt;"><a href="/Files/nianzai/ReadAjax2.rar">点这下载</a> </span><br />   
 
<img src ="http://www.blogjava.net/nianzai/aggbug/388838.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.blogjava.net/nianzai/" target="_blank">nianzai</a> 2012-09-29 14:26 <a href="http://www.blogjava.net/nianzai/archive/2012/09/29/388838.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>Ajax、脚本网页内容抓取小工具</title><link>http://www.blogjava.net/nianzai/archive/2011/04/27/349112.html</link><dc:creator>nianzai</dc:creator><author>nianzai</author><pubDate>Wed, 27 Apr 2011 05:37:00 GMT</pubDate><guid>http://www.blogjava.net/nianzai/archive/2011/04/27/349112.html</guid><wfw:comment>http://www.blogjava.net/nianzai/comments/349112.html</wfw:comment><comments>http://www.blogjava.net/nianzai/archive/2011/04/27/349112.html#Feedback</comments><slash:comments>1</slash:comments><wfw:commentRss>http://www.blogjava.net/nianzai/comments/commentRss/349112.html</wfw:commentRss><trackback:ping>http://www.blogjava.net/nianzai/services/trackbacks/349112.html</trackback:ping><description><![CDATA[原理：通过浏览器去访问要抓取的Ajax、脚本网页地址，通过读取浏览器内存document来得到脚本执行以后的网页内容<br />
<br />
<img border="0" alt="" src="http://www.blogjava.net/images/blogjava_net/nianzai/readajax.jpg" /><br />
<br />
1、文件路径为带抓取网页地址，格式如下：<br />
1,http://www.google.com<br />
2,http://www.baidu.com<br />
......<br />
......<br />
<br />
2、保存路径为抓取下来的网页保存路径<br />
<br />
Ajax、脚本网页内容抓取小工具&nbsp;<span style="font-size: 18pt"><a href="http://nutla.googlecode.com/files/ReadAjax.exe">点这下载</a> </span>
 <img src ="http://www.blogjava.net/nianzai/aggbug/349112.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.blogjava.net/nianzai/" target="_blank">nianzai</a> 2011-04-27 13:37 <a href="http://www.blogjava.net/nianzai/archive/2011/04/27/349112.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item></channel></rss>