选用了jobo.
heritrix ,代码不是很整洁。
j-spider ,也不合用。

WebRobot.createFromXML("dir");就可以使用jobo.xml 来配置了。
regfilter 只能配置 allow="false";看源码没有问题,今后有时间要解决。





西津渡