Webharvest网络爬虫应用总结 - 编程入门网

作者佚名技术来源 NET编程浏览发布时间 2012-06-20

眉倖何蛍?

1.協吶点恰秘笥?

<var-def　name="start"> 　　　 <html-to-xml> 　　　　　　　　 <http　url="http://www.tianya.cn/bbs/index.shtml"　charset="utf-8"　/> 　　　　　　 </html-to-xml> 　　　 </var-def>

点恰議秘笥URL頁?http://www.tianya.cn/bbs/index.shtml

揖扮?峺協阻点恰議点方象議園鷹?宸倖園鷹哘乎功象醤悶議匈中園鷹栖協?箭泌貧中議秘笥匈中議園鷹祥頁utf-8。凪糞?嗤載謹議嶄猟匈中議園鷹頁gbk賜宀gb2312?椎担宸倖仇圭議園鷹祥勣?哘譜崔?倦夸氏竃?方象岱鷹。

Webharvest网络爬虫应用总结(3)

时间:2011-01-24 BlogJava 陈新汉

2.定义数据的过滤规则：

<var-def　name="ulList"> 　　　　 <xpath　expression="//div[@class=''bankuai_list'']"> 　　　　　　　　 <var　name="start"　/> 　　　　　　　 </xpath> </var-def>

上面配置就是根据XPath从爬得的数据中筛选合适的内容。这里需要得到所有的<div class="bankuai_list"></div>信息。有关XPath和XQuery的语法请网上查询。

3.最后一步就是处理数据。可以写入XML文件，也可以使用SetContextVar的方式把收集的数据塞到一个集合变量中，供Java代码调用（比如：数据直接入库）。

这里是直接写入XML文件，然后解析XML即可。

注意下面的for循环，这是XQuery的语法，提供遍历的功能。由于大版面小版块是一个树状结构，需要这种遍历。

<board　boardname="{normalize-space(data($item//h3/text()))}"　boardurl=""> { 　　　　　　　 for　$row　in　$item//li　return <board　boardname="{normalize-space(data($row//a/text()))}"　boardurl="{normalize-space(data($row/a/@href))}"　/> } </board>