快速业务通道

Webharvest网络爬虫应用总结 - 编程入门网

作者 佚名技术 来源 NET编程 浏览 发布时间 2012-06-20
眉倖何蛍?

1.協吶点恰秘笥?

<var-def name="start">     <html-to-xml>          <http url="http://www.tianya.cn/bbs/index.shtml" charset="utf-8" />        </html-to-xml>     </var-def>

点恰議秘笥URL頁?http://www.tianya.cn/bbs/index.shtml

揖扮?峺協阻点恰議点方象議園鷹?宸倖園鷹哘乎功象醤悶議匈中園鷹栖協?箭泌貧中議秘笥匈中議園鷹祥頁utf-8。凪糞?嗤載謹議嶄猟匈中議園鷹頁gbk賜宀gb2312?椎担宸倖仇圭議園鷹祥勣?哘譜崔?倦夸氏竃?方象岱鷹。

Webharvest网络爬虫应用总结(3)

时间:2011-01-24 BlogJava 陈新汉

2.定义数据的过滤规则:

<var-def name="ulList">      <xpath expression="//div[@class=''bankuai_list'']">          <var name="start" />         </xpath> </var-def>

上面配置就是根据XPath从爬得的数据中筛选合适的内容。这里需要得到所有的<div class="bankuai_list"></div>信息。有关XPath和XQuery的语法请网上查询。

3.最后一步就是处理数据。可以写入XML文件,也可以使用SetContextVar的方式把收集的数据塞到一个集合变量中,供Java代码调用(比如:数据直接入库)。

这里是直接写入XML文件,然后解析XML即可。

注意下面的for循环,这是XQuery的语法,提供遍历的功能。由于大版面小版块是一个树状结构,需要这种遍历。

<board boardname="{normalize-space(data($item//h3/text()))}" boardurl=""> {         for $row in $item//li return <board boardname="{normalize-space(data($row//a/text()))}" boardurl="{normalize-space(data($row/a/@href))}" /> } </board>

相关的Java代码如下:

/** * Copyright(C):2009   * @author陈新汉   * Sep4,20093:24:58PM   */ String configFile="tianya.xml"; ScraperConfiguration config = new ScraperConfiguration(configFile); String targetFolder="c:\\chenxinhan"; Scraper scraper = new Scraper(config,targetFolder); //设置爬虫代理 scraper.getHttpClientManager().setHttpProxy("218.56.64.210","8080"); scraper.setDebug(true); scraper.execute();

上面代码执行完成后,收集的数据文件地址为:c:\chenxinhan\tianya\siteboards.xml

凌众科技专业提供服务器租用、服务器托管、企业邮局、虚拟主机等服务,公司网站:http://www.lingzhong.cn 为了给广大客户了解更多的技术信息,本技术文章收集来源于网络,凌众科技尊重文章作者的版权,如果有涉及你的版权有必要删除你的文章,请和我们联系。以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息,谢谢!

分享到: 更多

Copyright ©1999-2011 厦门凌众科技有限公司 厦门优通互联科技开发有限公司 All rights reserved

地址(ADD):厦门软件园二期望海路63号701E(东南融通旁) 邮编(ZIP):361008

电话:0592-5908028 传真:0592-5908039 咨询信箱:web@lingzhong.cn 咨询OICQ:173723134

《中华人民共和国增值电信业务经营许可证》闽B2-20100024  ICP备案:闽ICP备05037997号