Webharvest网络爬虫应用总结 - 编程入门网
眉倖何蛍?
1.協吶点恰秘笥?
点恰議秘笥URL頁?http://www.tianya.cn/bbs/index.shtml 揖扮?峺協阻点恰議点方象議園鷹?宸倖園鷹哘乎功象醤悶議匈中園鷹栖協?箭泌貧中議秘笥匈中議園鷹祥頁utf-8。凪糞?嗤載謹議嶄猟匈中議園鷹頁gbk賜宀gb2312?椎担宸倖仇圭議園鷹祥勣?哘譜崔?倦夸氏竃?方象岱鷹。 Webharvest网络爬虫应用总结(3)时间:2011-01-24 BlogJava 陈新汉2.定义数据的过滤规则:
上面配置就是根据XPath从爬得的数据中筛选合适的内容。这里需要得到所有的<div class="bankuai_list"></div>信息。有关XPath和XQuery的语法请网上查询。 3.最后一步就是处理数据。可以写入XML文件,也可以使用SetContextVar的方式把收集的数据塞到一个集合变量中,供Java代码调用(比如:数据直接入库)。 这里是直接写入XML文件,然后解析XML即可。 注意下面的for循环,这是XQuery的语法,提供遍历的功能。由于大版面小版块是一个树状结构,需要这种遍历。
相关的Java代码如下:
上面代码执行完成后,收集的数据文件地址为:c:\chenxinhan\tianya\siteboards.xml |
凌众科技专业提供服务器租用、服务器托管、企业邮局、虚拟主机等服务,公司网站:http://www.lingzhong.cn 为了给广大客户了解更多的技术信息,本技术文章收集来源于网络,凌众科技尊重文章作者的版权,如果有涉及你的版权有必要删除你的文章,请和我们联系。以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息,谢谢! |