Webharvest网络爬虫应用总结 - 编程入门网
Webharvest网络爬虫应用总结时间:2011-01-24 BlogJava 陈新汉Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。其实现原理是,根据预先定义的配置文件用httpclient获取页面的全部内容(关于httpclient的内容,本博有些文章已介绍),然后运用XPath、XQuery、正则表达式等这些技术来实现对text/xml的内容筛选操作,选取精确的数据。前两年比较火的垂直搜索(比如:酷讯等)也是采用类似的原理实现的。Web-Harvest应用,关键就是理解和定义配置文件,其他的就是考虑怎么处理数据的Java代码。当然在爬虫开始前,也可以把Java变量填充到配置文件中,实现动态的配置。 现在以爬取天涯论坛的所有版面信息为例,介绍Web-Harvest的用法,特别是其配置文件。 天涯的版块地图页面时:http://www.tianya.cn/bbs/index.shtml [天涯的部分版面列表] 我们的目标就是要抓取全部的版块信息,包括版块之间的父子关系。 先查看版块地图的页面源代码,寻求规律:
Webharvest利大点恰哘喘悳潤(2)扮寂:2011-01-24 BlogJava 蛎仟査宥狛匈中坿鷹蛍裂?窟?耽倖寄医翠脅頁壓<div class=" |
凌众科技专业提供服务器租用、服务器托管、企业邮局、虚拟主机等服务,公司网站:http://www.lingzhong.cn 为了给广大客户了解更多的技术信息,本技术文章收集来源于网络,凌众科技尊重文章作者的版权,如果有涉及你的版权有必要删除你的文章,请和我们联系。以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息,谢谢! |