Webharvest网络爬虫应用总结 - 编程入门网

作者佚名技术来源 NET编程浏览发布时间 2012-06-20

Webharvest网络爬虫应用总结

时间:2011-01-24 BlogJava 陈新汉

Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。其实现原理是，根据预先定义的配置文件用httpclient获取页面的全部内容（关于httpclient的内容，本博有些文章已介绍），然后运用XPath、XQuery、正则表达式等这些技术来实现对text/xml的内容筛选操作，选取精确的数据。前两年比较火的垂直搜索（比如：酷讯等）也是采用类似的原理实现的。Web-Harvest应用，关键就是理解和定义配置文件，其他的就是考虑怎么处理数据的Java代码。当然在爬虫开始前，也可以把Java变量填充到配置文件中，实现动态的配置。

现在以爬取天涯论坛的所有版面信息为例，介绍Web-Harvest的用法，特别是其配置文件。

天涯的版块地图页面时：http://www.tianya.cn/bbs/index.shtml

[天涯的部分版面列表]

我们的目标就是要抓取全部的版块信息，包括版块之间的父子关系。

先查看版块地图的页面源代码，寻求规律：

<div　class="backrgoundcolor"> <div　class="bankuai_list"> 　　　　　　　 <h3>社会民生</h3> 　　　　　　　 <ul> 　　　　　　　　　　　　　　 <li><a　href="http://www.tianya.cn/publicforum/articleslist/0/free.shtml"　id="item天涯杂谈">天涯杂谈</a></li> 　　　　　　　　　　　　　　 <li><a　href="http://www.tianya.cn/publicforum/articleslist/0/worldlook.shtml"　id="item国际观察">国际观察</a></li> 　　　　　　　　　　　　　　 <li><a　href="http://www.tianya.cn/publicforum/articleslist/0/news.shtml"　id="item天涯时空">天涯时空</a></li> 　　　　　　　　　　　　　　 <li><a　href="http://www.tianya.cn/publicforum/articleslist/0/no06.shtml"　id="item传媒江湖">传媒江湖</a></li> 　　　　　　　　　　　　　　 ……　//省略 </ul> </div> <div　class="clear"></div> </div> <div　class="nobackrgoundcolor"> <div　class="bankuai_list"> 　　　　　　　 <h3>文学读书</h3> 　　　　　　　　　　　　　　 <ul> 　　　　　　　　　　　　　　　　　　　　　 <li><a　href="http://www.tianya.cn/techforum/articleslist/0/16.shtml"　id="item莲蓬鬼话">莲蓬鬼话</a></li> 　　　　　　　　　　　　　　　　　　　　　 <li><a　href="http://www.tianya.cn/publicforum/articleslist/0/no05.shtml"　id="item煮酒论史">煮酒论史</a></li> 　　　　　　　　　　　　　　　　　　　　　 <li><a　href="http://www.tianya.cn/publicforum/articleslist/0/culture.shtml"　id="item舞文弄墨">舞文弄墨</a></li> 　　　　　　　　　　　　　　　　　　　　　 …….//省略　　　　　　　　　　　　　　 </ul> </div> <div　class="clear"></div> </div> …….//省略

Webharvest利大点恰哘喘悳潤(2)

扮寂:2011-01-24 BlogJava 蛎仟査

宥狛匈中坿鷹蛍裂?窟?耽倖寄医翠脅頁壓<div class="

凌众科技专业提供服务器租用、服务器托管、企业邮局、虚拟主机等服务，公司网站：http://www.lingzhong.cn 为了给广大客户了解更多的技术信息，本技术文章收集来源于网络,凌众科技尊重文章作者的版权，如果有涉及你的版权有必要删除你的文章，请和我们联系。以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息，谢谢!

1 2 3 下一页

分享到：更多

你可能对下面的文章感兴趣

上一篇: 从File类开始IO系统介绍 - 编程入门网下一篇: weblogic的几个基础问题 - 编程入门网

关于Webharvest网络爬虫应用总结 - 编程入门网的所有评论

随机推荐