百度知道的php爬虫
作者 佚名技术
来源 NET编程
浏览
发布时间 2012-05-23
; if ( $start > 0 ) { $start = $this->GetStart( $start ) ; $end = strpos( $this->content , '</pre>' , $start ) ; $this->CurPosition = $end ; return substr( $this->content , $start , $end-$start ) ; } return NULL ; } function GetAnswer() { $start = strpos( $this->content , 'class="reply-text mb10"' , $this->CurPosition ) ; if ( $start > 0 ) { $start = $this->GetStart( $start ) ; $end = strpos( $this->content , '</pre>' , $start ) ; $this->CurPosition = $end ; return substr( $this->content , $start , $end-$start ) ; } return NULL ; } } ini_set('max_execution_time', '0'); $TestSpider = new spider() ; $Startqid = 1000001 ; $sndqid = 1000051 ; $standurl = 'http://zhidao.baidu.com/question/' ; $html = '.html' ; $url ; $NoUse = 0 ; function microtime_float() { list($usec, $sec) = explode(" ", microtime()); return ((float)$usec + (float)$sec); } $time_start = microtime_float(); $answer ; for ($i = $Startqid ; $i < $sndqid ; $i++ ) { $url = $standurl.$i.$html ; if ( $TestSpider->GetContent ( $url ) ) { echo '<br>正在爬取编号为'.$i.'的网页<br>' ; $TestSpider->GetTitle() ; //得到网页标题,不用显示了 echo '<font color="green">问题:</font><font color="red"><a target="_blank" href="'.$url.'"> '.$TestSpider->GetQTitle().'</a></font><br>' ; //得到问题题目 echo '<font color="green">问题具体内容:</font>'.$TestSpider->GetQContent().'</font><br>' ; //得到问题内容,有可能不存在 echo '<font color="green">问题补充说明:</font>'.$TestSpider->GetQsuply().'</font><br>' ; //问题补充说明,有可能不存在 while ( ($answer = $TestSpider->GetAnswer()) != NULL ) { echo '<font color="green">问题答案:</font>'.$answer.'</font><br>' ; //得到答案。有可能没有答案! } ob_flush() ; flush() ; } else { echo '<p>错误了<a target="_blank" href="'.$url.'" style= "color:#ff0000">'.$url.'</a></p>' ; $NoUse++ ; } } $time_end = microtime_float(); $time = $time_end - $time_start; $i = $i-$Startqid ; echo '<p>爬取'.$i.'个 |
凌众科技专业提供服务器租用、服务器托管、企业邮局、虚拟主机等服务,公司网站:http://www.lingzhong.cn 为了给广大客户了解更多的技术信息,本技术文章收集来源于网络,凌众科技尊重文章作者的版权,如果有涉及你的版权有必要删除你的文章,请和我们联系。以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息,谢谢! |
你可能对下面的文章感兴趣
上一篇: php多层数组和对象的转换下一篇: PHP中文件包含语句的区别
关于百度知道的php爬虫的所有评论