PHP中怎样实现文章采集
---------------
$a=ereg_replace("\n", '''', $a); $a=ereg_replace("\r", '''', $a); 去掉. 2)思路2,利用一大堆切割相关的函数对内容提取,需要大量的实践,调试,我正在弄这里,没有获得什么突破~~~~~~~~ 3,入库 a,切保你的数据库可以插入 比如我的可以这样直接插入: PHP: -------------------------------------------------------------------------------- $sql="INSERT INTO $articles VALUES ('''', ''$title'', '''', ''$article'','''', '''', ''clinch'', ''from'', ''关键词'', 1, ''$栏目id'', ''$time'', 1);\r\n\r\n"; 其中 PHP: -------------------------------------------------------------------------------- ('''', 是自动升序的文章id,要确定升序的字段只有一个,比如pa是标题一个表,一个索引,内容一个表一个索引,两表的自动升序的字段要实时判断的,要插入比较麻烦,被认为"不可插". b,sql文本导出 我的思路是: 在函数里return PHP: -------------------------------------------------------------------------------- "INSERT INTO article_articles VALUES ('''', ''$title'', '''', ''$body'','''', '''', ''clinch'', ''sohu'', ''php'', 1, ''#clinchall#'', ''$time'', 1);\r\n\r\n"; 然后不断积累查询语句内容,最后 PHP: -------------------------------------------------------------------------------- $fname="what_"."_page".$i.".sql"; $fp = fopen("data/$f", ''w''); if(fputs($fp, $sql)) echo "file successfully write"; fclose($fp); 根据小新的思路,非常不错 PHP: -------------------------------------------------------------------------------- if(!empty($r_article) AND !empty($r_title)) { $time=time(); $r_title=addslashes(trim($r_title)); $r_article=addslashes($r_article); $get_sql="INSERT INTO article_articles VALUES ('''', ''$r_title'', '''', ''$r_article'','''', '''', '''', ''sohu'', '''', 1, '''', ''$time'', 1);\r\n\r\n"; if(file_exists("xingfu_".
Copyright ©1999-2011 厦门凌众科技有限公司 厦门优通互联科技开发有限公司 All rights reserved 地址(ADD):厦门软件园二期望海路63号701E(东南融通旁) 邮编(ZIP):361008 电话:0592-5908028 传真:0592-5908039 咨询信箱:web@lingzhong.cn 咨询OICQ:173723134 《中华人民共和国增值电信业务经营许可证》闽B2-20100024 ICP备案:闽ICP备05037997号
{ if(filesize("xingfu_".
Copyright ©1999-2011 厦门凌众科技有限公司 厦门优通互联科技开发有限公司 All rights reserved 地址(ADD):厦门软件园二期望海路63号701E(东南融通旁) 邮编(ZIP):361008 电话:0592-5908028 传真:0592-5908039 咨询信箱:web@lingzhong.cn 咨询OICQ:173723134 《中华人民共和国增值电信业务经营许可证》闽B2-20100024 ICP备案:闽ICP备05037997号
{
Copyright ©1999-2011 厦门凌众科技有限公司 厦门优通互联科技开发有限公司 All rights reserved 地址(ADD):厦门软件园二期望海路63号701E(东南融通旁) 邮编(ZIP):361008 电话:0592-5908028 传真:0592-5908039 咨询信箱:web@lingzhong.cn 咨询OICQ:173723134 《中华人民共和国增值电信业务经营许可证》闽B2-20100024 ICP备案:闽ICP备05037997号
} } $fp=fopen("xingfu_".
Copyright ©1999-2011 厦门凌众科技有限公司 厦门优通互联科技开发有限公司 All rights reserved 地址(ADD):厦门软件园二期望海路63号701E(东南融通旁) 邮编(ZIP):361008 电话:0592-5908028 传真:0592-5908039 咨询信箱:web@lingzhong.cn 咨询OICQ:173723134 《中华人民共和国增值电信业务经营许可证》闽B2-20100024 ICP备案:闽ICP备05037997号
fwrite($fp,$get_sql); fclose($fp); 先判断是否得到标题和内容,然后生成sql语句放到文本中,还可以判断大小分页生成. c.直接入库(入mysql) 找个db_mysql类后 直接 PHP: [Copy to clipboard] -------------------------------------------------------------------------------- $DB->query("INSERT INTO `xxx` ( `xx` , `title` , `texts` , `sortid` ) VALUES ('''', ''".addslashes($title)."'', ''".addslashes($text)."'', ''".$mm."'')"); 4,问题 a,其实采集大多需要具体问题具体分析,想做通用的很难. 换句话说,要做到让不懂正则的人随便采集,那可需要高手的后台实现. b,最大问题是内容切割部分,因为html代码具体情况很复杂,需要调试多次.希望有人做出个类来. c,当切不到时处理不好会中断, |
||||||||||||||||||||
凌众科技专业提供服务器租用、服务器托管、企业邮局、虚拟主机等服务,公司网站:http://www.lingzhong.cn 为了给广大客户了解更多的技术信息,本技术文章收集来源于网络,凌众科技尊重文章作者的版权,如果有涉及你的版权有必要删除你的文章,请和我们联系。以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息,谢谢! |