用pdf电子书+ocr软件做原创文章的具体方法
众所周知,网站内容是否原创是百度给一个网站权重的重要判断标准. 但是并不是所有站长都有能力或者精力来进行原创,如果站长有大量网站的话,进行原创更加变成了困难的事情.很多站长选择使用伪原创,但是伪原创的弊端不用我多说,如果被搜索引擎当做是伪原创,更有被降权的风险. 闲话休提,直入正题.下面介绍一下如何用pdf和orc软件来做原创. 1:工欲善其事必先利其器,先来说一下需要用到的软件.笔者用到的ocr软件是(ABBYY FineReader OCR),大家去百度搜索一下即可找到下载地址,最好找绿色版的.在此不再赘述.这是软件的运行界面
2:找好了软件,下一步就要找pdf文章资源了, 我采用的是在verycd找资源,搜索”你要发的关键词pdf”即可找到很多你需要的相关类型的pdf下载资源,比如搜索”健康pdf”,出现的结果如下:
笔者在此下载了图片上的第一个文件. 这时候需要判断这个pdf文章是否在网络上被人发布过.用准备好的ABBY fineReader即可快速实现. 步骤是: 点击软件中的(打开)->(找到下载好的pdf文件)->页面范围选页面,指定小范围的页面范围进行读取. 下图可以看到本书有207页,页面那里填写30-40,就是先读取出30-40页的内容.这样做的目的是先小部分将pdf转化为文字,以便在各大搜索引擎上搜索,看内容是否之前被人发过.
点击打开,软件开始工作,过程不是很快,要耐心一点等待,处理完之后在任意的图片文档上点右键,然后点击读取页面。 经过一系列处理,终于转化出了文字。
复制右边的文字去百度搜一下,如下图所示!
大家可以轻松看出来这段文字在百度上并没有收录过.这时候就可以对整本书进行处理了.处理之后保存为doc格式或者txt都可以。 这款软件是我迄今发现的最好的识别pdf软件,图片也可以识别,新手不想原创不会原创的可以试试,高手可以无视我。 编者语:这只是投机取巧的一种方法,希望广大站长还是要脚踏实地,用心做好站才是王道! 本文在A5站长论坛首发,由超级p57 http://www.scjianfei.com原创,转载请注明来源! |
凌众科技专业提供服务器租用、服务器托管、企业邮局、虚拟主机等服务,公司网站:http://www.lingzhong.cn 为了给广大客户了解更多的技术信息,本技术文章收集来源于网络,凌众科技尊重文章作者的版权,如果有涉及你的版权有必要删除你的文章,请和我们联系。以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息,谢谢! |