歪歪正传

北漂歪歪的心情故事。

« 探索布达拉宫厕所秘密(组图)火车头采集器教程(二)——CMS(DEDE)在线发布模块的制作 »

火车头采集器教程(一)——CMS采集规则编写

了解一下火车头采集器(LocoySpider)V3的基本功能,
       我们今天所用到的火车头的基本功能如下
   
       1、新建站点
   
       2、新建任务
   
       3、数据发布方式之“保存到软件数据库”
   
       当然本教程是围绕“CMS采集规则编写”这一主题展开的,所以不可能面面俱到的陈表火车头采集器的功能,在此请见谅!

       现在我们结合实战来给大家讲解
*********************************************************

一、新建站点

       1、功能:对同一站点具有“相同采集内容规则”的采集任务进行聚合
   
       2、好处:
        
           a、分类明晰,便于查询、调用;
        
           b、在站点下建立的采集任务默认继承站点采集内容规则,避免了重复编写采集规则的麻烦;
   
       3、实战:
   
       我们以“每日经济新闻”为例进行讲解,首先我们打开其站点 http://www.nba.com.cn,浏览其中不同栏目的文章发现这个站点的文章模式(模板)几乎是完全一致的

           (当然,其中有一点小小的区别,就是有的文章段落是靠段落标记<P> </P>进行划分的,有的文章段落是靠<DIV></DIV>进行划分的,这时候如果你的网站布局是采用< table></table>布局的没什么大不了的,但是如果你的网站是采用<DIV></DIV>布局的, 那么残余的DIV标记很可能会破坏你原来的布局,此种情况的解决办法我们以后再继续讨论,这里我就不再赘述了)。

       好,现在我们有理由相信,我们建立一个站点的“内容规则”,就可以将这个网站的所有栏目涵盖了。

       点选新建按钮,选择新建站点“每日经济新闻”

       我们,先进行“标题”规则的编写

   
    标题标签规则的编写

       注意:标签起始字符串的确认,一定要注意两点,一、唯一性;二、贴身原则,即尽可能贴近目标采集区域;

    开始字符串:<span class="txt181">

    结束字符串:</span><span class="hui">
注意:确认字符串的唯一性:复制字符串,点按快捷键“Ctrl+F”进行查找,如果字符串为唯一,会有提示信息“找不到XXX”的提示。

为了确认标签的通用性,我们可以选择不同的文章进行测试,,这里就不做演示了/。   


    Html标签排除:我们选择“全选”。

       注意:然对于“空格(占位符) ”我们可以有所保留,因为有些站点的“长标题”的分隔不是靠标点或者纯正意义上的空白,而是靠“占位符 ”进行分隔的,那么这时候我们就要保留“空格(占位符) ”选项。(课后看吧)

       此时我们可以以点代面,直接进行“典型页面”的采集测试,测试一下采集效果,满意后,我们接下来进行文章内容的规则编写。

    文章内容标签规则的编写

    开始字符串:<span id="zoom" class="content">

    结束字符串:<br><iframe

    Html标签排除:此时我们要保留用来划分段落的一下常用字符串“<br />”、“P”、“<DIV”,并且保留文章中常用的图像“<img”。(测试)

       注意:我们已经选择将"<table"排除了,但是往往有的文章中就含有一些"数据表格",这时候我们只能是顾全大局了,日后再查缺补漏。除非你能够确认你的目标采集区域不会有多余的“布局表格”出现,否则我们还是将表格标记排除为妙。

    作者标签规则的编写

       要点与标题标签规则的编写相同,此处不再赘述。

    开始字符串:<div align="center" style=font-size:9pt>

    结束字符串:[200

    Html标签排除:我们选择“全选”。(测试)

   
    时间标签编写规则

       要点同上。

    开始字符串:<span id="zoom" class="content">

    结束字符串:<br><iframe

    Html标签排除:我们选择“全选”。(测试)

    出处标签规格的编写

   
       此值,一般来说,我们默认为我们采集的目标网站,使用“固定格式的数据”进行设置,但是,你如果为了更好的体现贵网站的版权意识,那么,你在对目标网站转载的文章进行采集设置的时候,可以进行相应调整,此处不做赘述。

好了,整个站点的“内容规则”我们设置完毕,下面将进行,采集任务的设置。

**************************************************************************


二、新建采集任务

       在刚刚建立的采集站点上点击鼠标右键,选择“从该站点新建任务”,,在弹出的对话框里我们察看一下“内容规则”,结果正如前边所说“在站点下建立的采集任务默认继承站点采集内容规则”,好了,我们就可以直接编写“采集网址”的规则了。

       “采集网址深度”标签的编写

       为了灵活方便,此项操作,我们一般都在文章的列表页面进行操作,所以我们可采用其默认值“1”,对于更深度的采集我们以后的教程中进行阐述,此处不做赘述。

    开始采集网址规则的编写

       点选“向导添加”在弹出的对话框中有三个选项“单页网址”、“批量/多页”、“文本导入”,一般情况,我们不会用到“文本导入”方式,       此处仅对前两种采集方式进行阐述。

       我们先进行“单页网址”的设置,此处我们选择“地产”栏目进行学习。

    列表页面网址为

       http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74,

       复制到文本域中,点选“添加”按钮,并“完成添加”。


       回到“新建任务”—“采集网址”出,进行“页面内选定区域采集网址”设置

    从:align='left'>首页 - 到:class=right_font>共

       测试,结果40页文章页面。。。全部采集测试通过,,满意,,(此处我们不进行采集)继续往下学习。

       好我们下面学习“批量/多页

       点选“向导添加”在弹出的对话框中选择“批量/多页

       为了确定列表网址的变量,我们进行如下操作:

       1、我们在网页中“点选”“下一页”,,发现地址栏网址:http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=2

       2、再将鼠标“指向”“下一页”发现浏览器左下方状态栏显示地址为http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=3

       3、再将鼠标“指向”“末页”发现浏览器左下方状态栏显示地址为http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=58

       4、再将鼠标“指向”“首页”发现浏览器左下方状态栏显示地址为http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=1

           http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=2
           http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=3
           http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=58
           http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=1

       这样我们可以判断“&page=(*);”为其列表网址的变量,那么我么可以设定如下:

       多页类似地址网址形式为:http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=(*)
   

       数字变化范围从1到58,间隔倍数为1;

       点选“添加”按钮,并完成添加。

       此处的“页面内选定区域采集网址”设置同“单页网址”“页面内选定区域采集网址”的设置,此处不做赘述。

       点选“开始测试网址”,(这个过程很长,我暂停了视频录制)

       当然,在实际操作当中,如果数据量大,我们也可以不去测试,直接采集,即便是因为规则的不完全适用性而造成一部分数据的丢失,我想也是可以忽略的。

       此处,我只选择了2页进行采集

测试结果共有80页内容页面。

       下一步骤:“数据发布方式”设置


**************************************************************************

       我们选取方式一:“保存到软件数据库”,

       同时,选取方式三“Web在线发布到网站”的“使用自定义发布方式”,“自定义分类ID”选择3,给任务命名为“地产”,,并“保存,更新”采集任务,鉴于我们教程刚刚开始,就不做深入学习。

       回到火车头主界面,在“地产”任务上点击鼠标右键,选择“开始”,即可完成采集。

       采集数据会自动发布到方式三所指向的网站的指定栏目(ID=3),同时保存到

        火车头安装目录/DATA/序号-任务名/SpiderResult.mdb

       的数据库中。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

日历

最新评论及回复

最近发表

Powered By Z-Blog 1.8 Devo Build 80201, Template by Wilf.

Copyright www.xuanchunliang.com. Some Rights Reserved.