其实系统原始就已经提供有设置好了采集规则了。只是大家没有仔细的看。
我就以软件采集来做个示例吧。
设置采集需要注意的是:
说明:
X+`%{^+G_ Y@A0“软件名称”、“软件简介”和“下载地址”必需截取;其它的如果不截取,请在开始代码输入“0”或者留空,在结束代码输入初始值。截取后的代码将自动清除HTML格式(简介除外)站长家园d+bbF&{$[M9a
采集的目标网站代码要有一定的规律,不过现在大多数的站好象都是一样,通过列表方式来列出的。
但是如果遇到想QQ的动画那样就采集不了了,因为他的列表你都无法获取到。
下面就以 多特软件站 (www.duote.com)来做示例吧。
例如我现在要采集他的ASP到我的站,那我就打开他的这个栏目列表:http://www.duote.com/sort/6_0_date_1_.html
第一步:
项目名称: 可以自己随便写个,我就填: 源码之家 ASP源码;
目标站点URL: 这个写他的地址就可以了;
所属分类: 选择你加好的分类 :ASP源码
所属专题: 到 简介过滤设置 可以自己选择 ;
远程列表URL:
就填目标站的列表地址(http://www.duote.com/sort/6_0_date_1_.html )
分页设置:http://www.duote.com/sort/6_0_date_1_.html
看具体情况,例如这个的分页形式就是:
6_0_date_2_.html 6_0_date_2_.html 6_0_date_2_.html
看他的规律,这里我们这样填:http://www.duote.com/sort/6_0_date_1_.html
也可以是: http://www.duote.com/sort/6_0_date_{$pageid}.html
{$pageid} 这个就是分页标签;
远程列表起始页 看他的分页有多少,可以从前到后,也可以从后到前。
第二步:
列表开始代码: 根据他的页面情况来看,我选择 他的“文件大小”这个特征,查看源文件,查找“文件大小”,
找到 <div class="sedxt">文件大小</div> 这段代码,为了确认这个代码的唯一性,我就再查找下,没有找到,那这个开始代码就是他了,
列表结束代码: 同样,我看到他下面有个 “共**条”,那我就找到那,得到: <div class="leify">共
这个段代码。因为他后面的 *** 是变化的,所以我就只截取到“<div class="leify">共”。
获取连接开始代码: 这个比较简单,为了防止出错,我选择“<div class="leimz"><a href="”这段代码。
获取连接结束代码: 这个你可以选择:“ " ”或是“ " class="ffb" ”
第三步:
获取下载名称开始代码: 同样的道理,我们要找他的道理也要保证他的唯一性,我找到“ <div class="doti1"> ”
在上下我都没找到和他一样的,那就是它了。
获取下载名称结束代码: </div> 去名称的后面个代码就可以了。
获取下载简介开始代码: 从这开始到 获取下载缩略图设置: 都可按照上面的方法来截取代码。
还是说下下载地址的截取吧。按找前面的设置,我找到 <div class="dodo1" style="width:250px">下载地址: 这个代码,经查找,它是唯一的。
下载地址的结束代码我选择这下载列表的后面个 <div class="dodo_right">
获取下载连接开始代码:可以找到 <a href="javascript.:;" target="_self" nClick="AddLink('
获取下载连接结束代码: '
如果是还有打开新窗口再下载的话,就还需要设置 是否新窗口打开下载连接: 方法是一样的。
好了之后就“下一步”,为了保证是否设置成功,我先用“项目演示”来看一下。
提示“获取下载连接错误!请确定你的代码输入正确。” 那就说明我设置的截取下载地址这有问题。再返回重新设置。
选择“第三步”
获取下载连接开始代码: 看来这有问题,那就再找: 这次我选择 “ nClick="AddLink(' ”这个为开始代码,然后保存进入下一步。再看“项目演示”
之后就会显示截取到的信息:
=======================================================================
软件名称:LifeGlobe GoldFish Aquarium(动感金鱼) V2.0 汉化版站长家园I R$Z|b
更新时间:2007-6-2 17:57:44
软件大小: KB
软件语言:简体中文站长家园w$h;{(j nT%t8@(Z
软件类别:国产软件站长家园8x4d9?*fxr%d
授权方式:免费软件
运行环境:Win9X/Win2000/WinXP/Win2003
联系方式:
程序主页:
目标地址:http://www.duote.com/soft/11087.html
下载连接:
0、http://2.duote.com/lifeglobega.exe
软件简介:
=======================================================================
看来这样就正确了!
然后你就可以开始采集了。
需要说明的是,对于免费版,没有软件采集到本地这个功能,还有就是你采集的时候可以设置下“下载服务器管理”。
文章的采集设置也和此差不多,需要注意的就是开始代码的唯一性。