|
说废话:要用好采集,务必准备好DW、UltraEdit软件,要有足够耐心分析HTML代码,坚持不懈的采集测试优化采集设置。 采集目标:康易网 > 女性频道 > 美容 > 彩妆 目标URL:http://health.511511.com/lady/titivatelist.shtml 基础知识:采集任何目标,都需要先找到频道更新索引文件,通过该文件分析最终文章页的链接地址,然后才能进入文章页分析内容。 采集规则定义操作: 1、添加站点 登录小蜜蜂以后,点“添加站点”,设置网站名称处输入内容后提交;如本范例为:康易网。定义站点是方便管理,将来您要采集该站点的其他频道内容,就可以统一设置到该站点名下;也就是说同一网站只需要设置一次站点名称就可以。
2、设置频道名称 点“添加站点”,设置频道名称处输入内容后提交;如本范例为:彩妆 3、定义规则 点“站点列表”---“添加规则”功能,选择对应栏目名称; 以下规则内容说明: 1)URL---一条特殊的链接:这里就是您要采集目标的更新索引文件地址;本文对应值为:http://health.511511.com/lady/titivatelist.shtml。 URL---多条特殊的链接:这里指一些特殊链接,比如某些网站更新索引页有多页,地址形式为: http://www.123.com/suoyin_01.html ....... http://www.123.com/suoyin_09.html http://www.123.com/suoyin_10.html .... http://www.123.com/suoyin_21.html 前面的01~09就是特殊链接 URL---有规律的链接:对应上述例子就是10~21顺序增加的,那么有规律的链接这里输入:http://www.123.com/suoyin_10.html,将10替换为[variable]变量标签,参数设置为10~21就可以。 2)链接 这里是设置索引页上文章链接的规则 查看本例索引页HTML源代码,对照网页上的标题链接查询后可以看见以下代码: --------------------- <li><a href="/lady/20065/titivate41885.shtml">图解拥有靓丽妆容全过程</a></li><li><a href="/lady/20065/titivate41882.shtml">提升5倍妆效 韩妆专业秘笈</a></li><li><a href="/lady/20064/titivate40285.shtml">修出精致眉型的5个小高招</a></li><li><a href="/lady/20064/titivate40282.shtml">只需五分钟化妆遮盖黑眼圈</a></li><li><a href="/lady/20064/titivate40281.shtml">10步骤本真肌肤浑然天成</a></li><li><a href="/lady/20064/titivate37103.shtml">看好莱坞明星春妆10大热点</a></li><li><a href="/lady/20064/titivate37101.shtml">两大绝招 把你画成韩妆美人</a></li><li><a href="/lady/20064/titivate37082.shtml">媚力眼妆 让眼睛再美一点</a></li><li><a href="/lady/20064/titivate34164.shtml">睫毛 就这样长起来</a></li> --------------------- 分析出规律<li><a href="/lady/20065/titivate41885.shtml">图解拥有靓丽妆容全过程</a></li>,分别用链接、标题标签替换为<li><a href="[link]">[title]</a></li>。
保存以后点“采集测试”可以测试规则是否正确,如果出现测试链接列表结果,就证明前面定义的文章链接规则正确,可以进入后面的文章内容采集规则定义了。
|