打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
火车头采集器第二章第3节:另外两种多级采集规则
大家好,我是教程君,上节我提到了三种多级采集规则,只讲了其中的“从页面自动分析得到地址链接”,这节我们接着讲另外两种。
一、手动填写链接地址规则
我们还是以https://news.qq.com/newsgn/gdxw/gedixinwen.htm这个网址作为起始地址,我们打开网址,寻找我们需要的信息如图:

然后复制第一个标题,右键打开源代码,按ctrl+F会出现如右上角一样的搜索框,复制进去直接跳到如图:


我们通过上图看,被红圈标记的就是我们这次要采集的内容页网址,他的网址基本结构为<a target='_blank' href='我们需要的网址'>,所以我们如下操作:



接下来我们看一下测试结果:


二、使用Xpath方式获取地址

在采集网址规则中选择使用Xpath方式获取地址,点击使用Xpath浏览器如下:



点击浏览器之后在左下角找到如下的小箭头,上面附有提示如下图:




我们点击小箭头,然后去选择自己想要的第一条内容,之后再点击箭头,选择最后一条内容如下:



之后点击测试:


点击完成之后效果如下:


这种用Xpath的方法看起来很简单,完全不用去了解代码,但是也有其弊端,那就是对于代码的闭合性要求严谨,对于代码书写规范的网页有用,如果代码不严谨,我们就无法通过这种方式来获取了。

关于多级采集规则中的网址获取已经讲完了,如果有不懂的地方,欢迎下方留言!

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
新手必看的火车头采集器使用入门教程
连续动作:关键词自动搜集采集信息—以京东为例
阅读傻瓜版书源教程 来自 iamiku
利用Sonar定制自定义JS扫描规则(二)
织梦采集教程
网页抓取工具必看的文章采集实例
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服