火车头采集器第二章第3节：另外两种多级采集规则

大家好，我是教程君，上节我提到了三种多级采集规则，只讲了其中的“从页面自动分析得到地址链接”，这节我们接着讲另外两种。
一、手动填写链接地址规则
我们还是以https://news.qq.com/newsgn/gdxw/gedixinwen.htm这个网址作为起始地址，我们打开网址，寻找我们需要的信息如图：

然后复制第一个标题，右键打开源代码，按ctrl+F会出现如右上角一样的搜索框，复制进去直接跳到如图：

我们通过上图看，被红圈标记的就是我们这次要采集的内容页网址，他的网址基本结构为<a target='_blank' href='我们需要的网址'>，所以我们如下操作：

接下来我们看一下测试结果：

二、使用Xpath方式获取地址

在采集网址规则中选择使用Xpath方式获取地址，点击使用Xpath浏览器如下：

点击浏览器之后在左下角找到如下的小箭头，上面附有提示如下图：

我们点击小箭头，然后去选择自己想要的第一条内容，之后再点击箭头，选择最后一条内容如下：

之后点击测试：

点击完成之后效果如下：

这种用Xpath的方法看起来很简单，完全不用去了解代码，但是也有其弊端，那就是对于代码的闭合性要求严谨，对于代码书写规范的网页有用，如果代码不严谨，我们就无法通过这种方式来获取了。

关于多级采集规则中的网址获取已经讲完了，如果有不懂的地方，欢迎下方留言！

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。