本文以
谷歌浏览器
为例子,本文只用到了Xpath
,正则
,爬虫可以有css选择器的插件
,可自己操作一下css选择器
的下载使用
打开谷歌浏览器这里,打开扩展程序。
我自己喜欢用这个,点击进去
这样就安装成功了
xpath
固定在输入框的右侧,方便使用的时候调用这个插件。
以豆瓣为例子。
就会弹出这个黑色的xpath语法输入框,这个框左边是你输入的Xpath语法,右边的Xpath语法选择出来的结点数据。
当清楚好结点的Xpath语句
之后,在左侧输入,就会匹配到这个结点数据了。
浏览器也会高亮提示,你选择的结点数据。并且右侧也会显示选择的结点信息
先打开这里
还是使用正则作为例子
匹配所有的数字,和xpath一样,会高亮提示
但是这个插件有个问题,就是一离开,就会自动收起,很不方便,可以自行下载其他的插件使用,这里i只是做一个列子而已。
另外,大家可以尝试自己安装css选择器
的插件
首先随便找一篇博文进行评论的抓取
打开NetWork
找到对应的包,进行分析
请求的url
,http状态码
,请求方法
之类的
我们爬虫的话,一般都要用请求头去模拟这个过程,因为这个请求头可以起到一个伪装
的作用,让服务器知道这是一个正常的访问
而不是一个爬虫访问
。所以请求头还是很重要的。
这个就是传的参数,page
就是页数,size
就是页面大小。
动态数据
。这种不是固定在网页源代码里面的。
就是你右键查看网页源代码就看不到的
同样的,我们打开F12,找到这个评论的包。
注意B站这个是一边加载一边渲染
的,就是必须滑倒下面有评论的地方,才能有请求的这个包。
比如说这种情况,这种情况是没有看见评论
的,所以就是没有这个评论包的,因为根本就没有请求
。
评论包
也会自然而然出现了。就能找到了!
同样的这种请求的动态数据是在网页源代码
里面是看不到的。
联系客服