web scraper是一款网站数据提取工具,类似于爬虫,但不需要像python爬虫那样编写代码,使用门槛较低,适用于轻度的数据爬取。
安装插件
直接访问 "Chrome 网上应用店",搜索 Web Scraper 下载安装即可。由于某些原因,我们需要开发者模式进行安装。这里就不再多说。
食用
这里我们以豆瓣电影Top 250
为例。因为初次使用,我们仅抓标题进行测试。
浏览器按 F12
打开控制台,并把控制台放在网页的下方,然后找到 Web Scraper
这个 Tab,点进去就来到了 Web Scraper
的控制页面。
点击 Create Sitemap
这个按钮,创建我们的第一个爬虫。点击 Add new selector
这个蓝底白字的按钮,创建一个选择器,用来选择我们想要抓取的元素。参数说明- type就是要爬取的内容的文本类型,如
txt
number
- 多选按钮 Multiple 勾选上,因为我们要抓的是批量的数据,不勾选的话只能抓取一个;
- 最后点击黄色圆圈里的 Select,开始在网页上勾选电影名字;
点击完成后,点击done selecting
会出现下图。保存完成后,点击Data preview
就可以看到预览数据了。在顶部的 tab 栏,有一个 Sitemap kali 的 tab,这个就是我们刚刚创建的爬虫。点击它,再点击下拉菜单里的 Scrape
按钮,开始我们的数据抓取。
爬虫完毕后,会自动关闭当前浏览器。点击refresh
蓝色按钮,就可以看到我们抓取的数据了!点击 Sitemap kali 下的 Export data as CSV,这样就可以导出成 .csv 格式的数据爬取多页
在上述的列子中,我们仅仅爬取了第一页的数据。其他页面的数据怎么爬取呢?这时,我们需要分析每个页面的链接变化规律。
# 第一页
https://movie.douban.com/top250
# 第二页
https://movie.douban.com/top250?start=25&filter=
# 第三页
https://movie.douban.com/top250?start=50&filter=
通过对比发现,链接中的参数start=
在发生变化。故而我们给其添加为变量即可。start=[0-250]
最终效果