打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
小试web scraper来爬虫
userphoto

2023.11.02 江苏

关注

web scraper是一款网站数据提取工具,类似于爬虫,但不需要像python爬虫那样编写代码,使用门槛较低,适用于轻度的数据爬取。

安装插件

直接访问 "Chrome 网上应用店",搜索 Web Scraper 下载安装即可。由于某些原因,我们需要开发者模式进行安装。这里就不再多说。

食用

这里我们以豆瓣电影Top 250为例。因为初次使用,我们仅抓标题进行测试。

浏览器按 F12 打开控制台,并把控制台放在网页的下方,然后找到 Web Scraper 这个 Tab,点进去就来到了 Web Scraper 的控制页面。

点击 Create Sitemap 这个按钮,创建我们的第一个爬虫。

点击 Add new selector 这个蓝底白字的按钮,创建一个选择器,用来选择我们想要抓取的元素。

参数说明

  • id就是要爬取内容的名称,如 name
  • type就是要爬取的内容的文本类型,如txt number
  • 多选按钮 Multiple 勾选上,因为我们要抓的是批量的数据,不勾选的话只能抓取一个;
  • 最后点击黄色圆圈里的 Select,开始在网页上勾选电影名字;

点击完成后,点击done selecting会出现下图。

保存完成后,点击Data preview 就可以看到预览数据了。

在顶部的 tab 栏,有一个 Sitemap kali 的 tab,这个就是我们刚刚创建的爬虫。点击它,再点击下拉菜单里的 Scrape按钮,开始我们的数据抓取。

爬虫完毕后,会自动关闭当前浏览器。点击refresh 蓝色按钮,就可以看到我们抓取的数据了!

点击 Sitemap kali 下的 Export data as CSV,这样就可以导出成 .csv 格式的数据

爬取多页

在上述的列子中,我们仅仅爬取了第一页的数据。其他页面的数据怎么爬取呢?这时,我们需要分析每个页面的链接变化规律。

# 第一页
https://movie.douban.com/top250
# 第二页
https://movie.douban.com/top250?start=25&filter=
# 第三页
https://movie.douban.com/top250?start=50&filter=

通过对比发现,链接中的参数start=在发生变化。故而我们给其添加为变量即可。start=[0-250]

最终效果

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
网页爬虫:零基础用爬虫爬取网页内容
Web Scraper 高级用法——如何导入别人已经写好的 Web Scraper 爬虫 | 简易数据分析 06
推荐一个网页抓取小工具Web Scraper
零代码爬虫神器 -- Web Scraper
使用Web Scraper 插件,不需要编程,也能爬网
Web Scraper 的下载与安装 | 简易数据分析 02
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服