打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
30行Python爬虫代码爬取淘女郎网美女图,哇太多了,我U盘要满了

首先,爬取的美女图片镇场子, 免得你们又说我光说不练假把式!

好了废话不多说,我们直接进入正题!

需要额外安装的第三方库

  • requests

  • pip install requests

  • pymongo

  • pip install pymongo

原理

由于淘女郎网站含有AJAX技术,只需要和后台进行少量的数据交换就可以实时更新了,这就意味着直接抓取网页源码然后分析信息的方式心不痛,因为网站是动态接在的,直接抓取源代码无法获取到淘女郎信息。

对于这一类网站,一般有两种爬取办法:

  1. 利用selenium库来模拟浏览器的用户行为,让服务器以为是真正的用户在浏览网页,从而获得完整的网页源代码

  2. 利用Chrome等浏览器自带的分析工具,对网页的Network进行监控,分析出数据交换的API,从而利用API抓取到数据交换的JSON数据,从而进行抓取。

从效率上来分析,第一种方法速度比较慢,而且还要占用系统资源,因此我们使用第二种方法来实现。

先编写请求,然后得到淘女郎网站中的JSON文件。

发送请求给服务器。然后得到服务器的JSON数据,之后将返回的数据加工,然后转化为Python的字典类型返回。

具体的代码如下:

返回之后,我们连接到MongoDB,将返回的信息保存。

把返回的信息解析,然后抽取信息中的图片网址信息,将图片下载过劳保存到PIC文件夹下:

OK,爬完了,全部是原图超清的,但是由于图片数量比较多,我16G的U盘都快装不下了,这里就不一一展示出来了,只截图了其中的一部分给大家看一下。

价值万元的Python编程学习资料,绝对比群里那些漫天飞的资料强多了。今天决定免费分享,用来感谢大家的支持。”

点击下方“了解更多”即可领取

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
前后端分离有什么了不起,手把手教你用Python爬下来!
python3.x爬取网易云音乐,超详细版(一)
Python爬虫之b站的正确打开方式
爬虫的原理(基本流程,Request与Response,怎么解决JavaScript渲染的问题,怎么保存数据)
Python web实战 | 细说Django的AJAX支持
巨细!Python爬虫详解
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服