打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Scrapy框架是最好用来爬虫的框架,神级程序员带你快速掌握它!

一、爬虫与反爬虫基本概念

今天咱们就来花几分钟了解一下Python爬虫好玩的地方吧!差点忘了。在给大家分享之前呢,小编推荐一下一个挺不错的交流宝地,里面都是一群热爱并在学习Python的小伙伴们,大几千了吧,各种各样的人群都有,特别喜欢看到这种大家一起交流解决难题的氛围,群资料也上传了好多,各种大牛解决小白的问题,这个Python群:330637182 欢迎大家进来一起交流讨论,一起进步,尽早掌握这门Python语言。

爬虫与反爬虫基本概念

  • 误伤:由于学校、网吧等等用的是同一个公网ip,而内部使用局域网,所以如果封禁了此ip,会导致大量用户的流失,同时还有动态ip分配的存在,所以在反爬虫中,封禁ip的策略一般网站不会使用,最多是封禁ip一小段时间。

二、反爬目的

三、爬虫与反爬的对抗史

四、scrapy架构

五、突破反爬取的策略

5.1 随机切换用户代理User-Agent

  • 接下来我们参考一下源码自带的用户代理Downloader Middleware:

下一步就是模仿它,写一个我们自己的随机更换的Downloader

  • 至此,每次请求的user-agent已随机更换

5.2 随机更换代理ip策略

  • 目前,很多小区、公共wifi的ip是动态分配的,当重启路由器、光猫后,本机的对外ip可能会发生改变。所以,若本机ip被封,可重启以求换ip。对外ip可直接百度查看:

5.2.1 ip代理概念

  • 直接访问网站

  • 使用ip代理之后访问网站,可避免本机的ip暴露:

5.2.2 编写爬取西刺代理脚本

  • 目的是通过小型爬虫,预先爬取西刺的免费代理ip后全部存入数据库,并且存在一个方法能从数据库中随机选取一个代理ip,供给我们的爬虫使用。

谢谢阅读!大家学会了就可以随便爬取妹子图了,小编自己现在爬了十万张了!

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
新手爬虫如何入门
推荐|Python网络爬虫实战课程(入门到实战)
Python网络数据采集有了Gerapy,让你的代码飞起来(一)
Python爬虫与Web开发库总结
Crawler之Scrapy:Python实现scrapy框架爬虫两个网址下载网页内容信息
Python新手学习网络爬虫主要涉及哪些知识?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服