一、爬虫与反爬虫基本概念
今天咱们就来花几分钟了解一下Python爬虫好玩的地方吧!差点忘了。在给大家分享之前呢,小编推荐一下一个挺不错的交流宝地,里面都是一群热爱并在学习Python的小伙伴们,大几千了吧,各种各样的人群都有,特别喜欢看到这种大家一起交流解决难题的氛围,群资料也上传了好多,各种大牛解决小白的问题,这个Python群:330637182 欢迎大家进来一起交流讨论,一起进步,尽早掌握这门Python语言。
爬虫与反爬虫基本概念
误伤:由于学校、网吧等等用的是同一个公网ip,而内部使用局域网,所以如果封禁了此ip,会导致大量用户的流失,同时还有动态ip分配的存在,所以在反爬虫中,封禁ip的策略一般网站不会使用,最多是封禁ip一小段时间。
二、反爬目的
三、爬虫与反爬的对抗史
四、scrapy架构
五、突破反爬取的策略
5.1 随机切换用户代理User-Agent
接下来我们参考一下源码自带的用户代理Downloader Middleware:
下一步就是模仿它,写一个我们自己的随机更换的Downloader
至此,每次请求的user-agent
已随机更换
5.2 随机更换代理ip策略
目前,很多小区、公共wifi的ip是动态分配的,当重启路由器、光猫后,本机的对外ip可能会发生改变。所以,若本机ip被封,可重启以求换ip。对外ip可直接百度查看:
5.2.1 ip代理概念
直接访问网站
使用ip代理之后访问网站,可避免本机的ip暴露:
5.2.2 编写爬取西刺代理脚本
目的是通过小型爬虫,预先爬取西刺的免费代理ip后全部存入数据库,并且存在一个方法能从数据库中随机选取一个代理ip,供给我们的爬虫使用。
谢谢阅读!大家学会了就可以随便爬取妹子图了,小编自己现在爬了十万张了!
联系客服