打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Python+selenium+PhantomJS获取百度搜索结果真实链接地址

祝愿所有参加高考的孩子们都能超水平发挥,考出好成绩,考上理想的学校!也希望你们考上大学之后仍然保持高考前的学习劲头!

===========正文=============

问题描述:在爬取百度搜索结果时,往往会得到一个中转链接,而不是真实地址,在浏览器打开这个中转链接之后才会变成真实地址。可以通过破解算法、抓包跟踪等不同手段来还原这样的地址,也可以模拟浏览器打开百度跳转链接之后获取真实地址,虽然速度稍慢一点,但是方便实现。本文使用selenium+PhantomJS来模拟这个过程并获取真实地址。

1、打开网址http://phantomjs.org/download.html,下载PhantomJS,本文以Windows平台为例。下载压缩文件,把解压缩得到的phantomjs.exe复制到Python 3.6的安装目录下,也就是解释器主程序python.exe所在的文件夹。

2、使用pip命令安装Python扩展库selenium。

3、使用PhantomJS打开中转链接,然后获取真实地址。以上一篇文章Python 3.6模拟输入并爬取百度前10页密切相关链接为例,在代码中增加下面几行代码。

运行结果:

----------喜大普奔----------

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
入手爬虫利器:phantomjs+selenium、自动填充文本框、自动点按钮
Python Selenium Webdriver安装手册
Python实现数据技术|爬虫便可获取免费百度文库付费文档
Python 用 selenium 做个简单的谷歌翻译
[Python从零到壹] 九.网络爬虫之Selenium基础技术万字详解(定位元素、常用方法、鼠标操...
漫画喵的100行Python代码逆袭
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服