打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
这篇文章带你轻松入门 python 爬虫

 

本文转自: brucepk(已获授权)

   阅读文本大概需要 3 分钟

前言

大家好,这里是「brucepk」python 爬虫课堂。此文首发于「brucepk」公众号,欢迎大家去关注。

俗话说,万事开头难,学习爬虫也是如此。我们知道,python 爬虫主要步骤无非就是:获取源码、从源码中提取需要的信息、保存数据这几个主要步骤。

俗话说,万事开头难,遭遇挫折时,我们往往会在踏出的第一步选择放弃。学习爬虫亦是如此,最容易放弃的在第一步:获取源码,因为获取源码方式有很多,不同方式针对不同的页面结构。你会了一种方式,感觉很简单,但是碰到另一种情况,套用这个方法行不通时,可能会让你望而却步。话不多说,今天就带你入门爬虫。

爬虫提取页面源代码主要有两种方法:requests 库 和 selenium 库。

下面分析这两种方式的适用场景和优缺点。

requests 库提取

requests 适合提取需要的元素信息直接保存在页面的源代码里面,可以直接用 requests.get(url).text 来提取页面源码。之前发的 100 行代码找出你中意的书 项目用的就是此方法。用此方法解析前后面必须带上 text 才行。

import requests
from bs4 import BeautifulSoup
url='https://mp.weixin.qq.com/s/HxHFE7jB3hU6gBZWeHB5xw'
html = requests.get(url)
soup = BeautifulSoup(html.text, 'lxml')
print(soup)


下面是输出结果的部分截图:

requests 库提取源代码优缺点

优点:提取页面快。

缺点:不适合提取元素不是加载在源代码的项目。

selenium 库提取

selenium 库适合提取我们需要的信息不在源代码里面的,昨天发的获取网易云音乐的项目 听歌慌?80 行代码帮你搞定! 就是用的此方法。

我们通过 F12 代码调试元素里面可以看到我们需要提取的元素,但是在源代码里面找不到这些元素,这时只能用自动化测试库 selenium 库,通过操作浏览器的驱动来操作浏览器,所以前期工作需要把对应的驱动 driver 下载下来放在 python 3 安装的目录下。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
如何编写python脚本?教你做简单的爬虫,适合初学者
python爬虫技术的选择
浅谈Python网络爬虫
Windows环境下python爬虫常用库和工具的安装(UrlLib、Re、Requests、Selenium、lxml、Beautiful Soup、PyQuery 、PyMySQL等等)
Python实战 | 爬虫基础:使用Requests库获取天气预报
python爬虫简述
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服