打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Python网络爬虫快速上手

环境准备:

事先安装好,pycharm
打开File——>Settings——>Projext——>Project Interpriter


点击加号(图中红圈的地方)

点击红圈中的按钮

选中第一条,点击铅笔,将原来的链接替换为(这里已经替换过了):
https://www.xiaoyuani.com/点击OK后,输入requests-html然后回车
选中requests-html后点击Install Package

等待安装成功,关闭

通过解析网页源代码

实例内容:
从某博主的所有文章爬取想要的内容。
实例背景:
从(https://me.csdn.net/weixin_44286745)博主的所有文章获取各文章的标题,时间,阅读量。

  1. 导入requests_html中HTMLSession方法,并创建其对象

from requests_html import HTMLSessionsession = HTMLSession()123
  1. 使用get请求获取要爬的网站,得到该网页的源代码。

html = session.get("https://me.csdn.net/weixin_44286745").html12
  • 找到所有文章

  allBlog=html.xpath("//dl[@class='tab_page_list']") 1
  • 进入网站主页(本例: https://me.csdn.net/weixin_44286745)

  • 文章空白处右键检查可以定位到这文章的标签

  • 其他文章一样操作,然后找到所有文章共同的标记(这里所有文章的class都是‘my_tab_page_con’)

  • xpath 可以遍历html的各个标签和属性,来定位到我们需要的信息的位置,并提取。

  • 网页分析获取标题,阅读量,日期。

for i in allBlog:    title = i.xpath("dl/dt/h3/a")[0].text    views = i.xpath("//div[@class='tab_page_b_l fl']")[0].text    date = i.xpath("//div[@class='tab_page_b_r fr']")[0].text    print(title +' ' +views +' ' + date )12345

网页分析:

  • 因为有多篇文章,分别获取使用for循环,上述代码已得到所有文章所以i表示一篇文章

  • 第二行代码获取文章标题,于获取文章类似,鼠标放到标题上右键检查,因为文章只有一个标题所以用绝对路径也可以按标签一层层进到标题位置。

  • xpath返回的是列表,我们要第一个所以要加下标(列表里也只有一个元素),要输出的是文本,所以,text获取文本。

  • 阅读量和时间也是重复的操作

  • 可以用相对路径也可以用绝对路径,一般都是用相对路径,格式仿照代码。

  • 第五行代码,每得到一篇文章的信息就输出,遍历完就可以获得全部的信息。

完整代码:

from requests_html import HTMLSessionsession = HTMLSession()html = session.get("https://me.csdn.net/weixin_44286745").htmlallBlog=html.xpath("//dl[@class='tab_page_list']")for i in allBlog:    title = i.xpath("dl/dt/h3/a")[0].text    views = i.xpath("//div[@class='tab_page_b_l fl']")[0].text    date = i.xpath("//div[@class='tab_page_b_r fr']")[0].text    print(title +' ' +views +' ' + date )1234567891011121314

可以自己爬其他东西,如文章图片,动手试试吧!!!
未完待续

通过html请求

自动化

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
Python如何爬取b站热门视频并导入Excel
学python爬虫利器xpath,看这一篇就够了!
Python爬虫入门案例(一)豆瓣电影Top250爬取(request+XPath+csv)
Scrapy--xpath/css
Python|简单爬取豆瓣网电影信息
PYTHON极简主义爬虫——豆瓣图书爬取实战
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服