打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
逐渐嚣张,使用python采集CSDN文章数据保存PDF

前言

嗨喽!大家好呀,这里是魔王~**

本次必备素材:

  • wkhtmltopdf [软件]

  • 素材代码

第三方库:

  • requests >>> pip install requests

  • parsel >>> pip install parsel

  • pdfkit >>> pip install pdfkit

开发环境:

  • 版 本:python3.8

  • 编辑器:pycharm

win + R 输入cmd 输入安装命令 pip install 模块名 如果出现爆红 可能是因为 网络连接超时 切换国内镜像源

采集流程:

一. 分析想要数据内容, 可以从哪里获取

通过开发者工具进行抓包分析, 分析之后可得, 我们想要数据内容其实就请求导航栏url地址即可

二. 代码实现步骤:

获取多个文章内容(获取所有文章url地址)

  1. 发送请求, 对于文章目录页面发送请求

  2. 获取数据, 获取网页源代码数据 文本数据

  3. 解析数据, 提取文章url地址

获取文章内容代码

  1. 发送请求, 对于url地址发送请求

  2. 获取数据, 获取网页源代码数据

  3. 解析数据, 提取文章内容

  4. 保存数据, 先保存成html文件, 再把html文件转成PDF

代码

like_url, data=like_data, headers=headers)

尾语

好了,我的这篇文章写到这里就结束啦!

有更多建议或问题可以评论区或私信我哦!一起加油努力叭(ง ·_·)ง

喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
python爬虫Scrapy框架笔记
大牛教你用Python打造一款属于自己的专属影院!再也不买电影票了
一篇非常棒的安装Python及爬虫入门博文!
5 个 Python 代码来自动化你的日常工作,网友:早知道就好了
听说你在玩 Python 爬虫遇到 JavaScript 的时候还在使用 selenium ?
【建投金工专题52】零基础python代码策略模型实战
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服