打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
码农分享:使用python开发一个简单爬虫思路

python

python爬虫的强大不必多说,今天分享一个使用Python开发一个简单爬虫思路。

一、简单爬虫架构

简单爬虫架构

一个网络爬虫的简单架构包括

1.爬虫调度端:用来启动、执行、停止爬虫程序

2.爬虫程序

a、URL管理器:管理待爬取的和已爬取的URL

b、网页下载器:把爬取的网页下载到本地,储存成一个字符串

c、网页解析器:把储存的字符串送给解析器进行解析

3.数据整合

a、有价值的数据

b、网页中包含的其他网页的URL,再把它们补充进URL管理器中

二、简单爬虫架构-运行流程

简单爬虫架构-运行流程

调度器是爬虫程序中三个子程序(管理器,下载器,解析器)的直接交互对象,每次运行一个子程序,会把结果返回给调度器,调度器在发送相应指令给该子程序。

所以调度器是爬虫运行的推动程序,控制着整体的进程,爬取过程就是调度器不断运行,不断按照次序激活相应子程序的循环过程。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
Python爬虫的用途
Python爬虫是怎么回事?一张图告诉你爬虫的原理
Python 爬虫介绍 | 菜鸟教程
Python爬虫基础
从零开始教你学爬虫!python爬虫的基本流程!
好书送不停 | 你真的会写Python爬虫吗?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服