python
python爬虫的强大不必多说,今天分享一个使用Python开发一个简单爬虫思路。
一、简单爬虫架构
简单爬虫架构
一个网络爬虫的简单架构包括
1.爬虫调度端:用来启动、执行、停止爬虫程序
2.爬虫程序
a、URL管理器:管理待爬取的和已爬取的URL
b、网页下载器:把爬取的网页下载到本地,储存成一个字符串
c、网页解析器:把储存的字符串送给解析器进行解析
3.数据整合
a、有价值的数据
b、网页中包含的其他网页的URL,再把它们补充进URL管理器中
二、简单爬虫架构-运行流程
简单爬虫架构-运行流程
调度器是爬虫程序中三个子程序(管理器,下载器,解析器)的直接交互对象,每次运行一个子程序,会把结果返回给调度器,调度器在发送相应指令给该子程序。
所以调度器是爬虫运行的推动程序,控制着整体的进程,爬取过程就是调度器不断运行,不断按照次序激活相应子程序的循环过程。
联系客服