打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Python|urllib库的一些应用
Python在用于爬虫时,在许多的关于爬虫的教程中,重点介绍并使用的是一个HTTP客户端库,requests库。然而,本篇文章介绍的是另外一个用来数据抓取的库,urllib库。
关于urllib库,的确是一个很尴尬的库。它在Python不同版本中有很明显的区别,还有在实际的开发应用中,最头痛的就是版本之间互不兼容的问题。由于Python 3更加的健全稳定,因此,本文中所谈的urllib针对的是Python 3。作为Python自带的一个标准库,它不需要安装,在使用时,直接导入即可。urllib是一个通过几个模块来使用URL的软件包。它主要有以下几个功能:
urllib.request:用于打开和读取URL。
urllib.error:包含提取例外的urllib.request。
urllib.parse:用于解析URL。
urllib.robotparse:用于解析robots.txt文件。
在爬虫时,urllib的语法为:
Urllib.requests.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False,context=None)
接下来,我们谈谈其中一个比较重要的参数含义:data的参数主要用来确定请求方式,当参数值为None时,请求方式为get,反之为post。在urlopen获取网站响应数据时,有几组函数来获取响应数据的内容。比较常用的是read()函数。
我们来看看简单的示例,更好的感受urllib模块在爬虫中
的应用。
import urllib.request
response =  urllib.request.urlopen('https://movie.douban.com/',None,2)
html =  response.read().decode('utf8')
f =  open('html.txt','w',encoding='utf8')
f.write(html)
f.close()
在进行数据抓取的时候,往往会遇见反爬的情况,这个时候,我们就需要合理的编写程序去克服这些困难。
拓展阅读:
深入理解遗传算法(一)
深入理解遗传算法(二)
从1到100求和学算法思维(一)
从1到100求和学算法思维(二)
从1到100求和学算法思维(三)
从1到100求和学算法思维(四)
从1到100求和学算法思维(五)
从1到100求和学算法思维(六)
where2go 团队
微信号:算法与编程之美
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
Python做简单爬虫(urllib.request怎么抓取https以及伪装浏览器访问的方法)
Python 爬虫之urllib库,及urllib库的4个模块的基本了解和使用
python 3的urllib库介绍
Python 爬虫介绍 | 菜鸟教程
python-07:最简单的爬虫程序
Python爬虫日记一:爬取豆瓣电影中速度与激情8演员图片
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服