打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Python写一个简单的爬虫样例(不超过50行代码)

###写在题外的话

爬虫,我还是大三的时候,第一次听说,当时我的学姐给我找的一个勤工俭学的项目,要求是在微博上爬出感兴趣的信息,结果很遗憾,第一次邂逅只是擦肩而过。然后,时间来到4年后的研二,在做信息检索作业时,老师让选择一个自己感兴趣的主题,于是,第二次不期而遇。这次相遇,我本以为自己不会轻易放手,结果依然是无疾而终。直到,今天,我变成了一个人,再次相遇,我不再路过。然后,才发现,原来做一个爬虫并不难,我一直都Too young, too simple.一句话,想做爬虫,就来吧,Seize the day.


一、python爬虫综述

一个简单的爬虫,两部分组成,下载html和解析html文档。我实现了一个爬取糗事百科的首页的笑话的网络爬虫,大家可以用来参考。


二、python爬虫开发环境的搭建

开发环境:python2.7(win10-64)

开发IDE:pycharm最新版,就OK

使用到的工具包:setuptools, pip, chardet, certifi, idna, lxml, urllib3, requests, beautifulsoup, bs4所有用到的这些包我都打包放在了我的资源里,大家可以去下载,或者,直接在网上下载最新的python工具包。

[python2.7_win10爬虫开发环境工具包.zip]


三、pythonIDE的安装

使用pycharm进行python的项目,在网上很容易下载到,在注册的时候,可以使用关键字(pycharm,2017,注册码),给大家一个参考。[pyCharm最新2017激活码]


四、源代码

  1. # coding=utf-8
  2. import requests
  3. from bs4 import BeautifulSoup
  4. # 获取html文档
  5. def get_html(url):
  6. """get the content of the url"""
  7. response = requests.get(url)
  8. response.encoding = 'utf-8'
  9. return response.text
  10. # 获取笑话
  11. def get_certain_joke(html):
  12. """get the joke of the html"""
  13. soup = BeautifulSoup(html, 'lxml')
  14. joke_content = soup.select('div.content')[0].get_text()
  15. return joke_content
  16. url_joke = "https://www.qiushibaike.com"
  17. html = get_html(url_joke)
  18. joke_content = get_certain_joke(html)
  19. print joke_content


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
Python入门(一):爬虫基本结构&简单实例
python爬虫系列(2)—— requests和BeautifulSoup
用python爬取图片的一点小结
爬虫入门:如何用python爬取网易新闻?
python3 学习爬虫 第一步 网页基本信息简单获取
Python爬虫的两套解析方法和四种信息提取方式
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服