打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
python readability提取网页正文的正确使用方法

需要安装的模块:requests、readability-lxml

上案例:

import requests
from readability import Document
import re

url = 'https://www.guancha.cn/internation/2022_01_14_622209.shtml'
resp = requests.get(url)
resp.encoding='utf-8'
doc = Document(resp.text)
txt = doc.summary().replace('</p>','\n')    #doc.summary()为提取的网页正文但包含html控制符,这一步是替换换行符
txt = re.sub(r'</?\w+[^>]*>', '', txt)      #这一步是去掉<****>内的内容
print(doc.title())
print(txt)

结果:

美国终于开始重视N95和KN95口罩,议员打开一看:中国标准+中国制造


    【文/观察者网 王恺雯】在奥密克戎变异毒株的冲击下,欧美新冠疫情迅速恶化,美国单日新增确诊病例接连突破百万。
    美媒近日曝出,美国疾控中心(CDC)可能更新防疫指南,建议民众佩戴防护效果更好的N95或KN95口罩。美国总统拜登1月13日表示,下周将宣布如何向美国民众免费提供更高质量的口罩。
    本周,数百名美国联邦众议员已提前收到国会医生提供的KN95口罩,但让部分人尴尬甚至恼羞成怒的是,口罩上印着醒目的“MADE IN CHINA”(中国制造)。
本文系观察者网独家稿件,未经授权,不得转载。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
我不想浏览网页,那么我就用Python实现网页自动化朗读!
Python爬虫“学前班”!学会免踩坑!
河北省唐山市2010年中考信息技术模拟考试题库(操作题)
如何制作网页<第一讲>
学Python的初体验——模块简述
Golang 与 Python:巨头之战
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服