打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
python爬虫之bs4的基本使用

BeautifulSoup可以很方便地查找HTML标签以及其中的属性和内容

import requests
from bs4 import BeautifulSoup

# 创建BeautifulSoup对象
# 当数据来源为本地文件时
file = open("xxx.html")
soup = BeautifulSoup(file, "lxml")

# 当数据来源为网络时
content = requests.get("url请求").text
soup = BeautifulSoup(content, "lxml")

#1 按标签名查找标签
soup.a # 获取第一个匹配到的标签

#2 属性
soup.a.attrs # 获取标签中所有属性名与对应属性值的字典
soup.a.attrs["属性名"] # 获取属性名对应的属性值
soup.a.["属性名"] # 获取属性名对应的属性值的简写
soup.a.string # 获取第一个匹配到的标签的内容
soup.a.text # 获取第一个匹配到的标签以及其所包含的子标签的所有内容

#3 函数
soup.a.get_text() # 同soup.a.text
soup.find("a") # 同soup.a
soup.find("a",属性名="属性值") # 根据属性值定位到第一个匹配到的标签
注意: 若属性名是 class 则需要在后面加个下划线,写成 class_
soup.findall("a") # 获取匹配到的所有标签, 返回一个列表
soup.findall(["a", "b"]) # 可以获取多种类的标签
soup.findall("a", limit=2) # 获取前2个匹配到的标签
soup.select("选择器")
选择器包括:
标签选择器:soup.select("a")
ID选择器:soup.select("#xxx")
类选择器:soup.select(".xxx")
层级选择器:soup.select("div a") # 任意多级
或是:soup.select("div > a") # 直系的一级
注意:select函数返回的永远是一个列表

以上就是bs4的基本使用,欢迎指正

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
Python的爬虫包Beautiful Soup中用正则表达式来搜索
python爬虫之定位网页元素的三种方式
Python:bs4中 string 属性和 text 属性的区别及背后的原理
BeautifulSoup库详解(个人整理)
Python3中BeautifulSoup的使用方法
解析库的使用-xpath-beautifulsoup-pyquery
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服