打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Python判断字符串编码以及编码的转换

判断字符串编码

使用 chardet 可以很方便的实现字符串/文件的编码检测。尤其是中文网页,有的页面使用GBK/GB2312,有的使用UTF8,如果你需要去爬一些页面,知道网页编码很重要

>>> import urllib>>> html = urllib.urlopen('http://www.chinaunix.net').read()>>> import chardet>>> chardet.detect(html){'confidence': 0.98999999999999999, 'encoding': 'GB2312'}

函数返回值为字典,有2个元素,一个是检测的可信度,另外一个就是检测到的编码。

 

 

编码转换

先把其他编码转换为unicode再转换其他编码, 如utf-8转换为gb2312

>>> import chardet>>> str = "我们">>> print(chardet.detect(str)){'confidence': 0.7525, 'encoding': 'utf-8'}>>> str1 = str.decode('utf-8')>>> str2 = str1.encode('gb2312')>>> print(chardet.detect(str2)){'confidence': 0.8095977270813678, 'encoding': 'TIS-620'}
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
Python3网络爬虫(一):利用urllib进行简单的网页抓取
Python 爬虫使用Requests获取网页文本内容中文乱码
python抓取gb2312/gbk编码网页乱码问题
80%的人都不知道,全球Python库下载前10名
Python
Python 字符编码 转换
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服