打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
使用textstat库计算文本可读性

textstat可以对文本进行可读性计算,支持英文、德语、西班牙、意大利、荷兰语等。目前不支持中文,如做中文文本分析,可以考虑用cntext包。之前分享过两篇可读性的内容


https://github.com/textstat/textstat

今天尝试将pandas和textstat结合起来,对csv做文本分析


任务

今天在本文中,将学习三个知识点。

  1. 读取csv数据文件
  2. 选中csv中某列文本数据,依次使用apply方法,计算FOG、ARI、CLI等。
  3. 综合三个可读性指标,构造可读性mean值

安装

pip3 install textstat

读取数据

import pandas as pd
import textstat
#设置dataframe显示的宽度
pd.options.display.max_colwidth = 100

df = pd.read_csv('data.csv')
df

Run


Series批操作

使用apply方法对pd.Series类型的数据进行批操作

extstat库有丰富的可读性方法,这里任选2个作为 批操作函数

  • Fog  textstat.gunning_fog(text)
  • Flesch textstat.flesch_reading_ease(text)
df['Fog'] = df['doc'].apply(textstat.gunning_fog)
df['Flesch'] = df['doc'].apply(textstat.flesch_reading_ease)

df.head()

Run


DataFrame均值

选中Fog、Flesch两列

#查看df[['Fog', 'Smog']]数据类型
type(df[['Fog''Flesch']])

Run

pandas.core.frame.DataFrame

对这两个指标水平方向进行均值

df['Mean'] = df[['Fog''Flesch']].mean(axis=1)
df.head()

Run


存储

存储到可读性.csv中

df.to_csv('可读性.csv', index=False)

精选文章

从符号到嵌入:计算社会科学的两种文本表示

资料 | 量化历史学与经济学研究

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
利用Word分析论文写作的可读性
python数据分析学习(6)输入载入,存储及文件格式(1)文本格式数据的读写
pandas DataFrame数据重命名列名的几种方式
每天学点python数据分析软件-3.4 Pandas-Dataframe-IO操作
python 37 pandas操作csv文件小结,csv文件合并
麻烦问一下算出来后怎么写成一个csv并有标题?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服