打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
pandas学习(四)

1.
import pandas as pd
#从txt中读取内容放入dataframe中,可以自己指定分隔符
df=pd.read_table('E:\\mysoftware\\hlda_patent\\newPlusOldData.txt',sep='|')

import pymssql
conn=pymssql.connect(host=".",user="su",password="123",database="HLDA")
cursor = conn.cursor();
#批量将dataframe中内容插入table中,但最开始使用 'insert into pn_terms_hldavalues(?,?)'始终报错,说string format有问题,后来将?改为%s,解决问题
sql = 'insert into pn_terms_hlda values(%s,%s)'
#由于dataframe中有nan,无法将字段插入,所以需要将这些记录先删除了
#在dataframe中有一组专门用语处理nan的函数,如dropna,fillna,isnull,notnull
#下面利用这些函数,将df中terms为nan的行删去
for i in df[df['TERMS'].notnull()].values:
   cursor.execute(sql, (i[0],i[1]))
#插入操作结束以后,需要使用conn提交以下,否则在数据库中执行sql语句速度会非常慢
conn.commit()
2.将数值型转换为字符型
df['PN'] =df['PN'].apply(str)
3.关于使用np.random.multinomial

-->label =np.array([0,0,1,1,0])
-->l=np.random.multinomial(1, 1.0*label /label.sum()).argmax()

这段代码的意思是:依据[0,0,0.5,0.5,0]的概率进行抽样,抽样结果是数列中元素的序号,也就是说有0.5的概率抽的第3个元素,有0.5的概率抽到第4个元素的概率。
4.

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
pandas.DataFrame对行和列求和及添加新行和列
python中判断一个dataframe非空
Python pandas计算数据相关系数
[译] Python 和 Pandas 在 SQLite 数据库中的运用
Pandas模块,我觉得掌握这些就够用了!
使用Python进行ETL数据处理
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服