打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
利用Python进行数据分析

2、使用HDF5格式

很多工具都能实现高效读写磁盘上以二进制格式存储的科学数据。HDF5就是其中一个流行的工业级库,它是一个C库,带有许多语言接口,如Java、Python和MATLAB等。HDF5中的HDF指的是层次型数据格式(hierarchical data format)。每个HDF5文件都含有一个文件系统式的节点结构,它使你能够存储多个数据集并支持元数据。与其他简单格式相比,HDF5支持多种压缩器的即时压缩,还能更高效地存储重复模式数据。对于那些非常大的无法直接放入内存的数据集,HDF5就是不错的选择,因为它可以高效地分块读写。

Python中的HDF5库有两个接口(即PyTables和h5py),它们各自采取了不同的问题解决方式。h5py提供了一种直接而高级的HDF5 API访问接口,而PyTables则抽象了HDF5的许多细节以提供多种灵活的数据容器、表索引、查询功能以及对核外计算技术(out-of-core computation)的某些支持。

pandas有一个最小化的类似于字典的HDFStore类,它通过PyTables存储pandas对象:

In [5]: store = pd.HDFStore('mydata.h5')In [6]: store['obj1'] = frameIn [7]: store['obj1_col'] = frame['a']In [8]: storeOut[8]: <class 'pandas.io.pytables.HDFStore'>File path: mydata.h5obj1       DataFrameobj1_col   Series

HDF5文件中的对象可以通过与字典一样的方式进行获取:

In [9]: store['obj1']Out[9]:    a  b  c  d  message0  1  2  3  4    hello1  5  6  7  8    world2  9 10 11 12      foo

如果需要处理海量数据,我建议你好好研究一下PyTables和h5py,看看它们能满足你的哪些需求。由于许多数据分析问题都是IO密集型(而不是CPU密集型),利用HDF5这样的工具能显著提升应用程序的效率。

注意:

HDF5不是数据库。它最适合用作“一次写多次读”的数据集。虽然数据可以在任何时候被添加到文件中,但如果同时发生多个写操作,文件就可能会被破坏。


3、读取Microsoft Excel文件

pandas的ExcelFile类支持读取存储在Excel 2003(或更高版本)中的表格型数据。由于ExcelFile用到了xlrd和openpyxl包,所以你先得安装它们才行。通过传入一个xls或xlsx文件的路径即可创建一个ExcelFile实例:

xls_file = pd.ExcelFile('data.xls')

存放在某个工作表中的数据可以通过parse读取到DataFrame中:

table = xls_file.parse('Sheet1')

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
推荐两本Python书,如果你是研究这一类的,那对你非常有用
小白学 Python 数据分析(2):Pandas (一)概述
python数据分析pandas包入门学习(四)处理缺失数据
Python Pandas是什么?Python基础入门
python数据分析pandas库的基本的读取和保存
Python数据分析 Pandas篇 07.连接查询之Merge
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服