打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
用pandas中的DataFrame时选取行或列
  1. import pandas as pd
  2. from pandas import Series, DataFrame
  3. import numpy as np

  4. data = DataFrame(np.arange(15).reshape(3,5),index=['one','two','three'],columns=['a','b','c','d','e'])

  5. data
  6. Out[7]: 
  7.         a   b   c   d   e
  8. one     0   1   2   3   4
  9. two     5   6   7   8   9
  10. three  10  11  12  13  14

  11. #对列的操作方法有如下几种

  12. data.icol(0)   #选取第一列
  13. E:\Anaconda2\lib\site-packages\spyder\utils\ipython\start_kernel.py:1: FutureWarning: icol(i) is deprecated. Please use .iloc[:,i]
  14.   # -*- coding: utf-8 -*-
  15. Out[35]: 
  16. one       0
  17. two       5
  18. three    10
  19. Name: a, dtype: int32

  20. data['a']
  21. Out[8]: 
  22. one       0
  23. two       5
  24. three    10
  25. Name: a, dtype: int32

  26. data.a
  27. Out[9]: 
  28. one       0
  29. two       5
  30. three    10
  31. Name: a, dtype: int32

  32. data[['a']]
  33. Out[10]: 
  34.         a
  35. one     0
  36. two     5
  37. three  10

  38. data.ix[:,[0,1,2]]  #不知道列名只知道列的位置时
  39. Out[13]: 
  40.         a   b   c
  41. one     0   1   2
  42. two     5   6   7
  43. three  10  11  12

  44. data.ix[1,[0]]  #选择第2行第1列的值
  45. Out[14]: 
  46. a    5
  47. Name: two, dtype: int32

  48. data.ix[[1,2],[0]]   #选择第2,3行第1列的值
  49. Out[15]: 
  50.         a
  51. two     5
  52. three  10

  53. data.ix[1:3,[0,2]]  #选择第2-4行第1、3列的值
  54. Out[17]: 
  55.         a   c
  56. two     5   7
  57. three  10  12

  58. data.ix[1:2,2:4]  #选择第2-3行,3-5(不包括5)列的值
  59. Out[29]: 
  60.      c  d
  61. two  7  8

  62. data.ix[data.a>5,3]
  63. Out[30]: 
  64. three    13
  65. Name: d, dtype: int32

  66. data.ix[data.b>6,3:4]  #选择'b'列中大于6所在的行中的第4列,有点拗口
  67. Out[31]: 
  68.         d
  69. three  13

  70. data.ix[data.a>5,2:4]  #选择'a'列中大于5所在的行中的第3-5(不包括5)列
  71. Out[32]: 
  72.         c   d
  73. three  12  13

  74. data.ix[data.a>5,[2,2,2]]  #选择'a'列中大于5所在的行中的第2列并重复3次
  75. Out[33]: 
  76.         c   c   c
  77. three  12  12  12

  78. #还可以行数或列数跟行名列名混着用
  79. data.ix[1:3,['a','e']]
  80. Out[24]: 
  81.         a   e
  82. two     5   9
  83. three  10  14

  84. data.ix['one':'two',[2,1]]
  85. Out[25]: 
  86.      c  b
  87. one  2  1
  88. two  7  6

  89. data.ix[['one','three'],[2,2]]
  90. Out[26]: 
  91.         c   c
  92. one     2   2
  93. three  12  12

  94. data.ix['one':'three',['a','c']]
  95. Out[27]: 
  96.         a   c
  97. one     0   2
  98. two     5   7
  99. three  10  12

  100. data.ix[['one','one'],['a','e','d','d','d']]
  101. Out[28]: 
  102.      a  e  d  d  d
  103. one  0  4  3  3  3
  104. one  0  4  3  3  3

  105. #对行的操作有如下几种:
  106. data[1:2]  #(不知道列索引时)选择第2行,不能用data[1],可以用data.ix[1]
  107. Out[18]: 
  108.      a  b  c  d  e
  109. two  5  6  7  8  9

  110. data.irow(1)   #选取第二行
  111. E:\Anaconda2\lib\site-packages\spyder\utils\ipython\start_kernel.py:1: FutureWarning: irow(i) is deprecated. Please use .iloc[i]
  112.   # -*- coding: utf-8 -*-
  113. Out[36]: 
  114. a    5
  115. b    6
  116. c    7
  117. d    8
  118. e    9
  119. Name: two, dtype: int32

  120. data.ix[1]   #选择第2行
  121. Out[20]: 
  122. a    5
  123. b    6
  124. c    7
  125. d    8
  126. e    9
  127. Name: two, dtype: int32


  128. data['one':'two']  #当用已知的行索引时为前闭后闭区间,这点与切片稍有不同。
  129. Out[22]: 
  130.      a  b  c  d  e
  131. one  0  1  2  3  4
  132. two  5  6  7  8  9

  133. data.ix[1:3]  #选择第2到4行,不包括第4行,即前闭后开区间。
  134. Out[23]: 
  135.         a   b   c   d   e
  136. two     5   6   7   8   9
  137. three  10  11  12  13  14

  138. data.ix[-1:]  #取DataFrame中最后一行,返回的是DataFrame类型,**注意**这种取法是有使用条件的,只有当行索引不是数字索引时才可以使用,否则可以选用`data[-1:]`--返回DataFrame类型或`data.irow(-1)`--返回Series类型
  139. Out[11]: 
  140.         a   b   c   d   e
  141. three  10  11  12  13  14

  142. data[-1:]  #跟上面一样,取DataFrame中最后一行,返回的是DataFrame类型
  143. Out[12]: 
  144.         a   b   c   d   e
  145. three  10  11  12  13  14

  146. data.ix[-1] #取DataFrame中最后一行,返回的是Series类型,这个一样,行索引不能是数字时才可以使用
  147. Out[13]: 
  148. a    10
  149. b    11
  150. c    12
  151. d    13
  152. e    14
  153. Name: three, dtype: int32

  154. data.tail(1)   #返回DataFrame中的最后一行
  155. data.head(1)   #返回DataFrame中的第一行
最近处理数据时发现当pd.read_csv()数据时有时候会有读取到未命名的列,且该列也用不到,一般是索引列被换掉后导致的,有强迫症的看着难受,这时候dataframe.drop([columns,])是没法处理的,怎么办呢, 
最笨的方法是直接给列索引重命名:

data6

        Unnamed: 0  high    symbol  time
date                
2016-11-01  0   3317.4  IF1611  18:10:44.8
2016-11-01  1   3317.4  IF1611  06:01:04.5
2016-11-01  2   3317.4  IF1611  07:46:25.5
2016-11-01  3   3318.4  IF1611  09:30:04.0
2016-11-01  4   3321.8  IF1611  09:31:04.0

data6.columns = list('abcd')

data6

    a   b   c   d
date                
2016-11-01  0   3317.4  IF1611  18:10:44.8
2016-11-01  1   3317.4  IF1611  06:01:04.5
2016-11-01  2   3317.4  IF1611  07:46:25.5
2016-11-01  3   3318.4  IF1611  09:30:04.0
2016-11-01  4   3321.8  IF1611  09:31:04.0
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
pandas小记:pandas索引和选择
Python数据分析之pandas学习(一)
python pandas 数据处理
Pandas数据结构
Pandas:汇总和计算描述统计
python数据分析:pandas模块的两大数据结构Series、DataFrame的不同之处
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服