您的位置:首页 > 教程 > python > Pandas中DataFrame常用操作指南

Pandas中DataFrame常用操作指南

2022-06-21 18:00:53 来源:易采站长站 作者:

Pandas中DataFrame常用操作指南

目录
前言1. 基本使用:2. 数据select, del, update。3.运算。4. Group by 操作。5. 导出到csv文件总结

jxs站长之家-易采站长站-Easck.Com

前言

Pandas是Python下一个开源数据分析的库,它提供的数据结构DataFrame极大的简化了数据分析过程中一些繁琐操作。jxs站长之家-易采站长站-Easck.Com

jxs站长之家-易采站长站-Easck.Com

1.>

创建DataFrame. DataFrame是一张二维的表,大家可以把它想象成一张Excel表单或者Sql表。jxs站长之家-易采站长站-Easck.Com

Excel 2007及其以后的版本的最大行数是1048576,最大列数是16384,超过这个规模的数据Excel就会弹出个框框“此文本包含多行文本,无法放置在一个工作表中”。jxs站长之家-易采站长站-Easck.Com

Pandas处理上千万的数据是易如反掌的sh事情,同时随后我们也将看到它比SQL有更强的表达能力,可以做很多复杂的操作,要写的code也更少。 说了一大堆它的好处,要实际感触还得动手码代码。jxs站长之家-易采站长站-Easck.Com

首要的任务就是创建一个DataFrame,它有几种创建方式:jxs站长之家-易采站长站-Easck.Com

    列表,序列(pandas.Series), numpy.ndarray的字典二维numpy.ndarray别的DataFrame结构化的记录(structured arrays)

    其中,我最喜欢的是通过二维ndarray创建DataFrame,因为代码敲得最少:jxs站长之家-易采站长站-Easck.Com

    import  pandas as pd
    import  numpy as np
    df = pd.DataFrame(np.random.randn( 3 , 4 ))
    df
    0 1 2 3
    0 0.236175 - 0.394792 - 0.171866 0.304012
    1 0.651926 0.989046 0.160389 0.482936
    2 - 1.039824 0.401105 - 0.492714 - 1.220438
    

    当然你还可以从mysql数据库或者csv文件中载入数据到dataframe。jxs站长之家-易采站长站-Easck.Com

    dataframe中index用来标识行,column标识列,shape表示维度。jxs站长之家-易采站长站-Easck.Com

    # 获得行索引信息
    df.index
    # 获得列索引信息
    df.columns
    # 获得df的size
    df.shape
    # 获得df的行数
    df.shape[0]
    # 获得df的 列数
    df.shape[1]
    # 获得df中的值
    df.values
    

    通过describe方法,我们可以对df中的数据有个大概的了解:jxs站长之家-易采站长站-Easck.Com

    df.describe()
    0 1 2 3
    count 3.000000 3.000000 3.000000 3.000000
    mean - 0.050574 0.331786 - 0.168064 - 0.144496
    std 0.881574 0.694518 0.326568 0.936077
    min - 1.039824 - 0.394792 - 0.492714 - 1.220438
    25 % - 0.401824 0.003156 - 0.332290 - 0.458213
    50 % 0.236175 0.401105 - 0.171866 0.304012
    75 % 0.444051 0.695076 - 0.005739 0.393474
    max 0.651926 0.989046 0.160389 0.482936
    

    jxs站长之家-易采站长站-Easck.Com

    2.>

    按照列名select:jxs站长之家-易采站长站-Easck.Com

    df[ 0 ]
     
    0 0.236175
    1 0.651926
    2 - 1.039824
    

    按照行数select:jxs站长之家-易采站长站-Easck.Com

    df[: 3 ] #选取前3行
    

    按照索引select:jxs站长之家-易采站长站-Easck.Com

    df.loc[ 0 ]
     
    0 0.236175
    1 - 0.394792
    2 - 0.171866
    3 0.304012
    

    按照行数和列数select:jxs站长之家-易采站长站-Easck.Com

    df.iloc[ 3 ] #选取第3行
    df.iloc[ 2 : 4 ] #选取第2到第3行
    df.iloc[ 0 , 1 ] #选取第0行1列的元素
    dat.iloc[: 2 , : 3 ] #选取第0行到第1行,第0列到第2列区域内的元素
    df1.iloc[[1,3,5],[1,3]] #选取第1,3,5行,第1,3列区域内的元素
    

    删除某列:jxs站长之家-易采站长站-Easck.Com

    del df[0]
    df
    1 2 3
    0 - 0.394792 - 0.171866 0.304012
    1 0.989046 0.160389 0.482936
    2 0.401105 - 0.492714 - 1.220438
    

    删除某行:jxs站长之家-易采站长站-Easck.Com

    5
    df.drop(0)
     
    1 2 3
    1 0.989046 0.160389 0.482936
    2 0.401105 - 0.492714 - 1.220438
    

    jxs站长之家-易采站长站-Easck.Com

    3.运算。

    基本运算:jxs站长之家-易采站长站-Easck.Com

    df[ 4 ] = df[ 1 ] + df[ 2 ]
     
    1 2 3 4
    0 - 0.394792 - 0.171866 0.304012 - 0.566659
    1 0.989046 0.160389 0.482936 1.149435
    2 0.401105 - 0.492714 - 1.220438 - 0.091609
    

    map运算,和python中的map有些类似:jxs站长之家-易采站长站-Easck.Com

    df[ 4 ]. map ( int )
    0 0
    1 1
    2 0
    

    apply运算:jxs站长之家-易采站长站-Easck.Com

    df. apply ( sum )
     
    1 0.995359
    2 - 0.504192
    3 - 0.433489
    4 0.491167
    

    jxs站长之家-易采站长站-Easck.Com

    4.>

    pandas中的group by 操作是我的最爱,不用把数据导入excel或者mysql就可以进行灵活的group by 操作,简化了分析过程。jxs站长之家-易采站长站-Easck.Com

    df[ 0 ] = [ 'A' , 'A' , 'B' ]
    df
     
    1 2 3 4 0
    0 - 0.394792 - 0.171866 0.304012 - 0.566659 A
    1 0.989046 0.160389 0.482936 1.149435 A
    2 0.401105 - 0.492714 - 1.220438 - 0.091609 B
     
    g = df.groupby([ 0 ])
     
    g.size()
     
    A 2
    B 1
     
    g. sum ()
     
    1 2 3 4
    0
    A 0.594254 - 0.011478 0.786948 0.582776
    B 0.401105 - 0.492714 - 1.220438 - 0.091609
    

    jxs站长之家-易采站长站-Easck.Com

    5.>

    dataframe可以使用to_csv方法方便地导出到csv文件中,如果数据中含有中文,一般encoding指定为”utf-8″,否则导出时程序会因为不能识别相应的字符串而抛出异常,index指定为False表示不用导出dataframe的index数据。jxs站长之家-易采站长站-Easck.Com

    df.to_csv(file_path, encoding='utf-8', index=False)
    df.to_csv(file_path, index=False)

    jxs站长之家-易采站长站-Easck.Com

    总结

    到此这篇关于Pandas中DataFrame操作的文章就介绍到这了,更多相关Pandas>

    如有侵权,请联系QQ:279390809 电话:15144810328

相关文章