搜索

一下模块当中的数据统计与排序

今天小编就给大家讲讲模块中的数据统计和排序。说到具体,就是()方法和()方法。

()方法,顾名思义,主要是用来计算每个类别出现的次数,而()方法则是对值进行排序。当然,除了这些,还有很多大家不知道的衍生功能等待被发现。下面小编就为大家一一讲述。

导入模块并读取数据库

我们这次使用的数据集是“非常有名”的泰坦尼克号数据集,在很多平台都可以找到

作为 pddf = pd.(“.csv”)df.head()

约定俗成的用法

首先我们看一下常规的用法,代码如下

df[”].()

S 644C:,数据类型:int64

下面简单介绍一下()方法中的参数。

.(=无,=假,排序=真,=假,=真)

常用参数的具体解释为:

对值进行排序

上面返回的结果是从大到小排序的。当然,我们也可以反过来,从小到大排序。代码如下

df[”].(=真)

Q77C 168S:,数据类型:int64

按字母顺序对索引进行排序

同时,我们还可以按照字母顺序对索引进行排序如何做数据统计与分析,代码如下

df[”].(=真).(=真)

C:,数据类型:int64

其中的=True是指升序排序

包括空值的统计信息

默认是 () 方法不计算空值。如果我们还想统计空值,我们可以添加参数。代码如下

df[”].(=假)

: , 数据类型: int64

百分比统计

我们可以将数值统计转化为百分比统计,可以更直观的看到各个类别的占比。代码如下

df[”].(=真)

S 0. 0. 0.: , dtype:

如果我们希望能够在pair之后添加一个百分比符号,我们需要将其设置进去并设置数据的显示。代码如下

pd.(‘.’, ‘{:.2%}’.)df[”].( = True)

S 72.44%C 18.90%Q 8.66%名称:,数据类型:

当然,除了这个,我们还可以这样做,代码如下

df[”].( = True).().style.(‘{:.2%}’)

72.44%C 18.90%Q 8.66%

连续数据合并

与模块中的cut()方法类似,这里我们也可以对连续的数据进行分箱,然后进行统计。代码如下

df[‘票价’].(bins=3)

(-0.513, 170.776]871(170.776, 341.553]17(341.553, 512.329]3Name: Fare, dtype: int64

我们将 Fare 列分为 3 组,然后进行统计。当然我们也可以自定义每组的上限和下限。代码如下

df[‘票价’].(bins=[-1, 20, 100, 550])

(-1.001, 20.0] 515(20.0, 100.0]323(100.0, 550.0]: 票价, dtype: int64

群体再统计

模块中的()方法允许对数据集进行分组,也可以与()方法结合使用,进行更好的统计分析。代码如下

df.(”)[‘性别’].()

性别男性:性别,dtype:int64

上面的代码是将“Sex”特征分组到“”类别下,然后进一步对数据进行统计分析。当然,结果是一个数据结构。如果我们要对数据结果的数据结构进行编程,我们可以这样做,

df.(”)[‘性别’].().()

数据集排序

接下来说说数据的排序。主要用到的是()方法。比如我们按照“年龄”这一列进行排序,排序的方式是降序。代码如下

df.(“年龄”, = 假).head(10)

重新排序行索引

我们看到排序后的数据集的行索引保持不变。我们希望行索引仍然可以从 0 开始顺序增加,所以我们可以这样做。代码如下

df.(“年龄”, = 假, = 真)。头(10)

下面简单介绍一下()方法中的参数

.(by,axis=0,=True,=False,kind=”,=’last’, # last, first; =False, key=None)

常用参数的具体解释为:

对多个字段进行排序

我们还可以对多个字段进行排序,代码如下

df.([“年龄”, “票价”], = 假).head(10)

同时,我们还可以针对不同的字段指定不同的排序方式,如下

df.([“年龄”, “票价”], = [假, 真]).head(10)

我们可以看到,在“Age”相同的情况下,“Fare”字段是按升序排列的

自定义排序

我们可以自定义一个函数方法一下模块当中的数据统计与排序(排序)(图),然后在()方法中使用,按照我们写的方法排序。我们来看下面这组数据

df = pd.({”: [”, ‘鼠标’, ‘桌子’, ”, ‘椅子’],”: [‘C’, ‘C’, ‘O’, ‘C’, ‘ O’], ‘year’: [2002, 2002, 2005, 2001, 2003], ‘cost’: [‘$52’, ‘$24’, ‘$250’, ‘$500’, ‘$150′],”: [ ’20hr’, ’30hr’, ’20hr’, ’20hr’, ‘2hr’],})

“cost”栏有美元符号“$”,所以会干扰正常排序。我们使用方法自定义一个函数方法,在()中使用

df.(‘cost’,key= val: val.str.(‘$’, ”).(”))

当然我们也可以自定义一个更复杂的函数,在()方法中使用,代码如下

def (x):if x.name == ‘cost’: x.str.(‘$’, ”).(”)elif x.name == ”: x.str.(‘hr’, ”).(‘int’)else: xdf.( [‘year’, ”, ‘cost’],key=)

还有一种情况。比如我们遇到衣服的尺码,XS码,S码,M码,L码或者月份,Jan,Feb,Mar,Apr等,我们需要自己定义尺码。这时候我们需要用到的是

= ([‘XS’, ‘S’, ‘M’, ‘L’, ‘XL’],=真)

(=[‘XS’, ‘S’, ‘M’, ‘L’, ‘XL’], =True)

所以对于下面的数据

df = pd.({”: [1001, 1002, 1003, 1004, 1005, 1006], ‘size’: [‘S’, ‘XL’, ‘M’, ‘XS’, ‘L’, ‘S ‘],})

我们对数据集应用预定义的顺序,代码如下

df[‘尺寸’] = df[‘尺寸’].() df.(‘尺寸’)

先通过()转换数据类型如何做数据统计与分析,然后排序

© 版权声明
THE END
喜欢就支持一下吧
点赞11赞赏 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码

    暂无评论内容