一下模块当中的数据统计与排序-七七创业网

今天小编就给大家讲讲模块中的数据统计和排序。说到具体，就是()方法和()方法。

()方法，顾名思义，主要是用来计算每个类别出现的次数，而()方法则是对值进行排序。当然，除了这些，还有很多大家不知道的衍生功能等待被发现。下面小编就为大家一一讲述。

导入模块并读取数据库

我们这次使用的数据集是“非常有名”的泰坦尼克号数据集，在很多平台都可以找到

作为 pddf = pd.(“.csv”)df.head()

约定俗成的用法

首先我们看一下常规的用法，代码如下

df[”].()

S 644C：，数据类型：int64

下面简单介绍一下()方法中的参数。

.(=无,=假,排序=真,=假,=真)

常用参数的具体解释为：

对值进行排序

上面返回的结果是从大到小排序的。当然，我们也可以反过来，从小到大排序。代码如下

df[”].(=真)

Q77C 168S：，数据类型：int64

按字母顺序对索引进行排序

同时，我们还可以按照字母顺序对索引进行排序如何做数据统计与分析，代码如下

df[”].(=真).(=真)

C：，数据类型：int64

其中的=True是指升序排序

包括空值的统计信息

默认是 () 方法不计算空值。如果我们还想统计空值，我们可以添加参数。代码如下

df[”].(=假)

: , 数据类型: int64

百分比统计

我们可以将数值统计转化为百分比统计，可以更直观的看到各个类别的占比。代码如下

df[”].(=真)

S 0. 0. 0.: , dtype:

如果我们希望能够在pair之后添加一个百分比符号，我们需要将其设置进去并设置数据的显示。代码如下

pd.(‘.’, ‘{:.2%}’.)df[”].( = True)

S 72.44%C 18.90%Q 8.66%名称：，数据类型：

当然，除了这个，我们还可以这样做，代码如下

df[”].( = True).().style.(‘{:.2%}’)

72.44%C 18.90%Q 8.66%

连续数据合并

与模块中的cut()方法类似，这里我们也可以对连续的数据进行分箱，然后进行统计。代码如下

df[‘票价’].(bins=3)

(-0.513, 170.776]871(170.776, 341.553]17(341.553, 512.329]3Name: Fare, dtype: int64

我们将 Fare 列分为 3 组，然后进行统计。当然我们也可以自定义每组的上限和下限。代码如下

df[‘票价’].(bins=[-1, 20, 100, 550])

(-1.001, 20.0] 515(20.0, 100.0]323(100.0, 550.0]: 票价, dtype: int64

群体再统计

模块中的()方法允许对数据集进行分组，也可以与()方法结合使用，进行更好的统计分析。代码如下

df.(”)[‘性别’].()

性别男性：性别，dtype：int64

上面的代码是将“Sex”特征分组到“”类别下，然后进一步对数据进行统计分析。当然，结果是一个数据结构。如果我们要对数据结果的数据结构进行编程，我们可以这样做，

df.(”)[‘性别’].().()

数据集排序

接下来说说数据的排序。主要用到的是()方法。比如我们按照“年龄”这一列进行排序，排序的方式是降序。代码如下

df.(“年龄”, = 假).head(10)

重新排序行索引

我们看到排序后的数据集的行索引保持不变。我们希望行索引仍然可以从 0 开始顺序增加，所以我们可以这样做。代码如下

df.(“年龄”, = 假, = 真)。头(10)

下面简单介绍一下()方法中的参数

.(by,axis=0,=True,=False,kind=”,=’last’, # last, first; =False, key=None)

常用参数的具体解释为：

对多个字段进行排序

我们还可以对多个字段进行排序，代码如下

df.([“年龄”, “票价”], = 假).head(10)

同时，我们还可以针对不同的字段指定不同的排序方式，如下

df.([“年龄”, “票价”], = [假, 真]).head(10)

我们可以看到，在“Age”相同的情况下，“Fare”字段是按升序排列的

自定义排序

我们可以自定义一个函数方法一下模块当中的数据统计与排序(排序)(图)，然后在()方法中使用，按照我们写的方法排序。我们来看下面这组数据

df = pd.({”: [”, ‘鼠标’, ‘桌子’, ”, ‘椅子’],”: [‘C’, ‘C’, ‘O’, ‘C’, ‘ O’], ‘year’: [2002, 2002, 2005, 2001, 2003], ‘cost’: [‘$52’, ‘$24’, ‘$250’, ‘$500’, ‘$150′],”: [ ’20hr’, ’30hr’, ’20hr’, ’20hr’, ‘2hr’],})

“cost”栏有美元符号“$”，所以会干扰正常排序。我们使用方法自定义一个函数方法，在()中使用

df.(‘cost’,key= val: val.str.(‘$’, ”).(”))

当然我们也可以自定义一个更复杂的函数，在()方法中使用，代码如下

def (x):if x.name == ‘cost’: x.str.(‘$’, ”).(”)elif x.name == ”: x.str.(‘hr’, ”).(‘int’)else: xdf.( [‘year’, ”, ‘cost’],key=)

还有一种情况。比如我们遇到衣服的尺码，XS码，S码，M码，L码或者月份，Jan,Feb,Mar,Apr等，我们需要自己定义尺码。这时候我们需要用到的是

= ([‘XS’, ‘S’, ‘M’, ‘L’, ‘XL’],=真)

(=[‘XS’, ‘S’, ‘M’, ‘L’, ‘XL’], =True)

所以对于下面的数据

df = pd.({”: [1001, 1002, 1003, 1004, 1005, 1006], ‘size’: [‘S’, ‘XL’, ‘M’, ‘XS’, ‘L’, ‘S ‘],})

我们对数据集应用预定义的顺序，代码如下

df[‘尺寸’] = df[‘尺寸’].() df.(‘尺寸’)

先通过()转换数据类型如何做数据统计与分析，然后排序

版权声明 1 本网站名称：七七创业网
2 本站永久网址：https://77br.cn
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系管理员微信: 7290790 进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。
7 本站所有源码都可搭建成功，如需帮搭建部署，需要另付费用。
8 本站资源一经售出不退不换，资源收费仅为平台服务器续费，感谢支持。