0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

盘点Pandas的100个常用函数

数据分析与开发 ? 来源:数据分析1480 ? 作者:刘顺祥 ? 2021-04-01 09:52 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

经过一段时间的整理,本期将分享我认为比较常规的100个实用函数,这些函数大致可以分为六类,分别是统计汇总函数、数据清洗函数、数据筛选、绘图与元素级运算函数、时间序列函数和其他函数。

一、统计汇总函数数据分析过程中,必然要做一些数据的统计汇总工作,那么对于这一块的数据运算有哪些可用的函数可以帮助到我们呢?具体看如下几张表。

96410908-9247-11eb-8b86-12bb97331649.png

96624186-9247-11eb-8b86-12bb97331649.png

import pandas as pd import numpy as np x = pd.Series(np.random.normal(2,3,1000)) y = 3*x + 10 + pd.Series(np.random.normal(1,2,1000)) # 计算x与y的相关系数 print(x.corr(y)) # 计算y的偏度 print(y.skew()) # 计算y的统计描述值 print(x.describe()) z = pd.Series([‘A’,‘B’,‘C’]).sample(n = 1000, replace = True) # 重新修改z的行索引 z.index = range(1000) # 按照z分组,统计y的组内平均值 y.groupby(by = z).aggregate(np.mean)

968a6328-9247-11eb-8b86-12bb97331649.png

96a9b8b8-9247-11eb-8b86-12bb97331649.jpg

# 统计z中个元素的频次 print(z.value_counts()) a = pd.Series([1,5,10,15,25,30]) # 计算a中各元素的累计百分比 print(a.cumsum() / a.cumsum()[a.size - 1])

96cea812-9247-11eb-8b86-12bb97331649.png

二、数据清洗函数同样,数据清洗工作也是必不可少的工作,在如下表格中罗列了常有的数据清洗的函数。

96e2916a-9247-11eb-8b86-12bb97331649.jpg

x = pd.Series([10,13,np.nan,17,28,19,33,np.nan,27]) #检验序列中是否存在缺失值 print(x.hasnans) # 将缺失值填充为平均值 print(x.fillna(value = x.mean())) # 前向填充缺失值 print(x.ffill())

96f12176-9247-11eb-8b86-12bb97331649.png

96f9eba8-9247-11eb-8b86-12bb97331649.png

income = pd.Series([‘12500元’,‘8000元’,‘8500元’,‘15000元’,‘9000元’]) # 将收入转换为整型 print(income.str[:-1].astype(int)) gender = pd.Series([‘男’,‘女’,‘女’,‘女’,‘男’,‘女’]) # 性别因子化处理 print(gender.factorize()) house = pd.Series([‘大宁金茂府 | 3室2厅 | 158.32平米 | 南 | 精装’, ‘昌里花园 | 2室2厅 | 104.73平米 | 南 | 精装’, ‘纺大小区 | 3室1厅 | 68.38平米 | 南 | 简装’]) # 取出二手房的面积,并转换为浮点型 house.str.split(‘|’).str[2].str.strip().str[:-2].astype(float)

9740314e-9247-11eb-8b86-12bb97331649.png

三、数据筛选数据分析中如需对变量中的数值做子集筛选时,可以巧妙的使用下表中的几个函数,其中部分函数既可以使用在序列身上,也基本可以使用在数据框对象中。

976a23fa-9247-11eb-8b86-12bb97331649.png

np.random.seed(1234) x = pd.Series(np.random.randint(10,20,10)) # 筛选出16以上的元素 print(x.loc[x 》 16]) print(x.compress(x 》 16)) # 筛选出13~16之间的元素 print(x[x.between(13,16)]) # 取出最大的三个元素 print(x.nlargest(3)) y = pd.Series([‘ID:1 name:张三 age:24 income:13500’, ‘ID:2 name:李四 age:27 income:25000’, ‘ID:3 name:王二 age:21 income:8000’]) # 取出年龄,并转换为整数 print(y.str.findall(‘age:(d+)’).str[0].astype(int))

97983e3e-9247-11eb-8b86-12bb97331649.png

四、绘图与元素级函数

97adf68e-9247-11eb-8b86-12bb97331649.png

np.random.seed(123) import matplotlib.pyplot as plt x = pd.Series(np.random.normal(10,3,1000)) # 绘制x直方图 x.hist() # 显示图形 plt.show() # 绘制x的箱线图 x.plot(kind=‘box’) plt.show() installs = pd.Series([‘1280万’,‘6.7亿’,‘2488万’,‘1892万’,‘9877’,‘9877万’,‘1.2亿’]) # 将安装量统一更改为“万”的单位 def transform(x): if x.find(‘亿’) != -1: res = float(x[:-1])*10000 elif x.find(‘万’) != -1: res = float(x[:-1]) else: res = float(x)/10000 return res installs.apply(transform)

97fc5bbc-9247-11eb-8b86-12bb97331649.png

981dfbdc-9247-11eb-8b86-12bb97331649.png

983ede6a-9247-11eb-8b86-12bb97331649.png

五、时间序列函数

98644f1a-9247-11eb-8b86-12bb97331649.png

987f2696-9247-11eb-8b86-12bb97331649.png

98daee0e-9247-11eb-8b86-12bb97331649.png

六、其他函数

9912aa10-9247-11eb-8b86-12bb97331649.png

import numpy as np import pandas as pd np.random.seed(112) x = pd.Series(np.random.randint(8,18,6)) print(x) # 对x中的元素做一阶差分 print(x.diff()) # 对x中的元素做降序处理 print(x.sort_values(ascending = False)) y = pd.Series(np.random.randint(8,16,100)) # 将y中的元素做排重处理,并转换为列表对象 y.unique().tolist()

9955e87a-9247-11eb-8b86-12bb97331649.png

9977d3ae-9247-11eb-8b86-12bb97331649.png

原文标题:100 个 pandas 数据分析函数总结

文章出处:【微信公众号:数据分析与开发】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 函数
    +关注

    关注

    3

    文章

    4388

    浏览量

    65316

原文标题:100 个 pandas 数据分析函数总结

文章出处:【微信号:DBDevs,微信公众号:数据分析与开发】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    大彩讲堂:VisualHMI-LUA教程-on_press回调函数使用指南

    屏幕会触发回调函数100ms回调一次)?state:0-弹起、1-按下、2-长按?x:按下时X轴坐标?y:按下时Y轴坐标触摸回调函数常用于做自定义待机逻辑,搭配
    的头像 发表于 07-23 16:32 ?597次阅读
    大彩讲堂:VisualHMI-LUA教程-on_press回调<b class='flag-5'>函数</b>使用指南

    精准盘点,无忧管理——RFID智能盘点终端解析

    RFID智能盘点终端高效、精准,利用RFID技术实现快速批量识别,实时更新数据,确保库存信息准确无误。其轻便易携设计及简洁操作界面使盘点工作轻松便捷。此外,该终端具有高可靠性,适用于各种环境,为企业带来高效、精准的盘点体验。
    的头像 发表于 07-14 14:17 ?140次阅读

    MSP430常用内联函数说明

    电子发烧友网站提供《MSP430常用内联函数说明.docx》资料免费下载
    发表于 06-05 17:20 ?0次下载

    函数指针的六常见应用场景

    函数指针在嵌入式开发中有着广泛的应用,它让代码更加灵活,减少冗余,提高可扩展性。很多时候,我们需要根据不同的情况动态调用不同的函数,而函数指针正是实现这一需求的重要工具。本文将介绍六
    的头像 发表于 04-07 11:58 ?656次阅读
    <b class='flag-5'>函数</b>指针的六<b class='flag-5'>个</b>常见应用场景

    详解RTOS中的Hook函数

    Hook函数是RTOS中的一关键特性,通过该函数,用户可以增强对任务管理的控制,定义系统行为。
    的头像 发表于 03-24 16:14 ?483次阅读

    大模型领域常用名词解释(近100

    本文总结了大模型领域常用的近100名词解释,并按照模型架构与基础概念,训练方法与技术,模型优化与压缩,推理与应用,计算与性能优化,数据与标签,模型评估与调试,特征与数据处理,伦理与公平性、其他
    的头像 发表于 02-19 11:49 ?900次阅读
    大模型领域<b class='flag-5'>常用</b>名词解释(近<b class='flag-5'>100</b><b class='flag-5'>个</b>)

    HAL库的函数调用示例

    HAL(Hardware Abstraction Layer,硬件抽象层)库是STM32等微控制器中常用的库,它为开发者提供了访问和控制硬件设备的接口。以下是一些常用的HAL库函数及其调用示例: 一
    的头像 发表于 12-02 14:01 ?1787次阅读

    RAPIDS cuDF将pandas提速近150倍

    在 NVIDIA GTC 2024 上,NVIDIA 宣布,RAPIDS cuDF 当前已能够为 950 万 pandas 用户带来 GPU 加速,且无需修改代码。
    的头像 发表于 11-20 09:52 ?743次阅读
    RAPIDS cuDF将<b class='flag-5'>pandas</b>提速近150倍

    常用SQL函数及其用法

    SQL(Structured Query Language)是一种用于管理和操作关系数据库的编程语言。SQL 提供了丰富的函数库,用于数据检索、数据更新、数据删除以及数据聚合等操作。以下是一些常用
    的头像 发表于 11-19 10:18 ?1685次阅读

    RNN的损失函数与优化算法解析

    函数有以下几种: 交叉熵损失函数 :交叉熵(Cross Entropy)是一种评估两概率分布之间差异的度量方法,即通过比较模型预测的概率分布和真实概率分布之间的差异,来评估模型训练的性能。在RNN中,交叉熵损失
    的头像 发表于 11-15 10:16 ?1541次阅读

    SUMIF函数与SUMIFS函数的区别

    SUMIF函数和SUMIFS函数都是Excel中用于条件求和的函数,它们可以帮助用户根据特定的条件对数据进行求和。尽管它们的基本功能相似,但在使用场景和功能上存在一些差异。以下是对这两
    的头像 发表于 10-30 09:51 ?8014次阅读

    Python常用函数大全

    在 Python 世界里,有一些宝藏函数和模块,它们可以让你编程更轻松、代码更高效。这篇文章将带你一一认识这些神器,让你的开发生活瞬间轻松不少!
    的头像 发表于 10-27 17:20 ?1028次阅读

    什么叫系统的频率响应函数?它和传递函数有何关系

    工具。它是一复数函数,通常用H(jω)表示,其中ω是角频率,j是虚数单位。频率响应函数可以提供系统在频域内的行为特征,包括系统的增益、相位以及共振频率等信息。 频率响应
    的头像 发表于 10-18 09:29 ?5115次阅读

    labview常用的基本函数

    电子发烧友网站提供《labview常用的基本函数.pdf》资料免费下载
    发表于 10-15 17:29 ?7次下载

    labview中常用的字符串函数有哪些?

    ) : 功能:该函数用于返回字符串所包含的字符个数。 应用场景:常用于需要计算字符串长度的场景,如文件命名、数据处理等。 连接字符串(String Concatenate) : 功能:将两或多个字符串连接成一
    的头像 发表于 09-04 15:43 ?1965次阅读