设为首页收藏本站
天天打卡

 找回密码
 立即注册
搜索
查看: 61|回复: 9

Pandas中DataFrame中的nan值处理

[复制链接]

3

主题

61

回帖

187

积分

注册会员

积分
187
发表于 2024-4-19 20:17:23 | 显示全部楼层 |阅读模式
目录


1. 方法简介


1.1 DataFrame.dropna()

DataFrame.dropna()方法的作用:是删除含用空值或缺失值得行或列。
语法为:dropna(axis=0,how=‘any’,thresh=None,subset=None,inplace=False)
参数:

  • axis:确定过滤的行或列,取值可以为
    (1) 0或index:删除包含缺失值的行,默认为0。
    (2) 1或columns:删除包含缺失值的列。
  • how:确定过滤的标准,取值可以为:
    (1)any:默认值,如果存在NaN值,就删除该行或该列。//有一个就删除行或列
    (2)all:如果所有值都是NaN值,就删除该行或该列。 //全部都是才删除行或列
  • thresh:表示有效数据量的最小要求,比如thresh=3,要求该行或该列至少有三个不是NaN值时将其保留。
  • subset:表示在特定的字集中寻找NaN值
  • inplace:表示是否在原数据上操作,如果设为True,则表示直接修改原数据;如果设为False,则表示修改原数据的副本,返回新数据

1.2 .DataFrame.fillna()

语法为:fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)
参数:

  • value:用于填充的空值的值。
  • method: {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None。定义了填充空值的方法, pad / ffill表示用前面行/列的值,填充当前行/列的空值, backfill / bfill表示用后面行/列的值,填充当前行/列的空值。
  • axis:轴。0或’index’,表示按行删除;1或’columns’,表示按列删除。
  • inplace:是否原地替换。布尔值,默认为False。如果为True,则在原DataFrame上进行操作,返回值为None。
  • limit:int, default None。如果method被指定,对于连续的空值,这段连续区域,最多填充前 limit 个空值(如果存在多段连续区域,每段最多填充前 limit 个空值)。如果method未被指定, 在该axis下,最多填充前 limit 个空值(不论空值连续区间是否间断)
  • downcast:dict, default is None,字典中的项为,为类型向下转换规则。或者为字符串“infer”,此时会在合适的等价类型之间进行向下转换,比如float64 to int64 if possible。

2. 案例
  1. import pandas as pd
  2. import numpy as np
  3. df = pd.DataFrame(np.arange(32).reshape(8, 4), columns=list("abcd"))
  4. df.loc[1, 'a'] = 2
  5. df.loc[1, 'c'] = 2.0
  6. df.loc[6, 'c'] = np.nan
  7. df.loc[3, 'c'] = 10
  8. df.loc[3, ['c', 'd']] = np.nan
  9. df["year"] = '2023'
  10. df["date"] = ['08-25','08-26','08-27','08-28','08-29','08-30','08-31','09-01']
  11. # 合并数据
  12. df["ydate"] =df["year"].map(str) +"-"+ df["date"].map(str)
  13. df["高温"] = ['15°',  '16°', '20°', '19°', '20°',  '22°', '24°', '23°']
  14. df["低温"] = ['10°',  '11°', '18°', '17°', '10°',  '18°', '20°', '17°']
  15. df["空气质量"] = ['优', '良', '优', '优', '差', '良', '优', np.nan]
  16. print(df)
复制代码
  1.     a   b     c     d  year   date       ydate   高温   低温 空气质量0   0   1   2.0   3.0  2023  08-25  2023-08-25  15°  10°    优1   2   5   2.0   7.0  2023  08-26  2023-08-26  16°  11°    良2   8   9  10.0  11.0  2023  08-27  2023-08-27  20°  18°    优3  12  13   NaN   NaN  2023  08-28  2023-08-28  19°  17°    优4  16  17  18.0  19.0  2023  08-29  2023-08-29  20°  10°    差5  20  21  22.0  23.0  2023  08-30  2023-08-30  22°  18°    良6  24  25   NaN  27.0  2023  08-31  2023-08-31  24°  20°    优7  28  29  30.0  31.0  2023  09-01  2023-09-01  23°  17°  NaN
复制代码
2.1 删除全部为NaN的行
  1. df1 = df.copy()
  2. df1.loc[8, :] = np.nan
  3. df1
复制代码
  1.        a       b       c       d     year       date       ydate       高温     低温     空气质量0     0.0     1.0     2.0     3.0     2023     08-25     2023-08-25     15°     10°     优1     2.0     5.0     2.0     7.0     2023     08-26     2023-08-26     16°     11°     良2     8.0     9.0     10.0     11.0     2023     08-27     2023-08-27     20°     18°     优3     12.0     13.0     NaN     NaN     2023     08-28     2023-08-28     19°     17°     优4     16.0     17.0     18.0     19.0     2023     08-29     2023-08-29     20°     10°     差5     20.0     21.0     22.0     23.0     2023     08-30     2023-08-30     22°     18°     良6     24.0     25.0     NaN     27.0     2023     08-31     2023-08-31     24°     20°     优7     28.0     29.0     30.0     31.0     2023     09-01     2023-09-01     23°     17°     NaN8     NaN     NaN     NaN     NaN     NaN     NaN     NaN     NaN     NaN     NaN 
复制代码
  1. df1 = df.dropna(axis=0, how='all')
  2. df1
复制代码
abcdyeardateydate高温低温空气质量00.01.02.03.0202308-252023-08-2515°10°优12.05.02.07.0202308-262023-08-2616°11°良28.09.010.011.0202308-272023-08-2720°18°优312.013.0NaNNaN202308-282023-08-2819°17°优416.017.018.019.0202308-292023-08-2920°10°差520.021.022.023.0202308-302023-08-3022°18°良624.025.0NaN27.0202308-312023-08-3124°20°优728.029.030.031.0202309-012023-09-0123°17°NaN
2.2 删除包含NaN的行
  1. df2 = df.dropna(axis=0, how='any')
  2. df2
复制代码
abcdyeardateydate高温低温空气质量00.01.02.03.0202308-252023-08-2515°10°优12.05.02.07.0202308-262023-08-2616°11°良28.09.010.011.0202308-272023-08-2720°18°优416.017.018.019.0202308-292023-08-2920°10°差520.021.022.023.0202308-302023-08-3022°18°良
2.3 删除包含NaN的列
  1. df3 = df.dropna(axis=1, how='any')
  2. df3
复制代码
abyeardateydate高温低温001202308-252023-08-2515°10°125202308-262023-08-2616°11°289202308-272023-08-2720°18°31213202308-282023-08-2819°17°41617202308-292023-08-2920°10°52021202308-302023-08-3022°18°62425202308-312023-08-3124°20°72829202309-012023-09-0123°17°
2.4 删除全部为NaN的列
  1. df4 = df.copy()
  2. df4["unknow"] = np.nan
  3. df4
复制代码
abcdyeardateydate高温低温空气质量unknow0012.03.0202308-252023-08-2515°10°优NaN1252.07.0202308-262023-08-2616°11°良NaN28910.011.0202308-272023-08-2720°18°优NaN31213NaNNaN202308-282023-08-2819°17°优NaN4161718.019.0202308-292023-08-2920°10°差NaN5202122.023.0202308-302023-08-3022°18°良NaN62425NaN27.0202308-312023-08-3124°20°优NaN7282930.031.0202309-012023-09-0123°17°NaNNaN
  1. df4 = df4.dropna(axis=1, how='all')
  2. df4
复制代码
abcdyeardateydate高温低温空气质量0012.03.0202308-252023-08-2515°10°优1252.07.0202308-262023-08-2616°11°良28910.011.0202308-272023-08-2720°18°优31213NaNNaN202308-282023-08-2819°17°优4161718.019.0202308-292023-08-2920°10°差5202122.023.0202308-302023-08-3022°18°良62425NaN27.0202308-312023-08-3124°20°优7282930.031.0202309-012023-09-0123°17°NaN
2.5 删除指定列是NaN的行

删除指定某一列有nan,这样即可定位到所在行的index,然后对该index进行drop操作即可
  1. df[np.isnan(df['c'])].index #定位某一列是否有nan
复制代码
输出:
  1. Index([3, 6], dtype='int64')
复制代码
  1. # 直接drop对应indx即可删除该行
  2. df5 = df.drop(df[np.isnan(df['c'])].index)
  3. df5
复制代码
abcdyeardateydate高温低温空气质量0012.03.0202308-252023-08-2515°10°优1252.07.0202308-262023-08-2616°11°良28910.011.0202308-272023-08-2720°18°优4161718.019.0202308-292023-08-2920°10°差5202122.023.0202308-302023-08-3022°18°良7282930.031.0202309-012023-09-0123°17°NaN
2.6 删除指定的两列都是空的行
  1. df6 = df.dropna(axis=0, how='all', subset=['c', 'd'])
  2. df6
复制代码
abcdyeardateydate高温低温空气质量0012.03.0202308-252023-08-2515°10°优1252.07.0202308-262023-08-2616°11°良28910.011.0202308-272023-08-2720°18°优4161718.019.0202308-292023-08-2920°10°差5202122.023.0202308-302023-08-3022°18°良62425NaN27.0202308-312023-08-3124°20°优7282930.031.0202309-012023-09-0123°17°NaN
2.7 筛选出NaN的数据
  1. df_nan = df[df['d'].isna()]
  2. df_nan
复制代码
abcdyeardateydate高温低温空气质量31213NaNNaN202308-282023-08-2819°17°优
2.8 筛选出非NaN的数据
  1. df_notnan = df[~df['d'].isna()]
  2. df_notnan
复制代码
abcdyeardateydate高温低温空气质量0012.03.0202308-252023-08-2515°10°优1252.07.0202308-262023-08-2616°11°良28910.011.0202308-272023-08-2720°18°优4161718.019.0202308-292023-08-2920°10°差5202122.023.0202308-302023-08-3022°18°良62425NaN27.0202308-312023-08-3124°20°优7282930.031.0202309-012023-09-0123°17°NaN
2.9 替换NaN值
  1. df9 = df.fillna('')  # 将nan替换为''
  2. df9
复制代码
abcdyeardateydate高温低温空气质量0012.03.0202308-252023-08-2515°10°优1252.07.0202308-262023-08-2616°11°良28910.011.0202308-272023-08-2720°18°优31213202308-282023-08-2819°17°优4161718.019.0202308-292023-08-2920°10°差5202122.023.0202308-302023-08-3022°18°良6242527.0202308-312023-08-3124°20°优7282930.031.0202309-012023-09-0123°17°
2.10 多条件筛选
  1. nan_df = df[(df['高温'].str.len() <= 2) | (df['空气质量'].isna())]
  2. nan_df
复制代码
abcdyeardateydate高温低温空气质量7282930.031.0202309-012023-09-0123°17°NaN
总结

到此这篇关于Pandas中DataFrame中的nan值处理的文章就介绍到这了,更多相关Pandas DataFrame nan值内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

1

主题

25

回帖

73

积分

等待验证会员

积分
73

热心会员付费会员

发表于 2024-4-20 23:24:04 | 显示全部楼层
嘎嘎嘎嘎嘎嘎嘎

6

主题

52

回帖

236

积分

中级会员

积分
236
发表于 2024-5-14 03:12:40 | 显示全部楼层
太棒了!感谢分享这个信息!

1

主题

85

回帖

217

积分

中级会员

积分
217

热心会员付费会员

发表于 2024-5-16 22:19:28 | 显示全部楼层
牛逼

3

主题

62

回帖

192

积分

注册会员

积分
192
发表于 2024-7-10 23:26:13 | 显示全部楼层
我不确定这个信息的准确性,请再确认一下

0

主题

61

回帖

115

积分

注册会员

积分
115
发表于 2024-7-30 09:58:35 | 显示全部楼层
确实牛逼

1

主题

34

回帖

89

积分

注册会员

积分
89
发表于 2024-8-7 18:59:58 | 显示全部楼层
谢谢你的提醒,我会注意的。

0

主题

21

回帖

52

积分

注册会员

积分
52

热心会员付费会员

发表于 2024-8-31 22:07:58 | 显示全部楼层
666666666666

1

主题

44

回帖

120

积分

注册会员

积分
120

热心会员付费会员

发表于 2024-9-28 12:26:38 | 显示全部楼层
非常感谢你的观点,让我受益良多!

2

主题

61

回帖

166

积分

注册会员

积分
166
发表于 4 天前 | 显示全部楼层
非常感谢你的观点,让我受益良多!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|爱云论坛 - d.taiji888.cn - 技术学习 免费资源分享 ( 蜀ICP备2022010826号 )|天天打卡

GMT+8, 2024-11-15 05:17 , Processed in 0.102737 second(s), 28 queries .

Powered by i云网络 Licensed

© 2023-2028 正版授权

快速回复 返回顶部 返回列表