pandas根据某列去重

举报
Python新视野 发表于 2021/09/09 23:08:48 2021/09/09
【摘要】 pandas根据某列去重 drop_duplicates(subset=[‘comment’], keep=‘first’, inplace=True) 参数: subset: ...

pandas根据某列去重

drop_duplicates(subset=[‘comment’], keep=‘first’, inplace=True)

参数:

  • subset: 列表的形式填写要进行去重的列名,默认为 None ,表示根据所有列进行。
  • keep: 可选参数有三个:firstlastFalse, 默认值 first。其中,
    (1)first 表示: 保留第一次出现的重复行,删除后面的重复行。
    (2)last 表示: 删除重复项,保留最后一次出现。
    (3)False 表示: 删除所有重复项。
  • inplace:默认为 False ,删除重复项后返回副本。True,直接在原数据上删除重复项。

✪ 栗子 ✪
首先创建一个 DataFrame

import pandas as pd
dic = {'name':['a', 'b', 'c', 'd'], 'comment':['abc', '真棒', '真棒', '123']}
df = pd.DataFrame(dic)
df

  
 
  • 1
  • 2
  • 3
  • 4

在这里插入图片描述
使用 drop_duplicates 来去除重复值,如果不指明 subset ,那么默认根据所有列来考虑,即当某两行数据所有列都重复时进行去重。

df.drop_duplicates(keep='first', inplace=True)

  
 
  • 1

在这里插入图片描述
subset默认为None,根据所有列考虑,1,2行虽然comment相同,但name不相同,故保留,使用时根据具体情况进行选择。


现在设置 subsetcomment 即可删除该列重复值。

df.drop_duplicates(subset=['comment'], keep='first', inplace=True)

  
 
  • 1

在这里插入图片描述

注意:此时索引没有重置,如有需要可使用 reset_index() 重置索引。

df.reset_index(drop=True, inplace=True)

  
 
  • 1

在这里插入图片描述

文章来源: blog.csdn.net,作者:Dream丶Killer,版权归原作者所有,如需转载,请联系作者。

原文链接:blog.csdn.net/qq_43965708/article/details/109892053

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。