pandas根据某列去重

Python新视野发表于 2021/09/09 23:08:48 2021/09/09

【摘要】 pandas根据某列去重 drop_duplicates(subset=[‘comment’], keep=‘first’, inplace=True) 参数： subset： ...

drop_duplicates(subset=[‘comment’], keep=‘first’, inplace=True)

参数：

subset：列表的形式填写要进行去重的列名，默认为 None ，表示根据所有列进行。
keep：可选参数有三个：first、 last、 False，默认值 first。其中，
（1）first 表示：保留第一次出现的重复行，删除后面的重复行。
（2）last 表示：删除重复项，保留最后一次出现。
（3）False 表示：删除所有重复项。
inplace：默认为 False ，删除重复项后返回副本。True，直接在原数据上删除重复项。

✪ 栗子 ✪
首先创建一个 DataFrame。

import pandas as pd
dic = {'name':['a', 'b', 'c', 'd'], 'comment':['abc', '真棒', '真棒', '123']}
df = pd.DataFrame(dic)
df

  
 
  1
  2
  3
  4

使用 drop_duplicates 来去除重复值，如果不指明 subset ，那么默认根据所有列来考虑，即当某两行数据所有列都重复时进行去重。

df.drop_duplicates(keep='first', inplace=True)

  
 
  1

subset默认为None，根据所有列考虑，1,2行虽然comment相同，但name不相同，故保留，使用时根据具体情况进行选择。

现在设置 subset 为 comment 即可删除该列重复值。

df.drop_duplicates(subset=['comment'], keep='first', inplace=True)

  
 
  1

注意:此时索引没有重置，如有需要可使用 reset_index() 重置索引。

df.reset_index(drop=True, inplace=True)

  
 
  1

文章来源: blog.csdn.net，作者：Dream丶Killer，版权归原作者所有，如需转载，请联系作者。

原文链接：blog.csdn.net/qq_43965708/article/details/109892053

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

上滑加载中

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。