- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Python中列表和字符串常用的数据去重方法你还记得几个？

虫无涯发表于 2023/11/23 10:19:26 2023/11/23

【摘要】 1 关于数据去重关于数据去重，咱们这里简单理解下，就是删除掉重复的数据；应用的场景比如某些产品产生的大数据，有很多重复的数据，为了不影响分析结果，我们可能需要对这些数据进行去重，删除重复的数据，提高分析效率等等。 2 字符串去重 2.1 for方法基本思路是for循环先遍历字符串；遍历的字符要是没在结果字符串中，就添加到结果字符串即可。代码如下：import unittestclass T...

1 关于数据去重

关于数据去重，咱们这里简单理解下，就是删除掉重复的数据；
应用的场景比如某些产品产生的大数据，有很多重复的数据，为了不影响分析结果，我们可能需要对这些数据进行去重，删除重复的数据，提高分析效率等等。

2 字符串去重

2.1 for方法

基本思路是for循环先遍历字符串；
遍历的字符要是没在结果字符串中，就添加到结果字符串即可。
代码如下：

import unittest

class TestDeduplication(unittest.TestCase):
    @classmethod
    def setUpClass(cls) -> None:
        cls.char_date = "12344312abcdcbdaABCDDCBA张王李张"
        print(f"原始字符串为：{cls.char_date}")

    @classmethod
    def tearDownClass(cls) -> None:
        pass

    def test_char_for(self):
        char_date01 = ""
        for data in self.char_date:
            if data not in char_date01:
                char_date01 += data
        print(f"for方法去重后数据:{char_date01}")
        
if __name__ == "__main__":
    unittest.main()

结果输出为：

原始字符串为：12344312abcdcbdaABCDDCBA张王李张
for方法去重后数据:1234abcdABCD张王李

2.2 while方法

思路和for差不多；
这里主要是通过通过索引的方式查找；
代码如下：

import unittest

class TestDeduplication(unittest.TestCase):
    @classmethod
    def setUpClass(cls) -> None:
        cls.char_date = "12344312abcdcbdaABCDDCBA张王李张"
        print(f"原始字符串为：{cls.char_date}")

    @classmethod
    def tearDownClass(cls) -> None:
        pass

    def test_char_while(self):
        char_date02 = ""
        flag = len(self.char_date) - 1
        while True:
            if flag >= 0:
                if self.char_date[flag] not in char_date02:
                    char_date02 += self.char_date[flag]
                flag -= 1
            else:
                break
        print(f"while方法去重后数据:{char_date02}")

if __name__ == "__main__":
    unittest.main()

输出结果为：

原始字符串为：12344312abcdcbdaABCDDCBA张王李张
while方法去重后数据:张李王ABCDadbc2134

2.3 列表方法

我们先把字符串转为集合去重；
再将集合转为列表；
将列表转为字符串，最后排序进行输出即可；
部分代码如下，其他关于类的内容和以上一样：

    def test_char_list(self):
        char_date03 = set(self.char_date)
        char_date04 = list(char_date03)
        char_date04.sort(key=self.char_date.index)
        print(f"列表方法去重后数据：{''.join(char_date04)}")

输出后为：

原始字符串为：12344312abcdcbdaABCDDCBA张王李张
列表方法去重后数据：1234abcdABCD张王李

2.4 直接删除法

这个主要是直接对原字符串直接操作；
通过下标以及字符串切片方法实现；
部分代码如下：

    def test_char_delete(self):
        for data in self.char_date:
            if self.char_date[0] in self.char_date[1:len(self.char_date)]:
                self.char_date = self.char_date[1:len(self.char_date)]
            else:
                self.char_date = self.char_date[1:len(self.char_date)] + self.char_date[0]
        print(f"直接删除方法去重后数据：{''.join(self.char_date)}")

输出为：

原始字符串为：12344312abcdcbdaABCDDCBA张王李张
直接删除方法去重后数据：4312cbdaDCBA王李张

2.5 fromkeys方法

直接使用fromkeys()方法，它的作用是从序列键和值设置为value来创建一个新的字典；
部分代码如下：

    def test_char_fromkeys(self):
        char_date05 = {}
        char_date06 = char_date05.fromkeys(self.char_date)
        list_char = list(char_date06.keys())
        print(f"fromkeys方法去重后数据:{''.join(list_char)}")

输出为：

原始字符串为：12344312abcdcbdaABCDDCBA张王李张
fromkeys方法去重后数据:1234abcdABCD张王李

3 列表去重

3.1 for方法

循环遍历列表后添加到新的列表即可；
这个方法不会改变原来的顺序；
代码如下：

class TestDeduplication(unittest.TestCase):
    @classmethod
    def setUpClass(cls) -> None:
        cls.list_data = ["A", "B", "C", "D", "E", "C", "A", "B"]
        print(f"原始列表为：{cls.list_data}")

    @classmethod
    def tearDownClass(cls) -> None:
        pass
        
    def test_list_for(self):
        list_data01 = []
        for data in self.list_data:
            if data not in list_data01:
                list_data01.append(data)
        print(f"for方法:{list_data01} ")

if __name__ == "__main__":
    unittest.main()

输出为：

原始列表为：['A', 'B', 'C', 'D', 'E', 'C', 'A', 'B']
for方法:['A', 'B', 'C', 'D', 'E']

3.2 set方法1

直接使用set方法后转为列表即可；
这个方法会改变原来的顺序；
部分代码如下：

 def test_list_set(self):
        list_data02 = list(set(self.list_data))
        print(f"set方法1：{list_data02}")

输出为：

原始列表为：['A', 'B', 'C', 'D', 'E', 'C', 'A', 'B']
set方法1：['D', 'C', 'B', 'E', 'A']

3.3 set方法2

直接使用set方法后转为列表；
这个方法会改变原来的顺序，可进行排序；
部分代码：

 def test_list_set01(self):
        list_data03 = list(set(self.list_data))
        list_data03.sort(key=self.list_data.index)
        print(f"set方法2：{list_data03}")

输出为：

原始列表为：['A', 'B', 'C', 'D', 'E', 'C', 'A', 'B']
set方法2：['A', 'B', 'C', 'D', 'E']

3.4 count方法

先对原序列进行排序；
循环遍历列表后使用count()方法；
部分代码：

    def test_list_count(self):
        self.list_data.sort()
        for data in self.list_data:
            while self.list_data.count(data) > 1:
                del self.list_data[self.list_data.index(data)]
        print(f"count方法：{self.list_data}")

输出为：

原始列表为：['A', 'B', 'C', 'D', 'E', 'C', 'A', 'B']
count方法：['A', 'B', 'C', 'D', 'E']

3.5 转字典法

直接把列表转为字典方法即可；
部分代码：

 def test_list_dict(self):
        list_data04 = {}
        list_data05 = list_data04.fromkeys(self.list_data).keys()
        list_data06 = list(list_data05)
        print(f"字典法：{list_data06}")

输出为：

原始列表为：['A', 'B', 'C', 'D', 'E', 'C', 'A', 'B']
字典法：['A', 'B', 'C', 'D', 'E']

4 完整代码

以下为列表和字符串常用的数据去重方法的完整代码；
使用unittest中的TestCase类组织测试用例；
代码如下：

# -*- coding:utf-8 -*-
# 作者：虫无涯
# 日期：2023/11/22 
# 文件名称：test_deduplication.py
# 作用：字符串和列表去重
# 联系：VX(NoamaNelson)
# 博客：https://blog.csdn.net/NoamaNelson


import unittest


class TestDeduplication(unittest.TestCase):
    @classmethod
    def setUpClass(cls) -> None:
        cls.char_date = "12344312abcdcbdaABCDDCBA张王李张"
        cls.list_data = ["A", "B", "C", "D", "E", "C", "A", "B"]
        print(f"原始字符串为：{cls.char_date}")
        print(f"原始列表为：{cls.list_data}")

    @classmethod
    def tearDownClass(cls) -> None:
        pass

    def test_char_for(self):
        char_date01 = ""
        for data in self.char_date:
            if data not in char_date01:
                char_date01 += data
        print(f"for方法去重后数据:{char_date01}")

    def test_char_while(self):
        char_date02 = ""
        flag = len(self.char_date) - 1
        while True:
            if flag >= 0:
                if self.char_date[flag] not in char_date02:
                    char_date02 += self.char_date[flag]
                flag -= 1
            else:
                break
        print(f"while方法去重后数据:{char_date02}")

    def test_char_list(self):
        char_date03 = set(self.char_date)
        char_date04 = list(char_date03)
        char_date04.sort(key=self.char_date.index)
        print(f"列表方法去重后数据：{''.join(char_date04)}")

    def test_char_delete(self):
        for data in self.char_date:
            if self.char_date[0] in self.char_date[1:len(self.char_date)]:
                self.char_date = self.char_date[1:len(self.char_date)]
            else:
                self.char_date = self.char_date[1:len(self.char_date)] + self.char_date[0]
        print(f"直接删除方法去重后数据：{''.join(self.char_date)}")

    def test_char_fromkeys(self):
        char_date05 = {}
        char_date06 = char_date05.fromkeys(self.char_date)
        list_char = list(char_date06.keys())
        print(f"fromkeys方法去重后数据:{''.join(list_char)}")

    print("===============================================")

    def test_list_for(self):
        list_data01 = []
        for data in self.list_data:
            if data not in list_data01:
                list_data01.append(data)
        print(f"for方法:{list_data01} ")

    def test_list_set(self):
        list_data02 = list(set(self.list_data))
        print(f"set方法1：{list_data02}")

    def test_list_set01(self):
        list_data03 = list(set(self.list_data))
        list_data03.sort(key=self.list_data.index)
        print(f"set方法2：{list_data03}")

    def test_list_count(self):
        self.list_data.sort()
        for data in self.list_data:
            while self.list_data.count(data) > 1:
                del self.list_data[self.list_data.index(data)]
        print(f"count方法：{self.list_data}")

    def test_list_dict(self):
        list_data04 = {}
        list_data05 = list_data04.fromkeys(self.list_data).keys()
        list_data06 = list(list_data05)
        print(f"字典法：{list_data06}")
        
        
if __name__ == "__main__":
    unittest.main()

全部输出为：

===============================================
原始字符串为：12344312abcdcbdaABCDDCBA张王李张
原始列表为：['A', 'B', 'C', 'D', 'E', 'C', 'A', 'B']

直接删除方法去重后数据：4312cbdaDCBA王李张
for方法去重后数据:1234abcdABCD张王李
fromkeys方法去重后数据:1234abcdABCD张王李
列表方法去重后数据：1234abcdABCD张王李
while方法去重后数据:张李王ABCDadbc2134
count方法：['A', 'B', 'C', 'D', 'E']
字典法：['A', 'B', 'C', 'D', 'E']
for方法:['A', 'B', 'C', 'D', 'E'] 
set方法1：['B', 'A', 'D', 'C', 'E']
set方法2：['A', 'B', 'C', 'D', 'E']

放一张图吧（虽然用处不大，哈哈）：

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Python中列表和字符串常用的数据去重方法你还记得几个？

1 关于数据去重

2 字符串去重

2.1 for方法

2.2 while方法

2.3 列表方法

2.4 直接删除法

2.5 fromkeys方法

3 列表去重

3.1 for方法

3.2 set方法1

3.3 set方法2

3.4 count方法

3.5 转字典法

4 完整代码

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Python中列表和字符串常用的数据去重方法你还记得几个？

1 关于数据去重

2 字符串去重

2.1 for方法

2.2 while方法

2.3 列表方法

2.4 直接删除法

2.5 fromkeys方法

3 列表去重

3.1 for方法

3.2 set方法1

3.3 set方法2

3.4 count方法

3.5 转字典法

4 完整代码

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品