- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

java布隆过滤器

林欣发表于 2025/07/26 23:00:33 2025/07/26

【摘要】 Java 中的布隆过滤器（Bloom Filter）是一种空间效率极高的概率型数据结构，用于快速判断一个元素是否可能存在于集合中（可能存在误判，但绝不会漏判）。它特别适合处理大规模数据且允许一定误判率的场景，如缓存穿透防护、URL去重、垃圾邮件过滤等。一、布隆过滤器核心原理 1. 数据结构位数组（Bit Array）：初始时所有位为 0，长度通常为 m。哈希函数集合：k 个独立的哈希函数，...

Java 中的布隆过滤器（Bloom Filter）是一种空间效率极高的概率型数据结构，用于快速判断一个元素是否可能存在于集合中（可能存在误判，但绝不会漏判）。它特别适合处理大规模数据且允许一定误判率的场景，如缓存穿透防护、URL去重、垃圾邮件过滤等。

一、布隆过滤器核心原理

1. 数据结构

位数组（Bit Array）：初始时所有位为 0，长度通常为 m。
哈希函数集合：k 个独立的哈希函数，每个函数将元素映射到位数组的某个位置。

2. 操作流程

添加元素：
1. 用 k 个哈希函数计算元素的 k 个位置。
2. 将这些位置的位全部设为 1。
查询元素：
1. 用同样的 k 个哈希函数计算 k 个位置。
2. 如果所有位置均为 1，则元素可能存在；否则一定不存在。

3. 误判率

误判（False Positive）：元素不在集合中，但布隆过滤器返回“可能存在”。
误判率公式：
[
p \approx \left(1 - e^{-\frac{kn}{m}}\right)^k
]
- n：已添加的元素数量。
- m：位数组长度。
- k：哈希函数数量。
优化目标：通过调整 m 和 k，使误判率 p 最小化（通常 k ≈ m/n * ln2 时最优）。

二、Java 实现方式

1. Guava 的 `BloomFilter`（推荐）

Google Guava 库提供了开箱即用的布隆过滤器实现，支持自动计算最优参数。

依赖引入

<dependency>
    <groupId>com.google.guava</groupId>
    <artifactId>guava</artifactId>
    <version>32.1.3-jre</version> <!-- 使用最新版本 -->
</dependency>

代码示例

import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;
import java.nio.charset.StandardCharsets;

public class BloomFilterDemo {
    public static void main(String[] args) {
        // 1. 创建布隆过滤器：预期插入100万个元素，误判率控制在1%以内
        BloomFilter<String> bloomFilter = BloomFilter.create(
            Funnels.stringFunnel(StandardCharsets.UTF_8),
            1_000_000,  // 预期元素数量
            0.01        // 误判率
        );

        // 2. 添加元素
        bloomFilter.put("apple");
        bloomFilter.put("banana");

        // 3. 查询元素
        System.out.println(bloomFilter.mightContain("apple"));    // true
        System.out.println(bloomFilter.mightContain("orange"));   // false（可能误判为true）

        // 4. 序列化（可选）
        // byte[] bytes = bloomFilter.toByteArray();
        // BloomFilter<String> restored = BloomFilter.create(
        //     Funnels.stringFunnel(StandardCharsets.UTF_8), bytes);
    }
}

关键参数说明

Funnels.stringFunnel()：指定元素类型（如 String、Long 等）。
expectedInsertions：预期插入的元素数量（需预估准确，否则影响误判率）。
fpp（False Positive Probability）：误判率（值越小，位数组越大）。

2. Redis 的布隆过滤器（分布式场景）

如果需要在分布式系统中使用布隆过滤器，可以通过 Redis 模块 RedisBloom 实现。

依赖引入

<dependency>
    <groupId>redis.clients</groupId>
    <artifactId>jedis</artifactId>
    <version>4.4.3</version>
</dependency>
<dependency>
    <groupId>io.rebloom</groupId>
    <artifactId>rebloom</artifactId>
    <version>2.2.0</version>
</dependency>

代码示例

import redis.clients.jedis.Jedis;
import redis.clients.jedis.params.SetParams;

public class RedisBloomFilterDemo {
    public static void main(String[] args) {
        try (Jedis jedis = new Jedis("localhost", 6379)) {
            // 1. 创建布隆过滤器（key="my_bloom", 预期元素数=1000, 误判率=0.01）
            jedis.bfReserve("my_bloom", 0.01, 1000);

            // 2. 添加元素
            jedis.bfAdd("my_bloom", "apple");
            jedis.bfAdd("my_bloom", "banana");

            // 3. 查询元素
            System.out.println(jedis.bfExists("my_bloom", "apple"));   // true
            System.out.println(jedis.bfExists("my_bloom", "orange"));  // false
        }
    }
}

三、布隆过滤器的应用场景

缓存穿透防护
- 问题：恶意请求查询不存在的数据（如 id=-1），导致缓存和数据库均未命中。
- 解决方案：在缓存前加一层布隆过滤器，若元素不存在则直接返回空结果。
URL去重
- 爬虫系统中快速判断 URL 是否已抓取。
垃圾邮件过滤
- 判断邮件发送者是否在黑名单中（允许少量误判）。
区块链地址校验
- 快速检查地址是否有效（避免全量存储）。

四、布隆过滤器的局限性

不支持删除操作
- 传统布隆过滤器无法删除元素（需使用变种如 Counting Bloom Filter）。
误判率不可为 0
- 需根据业务容忍度调整参数。
空间效率与误判率的权衡
- 误判率越低，位数组越大（例如 1% 误判率约需 9.6 位/元素）。

五、替代方案对比

方案	查询时间	空间效率	支持删除	误判率
布隆过滤器	O(k)	高	❌	可控
布谷鸟过滤器	O(k)	更高	✔️	更低
哈希表	O(1)	低	✔️	0
Redis 集合	O(1)	中	✔️	0

选择建议：
- 需要极致空间效率且允许误判 → 布隆过滤器。
- 需要支持删除 → 布谷鸟过滤器或 Redis 集合。
- 需要零误判 → 哈希表或 数据库。

总结

单机场景：优先使用 Guava 的 BloomFilter，简单高效。
分布式场景：选择 RedisBloom 或自研基于 Redis 的布隆过滤器。
关键参数：根据预期元素数量和误判率调整 m 和 k（Guava 已自动优化）。

通过合理使用布隆过滤器，可以显著提升系统性能，尤其在处理海量数据的场景下。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

java布隆过滤器

一、布隆过滤器核心原理

1. 数据结构

2. 操作流程

3. 误判率

二、Java 实现方式

1. Guava 的 `BloomFilter`（推荐）

依赖引入

代码示例

关键参数说明

2. Redis 的布隆过滤器（分布式场景）

依赖引入

代码示例

三、布隆过滤器的应用场景

四、布隆过滤器的局限性

五、替代方案对比

总结

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

java布隆过滤器

一、布隆过滤器核心原理

1. 数据结构

2. 操作流程

3. 误判率

二、Java 实现方式

1. Guava 的 BloomFilter（推荐）

依赖引入

代码示例

关键参数说明

2. Redis 的布隆过滤器（分布式场景）

依赖引入

代码示例

三、布隆过滤器的应用场景

四、布隆过滤器的局限性

五、替代方案对比

总结

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

1. Guava 的 `BloomFilter`（推荐）