- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

一文带你走进autovacuum

Jack20 发表于 2025/11/26 17:05:15 2025/11/26

【摘要】一、autovacuum 是干什么的？—— PostgreSQL 的 “自动清洁工 + 优化师”PostgreSQL 基于 MVCC（多版本并发控制）机制工作，这个机制会导致两个关键问题，而 autovacuum 就是专门解决这两个问题的后台进程：1. 核心功能 1：清理 “死元组”（垃圾数据）当你执行 DELETE 或 UPDATE 时，PostgreSQL 不会直接删除旧数据：DELE...

一、autovacuum 是干什么的？—— PostgreSQL 的 “自动清洁工 + 优化师”

PostgreSQL 基于 MVCC（多版本并发控制） 机制工作，这个机制会导致两个关键问题，而 autovacuum 就是专门解决这两个问题的后台进程：

1. 核心功能 1：清理 “死元组”（垃圾数据）

当你执行 DELETE 或 UPDATE 时，PostgreSQL 不会直接删除旧数据：

DELETE：只是给旧数据打个 “已删除” 标记（变成 “死元组”）；
UPDATE：本质是 “删除旧行 + 插入新行”，同样会产生死元组。

这些死元组会占据磁盘空间，还会让查询时扫描更多无效数据，导致表变大、查询变慢。autovacuum 会自动扫描表，清理这些死元组，释放磁盘空间，让查询更高效。

2. 核心功能 2：更新统计信息

PostgreSQL 的查询优化器（ Planner ）需要依赖 “表数据统计信息”（比如某列有多少不同值、数据分布）来生成最优执行计划。如果统计信息过时，优化器可能会选低效的执行计划（比如明明该走索引却全表扫描），导致查询变慢。autovacuum 会定期更新这些统计信息，确保优化器决策准确。

3. 核心功能 3：防止事务 ID 回卷（致命风险）

PostgreSQL 中每个事务都有一个唯一的事务 ID（XID），XID 是 32 位整数，会循环使用。如果长期不运行 autovacuum，旧事务的 XID 会被 “冻结”，一旦 XID 循环到临界值，数据库会直接进入只读模式（甚至不可用），这就是 “事务 ID 回卷”，修复成本极高。

二、能不能直接关掉？—— 绝对不建议哦！

直接关闭 autovacuum 会导致三个致命问题：

死元组堆积：表体积暴增，查询、备份、恢复速度越来越慢；
统计信息过时：查询执行计划变差，业务 SQL 可能从毫秒级变成秒级 / 分钟级；
事务 ID 回卷风险：数据库最终会只读或崩溃，影响业务连续性。

例外情况：仅当你有严格的手动维护流程（比如每天凌晨手动执行 VACUUM ANALYZE），且能确保覆盖所有表，才可能考虑关闭 —— 但实际生产中几乎没人这么做（手动维护容易遗漏大表 / 热点表）。

三、核心解决方案：调整 autovacuum，避开夜间高峰期

你的问题本质是 autovacuum 在半夜 12 点（可能是业务低峰期，但数据库仍有压力）集中运行，导致资源占用过高。解决方案是：让 autovacuum 在更空闲的时段运行，或分散运行，降低单轮资源消耗。

调整思路分 3 类，优先从简单的来：

1. 第一步：调整 autovacuum 运行时段（避开 12 点）

PostgreSQL 12+ 版本支持通过 autovacuum_naptime 和 autovacuum_vacuum_cost_delay 控制运行频率，或通过 pg_cron 插件指定固定时段运行（推荐）。

方法 1：修改全局参数（适用于所有表）

编辑 PostgreSQL 配置文件 postgresql.conf（路径通常在 $PGDATA/postgresql.conf），调整以下参数：

# 1. 控制 autovacuum 进程的唤醒间隔（默认1分钟，可缩小让它更频繁但轻量化）
autovacuum_naptime = 30s  # 每30秒唤醒一次，分散清理压力（默认1min）

# 2. 降低 autovacuum 的资源消耗（避免单轮清理占用过多CPU/IO）
autovacuum_vacuum_cost_delay = 20ms  # 每消耗一定“成本”就暂停20ms（默认0，不暂停）
autovacuum_vacuum_cost_limit = 100   # 单次清理的“成本上限”（默认-1，继承全局vacuum_cost_limit）

# 3. 避开12点高峰期：让 autovacuum 主要在凌晨3-6点运行（需配合 pg_cron）
# 先启用 pg_cron 插件（需提前安装，多数云数据库已预装）
shared_preload_libraries = 'pg_cron'  # 新增或添加到现有列表
cron.database_name = '你的数据库名'   # 指定 pg_cron 生效的数据库

# 然后在数据库中执行SQL，禁用默认自动触发，改为定时执行
-- 1. 全局禁用自动 autovacuum（仅禁用触发，保留进程）
ALTER SYSTEM SET autovacuum = off;
-- 2. 用 pg_cron 定时在凌晨3点执行全库 vacuum analyze（低峰期）
SELECT cron.schedule('daily-autovacuum', '0 3 * * *', 'VACUUM ANALYZE;');
-- 3. 可选：对大表单独定时（比如凌晨4点清理大表）
SELECT cron.schedule('vacuum-big-table', '0 4 * * *', 'VACUUM ANALYZE public.你的大表名;');

方法 2：针对单个大表调整（如果是某张大表导致的慢）

如果日志显示是某张大表（比如千万级 / 亿级数据的表）在 12 点触发 autovacuum，可以单独给这张表设置参数，让它在其他时段清理：

-- 给大表设置：降低触发阈值（更早清理，避免堆积后单次消耗过大）+ 调整运行时段
ALTER TABLE public.你的大表名 
SET (
  autovacuum_vacuum_threshold = 5000,  -- 死元组达到5000就触发（默认50）
  autovacuum_vacuum_scale_factor = 0.05,  -- 死元组占比达到5%也触发（默认20%）
  autovacuum_vacuum_cost_delay = 50ms  -- 单表清理时更慢，减少资源占用
);

2. 第二步：限制 autovacuum 的资源占用（避免拖慢数据库）

如果 autovacuum 运行时占用过多 CPU/IO，导致业务 SQL 变慢，可以通过以下参数限制资源：

# postgresql.conf 中调整
vacuum_cost_page_hit = 1    # 内存中命中数据页的“成本”（默认1）
vacuum_cost_page_miss = 10  # 磁盘中读取数据页的“成本”（默认10）
vacuum_cost_page_dirty = 20 # 修改脏数据页的“成本”（默认20）
autovacuum_vacuum_cost_limit = 50  # 单次清理的最大“成本”（默认-1，继承全局）

核心的逻辑：autovacuum 每清理一页数据会累积 “成本”，达到 cost_limit 后，就会暂停 cost_delay 时间，避免持续占用资源。
小建议：IO 压力大的场景，可增大 cost_delay（比如 50ms），减小 cost_limit（比如 50），让清理更 “温和”。

3. 第三步：排查是否有其他任务冲突（比如备份）

半夜 12 点可能同时运行其他耗资源任务（比如数据库备份、ETL 同步），和 autovacuum 争夺 CPU/IO，导致变慢。可以：

查看日志，确认 12 点是否有备份 / ETL 任务，将其调整到其他时段（比如凌晨 2 点）；
如果必须同时运行，降低备份的 IO 优先级（比如 PostgreSQL 备份用 pg_dump -F c -j 2 限制并发，避免全量备份占满 IO）。

四、验证调整效果

调整后，需要确认 autovacuum 是否在目标时段运行，且不再导致数据库变慢：

查看 autovacuum 运行状态：

-- 查看当前正在运行的 autovacuum 进程
SELECT pid, query, state, now() - query_start AS duration 
FROM pg_stat_activity 
WHERE query LIKE '%autovacuum%' AND state = 'active';

-- 查看各表的 autovacuum 统计（比如死元组数量、最后清理时间）
SELECT 
  relname AS 表名,
  n_dead_tup AS 死元组数量,
  last_vacuum AS 最后手动清理时间,
  last_autovacuum AS 最后自动清理时间,
  autovacuum_count AS 自动清理次数
FROM pg_stat_user_tables 
ORDER BY n_dead_tup DESC;

观察数据库负载：调整后半夜 12 点的 CPU/IO 使用率、查询响应时间是否恢复正常。

总结一下下

autovacuum 是 PostgreSQL 的 “必需进程”，负责清理垃圾、更新统计、防止事务 ID 回卷，不能直接关掉；
夜间变慢的核心是 autovacuum 与业务 / 其他任务争夺资源，优先通过 pg_cron 调整运行时段（比如凌晨 3-6 点）；
辅助调整资源限制（cost_delay/cost_limit）和表级触发阈值，让清理更分散、更温和；
若调整后仍慢，排查是否有备份 / ETL 等任务冲突，或优化大表结构（比如分区表）。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

一文带你走进autovacuum

一、autovacuum 是干什么的？—— PostgreSQL 的 “自动清洁工 + 优化师”

1. 核心功能 1：清理 “死元组”（垃圾数据）

2. 核心功能 2：更新统计信息

3. 核心功能 3：防止事务 ID 回卷（致命风险）

二、能不能直接关掉？—— 绝对不建议哦！

三、核心解决方案：调整 autovacuum，避开夜间高峰期

调整思路分 3 类，优先从简单的来：

1. 第一步：调整 autovacuum 运行时段（避开 12 点）

方法 1：修改全局参数（适用于所有表）

方法 2：针对单个大表调整（如果是某张大表导致的慢）

2. 第二步：限制 autovacuum 的资源占用（避免拖慢数据库）

3. 第三步：排查是否有其他任务冲突（比如备份）

四、验证调整效果

总结一下下

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

一文带你走进autovacuum

一、autovacuum 是干什么的？—— PostgreSQL 的 “自动清洁工 + 优化师”

1. 核心功能 1：清理 “死元组”（垃圾数据）

2. 核心功能 2：更新统计信息

3. 核心功能 3：防止事务 ID 回卷（致命风险）

二、能不能直接关掉？—— 绝对不建议哦！

三、核心解决方案：调整 autovacuum，避开夜间高峰期

调整思路分 3 类，优先从简单的来：

1. 第一步：调整 autovacuum 运行时段（避开 12 点）

方法 1：修改全局参数（适用于所有表）

方法 2：针对单个大表调整（如果是某张大表导致的慢）

2. 第二步：限制 autovacuum 的资源占用（避免拖慢数据库）

3. 第三步：排查是否有其他任务冲突（比如备份）

四、验证调整效果

总结一下下

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品