Gemini 3.5 API 实战:数据自动抓取、分析、生成报告全流程
做云服务的同学应该都有这个体验:项目跑完测试,数据一大把,整理报告却要花比测试还长的时间。最近在做一个云资源使用效率的竞品分析,需要抓取十几个厂商的参数数据、对比分析后输出报告。测试时通过 leadhi.cn 聚合平台接入 Gemini 3.5 API,国内直连方便。下面把流程和踩坑记录分享给大家。

云服务场景下的痛点
做云资源数据分析,通常面临三个问题。
数据来源散。 各厂商的计费页、性能文档、SLA 承诺格式五花八门,手动抄录效率极低。
分析维度多。 计费模式、性能指标、区域覆盖、SLA 等级,十几个参数交叉对比,手动做表容易出错。
报告重复性强。 每次选型都要重新整理格式,大量重复劳动。
Gemini 3.5 的 URL Context 工具正好能解决前两个问题——API 请求中包含目标 URL,模型自动完成网页访问、内容解析和数据提取。
全流程架构
text
阶段一:数据抓取(搜索工具 + URL Context)
阶段二:数据清洗(提取JSON → 去除单位 → 统一格式)
阶段三:分析与图表(参数对比图 + 中文字体配置)
阶段四:报告打包(Word/PDF)
四个阶段串起来,一条流水线搞定。
阶段一:数据抓取
必须显式传入 tools 参数,否则请求会返回空结果。
两种策略:
直接指定字段。 一次性告诉模型提取哪些参数、输出什么格式。适合页面结构统一的场景。
分批次采集。 先列目标清单,再逐条追问。多操作几步,但能规避长上下文中混淆不同厂商数据的风险。必须等上一轮返回非空内容后再发下一条,否则会因会话状态未更新导致重复或跳过。
阶段二:数据清洗
API 返回的原始数据不能直接用。
提取 JSON。 用 json.loads() 解析,失败则正则匹配最外层大括号再解析。
去除单位。 云资源参数经常带单位(vCPU、GB、ms),用 re.sub(r'[^\d.]', '', value) 统一去除再转 float。
缺失值处理。 赋值 None 而非跳过整条记录,避免 DataFrame 行数错位。不做这步,后续绘图会因字符串混入数值列报错。
阶段三:图表生成
向 Gemini 发送指令生成 Matplotlib 对比图表。温度值建议调至 0.2。
执行时必须在开头插入中文字体配置:
python
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
跳过这步,中文标注全部显示为方块。
阶段四:报告打包
将清洗后的数据和图表一起提交给 Gemini,指令要求包含封面、摘要、对比表、图表。
格式精确度要求高的场景,更稳的方案是让 Gemini 输出结构化 JSON,再用传统工具转 PDF/Excel。AI 负责内容,传统代码负责格式。格式渲染这种确定性任务还是让代码来干更靠谱。
效率数据
| 环节 | 手动操作 | Gemini 辅助 | 效率提升 |
|---|---|---|---|
| 云资源数据抓取 | ~3 小时 | ~3 分钟 | ~98% |
| 参数清洗标准化 | ~1 小时 | ~2 分钟 | ~97% |
| 对比图表代码 | ~1 小时 | ~3 分钟 | ~95% |
| 选型报告排版 | ~1.5 小时 | ~2 分钟 | ~98% |
| 总计 | ~6.5 小时 | ~10 分钟 | ~97% |
三个必须注意的坑
限流。 免费层有每分钟请求次数限制。批量生成时务必加入指数退避重试机制。在华为云函数工作流中可以配置异步重试策略,比在本地脚本里写循环更可靠。
Token 消耗。 图片和长页面的 token 消耗远高于纯文本。建议先提取文字再喂给模型,成本能降一半。
数值精度。 模型偶尔会把"按量计费"和"包年包月"的价格搞混。关键参数必须人工复核,尤其是涉及成本估算的场景。
趋势:AI 正在把云服务选型变成数据驱动的决策
两个判断。
第一,URL Context 工具对云服务选型特别有价值。 传统方案需要手动对比各厂商文档,现在 API 内部完成了网页访问和解析。开发者只需关注业务需求本身。
第二,混合模型架构是当前最务实的策略。 核心分析用 Gemini 3.5,格式化输出用轻量模型控制成本。结合华为云函数工作流做调度,可以把整条链路做成定时任务,每周自动更新一次竞品数据。
拿自己的真实业务场景跑一遍完整链路,比看任何评测都靠谱。
- 点赞
- 收藏
- 关注作者
评论(0)