- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Gemini 3.5 API 实战：数据自动抓取、分析、生成报告全流程

yd_277132614 发表于 2026/06/09 14:58:54 2026/06/09

【摘要】做云服务的同学应该都有这个体验：项目跑完测试，数据一大把，整理报告却要花比测试还长的时间。最近在做一个云资源使用效率的竞品分析，需要抓取十几个厂商的参数数据、对比分析后输出报告。测试时通过 leadhi.cn 聚合平台接入 Gemini 3.5 API，国内直连方便。下面把流程和踩坑记录分享给大家。云服务场景下的痛点做云资源数据分析，通常面临三个问题。数据来源散。各厂商的计费页、性...

做云服务的同学应该都有这个体验：项目跑完测试，数据一大把，整理报告却要花比测试还长的时间。最近在做一个云资源使用效率的竞品分析，需要抓取十几个厂商的参数数据、对比分析后输出报告。测试时通过 leadhi.cn 聚合平台接入 Gemini 3.5 API，国内直连方便。下面把流程和踩坑记录分享给大家。

云服务场景下的痛点

做云资源数据分析，通常面临三个问题。

数据来源散。 各厂商的计费页、性能文档、SLA 承诺格式五花八门，手动抄录效率极低。

分析维度多。 计费模式、性能指标、区域覆盖、SLA 等级，十几个参数交叉对比，手动做表容易出错。

报告重复性强。 每次选型都要重新整理格式，大量重复劳动。

Gemini 3.5 的 URL Context 工具正好能解决前两个问题——API 请求中包含目标 URL，模型自动完成网页访问、内容解析和数据提取。

全流程架构

text

text

阶段一：数据抓取（搜索工具 + URL Context）
阶段二：数据清洗（提取JSON → 去除单位 → 统一格式）
阶段三：分析与图表（参数对比图 + 中文字体配置）
阶段四：报告打包（Word/PDF）

四个阶段串起来，一条流水线搞定。

阶段一：数据抓取

必须显式传入 tools 参数，否则请求会返回空结果。

两种策略：

直接指定字段。 一次性告诉模型提取哪些参数、输出什么格式。适合页面结构统一的场景。

分批次采集。 先列目标清单，再逐条追问。多操作几步，但能规避长上下文中混淆不同厂商数据的风险。必须等上一轮返回非空内容后再发下一条，否则会因会话状态未更新导致重复或跳过。

阶段二：数据清洗

API 返回的原始数据不能直接用。

提取 JSON。 用 json.loads() 解析，失败则正则匹配最外层大括号再解析。

去除单位。 云资源参数经常带单位（vCPU、GB、ms），用 re.sub(r'[^\d.]', '', value) 统一去除再转 float。

缺失值处理。 赋值 None 而非跳过整条记录，避免 DataFrame 行数错位。不做这步，后续绘图会因字符串混入数值列报错。

阶段三：图表生成

向 Gemini 发送指令生成 Matplotlib 对比图表。温度值建议调至 0.2。

执行时必须在开头插入中文字体配置：

python

python

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

跳过这步，中文标注全部显示为方块。

阶段四：报告打包

将清洗后的数据和图表一起提交给 Gemini，指令要求包含封面、摘要、对比表、图表。

格式精确度要求高的场景，更稳的方案是让 Gemini 输出结构化 JSON，再用传统工具转 PDF/Excel。AI 负责内容，传统代码负责格式。格式渲染这种确定性任务还是让代码来干更靠谱。

效率数据

环节	手动操作	Gemini 辅助	效率提升
云资源数据抓取	~3 小时	~3 分钟	~98%
参数清洗标准化	~1 小时	~2 分钟	~97%
对比图表代码	~1 小时	~3 分钟	~95%
选型报告排版	~1.5 小时	~2 分钟	~98%
总计	~6.5 小时	~10 分钟	~97%

三个必须注意的坑

限流。 免费层有每分钟请求次数限制。批量生成时务必加入指数退避重试机制。在华为云函数工作流中可以配置异步重试策略，比在本地脚本里写循环更可靠。

Token 消耗。 图片和长页面的 token 消耗远高于纯文本。建议先提取文字再喂给模型，成本能降一半。

数值精度。 模型偶尔会把"按量计费"和"包年包月"的价格搞混。关键参数必须人工复核，尤其是涉及成本估算的场景。

趋势：AI 正在把云服务选型变成数据驱动的决策

两个判断。

第一，URL Context 工具对云服务选型特别有价值。 传统方案需要手动对比各厂商文档，现在 API 内部完成了网页访问和解析。开发者只需关注业务需求本身。

第二，混合模型架构是当前最务实的策略。 核心分析用 Gemini 3.5，格式化输出用轻量模型控制成本。结合华为云函数工作流做调度，可以把整条链路做成定时任务，每周自动更新一次竞品数据。

拿自己的真实业务场景跑一遍完整链路，比看任何评测都靠谱。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Gemini 3.5 API 实战：数据自动抓取、分析、生成报告全流程

云服务场景下的痛点

全流程架构

阶段一：数据抓取

阶段二：数据清洗

阶段三：图表生成

阶段四：报告打包

效率数据

三个必须注意的坑

趋势：AI 正在把云服务选型变成数据驱动的决策

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Gemini 3.5 API 实战：数据自动抓取、分析、生成报告全流程

云服务场景下的痛点

全流程架构

阶段一：数据抓取

阶段二：数据清洗

阶段三：图表生成

阶段四：报告打包

效率数据

三个必须注意的坑

趋势：AI 正在把云服务选型变成数据驱动的决策

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品