AgentArts可观测:构建统一数据底座,支持Agent稳定可控、持续演进

举报
AGENT魔方 发表于 2026/05/25 11:07:30 2026/05/25
【摘要】 在传统软件系统中,可观测性(Observability)解决的是系统是否正常运行的问题。但在 Agent 系统中,这个概念则是:系统不仅要运行地正确(系统执行正确),还要正确地运行(语义执行正确)。引入大语言模型后,Agent的执行过程从确定性流程转变为基于推理的动态决策,导致系统行为对用户而言变得不可预测且难以理解。因此必须构建面向Agent的可观测体系,对其执行链路和决策过程进行记录与还原。

  Agent可观测的必要性  

在传统软件系统中,可观测性(Observability)解决的是系统是否正常运行的问题。但在 Agent 系统中,这个概念则是:系统不仅要运行地正确(系统执行正确),还要正确地运行(语义执行正确)

引入大语言模型后,Agent的执行过程从确定性流程转变为基于推理的动态决策,导致系统行为对用户而言变得不可预测且难以理解。当结果异常时,既无法复现问题,也难以判断是模型决策、工具调用还是上下文理解出现偏差,而传统监控体系又难以感知这类语义层错误。过程不可见、问题难定位,使系统在实际使用中缺乏可控性和可维护性,因此必须构建面向Agent的可观测体系,对其执行链路和决策过程进行记录与还原,为问题定位和系统优化提供基础支撑。

  Agent可观测应具备的四个基础能力  

1指标追踪能力分布式架构下,底层模型的计算开销分散于各业务节点。研发与运维团队经常需要评估智能体或工作流的资源投入产出比,并据此进行容量规划和运行成本管控。缺乏全局视图会导致计算资源消耗不明,系统规模化部署后成本处于失控状态。因此,可观测体系必须具备智能体概览分析能力,支持采集并聚合词元消耗总量、模型请求频次、端到端延迟、请求成功率等核心业务指标。

2、会话回溯能力单次任务调度被拆分为多个异步执行的推理与调用节点,导致多轮交互逻辑在原生运行环境中处于离散状态。故障排查时将碎片化的底层调用日志还原为完整的自然语言交互过程困难重重,难以复现引发错误的初始上下文条件。因此,可观测体系需具备跨度关联的会话分析能力,支持通过会话标识检索并提取对应的完整调用拓扑,按时间序列完整重构对话过程

3、链路拓扑能力:Agent任务抛出异常、产生逻辑死循环或遭遇外部响应延迟时,由于缺乏各执行节点的运行状态快照,工程师无法迅速隔离并界定系统故障域。 因此,可观测体系需具备深度的调用链分析能力,支持基于追踪标识精准定位目标会话,并允许按应用类别、组件名称及节点层级进行过滤筛选。此外,需支持提取单一跨度的全量元数据,包括执行状态、精确耗时、输入输出报文、系统标注及底层运行时日志,实现运行现场的精准还原。

4、操作留痕智能体具备自主调用宿主机命令行或读写系统文件等高危工具的权限,系统极易遭受指令注入攻击,引发未授权的数据越权访问。因此,可观测体系需建立指令级别的留痕机制。针对系统预定义的高危工具集,强制记录发起调用的会话标识、原始提示词意图、目标参数及鉴权结果,确保每一次敏感资源交互均具备不可篡改的日志证据链。

  AgentArts Ops构建标准化可观测方案  

1标准支持:原生兼容 OpenTelemetry 规范,用户只需授权相关服务开通和接入,就能在底层完成 Agent 与 OfficeClaw 运行环境下的日志流、性能指标与分布式链路追踪数据的提取。对于基于该标准协议构建的Agent 应用,系统直接支持其链路追踪数据的全量接入与结构化解析,提取离散的日志流、性能指标与调用拓扑数据。

2全链路可观测在获取上述底层异构数据后,系统的聚合计算层随即对跨节点数据进行时序对齐与关联绑定,自统计资源开销、全局并发与交互会话维度的可视化监测视图。

3细粒度追踪围绕成本可控、过程可还原、问题可定位、风险可追责的核心诉求,实现:(1)全局指标追踪:清晰掌握模型调用带来的资源消耗与系统负载情况;(2) 会话级回溯:将分散的多轮推理过程还原为完整执行路径;(3) 调用链分析:精确定位到决策或工具调用出现异常的环节;(4) 对高风险操作的留痕与审计:确保所有关键行为都有据可查。

以上方案通过AgentArts Ops 的四大能力实现:

1、业务指全局视角实时刻画系统运行状态,围绕 tokens 消耗、模型调用次数与耗时、请求成功率等核心指标,帮助用户快速了解系统负载与性能瓶颈。 

1.png

2、运营指标观测面向应用与业务层的运行分析能力,支持从智能体规模到增长趋势的整体把控,并通过活跃应用数及多维 Top 排行,快速识别高价值或高消耗对象,辅助运营决策与资源分配优化。

2.png

3、会话观测:以单次用户交互为核心,还原完整执行过程。系统按会话维度展示ID、总耗时、词元使用(输入/输出拆分)、调用链数量等关键信息,并支持逐条展开每一次调用链中的多轮对话内容,使复杂任务的执行路径清晰可见。

3.png

4、调用链观测深入到执行细节层,对每一次任务的调用链进行结构化展示。系统逐节点呈现各环节的执行状态、耗时及输入输出信息,并标记异常与错误日志。

4.png


实践案例一:网络异常的级联故障发现

一、问题工作流引擎在执行特定智能体任务时未返回预期生成结果,前端网关接收到请求超时或非标准状态码。 导致业务调用方无法界定故障域到底是处于提示词超长、模型服务端限流、还是内部网络侧基础设施异常。

二、影响:故障定界的模糊直接阻断了服务自愈与自动化重试策略的执行。

三、诊方式:

1. 拓扑状态断言与故障域隔离

运维人员通过会话标识检索分布式链。可观测系统根据各节点的执行状态码,在拓扑链路中对产生异常的跨度进行显式标记。系统将故障域直接锁定在大模型执行节点。如下图所示,执行失败的调用链中标记出错节点,其中结束节点中第一行日志标记了结束节点遇到的错误。日志如下:

5.png

2. 运行现场报文快照提取

针对被标记的异常跨度,系统提取执行瞬间挂载的元数据。日志数据显示,异常发生前,系统已成功完成运行参数的组装,此步骤排除了业务代码传参逻辑缺陷的可能。

2026/04/23 22:30:16.245 GMT+08:00 model call request data: {"model""deepseek-v3.1-terminals""stream"false"temperature"0.5"max_tokens"4096"messages": [{"role":"system","content":"..."}]}

3. 根因确立

沿着时间序列解析该跨度的标准错误输出流,日志明确指出请求目标主机时发生域名解析失败,确立根因为底层网络环境配置问题,而非算法模型侧故障

2026/04/23 22:30:26.159 GMT+08:00 Cannot connect to host api.modelarts-maas.com:443 ssl:False [Name or service not known]

实践案例二:鉴权凭证缺失引发的模型节点阻断

一、问题工作流引擎在流转至大模型推理节点时,触发 HTTP 400 请求参数错误告警,任务实例强制终止。

二、影响业务端完全无法获取模型生成结果。

6.png

三、诊断方式:

1. 运行现场报文快照提取

运维人员通过异常追踪标识下钻至目标跨度。元数据快照显示,业务载荷层面的模型超参装配完整,排除了模型提示词构造缺陷的排查方向。

2026/04/21 09:59:31.033 GMT+08:00
model call request data: {"model""deepseek-v3.1-terminus""stream"false"temperature"0.5"top_p"0.5"max_tokens"4096"frequency_penalty"0.0"messages": [{"role""system""content""..."}]} 

2. 异常传播链与合规缺陷分析

系统按时序反序列化执行日志,清晰呈现了由于代码合规缺陷引发的安全拦截闭环:

  • 凭证丢失:组件在发起请求前置阶段,没有写入Authorization字段内容导致模型鉴权失败。
2026/04/21 09:59:31.033 GMT+08:00
 Node execution error | flow_id: 81c2bcf5-63f7-4688-827f-e42a5446d771 | node type: juwen.LLMComponent | node name: 大模型 | origin error code: 101563 | origin error message: Get model streaming output error, msg=Model request error: Failed to get the authorization header
  • 框架级联问题:未受控的鉴权异常直接击穿组件层,引发节点执行失败。同时,极端状态下的线程崩溃再次导致系统内置的遥测探针在剥离追踪上下文时发生执行器报错。
2026/04/21 09:59:31.033 GMT+08:00
OTEL_PROBE | detach context error

3、根因确立

系统组件代码中存在违规的鉴权旁路判断逻辑,导致向下游云端大模型发起网络调用时,HTTP 请求头中缺失必需的凭证字段。

上述两起排障实践中的域名解析失败与鉴权凭证丢失,是常见的基础网络配置错误,定位并不复杂;但在引入大模型并采用分布式Agent架构后,简单的底层故障可能会被放大,随着多轮推理和跨服务调用被传递到不同的环节,问题与根因往往相隔很远、时间无法对应,导致定位成本迅速失控。

所以可观测体系能够串联起不同服务和层级的执行信息,还原出一条完整的执行路径,让工程师可以从结果回溯,精准定位到问题。让Agent系统真正从出了问题靠猜走向出了问题能查清,支撑稳定的生产运行。

  AgentOps 自驱动闭环架构演进路线  

AgentOps的目标不只是能发现问题,而是要构建一个由数据驱动的闭环体系,让系统具备自我发现、自我诊断以及自我修正的能力。而“可观测”是这一切的前提,既要看得见系统在做什么,也要能评估行为是否合理。

AgentArts 已经在底层完成了可观测探针与多维评估引擎的标准化建设,能够在不侵入业务逻辑的前提下,持续采集运行数据并建立全局的性能基线与异常链路视图。建议在系统投产初期就引入可观测能力,形成统一的数据底座,后续无论是自动化诊断还是策略级优化,都可以直接基于已有数据展开分析,真正支撑Agent系统向稳定可控、持续演进的方向发展。


7.png

欢迎体验

AgentArts可观测和可评估能力




容器模仿.png

关注魔方公众号,获取更多前沿资讯

添加社区小助手k8s2222,进入技术交流群

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。