Agent 还没出圈,落地先有了“阻力”:进入平台期,智力能否独立担事?

举报
开天aPaaS小助手Tracy 发表于 2024/06/05 15:30:05 2024/06/05
【摘要】 本文节选自InfoQ《极客有约》,应用平台AppStage——AI原生应用引擎总架构师陈星亮采访片段。AI Agent 当前的能力问:首先要谈的就是 AI Agent 现阶段的能力,大家现在是如何应用 AI Agent 的?具体落地场景有哪些?陈星亮:针对企业场景进行 AI Agent 能力创新时,多数是从 IT 场景开始的,因为该场景拥有较为完善的信息化基础。在这一过程中,我们遵循两个主要...

本文节选自InfoQ《极客有约》,应用平台AppStage——AI原生应用引擎总架构师陈星亮采访片段。

AI Agent 当前的能力

问:首先要谈的就是 AI Agent 现阶段的能力,大家现在是如何应用 AI Agent 的?具体落地场景有哪些?

陈星亮:针对企业场景进行 AI Agent 能力创新时,多数是从 IT 场景开始的,因为该场景拥有较为完善的信息化基础。在这一过程中,我们遵循两个主要原则:一是先易后难,我们首先从普遍性场景开始,然后逐步向专业化场景演进;二是保障效果,无论开发哪种场景的 AI 应用,都必须确保其有效性。

办公和编码领域被广泛认为是 AI Agent 应用的切入点,因为这些场景相对通用,容易实现。随着技术的进步,我们将 AI Agent 的应用延伸到更复杂的场景,例如:

  • 办公领域:AI Agent 可以用于自动生成会议纪要或设计文档,这些任务比简单的代码生成或文本创作更具挑战性,需要更深层次的场景理解和更高级的语言处理能力。

  • 销售或服务领域:AI Agent 可以用于合同审核或法律条文的辅助生成,这要求 AI Agent 不仅要理解法律术语,还要能够处理复杂的逻辑关系。

  • 网络设备监控:在对网络设备进行监控的基础上,AI Agent 可以执行自动巡检任务。这要求 AI Agent 不仅要处理专业数据,还要能够理解并应用信息化积累的知识。


问:大家首次接触到 AI Agent 大概是在什么时候?从本质上讲,AI Agent 与大模型的区别究竟体现在哪些场景上?最核心的区别是什么?

陈星亮:Agent 这个概念,实际上在大模型出现之前就已经存在了。在进行 IT 系统集成或设计某些自动化流程时,其实已经有 Agent 这一层了,尤其是在设备与外界交互的环节,而那时还没有将大模型技术整合进来以实现更广泛的泛化能力和生成式能力。

大模型技术引入后,起初我们并没有考虑将其应用于设备控制或高度交互性的 IT 系统交互中,而主要看中其在创作和生成内容方面的潜力。之前我们在设备代理方面的工作与 AI Agent 的概念思路颇为相似,只是随着大模型的加入,AI Agent 的能力和应用场景都发生了变化。当我们将这些结合起来后,认识到了 AI Agent 的真正面貌。因此,如果仅从 IT 系统的能力角度来看,AI Agent 这个概念并不神秘,不过是通过引入大模型为 AI Agent 带来了更多能力,从而丰富了其功能。


问:想问一下陈老师,在代码和办公场景,Agent 可以从哪些方面提升效率?有哪些 bad case?

陈星亮:我先谈谈 Agent 给一些稳定场景带来的效率提升作用,如设计文档生成和合同中法律文本的生成等。在一些应用场景相对明确、法律条文引用也相对模式化的特定领域,如可靠性设计或安全威胁设计,Agent 的表现在业务用户看来感知和体验都非常好,准确度也相当高,显著提升了工作效率。目前,我们也在将 Agent 应用于网络设备巡检等生产场景。尽管巡检过程中会遇到各种意想不到的问题,但对于那些已有案例库和解决方式库的巡检,Agent 都能够发挥作用,并帮助提高巡检效率、简化人力的工作。

然而,也有一些不尽如人意的地方。Agent 刚推出时,大家对它寄予厚望,导致在选择应用场景时没有过多限制,业务团队提出了许多要求较高的场景,想要用 Agent 去解决未知的问题。这些要求的实际难度很大,而 Agent 在处理未知问题时的能力有限。因此,如果要在企业场景中有效利用 Agent,合理选择业务场景非常重要。否则,Agent 的效果可能不会达到预期,甚至可能非常差。


问:Agent 目前的发展状况如何?是否已经达到了一个平台期,还是仍然有很大的提升空间?是否依赖于某些特定的背景?

我认为 Agent 主要依赖于大模型的 Function Call 能力,需要准确地识别出当前调用哪个模型来完成当前任务,并提供相应的结果,以便大模型进行下一步操作。而瓶颈可能在于读取上下文的长度,上下文长度决定了能够识别多少个函数。Agent 在执行过程中受限于场景,只能在有限的函数中进行选择,其执行也不完全精确;如果执行不精确,就需要获取更多的环境信息或反馈信息来执行函数,过程中可能会出错。Agent 是一个精妙但不够鲁棒的系统,如果它返回到上一级并根据错误信息重新执行,可能会带来更大的资源消耗和时间延迟。

陈星亮:在企业场景中实施 Agent 时,我们首先需要考虑的是技术的可实现性。在挑选场景的过程中,就要考察技术是否可行;一旦场景确定,接下来需要考虑的是如何提高 Function Call 的准确度,如果准确度不够高,需探索其他工程手段来提升 API 的识别准确率,甚至在语义理解之后通过额外的工程能力进行调整、校验生成的 API 并通过查询方式进行补充。企业面临的最大挑战之一就是需要重复性地进行这类工作。目前我们也在探索长序列处理、记忆的短、长期存储以及上下文空间的扩展等技术,以期在未来实现更多的技术突破。

在具身智能领域,企业场景中也在逐渐引入多模态技术,尤其是当与操作技术领域(OTA)的设备关联时。多模态技术的引入包括传统的视觉识别等,将进一步增加系统的复杂性。如果大模型在这些领域取得显著进展,那么在企业 IT 融合场景中的工程难度将大大减少。目前,我们在工程实践中仍需进行大量技术工作,这些工作的管理复杂性甚至超过了传统的微服务架构。

我相信,随着技术的进步,未来将有很大的空间来改进现有的工程能力,减少人工干预,让大模型承担更多的工作。无论是让大模型自行处理,还是让 Agent 框架沉淀出更多稳定的框架性技术,都是未来技术发展的趋势。我对大模型在未来的迭代和改进抱有很高的期待,相信它们将带来更好的效果,并减轻当前工程化实践中的一些负担。


问::是否可以认为大模型做好了就不需要 Agent 了呢?

陈星亮:aPaaS 主要是基于行业内现有的资产或经验,实现程度化代码开发,降低开发门槛,通过拖拉拽的方式快速构建简单的应用程序。随着大语言模型代码生成能力的出现,零/低代码平台受到了较大的冲击。曾经有观点认为,大模型的出现可能会使得低代码或零代码的开发方式变得不再必要。实际上,我认为情况并不会如此。

零/低代码平台可以有效地融合大语言模型的能力,让大模型直接参与代码生成。以前需要通过拖拉拽来实现的功能,现在可以通过自然语言处理(NLP)的方式进行交互,提供更直观、友好的用户体验,并帮助理解业务用户原始的语意,以更好地生成低代码或零代码应用。我认为零/低代码平台和大模型之间更多的是一种合作关系。低代码平台上已经积累了大量的业务资产,而大模型可以将其作为插件调用,两者结合将发挥出更大的潜力。


AI Agent 的落地挑战

问::在大语言模型不提升或通用大语言模型更新周期较长的情况下,如何利用现有工具和能力取得良好成果?有哪些方法或策略?

陈星亮:企业内部考虑事务时主要关注两点,都与数据紧密相关。首先是文档处理的问题,在企业中,非结构化文档往往是承载信息的主体,处理这些文档不仅要识别文档类型,还包括对复杂文档的解析,如图文混排和包含复杂表格的文档。这些内容在原有的基础上,需要对文档类型识别的范围进行扩展,但在企业内部对这种复杂文档的解析仍是一个较大的挑战。

其次关于原有数据的利用问题,特别是在生产场景中,一般都具备专业领域的背景。以设备巡检为例,它与设备的领域知识密切相关,这种情况单靠企业自身的私域数据积累可能不够,需要在行业内去做垂域模型。目前,我们期望通过 Agent 技术的发展,能够让更多企业在通用场景中体会到 Agent 带来的好处,从而愿意将自己内部的结构化数据进行区分,将企业机密数据与可对外开放的数据分离,并逐步开放一些行业公共数据,这将有助于构建每个行业的垂直领域模型,为未来企业场景和 Agent 的发展带来巨大的好处。


问::初期部署 Agent 的成本是否高昂?是否能够带来相应的收益?能否实现成本的回收和价值回报?

陈星亮:企业部署 Agent 时,成本问题是一个必须考虑的重要因素,并且需要结合业务团队的期望以及对目标的评估来共同考量。初期企业主要探索通用场景时,成本通常是较低的。随着业务场景的成熟,以及越来越多的用户和业务团队成员开始使用这些场景,成本就会开始上升。特别是当场景全面开放并开始构建更多场景时,就可能需要多套模型和版本,模型也需要不断地做飞轮进行迭代和优化,成本可能会指数级增长。

因此,在正式对外放开并大规模使用 Agent 之前,与业务团队进行充分沟通和期望管理是非常重要的,需要让业务团队明白,业务场景真正对外开放并吸引大量用户使用后将会涉及到哪些成本。同时,业务团队也需要评估这些成熟场景能够带来的价值,如对客户满意度和内部效率提升的贡献。当业务团队获得这些信息并进行综合评价后,他们对预算和投入的决策将会更加明智,这样的过程有助于确保 Agent 部署的成本得到合理评估和控制,并带来相应的价值回报。


问:在部署 Agent 时可能会遇到哪些安全方面的问题?目前是否有一些比较成熟的工具可以用于保障 Agent 的安全性?同时,是否可以认为 Agent 的安全性主要取决于其底层大模型的安全性?

陈星亮:首先,Agent 的安全性并不仅仅由大模型决定,模型安全只是一部分,还涉及应用安全和数据安全。对企业来说,对安全性的投入无论多少都不为过。无论在引入模型时,还是实际使用过程中,包括 Agent 框架都需要进行安全检查。例如,使用开源框架组件时需要进行安全审查,运行时需要对模型的输入输出内容进行监控,以及对应用框架进行访问控制,防止调用越权等。

在企业原有的安全体系内构建 Agent 的安全性会更好一些,在华为云内部,我们基于 AI 原生应用引擎等平台,当 Agent 对外提供服务或与模型进行交互时,利用内部原有的数据安全、应用安全和内容安全方面的技术,对内容进行检查和过滤。Agent 的安全性需要在现有基础上,结合 Agent 之间的技术组件交互以及场景特有的安全要求来综合考虑和实施。


问:面对多智能体协同框架的开源与闭源发展,应该如何选择合适的技术路线和框架,以减少试错过程并确保系统不会被行业不断的更新迭代所淘汰?

陈星亮:我认为应该分开考虑。对于 Agent 的开发框架,目前开源的选择比较多,都有很多可用的资源。鉴于 Agent 领域本身正在快速发展,选一个团队成员熟悉且操作顺手的框架,然后跟随其发展进行使用。而对于 Agent 的运行时环境,进入企业生产环境后,我建议使用闭源解决方案。理想的状态是,在企业现有的基础设施基础上进行必要改造,以便将 Agent 的运行时环境纳入统一管理和运维体系中,确保运行时的稳定性和安全性。


AI Agent 的未来前瞻

问:从长远来看,企业中 Agent 的落地是否会对某些现有的职业造成冲击?比如普通员工、现有商业模式、提供 API 服务的 SaaS 公司以及供应商等。Agent 的普及和应用会带来怎样的影响?

陈星亮:对于员工而言,随着技术的发展,未来使用 Agent 和大模型将成为他们需要掌握的技能,尤其是提示词。员工至少需要学会如何使用 Agent,就像现在进行零代码应用开发一样,将其作为日常办公工具的一部分。对于企业,尤其是传统 SaaS 公司来说,Agent 和大模型的引入已成为明显趋势。一些大型 SaaS 公司,已经开始将大模型集成到平台中,将 Agent 框架和集成外部大模型的能力嵌入到二次开发和应用中。传统 SaaS 公司如果不加入到这个发展潮流中,可能会影响产品体验,建议一定要去拥抱大模型和 Agent。


问:请介绍一下目前单智能体落地的情况,以及它与公司当前技术架构的结合方式。多智能体的具体架构是如何建设的?

陈星亮:在原有的技术架构体系中,目前大家使用的较多的是 Web 应用、微服务,有时还会使用函数技术体系。我们可以将 Agent 和大模型引入进来,先进行隔离,用于特定的场景。这些场景必然会与现有的微服务体系或函数体系进行交互。这时可以采用集成的方式进行,而不是直接使用大模型的 Function Call 方式。这样实施难度会小一些,而且也能让 Agent 发挥作用。当技术团队逐渐掌握了 Agent 和大模型这套技术,就可以开始取代一些现有的应用。这样的过渡不仅有利于架构的演进,也有助于技术团队的能力培养。


问:Agent 未来的发展趋势将是怎样的?当它们发展到一个成熟的阶段后,将会呈现出什么样的形态?

陈星亮:在企业场景中,Agent 目前主要扮演辅助角色。我们正在考虑的是,Agent 是否能够从围绕特定场景服务转变为围绕特定人员服务。随着这一趋势的逐步发展,我们可以设想,未来某些人的工作是否会逐渐被 Agent 取代,这可以在分工上进行明确划分。我认为,当 Agent 真正能够在企业中提升效率并降低成本时,就达到了真正的成熟阶段。


问:Agent 落地过程中可能会遇到一些难以实现的场景,这就需要我们在筛选场景和逻辑执行上进行深入的思考,最终的理想状态是以人的方式来看待 Agent:作为智能体能够取代当前人类的多少工作。Agent 概念并非是大模型出现后才产生的,但确实又是一直存在的。智能体这个词,最常见的体现可能就是人类自己。人类可以作为 Agent 选择任务难度的度量,同时也可以作为 Agent 的驱动方向。

如果有一天 Agent 真的取代了所有的工作,人类应该干什么?我想,这时人类最重要的价值就是发挥自己的需求。Agent 服务的目标永远是人本身,人类有需求,才会有 Agent 去做这件事情。人类是需求的发起方,Agent 只是去满足需求的一方。因此,人类仍然拥有最终的评价权和评估权,这种能力是大模型无论如何发展都无法达到的,除非 Agent 拥有像人一样的肉身,有自己的激素欲望和生理限制。

陈星亮:首先,我认为 Agent 的未来是充满无限可能的。无论是在各个行业,还是在 ToB 或 ToC 的体系中,人类社会有各式各样的场景需要 Agent 来提供支撑,因此它的发展前景是极其广阔的。其次,我相信 Agent 将是一个多样化的存在,无论是在技术实现还是在业务场景的应用上。目前 Agent 技术的发展呈现出百家争鸣的局面,这对技术行业来说是一件好事,意味着有更多的行业场景愿意尝试采用 Agent,并进行投资。在这样的投入下,技术可以快速发展,进而更好地探索未知领域。

最后,在 Agent 向前发展的过程中,我们也需要正视现实情况。当前无论大模型还是 Agent 框架本身的发展,下一步的方向似乎还不是很清晰。我相信未来还会有更多新技术不断涌现,将推动 Agent 的发展,使企业和个人的诉求和场景得以实现。


文章摘自:InfoQ

原文链接:https://www.infoq.cn/article/xLryHtsN1PFPMuhquhAr?utm_campaign=geek_search&utm_content=geek_search&utm_medium=geek_search&utm_source=geek_search&utm_term=geek_search


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。