【愚公系列】《扣子开发 AI Agent 智能体应用》001-智能体概述

💎【行业认证·权威头衔】
✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家
✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主
✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域的技术布道者
🏆【荣誉殿堂】
🎖 连续三年蝉联"华为云十佳博主"(2022-2024)
🎖 双冠加冕CSDN"年度博客之星TOP2"(2022&2023)
🎖 十余个技术社区年度杰出贡献奖得主
📚【知识宝库】
覆盖全栈技术矩阵:
◾ 编程语言:.NET/Java/Python/Go/Node…
◾ 移动生态:HarmonyOS/iOS/Android/小程序
◾ 前沿领域:物联网/网络安全/大数据/AI/元宇宙
◾ 游戏开发:Unity3D引擎深度解析
🚀前言
在大模型技术爆发之前,智能体(Agent)的功能与体验受限于人工智能(ArtificalIntelligence,AI)技术,简单地讲,就是受限于“大脑”不够聪明。而当前 AI 技术在大模型上的突破与爆发,使得 AI Agent技术也变得成熟并迅速火爆起来。大模型在生成、计算以及逻辑推理能力上都实现了质的飞跃,从而让 Agent能够为用户带来更多的功能和更好的体验。本章将介绍 Agent 的背景知识,帮助读者对智能体有个一般性的认识。
🚀一、智能体概述
🔎1.为什么需要一个智能体 (Agent)
为了体现当代 Agent 依赖于人工智能大模型的能力,我们将其称作 AI Agent、AI 智能体或者人工智能体,还有一些文章将其直译为“AI代理”。目前,在计算机、人工智能专业技术领域,一般将 Agent 或 AI Agent 统一翻译为“智能体”。在信息技术飞速发展的当下,人工智能领域持续推陈出新,智能体与 DeepSeek 大模型成为近期科技圈的焦点。在此时代背景下,“智能体+DeepSeek”正崭露头角,有望开启下一个重大的 IT 发展浪潮,引领未来变革,成为科技领域的下一个风口。
🦋1.1 AI的发展历程
要向读者讲清楚智能体的概念,我们首先需要了解人工智能(AI)的基本概念。AI 是指通过计算机程序模拟人类智能的技术。这些程序可以执行诸如学习、推理、规划、自然语言处理等任务。自 20 世纪 50 年代 AI 概念提出以来,AI 技术经历了多次重大的突破。AI 的发展历程可以分为以下几个重要阶段:
- 初期发展阶段(20世纪50年代—20世纪70年代):这个阶段的 AI 研究主要集中在符号主义和逻辑推理上。艾伦·图灵提出了图灵测试,作为衡量机器是否具有智能的标准。1956年的达特茅斯会议确定了人工智能这个概念,被认为是 AI 研究的开端。因此,1956 年也被称为人工智能元年。
- 早期发展阶段(20世纪80年代—20世纪90年代):这一时期,专家系统成为 AI 研究的主要方向。专家系统通过编码专家知识来解决特定领域的问题,取得了显著的成果,但也暴露出知识获取难题和系统僵化等问题。
- 现代发展阶段(21世纪—):随着计算能力和数据量的爆炸式增长,机器学习特别是深度学习技术迅速发展。AI 系统从依赖预定义规则转向通过数据训练模型,实现了图像识别、自然语言处理、自动驾驶等多种复杂任务。
🦋1.2 Agent 能解决什么问题
大语言模型(Large Language Model, LLM,简称大模型)是近年来人工智能领域的重大突破之一。大模型旨在理解和生成人类语言,它们在大量的文本数据基础上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等。大模型的特点是基于神经网络、自然语言处理(Natural Language Processing,NLP)技术,多轮对话和写作生成能力非常优秀。尤其是像 GPT-4 这样的大语言模型,简直就是 AI 界的“超级明星”。这些模型通过海量的数据训练,具备强大的自然语言处理能力,可以生成高质量的文本,进行复杂的对话。例如,GPT-4 在文本生成和理解任务中就像是“语言魔法师”。大模型能适应不同的应用场景,从生成文本到处理对话,再到复杂的决策任务,样样在行。大模型能够生成高质量的自然语言文本,就像一个写作天才,永远不会有创意枯竭的时候。
现在已经有了 AI 大模型,例如 DeepSeek、OpenAI 的 GPT、字节的豆包等,为什么又出现了 Agent,这是刻意为了显得厉害搞出来的概念吗?
我们列举个例子,当你想要让大模型帮忙整理一篇文章,假设你这样问大模型:请你帮我生成一篇 100 万字的武侠小说。这个时候,AI 大模型给你什么答案?是不是写不出这么多字,也给不出你想要的答案?
为什么会出现这种问题?是不是 AI 大模型不够厉害?假设这件事让我们人类来做,我们一般会按照如下流程来完成这件事:
第一步:使用搜索引擎搜索一些相关书籍和信息进行阅读,为我们打开思路。
第二步:形成本书的大纲,并且考虑清楚每一个章节要编写的内容。
第三步:针对每一个章节进行内容的编写,在编写过程中可能会调整文章的大纲。
第四步:在编写后面章节的时候,可能会忘记前面写的内容,需要翻阅前面已经完成的内容。
第五步:文章初步完成之后,我们可能会找相关专业人士帮忙修改和审阅。
第六步:也是最后一步,经过几番调整之后,书稿最终成型。
大模型不能直接完成这件事,是大模型的能力不行吗?不是的,这是因为明显缺少了几个步骤:没有办法使用搜索引擎获取最新的外部信息(大模型的训练数据是以往数据,有日期限制的);没有对整个事情进行规划(比如先写大纲,再编写每个章节,然后和别人讨论,最后成文);大模型没有记忆的能力,由于上下文(脑容量)的限制,无法一次性完成 100 万字的文章,会造成前言不搭后语的现象。
而智能体 Agent 就是为了解决这个问题。思考一下,为了完成这个任务,我们用到了这些操作:上网查询、分解任务、逐步规划、审核修改。这里面涉及规划、思考、步骤等操作,还用到大脑、手、计算机或者助手等“工具”。大模型在这个过程中只充当了大脑思考的角色,它没有额外的工具、没有规划和额外步骤,因此这个任务交给它,它是无法单独完成的。为了让大模型能够真正满足我们的要求,我们需要给它配备上网查询的能力、使用工具的能力、分解任务的能力等。
这就是 Agent 的价值,它使得大模型不仅仅是一个大脑,而且还是一个能做规划、能使用工具的类人智能体。
再举几个例子:假设你让大模型帮你写工作日报,可以不可以?可以,但操作会很复杂。AI Agent 写工作日报就不同了,设定好格式、语气、任务等关键信息,你只需要口语化告诉它做了什么,剩下的事它会帮你自动完成。
假设你让大模型帮你写一篇软文,可以不可以?可以,但操作同样复杂,来来回回折腾几遍可能还不能让你满意。用 Agent 来写软文就不同了,提前设定好标题、开头、内容和语气等关键信息,告诉 Agent 你要写什么主题内容,它就能按照设定一步一步帮你完成。
假设你去旅游,让 AI 帮你介绍景点信息,可以不可以?可以,但是每次你都要主动发问,AI 还不一定回答正确。用 Agent 就不同了,按照景点情况设定好 Agent,你走到哪,它就会告诉你景点的相关信息;你问他洗手间在哪,它还可以根据你的位置给你指定最近的洗手间。
通过上面介绍的这些例子,我们理解了 Agent 和大模型使用起来到底有什么不同。简单来说:大模型相当于可以咨询的大脑,Agent 相当于有智慧又能干活的机器人。
🔎2.认识 Agent
大模型时代,Agent 将基于大模型构建,此时的 Agent 是一种能够感知环境、进行决策和执行动作的智能体。是否具备通过独立思考、调用工具逐步完成给定目标的能力,成为基于大模型的 Agent 与基于传统 AI 技术的 Agent 之间最大的不同。这个区别也是很多人在给当代 Agent 下定义时一直强调的要点。例如,告诉 Agent 帮忙下单一份外卖,它就可以直接调用 App 选择外卖,再调用支付程序下单支付,而无须人类指定每一步的操作。
🦋2.1 Agent 的组成
OpenAI 研发出 ChatGPT 并持续引领大模型发展,它定义 AI Agent 就是由大模型驱动,由规划决策(Planning)组件、记忆(Memory)组件、工具(Tools)组件、行动(Action)组件等组件组成的可以自主执行任务的程序,如图 1-1 所示,它就像一个代替人类完成工作的代理人。Agent 各个组件的作用概括如下:
- 规划决策组件:依赖于大模型自身的能力和提示词的指引,让模型反思和自我批评,并把任务分解成多个步骤,然后逐个完成。
- 记忆组件:分为短期记忆和长期记忆两种类型,用于记住沟通上下文。
- 工具组件:调用各种 API,包括日历、代码解释器、计算器、搜索 API 等。
- 行动组件:说白了就是它动手干活的部分。它能根据任务选择不同的方法——要查资料就翻记忆库,要分析问题就分步推理,甚至还能自己写代码。
可以看到,Agent 类似人的大脑的思考能力和四肢的执行能力。有了这些能力,Agent 可以被认为是一种类人智能体。

可以用一个不太恰当的比喻来说明:大模型(LLM)就像是人的大脑,而 Agent 则是人本身。大模型只有输入输出功能,而 Agent 则包括大模型、规划、记忆和工具。以前,智能机器人无法“理解”人类语言,但随着 AI 大模型的发展,它们开始“理解”人类语言,这使得 Agent 的能力得到了显著提升。未来,Agent 将在各个领域发挥重要作用,日益改变我们的生活和工作。
🦋2.2 Agent 每个模块的作用
我们用一个管理花园的园丁的例子来说明组成 Agent 的每个模块的详细作用。
- LLM(大模型):就像园丁的智慧和知识库,他阅读了海量的园艺书籍和资料,不仅知道各种植物的名字,还懂得如何照顾它们。在 AI Agent 中,LLM 提供了庞大的信息存储和处理能力,以理解和响应我们提出的各种问题。以 GPT 为代表的大模型的出现,将 Agent 的理解处理能力提高到了前所未有的高度。
- Planning(规划决策):Agent 将大型任务分解为更小、可管理的子目标,从而能够有效处理复杂的任务,正如园丁需要规划整个花园的布局。AI Agent 的规划功能就像园丁制定种植计划,决定先种哪些花草,后种哪些蔬菜,或者如何分步骤修剪树冠。Agent 可以对过去的行为进行自我批评和自我反思,从错误中吸取教训,并针对未来的步骤进行完善,从而提高最终结果的质量。Agent 像人类一样一步一步思考,一步一步推理,以保证最后结果的正确性。
- Memory(记忆):在与朋友沟通的过程中,我们需要记住沟通的上下文,但对于时间久远的对话,我们可能会记不住对话过程。短期记忆就类似于对话现场记下来的内容,而长期记忆则类似于把久远的聊天过程整理成一个记忆点,随时让大脑能够回忆当时说了什么重要的事。这类似于园丁的笔记本,记录了每个植物的种植时间、生长情况和前一次施肥的时间。记忆模块让 AI Agent 能记住以往的经验和已经完成的任务,确保不会重复错误。
- Tools(工具):就像园丁的工具,比如铲子、水壶和剪刀。AI Agent 的工具模块,指的是它可以运用的各种软件和程序,帮助它执行复杂的任务。这些外部工具包括上网查询信息、代码执行、调用外部 App 等能力,就像园丁用工具进行园艺活动一样。
- Action(行动):Agent 基于规划和记忆来执行具体的行动。这可能包括与外部世界互动,或者通过调用工具来完成一个动作(任务)。
🦋2.3 Copilot(智能助手)和 Agent(智能体)的区别
业界对 Copilot 和 Agent 是否存在区别有一定的争论。Copilot 这个术语源自飞行术语,意思是副驾驶员(Co-pilot)。在飞机上,副驾驶员是协助主驾驶员操作飞机的人。Copilot 在帮助用户解决问题时起辅助作用,例如 GitHub Copilot 是帮助程序员编程的助手,它更多地依赖于人类的指导和提示来完成任务。Copilot 在处理任务时,通常是在人为设定的范围内操作,比如基于特定的提示生成答案。它的功能很大程度上局限于在给定框架内工作。
Agent 更像一个主驾驶,可以根据任务目标进行自主思考和行动,具有更强的独立性和执行复杂任务的能力。Copilot 主要用于处理一些简单、特定的任务,更多是作为一个工具或助手存在,需要人类的引导和监督。Agent 能够处理复杂、大型的任务,并在 LLM 薄弱的阶段使用工具或 API 等进行增强。
🔎3.Agent 与大模型的关系及应用领域
众所周知,Agent 的大脑是大模型。大模型作为生成式人工智能的代表,其在推理分析、任务规划等方面显示出了一定价值,自然也为智能体的决策分析环节提供了新的动力。2024年5月15日,火山引擎正式发布了豆包大模型家族。凭借更强的模型能力、更低的应用成本和更易落地的解决方案,豆包大模型在各行各业都得到了广泛的应用,其日均调用量也在高速增长。2024年5月豆包大模型刚推出时,该模型的日均 Tokens 调用量为 1200 亿,到 7 月份时涨到 5000 亿,到 9 月份涨到 1.3 万亿,截至 2024 年 12 月 15 日,已突破 4 万亿。豆包大型调用量的高速增长,是大模型市场快速发展的一个缩影。
大模型为 Agent 的发展注入了强大动力,它使得 Agent 能够突破传统的性能瓶颈。从大模型到 Agent,是 AI 真正走向落地应用的关键一步。DeepSeek 的横空出世大大加速了 Agent 的落地速度,一场深刻的科技变革悄然展开。从智能体技术市场发展来看,Agent 吸引了海量资本涌入。各大科技巨头纷纷布局,初创企业也如雨后春笋般蓬勃生长,力求在这片新蓝海中抢占先机。市场咨询机构 Gartner 将 Agent 列为 2025 年十大战略技术趋势之首。业界认为,2025 年有望成为 Agent 的商业化应用元年。
随着“Agent+大模型”的潜力逐渐显现,国内外科技巨头纷纷敏锐地捕捉到这一机遇,开始悄然布局。在国内,字节、阿里、腾讯等科技巨头积极探索与大模型 DeepSeek 的合作,试图将其技术融入自身的业务体系中。例如,在电商领域,利用 Agent 和 DeepSeek 提升智能客服的服务质量;在云计算领域,借助 DeepSeek 的高效模型,为企业提供更强大的人工智能计算服务。当技术发展到某一阶段时,往往会展现出迅猛发展的势头。毋庸置疑,“Agent+大模型”已经展现出巨大的潜力。可以说,2023 年到 2024 年的主流趋势是训练强大的大模型,因为 AI 应用的前提是得有个靠谱的“大脑”;而 2025 年开始的风口就是关注 Agent 方向,因为我们有了靠谱的大脑,如 DeepSeek、豆包大模型等,现在要做的就是完善 AI 应用落地场景。市场上开始完善 Agent 开发平台,例如火山引擎的扣子 AI 应用开发平台等。开发平台的完善,加上基础 AI 能力的提升,才有可能实现 Agent 应用场景的落地。
🦋3.1 Agent 和大模型的关系
- 角色定位相互补充:大模型作为智能中枢,通过海量数据训练形成多模态处理能力,可解析文本、图像、语音等输入并生成上下文理解;Agent 则作为执行实体,基于大模型的输出进行决策和行动,两者形成“大脑”与“肢体”的协作体系——大模型提供认知能力,Agent 实现物理或数字世界的功能落地。
- 在不同层次上相互协作:
- 感知与理解层:大模型处理原始输入(比如用户指令、环境数据),生成结构化任务目标及策略建议。
- 决策与执行层:Agent 根据大模型输出的上下文提示,结合预设规则(比如行业标准、安全限制)、实时反馈动态调整行动路径,确保任务不偏离目标。
- 动态优化层:Agent 在行动中积累的数据可反哺大模型,实现迭代升级(比如强化学习机制)。
- 在功能扩展上相互依存:
- 大模型需要 Agent 实现场景化应用:大模型的通用能力需要通过 Agent 对接具体业务场景(比如半导体制造流程优化、代码生成),才能转换为实际生产力。
- Agent 依赖大模型提升智能水平:Agent 的决策质量直接受大模型理解能力的制约,例如复杂任务拆解、跨领域知识调用等均需大模型支撑。
- 在技术实现的关键要素上相互配合:
- 规划:大模型提供任务拆解逻辑与优先级建议,Agent 结合资源约束生成可执行计划。
- 记忆:大模型提供存储通用知识库,Agent 管理短期会话数据与长期业务特征。
- 工具:大模型生成 API 调用代码或插件使用指令,Agent 调用外部接口/设备完成物理操作。
- 交互:大模型生成自然语言反馈,Agent 实现多模态人机交互界面。
🦋3.2 Agent 的应用领域
Agent 技术未来将应用于多个领域,以下是一些典型的应用场景:
- 教育辅导:Agent 可以作为个性化学习助手,根据学生的学习进度和兴趣提供定制化的辅导。通过分析学生的学习数据,Agent 可以识别学生学习的薄弱环节,并推荐相应的学习资源和练习。
- 日常办公:在日常办公环境中,Agent 能够处理日常文档、安排会议、管理日程等任务,大大提高了办公效率。例如,Agent 可以帮助你处理邮件、安排日程,并提醒你重要事项的截止日期。
- 推荐领域:在电子商务和内容推荐领域,Agent 能够分析用户的行为和偏好,提供个性化的推荐。例如,在购物网站上,Agent 可以根据用户的浏览历史和购买记录,推荐相关产品,从而提高销售额。
- 医疗诊断:在医疗领域,Agent 可以辅助医生进行疾病诊断和治疗方案推荐。通过分析大量的医疗数据,Agent 可以帮助医生更准确地诊断疾病,并给出个性化的治疗方案。此外,Agent 还可以用于患者资料的处理、疾病趋势的预测以及个性化医疗建议的提供。
- 客户服务:在客户服务领域,Agent 通过自动化处理大量的客户咨询,显著提升了服务效率和顾客满意度。智能客服机器人能够 24 小时不间断提供服务,通过自然语言处理(NLP)技术理解用户需求并给出准确回答。此外,Agent 还能够基于用户历史数据提供个性化的服务推荐。
- 股市交易:Agent 在股市交易领域也发挥着重要作用。它可以分析复杂的市场数据,为投资者提供基于数据的决策支持。通过学习大量的交易模式,Agent 能够识别出潜在的交易机会,并给出买卖建议。
- 智能交通:在智能交通领域,Agent 被广泛应用于自动驾驶车辆和交通管理系统中。它能够实时感知道路情况并作出驾驶决策,包括车辆导航、避障、车道保持以及速度控制等功能。通过持续学习和优化,Agent 在提升驾驶安全性和舒适度方面展现出巨大的潜力。
- 生产制造:Agent 可以自动化处理各种复杂的流程任务,如生产调度、库存管理和物流优化,从而提高整体效率和准确性。
在大模型时代,Agent 技术无疑是 AI 领域的一颗璀璨明珠。通过结合大模型技术,Agent 具备了更强大的语言理解与生成能力、决策能力和适应性,使其在各个领域中的应用更加广泛和深入。笔者相信,未来 Agent 会在各个方面影响我们的生活和工作。
另外,随着低代码、无代码开发理念的持续普及,低门槛易用 Agent 开发平台将吸引越来越多的非专业开发者和中小企业参与其中。更多的企业会利用其搭建适合自身业务的智能体工作流,降低开发成本和技术门槛,实现业务流程的智能化升级,从而推动整个智能体市场的进一步繁荣和发展。
🔎4.Agent 开发者如何入局
Agent 的爆火表明了 AI 在当前 IT 领域的热度和潜在价值,而且还预示着未来可能会有更多资源投入这一领域。Agent 的核心思想就是给 DeepSeek、GPT、豆包等大模型配备工具和规划等能力,使它更像人。Agent 的需求量非常大,但真正懂行的人却不多,这意味着如果你拥有开发 Agent 的能力,你将拥有大量的工作机会。对于想要提升自己职业竞争力的开发人员来说,Agent 开发可能是一个不错的选择。
对于个人开发者和小微企业来说,面临的是前所未有的机遇。个人开发者和小微企业能够以更低的成本、更便捷的方式参与到 Agent 的开发中。借助 Agent 开发平台无须复杂编程基础即可搭建工作流的特点,他们可以根据自身的创意和业务需求,快速打造出个性化的智能体应用,并应用到诸如内容创作等领域,实现业务流程自动化和智能化转型,从而提升自身的竞争力。例如,自媒体创作者可以利用扣子开发智能体,高效地生成高质量的文章、视频脚本等内容,吸引更多的粉丝和流量;店主可以利用扣子开发智能客服,及时准确地回复客户咨询,提高客户满意度,推动客户购买行为。
对于企业开发者来说,可以在智能体开发平台提供的丰富功能基础上,开发出更复杂、更具创新性的 AI 应用。例如,通过整合不同的插件、优化大模型与代码块的交互逻辑,打造出适用于特定行业的智能体解决方案,甚至可以参与到智能体工作流相关的插件开发、生态建设中,拓展自身的职业发展路径。
- 点赞
- 收藏
- 关注作者
评论(0)