Loading......

文章背景图

AI Agent 核心概念整理

2026-05-18
14
-
- 分钟
|

前言:准备补充学习大模型应用开发相关技术栈,后面也投一投对应的大模型岗位,这里整理一下关于 Agent 的一些基础概念

一、Agent 相关基础概念

在深入学习 AI Agent 技术体系之前,我们需要先吃透一系列核心基础概念。这些概念是理解大模型应用、智能代理开发、AI 工具落地的核心基石,也是前后端开发、测试、AI 应用岗位面试中的高频考点,熟练掌握能够帮助我们搭建完整的 AI 技术认知体系。

1. LLM:大语言模型

LLM 的全称为 Large Language Model(大语言模型),是整个 AI Agent 系统的底层核心引擎,也是所有 AI 对话、推理、任务执行应用的基础核心。我们可以将其类比为人类的大脑,市面上主流的 ChatGPT、Claude、DeepSeek 等人工智能产品,其核心底层均为大语言模型。

核心要点:

大语言模型具备自然语言理解、逻辑推理、内容生成、语义解析等核心能力,能够对人类语言进行精准解读,并根据输入信息完成思考、判断与内容输出。在整套 Agent 系统架构中,LLM 承担着中枢决策的作用,是所有智能行为、工具调用、任务规划的核心主体。

2. Token:文本处理单位

Token 是大语言模型处理文本数据的最小基础单位。与人类直接以句子、词语为单位理解文字不同,大模型无法直接识别完整的自然语句,所有用户输入、系统指令、对话内容、文档文本,都会先经过分词器(Tokenizer)进行拆分切割,转化为一个个独立的 Token,再交由模型进行处理运算。

Token 是把控大模型调用的核心关键,几乎所有模型使用的核心限制与成本规则都围绕 Token 数量展开,其中最核心的三大相关概念为:上下文长度(Context Length)、模型输入输出限制、接口调用成本。简单来说,文本内容越长,拆分后的 Token 数量越多,对应的调用成本越高、占用的上下文资源也越多。

3. Context:临时记忆

Context 即上下文,我们可以将其通俗理解为大模型在单次、连续任务执行过程中可读取、可参考的全部临时信息,等同于模型的“临时记忆”,直接决定了模型当前的思考依据和回答范围。

Context 的完整组成内容:

并非仅包含用户的提问,一套完整的上下文信息涵盖多个维度,包括用户实时提问内容、历史全部对话记录、系统预设角色指令(System Prompt)、可调用的外部工具列表、模型当前生成的输出内容,以及通过外部检索获取的知识库结果。这些信息共同构成了模型的决策依据。

核心限制说明:Context 并非无限承载,它存在固定的容量上限,行业内称之为 Context Window(上下文窗口)。一旦对话内容、检索信息、指令内容的总 Token 量超出窗口上限,模型会自动舍弃早期的历史信息,出现“遗忘前文、上下文断裂、回答偏离需求”的问题,这也是大模型对话失忆、长文本任务出错的核心原因。

4. RAG:检索增强生成

RAG 全称为 Retrieval-Augmented Generation,中文释义为检索增强生成,是目前解决大模型知识滞后、私有知识缺失、上下文不足问题的主流核心技术方案,广泛应用于企业知识库、智能问答、垂直领域 AI 助手等场景。

核心设计思路:摒弃传统“将所有文档数据一次性塞入模型上下文”的低效方式,采用“先检索、后生成”的逻辑,先从专属知识库中精准筛选出与用户问题高度匹配的核心文档片段,将有效信息输入模型,再由大模型结合检索内容与自身能力生成精准答案,极大提升了回答的专业性和准确性。

典型执行流程:

用户问题 → 语义检索匹配知识库 → 筛选精准相关文档片段 → 整合内容并入 Prompt 指令 → 大模型生成专业答案

RAG 核心解决的两大行业痛点:

第一,弥补大模型知识盲区。原生大模型的训练数据存在时间截止限制,且无法获取企业内部业务数据、私有文档、专属业务知识,通过 RAG 可以对接私有知识库,让模型精准回答垂直领域、企业内部的专属问题。

第二,缓解上下文窗口容量不足的问题。无需将海量全量文档加载到上下文,仅按需检索、加载有效片段,大幅节省上下文资源,避免长文本场景下的信息溢出问题。

5. Prompt:指令

Prompt 即提示词、指令,是用户或系统传递给大模型的核心指令,直接定义模型的工作任务、执行规则、输出标准,是决定大模型输出内容质量、贴合度、规范性的关键因素。在实际应用中,Prompt 主要分为 User Prompt 和 System Prompt 两大类,分工明确、各司其职。

类型

说明

示例

User Prompt

由用户主动输入,明确具体的任务需求、执行目标,决定模型需要完成的核心工作

"帮我排查代码中的 bug 并给出优化方案"

System Prompt

由系统提前预设,用于定义模型的身份角色、行为准则、输出风格、约束规则,限定模型的工作逻辑

"你是一名资深的后端开发工程师,擅长代码调试与性能优化,回答简洁专业、逻辑清晰"

简单总结:User Prompt 定义“模型要做什么任务”,System Prompt 规范“模型按照什么标准、什么身份、什么规则去做事”,二者配合才能产出高质量的 AI 输出结果。

6. Tool:外部工具

Tool 即外部工具,是大模型能力的核心扩展载体,本质可以理解为可供模型自动调用的后端接口、功能脚本、第三方能力平台。原生大模型仅具备文本理解、推理、生成能力,无法联网获取实时信息、操作本地文件、调用业务系统、执行代码命令、查询数据库数据,而 Tool 的存在,完美补齐了大模型的能力短板。

如果将 LLM 比作 AI 的大脑,负责思考、决策、规划,那么 Tool 就是 AI 的手脚和工具箱,让模型能够突破原生能力限制,落地各类实操类、实时性、业务性任务。

任务场景

对应调用的 Tool 能力

查询实时天气信息

调用第三方天气查询 API 接口

查询用户订单数据

对接企业内部订单管理系统

自动化运行项目测试

调用自动化测试脚本工具

生成前端页面代码

对接 Figma 设计工具、代码生成工具

二、工具接入标准与执行框架

7. MCP:工具接入标准

MCP 全称为 Model Context Protocol,即模型上下文协议,是一套统一、通用的 AI 工具与数据源接入标准。在 MCP 标准诞生之前,不同大模型、不同 AI 开发平台、不同业务系统都拥有各自独立的工具接入规范,开发者想要对接多个工具、适配不同模型,需要重复开发、多次适配,开发成本高、兼容性极差。

我们可以用通俗的比喻理解 MCP 的价值:MCP 就相当于 AI 应用领域的 Type-C 通用接口,只要各类外部工具、数据源按照这套统一标准开发、暴露自身能力,那么所有 AI 模型、AI 应用都可以直接无缝接入,无需重复改造适配。

MCP 核心价值:

一方面实现工具接入标准化,彻底解决多模型、多平台适配繁琐的问题,大幅降低 AI 工具开发与对接的人力成本和时间成本;另一方面支持工具的热插拔式扩展,开发者可以自由新增、移除、替换工具,无需改动主体代码,让 AI 应用的能力迭代更加灵活高效。

8. Agent:自主执行系统

Agent 是基于大语言模型深度封装打造的自主任务执行系统,也是 AI 应用从“被动问答”走向“主动干活”的核心形态,彻底打破了传统大模型的交互局限。

传统普通大模型的交互模式是被动响应,遵循“一问一答”的逻辑,用户输入指令,模型单次输出结果,无法自主规划、持续执行复杂任务。而 AI Agent 具备自主思考、任务拆解、步骤规划、工具调用、结果校验、迭代优化的全流程能力,用户仅需要给出一个最终目标,Agent 就可以自主完成全流程工作,直至任务闭环落地。

行业主流的 Agent 构建模式:

第一种是 ReAct 模式,核心逻辑为推理 + 行动(Reasoning + Action),模型在执行过程中实时思考、实时决策,边推理边执行,根据实时反馈调整后续动作,适配动态多变的任务场景。

第二种是 Plan and Execute 模式,核心逻辑为先规划后执行,模型会先根据用户目标拆解出完整、清晰的任务执行计划,梳理分步流程,再按照既定计划逐步落地执行,整体流程更规整、可控性更强,适配固定流程的标准化任务。

核心价值总结:AI Agent 的出现,让大模型的能力从单纯的“文本生成、问答互动”,升级为可自主落地的“全流程任务执行”,是 AI 实现自动化办公、自动化开发、智能业务处理的核心核心载体。

9. 常见 Agent 产品

目前市面上已经落地了多款成熟的 AI Agent 产品,覆盖代码开发、软件工程、智能开发工作台、个人自动化助理等多个场景,这类产品的核心共性是不再局限于简单的问答交互,而是深度融入实际工作流程,实现全流程自动化作业。

产品

类型定位

Claude Code

偏向专业代码开发的智能 Agent,专注项目开发、代码编写与调试

Codex

偏向全流程软件工程的智能 Agent,适配项目搭建、工程优化、代码维护等场景

Trae

AI 赋能的集成式开发 IDE 工作台,整合编码、调试、优化、答疑全能力

OpenClaw

偏向个人日常办公的智能助理 Agent,主打日常任务自动化执行

其中,Claude Code 和 Codex 聚焦技术开发场景,能够独立完成读取项目代码、编写新功能、修复程序 bug、运行测试用例、优化代码性能等开发工作;Trae 作为智能化开发工具平台,将 AI 能力深度嵌入开发流程,提升整体开发效率;OpenClaw 则聚焦个人办公场景,可自动处理邮件、管理日程、执行日常重复任务,实现办公自动化。

10. Agent Skill:任务说明书

Agent Skill 是专门为 AI Agent 设计的标准化任务能力手册,相当于 Agent 的专属“任务说明书”。其核心作用是统一 Agent 的任务执行标准,明确不同场景下的执行逻辑,避免因模型随机推理导致的输出不规范、流程混乱、结果不一致等问题,让 Agent 的任务执行更加稳定、标准化、可复用。

Skill 会清晰定义每一项技能的适用场景、核心目标、详细执行步骤、约束规则、输出格式以及标准示例,让 Agent 在匹配对应任务时,严格按照既定流程落地,杜绝随意发挥。

单条 Skill 主要分为两大层级:

层级

包含核心内容

元数据层

包含技能名称(name)、功能描述(description),用于 Agent 快速匹配任务场景,判断是否需要启用该技能

指令层

包含任务核心目标、详细执行步骤、执行约束规则、统一输出格式、标准案例示例,是 Agent 执行任务的核心依据

技术实现方式:

在实际开发中,绝大多数 Agent Skill 都会以独立 Markdown 文档的形式存储(通常命名为 SKILL.md),统一放置在项目指定目录下,方便管理和迭代。Agent 处理用户需求时,会先通过元数据的名称和描述进行快速模糊匹配,仅当任务与技能场景高度契合时,才会加载完整的指令层内容执行任务。这种按需加载的方式,既能大幅节省上下文 Token 资源,又能有效统一任务执行标准,提升 Agent 输出的稳定性和规范性。

Skill 与 Tool 核心区别对比:

对比维度

Tool(工具)

Skill(技能)

核心本质

单一的外部能力接口,侧重一次性功能调用

完整的标准化任务流程规范,侧重多步骤任务闭环

覆盖范围

仅完成单个独立操作,能力单一

覆盖整套复杂任务,是标准化的任务执行模板

触发方式

模型根据任务需求,按需灵活调用

根据具体业务场景自动匹配、加载启用

三、概念关系总结

四、面试要点速记

整理高频面试核心考点,用精简易懂的一句话总结,方便快速记忆、复盘备考:

核心概念

一句话核心释义

LLM

AI Agent 系统的核心大脑,承担语义理解、逻辑推理、内容生成、决策判断的核心作用

Token

大模型处理文本的最小单位,直接决定模型调用成本、输入长度与上下文占用资源

Context

模型的临时记忆空间,承载对话、指令、检索等全部信息,受上下文窗口容量限制

RAG

通过先检索、后生成的模式,补齐模型私有知识短板,同时解决上下文溢出的行业痛点

Prompt

驱动模型工作的核心指令,分为定义任务的用户指令和规范规则的系统指令两类

Tool

大模型的外部能力扩展载体,类似后端 API,让模型具备实操、联网、调用业务系统的能力

MCP

AI 工具统一接入标准,如同 Type-C 接口,实现工具跨模型、跨平台无缝适配

Agent

基于大模型封装的自主执行系统,可自主拆解任务、规划流程、调用工具、闭环落地任务

Agent Skill

Agent 的标准化任务说明书,统一任务执行流程与输出标准,让智能执行过程更稳定可复用

评论交流