AI Agent # LangChain

AI Agent 核心概念整理

rawley

2026-05-18

- 字

- 分钟

前言：准备补充学习大模型应用开发相关技术栈，后面也投一投对应的大模型岗位，这里整理一下关于 Agent 的一些基础概念

一、Agent 相关基础概念

在深入学习 AI Agent 技术体系之前，我们需要先吃透一系列核心基础概念。这些概念是理解大模型应用、智能代理开发、AI 工具落地的核心基石，也是前后端开发、测试、AI 应用岗位面试中的高频考点，熟练掌握能够帮助我们搭建完整的 AI 技术认知体系。

1. LLM：大语言模型

LLM 的全称为 Large Language Model（大语言模型），是整个 AI Agent 系统的底层核心引擎，也是所有 AI 对话、推理、任务执行应用的基础核心。我们可以将其类比为人类的大脑，市面上主流的 ChatGPT、Claude、DeepSeek 等人工智能产品，其核心底层均为大语言模型。

核心要点：

大语言模型具备自然语言理解、逻辑推理、内容生成、语义解析等核心能力，能够对人类语言进行精准解读，并根据输入信息完成思考、判断与内容输出。在整套 Agent 系统架构中，LLM 承担着中枢决策的作用，是所有智能行为、工具调用、任务规划的核心主体。

2. Token：文本处理单位

Token 是大语言模型处理文本数据的最小基础单位。与人类直接以句子、词语为单位理解文字不同，大模型无法直接识别完整的自然语句，所有用户输入、系统指令、对话内容、文档文本，都会先经过分词器（Tokenizer）进行拆分切割，转化为一个个独立的 Token，再交由模型进行处理运算。

Token 是把控大模型调用的核心关键，几乎所有模型使用的核心限制与成本规则都围绕 Token 数量展开，其中最核心的三大相关概念为：上下文长度（Context Length）、模型输入输出限制、接口调用成本。简单来说，文本内容越长，拆分后的 Token 数量越多，对应的调用成本越高、占用的上下文资源也越多。

3. Context：临时记忆

Context 即上下文，我们可以将其通俗理解为大模型在单次、连续任务执行过程中可读取、可参考的全部临时信息，等同于模型的“临时记忆”，直接决定了模型当前的思考依据和回答范围。

Context 的完整组成内容：

并非仅包含用户的提问，一套完整的上下文信息涵盖多个维度，包括用户实时提问内容、历史全部对话记录、系统预设角色指令（System Prompt）、可调用的外部工具列表、模型当前生成的输出内容，以及通过外部检索获取的知识库结果。这些信息共同构成了模型的决策依据。

核心限制说明：Context 并非无限承载，它存在固定的容量上限，行业内称之为 Context Window（上下文窗口）。一旦对话内容、检索信息、指令内容的总 Token 量超出窗口上限，模型会自动舍弃早期的历史信息，出现“遗忘前文、上下文断裂、回答偏离需求”的问题，这也是大模型对话失忆、长文本任务出错的核心原因。

4. RAG：检索增强生成

RAG 全称为 Retrieval-Augmented Generation，中文释义为检索增强生成，是目前解决大模型知识滞后、私有知识缺失、上下文不足问题的主流核心技术方案，广泛应用于企业知识库、智能问答、垂直领域 AI 助手等场景。

核心设计思路：摒弃传统“将所有文档数据一次性塞入模型上下文”的低效方式，采用“先检索、后生成”的逻辑，先从专属知识库中精准筛选出与用户问题高度匹配的核心文档片段，将有效信息输入模型，再由大模型结合检索内容与自身能力生成精准答案，极大提升了回答的专业性和准确性。

典型执行流程：

用户问题 → 语义检索匹配知识库 → 筛选精准相关文档片段 → 整合内容并入 Prompt 指令 → 大模型生成专业答案

RAG 核心解决的两大行业痛点：

第一，弥补大模型知识盲区。原生大模型的训练数据存在时间截止限制，且无法获取企业内部业务数据、私有文档、专属业务知识，通过 RAG 可以对接私有知识库，让模型精准回答垂直领域、企业内部的专属问题。

第二，缓解上下文窗口容量不足的问题。无需将海量全量文档加载到上下文，仅按需检索、加载有效片段，大幅节省上下文资源，避免长文本场景下的信息溢出问题。

5. Prompt：指令

Prompt 即提示词、指令，是用户或系统传递给大模型的核心指令，直接定义模型的工作任务、执行规则、输出标准，是决定大模型输出内容质量、贴合度、规范性的关键因素。在实际应用中，Prompt 主要分为 User Prompt 和 System Prompt 两大类，分工明确、各司其职。

类型	说明	示例
User Prompt	由用户主动输入，明确具体的任务需求、执行目标，决定模型需要完成的核心工作	"帮我排查代码中的 bug 并给出优化方案"
System Prompt	由系统提前预设，用于定义模型的身份角色、行为准则、输出风格、约束规则，限定模型的工作逻辑	"你是一名资深的后端开发工程师，擅长代码调试与性能优化，回答简洁专业、逻辑清晰"

简单总结：User Prompt 定义“模型要做什么任务”，System Prompt 规范“模型按照什么标准、什么身份、什么规则去做事”，二者配合才能产出高质量的 AI 输出结果。

6. Tool：外部工具

Tool 即外部工具，是大模型能力的核心扩展载体，本质可以理解为可供模型自动调用的后端接口、功能脚本、第三方能力平台。原生大模型仅具备文本理解、推理、生成能力，无法联网获取实时信息、操作本地文件、调用业务系统、执行代码命令、查询数据库数据，而 Tool 的存在，完美补齐了大模型的能力短板。

如果将 LLM 比作 AI 的大脑，负责思考、决策、规划，那么 Tool 就是 AI 的手脚和工具箱，让模型能够突破原生能力限制，落地各类实操类、实时性、业务性任务。

任务场景	对应调用的 Tool 能力
查询实时天气信息	调用第三方天气查询 API 接口
查询用户订单数据	对接企业内部订单管理系统
自动化运行项目测试	调用自动化测试脚本工具
生成前端页面代码	对接 Figma 设计工具、代码生成工具

二、工具接入标准与执行框架

7. MCP：工具接入标准

MCP 全称为 Model Context Protocol，即模型上下文协议，是一套统一、通用的 AI 工具与数据源接入标准。在 MCP 标准诞生之前，不同大模型、不同 AI 开发平台、不同业务系统都拥有各自独立的工具接入规范，开发者想要对接多个工具、适配不同模型，需要重复开发、多次适配，开发成本高、兼容性极差。

我们可以用通俗的比喻理解 MCP 的价值：MCP 就相当于 AI 应用领域的 Type-C 通用接口，只要各类外部工具、数据源按照这套统一标准开发、暴露自身能力，那么所有 AI 模型、AI 应用都可以直接无缝接入，无需重复改造适配。

MCP 核心价值：

一方面实现工具接入标准化，彻底解决多模型、多平台适配繁琐的问题，大幅降低 AI 工具开发与对接的人力成本和时间成本；另一方面支持工具的热插拔式扩展，开发者可以自由新增、移除、替换工具，无需改动主体代码，让 AI 应用的能力迭代更加灵活高效。

8. Agent：自主执行系统

Agent 是基于大语言模型深度封装打造的自主任务执行系统，也是 AI 应用从“被动问答”走向“主动干活”的核心形态，彻底打破了传统大模型的交互局限。

传统普通大模型的交互模式是被动响应，遵循“一问一答”的逻辑，用户输入指令，模型单次输出结果，无法自主规划、持续执行复杂任务。而 AI Agent 具备自主思考、任务拆解、步骤规划、工具调用、结果校验、迭代优化的全流程能力，用户仅需要给出一个最终目标，Agent 就可以自主完成全流程工作，直至任务闭环落地。

行业主流的 Agent 构建模式：

第一种是 ReAct 模式，核心逻辑为推理 + 行动（Reasoning + Action），模型在执行过程中实时思考、实时决策，边推理边执行，根据实时反馈调整后续动作，适配动态多变的任务场景。

第二种是 Plan and Execute 模式，核心逻辑为先规划后执行，模型会先根据用户目标拆解出完整、清晰的任务执行计划，梳理分步流程，再按照既定计划逐步落地执行，整体流程更规整、可控性更强，适配固定流程的标准化任务。

核心价值总结：AI Agent 的出现，让大模型的能力从单纯的“文本生成、问答互动”，升级为可自主落地的“全流程任务执行”，是 AI 实现自动化办公、自动化开发、智能业务处理的核心核心载体。

9. 常见 Agent 产品

目前市面上已经落地了多款成熟的 AI Agent 产品，覆盖代码开发、软件工程、智能开发工作台、个人自动化助理等多个场景，这类产品的核心共性是不再局限于简单的问答交互，而是深度融入实际工作流程，实现全流程自动化作业。

产品	类型定位
Claude Code	偏向专业代码开发的智能 Agent，专注项目开发、代码编写与调试
Codex	偏向全流程软件工程的智能 Agent，适配项目搭建、工程优化、代码维护等场景
Trae	AI 赋能的集成式开发 IDE 工作台，整合编码、调试、优化、答疑全能力
OpenClaw	偏向个人日常办公的智能助理 Agent，主打日常任务自动化执行

其中，Claude Code 和 Codex 聚焦技术开发场景，能够独立完成读取项目代码、编写新功能、修复程序 bug、运行测试用例、优化代码性能等开发工作；Trae 作为智能化开发工具平台，将 AI 能力深度嵌入开发流程，提升整体开发效率；OpenClaw 则聚焦个人办公场景，可自动处理邮件、管理日程、执行日常重复任务，实现办公自动化。

10. Agent Skill：任务说明书

Agent Skill 是专门为 AI Agent 设计的标准化任务能力手册，相当于 Agent 的专属“任务说明书”。其核心作用是统一 Agent 的任务执行标准，明确不同场景下的执行逻辑，避免因模型随机推理导致的输出不规范、流程混乱、结果不一致等问题，让 Agent 的任务执行更加稳定、标准化、可复用。

Skill 会清晰定义每一项技能的适用场景、核心目标、详细执行步骤、约束规则、输出格式以及标准示例，让 Agent 在匹配对应任务时，严格按照既定流程落地，杜绝随意发挥。

单条 Skill 主要分为两大层级：

层级	包含核心内容
元数据层	包含技能名称（name）、功能描述（description），用于 Agent 快速匹配任务场景，判断是否需要启用该技能
指令层	包含任务核心目标、详细执行步骤、执行约束规则、统一输出格式、标准案例示例，是 Agent 执行任务的核心依据

技术实现方式：

在实际开发中，绝大多数 Agent Skill 都会以独立 Markdown 文档的形式存储（通常命名为 SKILL.md），统一放置在项目指定目录下，方便管理和迭代。Agent 处理用户需求时，会先通过元数据的名称和描述进行快速模糊匹配，仅当任务与技能场景高度契合时，才会加载完整的指令层内容执行任务。这种按需加载的方式，既能大幅节省上下文 Token 资源，又能有效统一任务执行标准，提升 Agent 输出的稳定性和规范性。

Skill 与 Tool 核心区别对比：

对比维度	Tool（工具）	Skill（技能）
核心本质	单一的外部能力接口，侧重一次性功能调用	完整的标准化任务流程规范，侧重多步骤任务闭环
覆盖范围	仅完成单个独立操作，能力单一	覆盖整套复杂任务，是标准化的任务执行模板
触发方式	模型根据任务需求，按需灵活调用	根据具体业务场景自动匹配、加载启用

三、概念关系总结

四、面试要点速记

整理高频面试核心考点，用精简易懂的一句话总结，方便快速记忆、复盘备考：

核心概念	一句话核心释义
LLM	AI Agent 系统的核心大脑，承担语义理解、逻辑推理、内容生成、决策判断的核心作用
Token	大模型处理文本的最小单位，直接决定模型调用成本、输入长度与上下文占用资源
Context	模型的临时记忆空间，承载对话、指令、检索等全部信息，受上下文窗口容量限制
RAG	通过先检索、后生成的模式，补齐模型私有知识短板，同时解决上下文溢出的行业痛点
Prompt	驱动模型工作的核心指令，分为定义任务的用户指令和规范规则的系统指令两类
Tool	大模型的外部能力扩展载体，类似后端 API，让模型具备实操、联网、调用业务系统的能力
MCP	AI 工具统一接入标准，如同 Type-C 接口，实现工具跨模型、跨平台无缝适配
Agent	基于大模型封装的自主执行系统，可自主拆解任务、规划流程、调用工具、闭环落地任务
Agent Skill	Agent 的标准化任务说明书，统一任务执行流程与输出标准，让智能执行过程更稳定可复用

上一篇越找不到实习越懒的学习越焦虑

下一篇 RAG 工作机制详解

评论交流

在此浏览器中保存我的姓名、邮箱和网站，以便下次评论时使用