2025/12/26 23:05:45
网站建设
项目流程
wordpress主题:超级,嘉兴网站seo外包,网站规划与建设与安全管理,建站设计文章全面剖析了AI Agent的技术演进#xff0c;从早期LLM Agent到类Agent模型(OpenAI O1、DeepSeek R1)和真Agent模型(OpenAI DeepResearch)#xff0c;解析了其核心要素(记忆、工具使用、自主规划)和面临的技术挑战。文章指出#xff0c;强化学习驱…文章全面剖析了AI Agent的技术演进从早期LLM Agent到类Agent模型(OpenAI O1、DeepSeek R1)和真Agent模型(OpenAI DeepResearch)解析了其核心要素(记忆、工具使用、自主规划)和面临的技术挑战。文章指出强化学习驱动的端到端Agent训练成为新趋势模型即产品和Agent社会化协同将引领未来工程化Agent将与端到端Agent模型长期共存。时间线我们先来回顾一下基于LLM的Agent发展时间线LLM的实质性的起源时间只回溯到2017年的注意力机制的提出时间。在2017年前AI的世界一片混沌NLP领域更是停滞在RNN和LSTM止步不前。《人类群星闪耀时》如果有续集我认为2017年《Attention Is All You Need》的作者应当在列论文描述的注意力机制——Transformer架构划破了AI世界的第二个长夜一个崭新的时代光速开启。接下来的标识性事件是GPT-3的诞生代码生成场景GitHub Copilot重新定义了代码补全。基于GPT 3.5的ChatGPT把通过自然语言聊天的形态把大模型带到了普罗大众面前超越tiktok成为增长最快的app。GPT-4是首个参数突破万亿的大模型在2023年GPT-4的性能无敌OpenAI也放慢了继续扩大模型参数的路子推出插件系统、GPTs等当年业界大井喷出大量的LLM应用开发框架CoT思维链Agent理念的祖师爷ReAct都在那时候推出OpenAI也把工具使用的能力训练进了模型里推出FunctionCall这一年可谓AI agent的白银时代。2024年Agent在水底下快速发展模型的预训练Scaling Law好像失效了GPT-4停滞不前GPT-5难产O1的出现宣告着训练的路径要转向了。2025年是后预训Scaling Law开始生效的时间蛰伏了两年多的Agent得以浮出水面而模型侧也因为强化学习迎来了第二春后训练的Scaling Law。AI Agent是怎样炼成的AI Agent是大模型应用的一种特定形态在深入理解什么是AI Agent之前我们先直观理解一下大模型的工作方式文本补全。LLM工作的核心形态文本补全如下图所示我们给LLM发一段文本“下面我将要讲一个故事。在很久很久以前有一个”大模型会收到输入后它会返回一段文本“小村庄坐落在群山环换之中。村子里住着。。。省略数百字”然后结束了。这就是大模型一次工作的典型表现对输入的文本进行补全Text Completion这是为什么LLM们的接口都是completion、chat/completion的原因。用户输入的部份内容称之为提示词——Prompt大模型生成的输出的文本是生成内容——Generated Text。整个核心形态看似简单一次输入输出。实际上提示词与生成内容两端分别是两个巨大的领域提示词工程与模型预训练。通过提示词用户可以让大模型实现各种场景的文本生成任务例如诗歌创作、语言翻译、代码生成、广告文案生成等而提示词本身的编写方法和质量也会影响大模型生成内容的效果因此如何写好提示词是一门综合性的学问。另一方面提示词是通过自然语言来表达的所以这也造成了大量的非AI科班出身的且非专业开发人员投入到了大模型应用的开发浪潮当中这个群体形成了提示词工程的阵营我们看到的大部份LLM应用侧的工作都属于该阵营。基于以上对LLM应用的了解我们继续往下一站了解什么是AI Agent。什么是AI Agent在业界一度有一个乱象就是把所有基于大模型的聊天机器人都统称为智能体即AI Agent。不管你是一个角色扮演的应用或者通过流程编排出来的一个大模型工作流还是可以自主决策来去使用工具做任务的真Agent这些都统称为AI agent但这其实是一个误区和懒惰。现在都说2025年是AI Agent的元年我们很有必要去澄清一下AI Agent它到底是什么。AI agent是基于大模型具备记忆能力、能够有自主推理和规划工具的使用从而来解决问题的智能程序。即AI Agent 大模型 记忆 使用工具 自主规划。基于大模型意味着可以通过自然语言去交互所以聊天是我们使用AI Agent最直观感受到的交互方式。多轮对话与记忆有记忆能力就意味着他能记得跟你过往跟你聊天和互动的历史正因为如此你昨晚和你的AI伴侣聊得火热第二天起来TA也不会问你你是谁你想干什么AI agent要实现记忆能力简单的做法就是把前序的聊天记录附在提示词里但很快迎来新的问题聊天记录多了很容易就导致模型上下文爆token无法继续生成随后又发展出只取最近N次聊天记录、只取与当前问题相关的聊天记录等等手段。单有记忆能支持人机之间进行连续的多轮对话还不够因为光说不练的也不能叫做Agent。使用工具所以TA必须得懂得用工具。所谓的使用工具就是去访问各种资源调度数据接口等。例如我们常见到的一种AI聊天的形态——联网搜索你可以把它看成一种使用工具的能力AI把你的问题和该问题在网络上相关的一些内容加到一起去让大模型给你生成答案。话又说回来能使用工具的就是Agent了吗我们来比较一下元宝联网搜索的自动挡和手动挡。在元宝里面你只要勾选了联网的手动挡每次你提问他都会先联网查询再给你回答而联网的自动挡会先判断你这个问题需不需要更多辅助它解决的信息需要了再去联网搜索不需要他就直接回答。同样是使用工具但手动挡表现出来的是固定的工作模式而自动挡做法是AI agent的模式它有自己的自主的规划和反思过程这是AI Agent的另一个重要的特征。这个容后详述。Function Call回到工具大模型是怎样使用工具的呢我们都知道大模型是一个文本模型它只能输出文本所以实际上所谓的使用工具只是大模型在文本里说明要使用什么工具LLM的应用程序解释这段文本找到使用工具的信息按照大模型的吩附来执行工具的调用如下图所示上图中我们在给大模型的输入的提示词内容包括可用的工具说明包括工具的功能、接受的参数明细等。工具的调用规范及示例通过对工具调用的规范进行详细说明并使用fewshot的技术来给大模型学习一些例子。用户问题最后是附上用户的提问。大模型在回复的时候会按照提示词中的工具调用规范返回实际的工具使用例子在上图中是一串json格式的配置数据表达了要调用search_web这个工具参数有query和limit两个。后来这种教大模型如何返回工具使用命令的工作被OpenAI率先预训练到模型里面去了并把这个功能叫Function Call训练到模型去即意味着不需要再通过提示词指导大模型使用工具了而只需要告知大模型你有什么工具可用即可在OpenAI的接口中通过tools指定可用的工具集。再后来的事大家都知道了主流的大模型都先后效仿openAI支持了function call。MCPMCPModel Context Protocol)是由Anthropic(Claude母公司)在2024年底提出的一种大模型上下文模议目的是让Agent能够更方便地发现和使用来自各处的工具让Agent能做的事情更多。最早的落地场景是在Cluade的桌面端中使用Claude通过MCP协议对用户计算机的文件进行读写和对用户的电脑进行操作。MCP随着AI Agent的出圈也飞速流行起来当前已然是一片不MCP无Agent的态势国内外大模型厂纷纷下场支持MCPMCP成了事实上的Agent工具使用标准。关于MCP与大模型Function Call的关系 经常会被误读说MCP是替代Function Call的。但实际上Function Call和MCP两者是不同层面的东西甚至反过来说是紧密配合的。如果 一个模型不具备Function Call或等价的能力那它就用不了MCP。Function Call是大模型返回调用工具指令的能力MCP是Agent在工程侧的程序具体执行调用工具的手段一个是说一个是做。在有MCP之前Agent收到大模型的Function Call指令后通过各种方法去调用外部的各种资源和服务的如要自己实现读写文件查数据库调搜索接口等等这些方法可以千差万别开发过程长成本高。而MCP的出现统一了工程侧调用工具的规范它服务的厂商按照MCP Server的标准提供服务Agent的程序只需要统一使用call_tool这个MCP Client的功能来执行调用即可一下子节省了大量的工具适配的工作。所以MCP不是来代替Function Call的而是帮工程侧调用外部工具提效的。Function Call是使用工具的基石能力MCP打开了AI Agent连接世界的大门两者强强联合才是提效的真相。自主规划与反思上面说过只会无差别的使用工具是不经过事先思考的行为这种LLM应用不能被称之为AI Agent。 自主规划和反思甚至自我批评是AI Agent模拟人类工作方式的体现也是AI Agent的核心要素。规划思维链CoT思维链Chain of Thought简称CoTWei等人2022年提出已成为提升大模型处理复杂任务性能的事实上的标准提示词技术。人们通过引导模型逐步思考将任务拆解为多个更小、更简单的子步骤从而提供模型的输出性能。CoT不仅将庞大任务转化为可管理的分步流程在DeepSeek R1这类推理模型中还为理解模型的推理过程提供了透明化的解读路径。除了思维链类似的思路还有思维树Tree of Thoughts ToT和思维图Graph of ThoughtsGoT。它们都对CoT进行了扩展在特定的应用场景均有显著的提升。但是实际应用中CoT是绝对的主流。反思ReAct反思能力能让Agent具备迭代出可用答案的可能性。Agent通常不止一次调用LLM和工具每一次采取行动调用工具后都需要经过反思来确定是否做好了不够好接下来该怎么做。ReActReasoing Acting 由Yao在2023年提出思考框架它指导AI Agent通过思考、行动、观察的循环来实成任务。Agent接到任务后的工作流程大致如下1、 思考(thought)要解决该问题下一步需要采取什么行动。2、 行动(action)大模型输出行动指令让Agent调用外部工具。3、 观察(observation)把工具执行的结果给大模型进行观察。4.1、回答(answer)如果工具执行的结果已能得到答案组织语言回答。4.2、如果目前得到的信息仍无法作答进入下一次循环继续思考使用工具。看起来是不是很像咱们人类的PDCAPlan Do Check Act的翻版ReAct模式是当下AI Agent领域事实上的工作模式包括基于OpenAI Function Call实现的Agent在内的背后也是同样的工作模式。只不过使用内置的Function Call的方式不需要额外提供提示词来指导模型行动罢了。为什么Agent不WorkAI Agent在大众看到之前已经发展了两年多直到最近Manus的爆火才被出现在大家面前根本原因是Agent的可靠性不足上限较低。所以一直还摆不上台面仅在有限的场景迭代和落地。实现一个Agent不难有开发经验的同学通过学习在一两天内可以开发出一个可以运行的Agent但要做一个可用的Agent则还需要大量的工作。判断一个Agent是否可用主要取决于具体场景的错误容忍度和受众的介入程度。以AI编程为例开发者对Agent生成代码的预期是“规模不大的需求代码生成还不错会有问题但可以通过反复沟通去修正最终达到相对可接受的结果”。所以Vibe coding这个场景火了大量不懂代码的开发者诞生了。Deep Research所关注的研报场景同理。所以当下大家能看到的生产级别的Agent基本上都有这两个特征复杂度与规模较低、容错水平高。影响Agent在大规模复杂问题上的性能因素是幻觉和记忆管理的挑战。一定是幻觉大模型是一个概率模型它生成的内容一定的概率是错误的即我们常说的幻觉。Agent执行一次任务通常需要组合多次大模型的调用来完成工作在总体的结果成功率上比单次的大模型调用会更加低。例如假设平均单次调成大模型生成内容的正确率在90%那4次组合调用后正确率直接下降到60-70% 。记忆管理的难当前基于大语言模型的Agent普遍面临记忆困境这种困境源于大模型自身的无状态特性与人类认知过程中持续演进的记忆机制之间的本质差异。传统采用简单对话历史堆砌的伪记忆实现方式在应对需要长期记忆保持、复杂知识关联和动态经验积累的场景时暴露出一系列结构性矛盾。上下文窗口的限制当前主流大模型的上下文处理能力受限于固定长度的窗口机制如GPT-4的32k tokens。这种物理限制导致对话轮次或任务复杂度超过窗口容量时必然发生历史信息截断造成关键记忆丢失其次随着上下文长度增加模型处理效率呈指数级下降。这种矛盾在需要长期任务追踪的场景如连续多日项目管理中尤为突出。大模型厂商不断推出支持更大size上下文的模型截止发稿为止最大的上下文是Meta的Llama scout 1000万token。超长上下文的注意力有效性衰减尽管上下的尺寸越来越大甚至能塞下全集的哈里波特了但是超长上下文注意力的准确性又成了另一个问题。Transformer架构的自注意力机制虽然赋予了模型强大的上下文关联能力但其计算复杂度O(n²)的特性导致随着上下文长度扩展有效注意力的分布呈现显著稀释效应。根据ICLR 2023的研究成果在16k tokens的上下文长度下模型对前20%输入内容的注意力权重占比超过65%而对后20%内容的注意力权重不足8%。这种近因偏好现象使得早期关键信息容易被后续内容覆盖导致记忆保持的时序稳定性问题。更严重的是当处理超长文档如百页技术手册时模型可能陷入注意力涣散状态出现关键信息漏读或误读。Google的BigBird和DeepSeek的NSA(Native Sparse Attention)都在致力于解决这个问题。相关记忆的准召问题既然暴力的强塞所有的聊天记录不行那就换一种思路吧只取跟当前问题有关联的聊天记录总可以了吧我们把聊天记录存在向量数据库中通过向量检查召回关联的内容实现按需注入历史。然而向量数据库的召回也是一个庞大复杂的工程RAG中的R召回数据的准确与否直接决定了大模型回答的质量。为了提升准召率RAG一路发展到基于知识图谱的RAG又到了今天的Agentic RAG仍然没有到头。有办法方法总比问题多嘛既然知道agent面临着怎样的挑战就给出针对性的解决方案吧。为了提升agent的性能业界提出了各种解决方案总结起来有3大类。● 引入workflow使用固化的工作流程来提升确定性但同时牺牲掉灵活性。● 在ReAct框架的基础上做工程侧的极致优化● 引入多agent效仿人类团队协作突破单agent的极限发挥群集智慧。workflow的第二春AI Agent不稳定那我们来固化工作流程让AI在必要的时候工作就好这个解题思路引出了AI workflow的技术形态。从技术演进视角来看Workflow本质上是将低代码开发框架与LLM相结合的产物旧瓶装新酒。其在大模型时代的流行主要源于两个关键因素首先当前开发范式已从传统编码转向提示词工程开发者需要高频迭代提示词而非底层代码其次可视化流程编排显著降低了调试门槛使非技术背景人员也能通过直观界面完成AI能力集成。现有Workflow更多是业务逻辑的标准化封装AI仅作为模块化组件服务于特定环节。这种架构虽提升了开发效率但也存在本质局限——既无法实现智能体Agent的自主推理能力也难以支撑复杂场景的端到端智能化。简单来说workflow本身不是AI Agent但基于workflow实现的功能可又作为Agent的工具作为Agent的有机组成部份。Beyond ReAct****Agent之前说过ReAct Agent是当下主流Agent的思考与行动框架但ReAct本身也有着很多的缺点走一步看一步缺乏全盘规划。每次的思考与决策需要依赖上一次工具的输出结果。串行调度工具每次工具调用都跟随着一次LLM的调用没能灵活高效的对工具的调度进行优化。所有工具的执行结果都会追加到大模型的上下文中供观察使用经过多次的工具调用来回后很容易就触发上下文限制任务以失败告终。针对这些缺点业界的优化方式也是五花八门以下举一些代表性的例子plan and execute该思路主要受到Plan-and-Solve论文和Baby-AGI项目的启发其核心工作流程包含三个阶段● 规划阶段 首先生成一个全盘的多步骤的详细行动计划● 执行阶段 按顺序执行每个计划步骤返回结果● 重规划阶段根据执行结果动态调整计划或返回这种模式引入了全盘规划且子任务的执行分拆到Single-Task Agent上执行避免了Token在同一个LLM会话上下文中堆积降低爆Token的可能性。manus的Agent显然是借鉴了这种Agent先生成任务的清单再对着清单逐个执行但似乎并没有看到manus有重新规划这个步骤。ReWooReWOO Reasoning WithOut Observation 是一种创新的增强语言模型ALM框架旨在通过 模块化设计 显著提升多步推理任务的效率与性能。传统ALM如ReAct依赖交替的“推理-工具调用-观察”流程导致大量上下文重复输入和计算资源浪费。ReWOO突破性地将任务分解为三个独立模块● Planner规划器 基于大型语言模型LLM的推理能力预先生成任务蓝图规划多步推理路径如调用工具的顺序与逻辑无需等待工具实时反馈。● Worker执行器 根据蓝图并行调用外部工具如搜索引擎、计算器、数据库高效收集证据。● Solver求解器 综合规划与证据生成最终答案具备纠错与总结能力。ReWOO最显著的特点是拥有一个独立的Solver求解器模块专门负责综合规划结果和工具执行证据生成最终答案。在worker的执行过程中 ReWOO不去观察Observation工具返回的结果可以减少token的使用及调用LLM的次数。ReWOO与Plan and Execute相比有两个差异● worker的任务执行更多是工具执行不需要额外的LLM来驱动。● 没有重新规划的过程。LLm CompilerLLMCompiler专为优化大语言模型LLM的多工具协作效率而设计的框架。针对传统方法如ReAct因顺序执行函数调用导致的延迟高、成本大、准确率受限等问题LLMCompiler 创新性地引入编译器式任务编排通过并行化与动态规划显著提升LLM在复杂任务中的表现。其核心架构● 智能规划器Planner将用户查询解析为带依赖关系的任务DAG识别可并行执行的函数调用如并行的网络搜索与数学计算。● 动态调度器Task Fetching Unit实时替换占位变量、分发独立任务最大化并行资源利用率。● 异步执行器Executor通过工具API并发执行任务支持自定义工具如搜索引擎、计算器、API代理。LLMCompiler同样是提前做DAG规划它通过任务依赖关系来对任务进行并行调度还可以根据结果进行重新规则。多Agent人类社会有一句话“独行快众行远”指的是如果要走得更远需要团队合作。在Agent的世界单个Agent在简单任务方面的表达已经不错但复杂的以及上规模的任务中的表现却乏善可陈。于是我们不由得去向人类的协同方式学习让Agent组成团队复刻人类的协同方式看是否能够提升性能。多Agent的形态根据多Agent的应用场景我把多Agent的产品形态分为社会协同模拟型与任务导向型 。社会协同模拟型类如“斯坦福小镇”这一种agent社会化实验性的形态称为社会协同模型型这类产品不设定具体的任务让Agent来实现而是提供了一个开放性的运行环境让Agent自发地去协同和产生可能的“化学反应”用于对Agent社会化协同的学习与研究。任务导向型另一种多agent的形态是目的性很明确的有清晰的目标和标准的操作流程SOP)典型的代表如软件开发过程、较大篇幅的内容如论文、小说等的创作。MetaGPT是此类型多Agent的代表框架它通过拆解软件开发的标准流程为每个过程设定不同的角色来完成对应的任务最终实现一个软件的开完任务。开发框架MetaGPT基于多智能体协作的软件开发框架通过模拟软件公司角色分工产品经理/工程师等将标准操作程序SOP编码为智能体协作流程支持从需求分析到代码生成的全生命周期自动化开发尤其擅长结构化输出文档与代码。AutoGen微软推出的多智能体对话框架支持定制化代理角色与自然语言交互通过模块化设计简化复杂任务编排可无缝集成LLM和工具链其核心优势在于实现人机混合协作与自动化工作流特别适合需动态决策的场景。CrewAI开源协作型智能体框架强调角色扮演与团队化任务管理支持自定义代理角色、任务委派及流程控制顺序/层级模式提供工具集成与知识沉淀机制适合构建需要明确分工的多代理协作系统如市场分析/项目管理。SwarmOpenAI实验性轻量级框架聚焦智能体间的动态任务交接Handoffs通过函数调用实现执行权转移保持高度可控性与透明性与Chat Completions API深度整合适合需细粒度控制的小规模多代理交互场景。当然langchain和langgraph这类框架同样是可以用于搭建多agent的没把它们列在上面仅仅是因为这两个框架它的普适性更广不是专为多agent而专门提供的。协同架构langgraph把多Agent的协同架构做了一下汇总除了自定义架构大致有以下几种类型Network网状网状架构允许每个Agent间互相通讯该架构的自由度高但可控性差适用于社会协同模拟型的Agent形态。supervisor监督者该架构有一个管理者Agent其他所有Agent之间不能直接沟通只能与管理者Agent进行沟通。这种架构适用于对任务导向型的多Agent形态可控性较高但管理者Agent的智能程度会成为整个多Agent网络的瓶颈。a. supervisor的结构看起来还跟单Agent的结构很相似实际上把非管理者Agent看成一个个工具的话它就等同于一个单Agent即图中的supervisor(as tools)的结构。b. 所以多Agent并不神秘你在以前做单Agent的时候极有可能就已经实现过as tools这种supervisor架构的多Agent应用了。上面plan and execute中描述的形态也可以视为一种多Agent。Hierarchial层级监督者层级监督者是由多个监督者网络进行堆叠而成的如果把监督者网络看成一个小组由一个组长带领多个组员那层级监督者网络则更大的的组织例如是一个中心甚至是部门业务线等。Agentic Workflowagentic workflow最早由吴恩达提出。简而言之它的目标是解决复杂任务通过分解任务、多角色Agent协同、迭代改进的手段来实现。它有以下四大机制● 工具调用(Tool Use)● 多 Agent 协作Multi-agent● 规划能力Planning● 反思机制Reflection光看上面的描述定义是相当的模糊的我们拿上文中出现过的LLM应用和Agent来对比一下以便进一步理解agentic workflow。与“plan and execute“ agent的区别上面讲的Plan and Execute形态的Agent看起来就具备”分解任务”、 “子任务执行Agent”、“迭代改进”等等环节其中子任务执行Agent是一个通用的执行者负责遍历任务并执行。而Agentic workflow对任务执行的要求是由不同角色的Agent来执行不同性质的任务哪个角色应该执行什么任务。所以如果把plan and execute模式升级一下定义多个特定职能的Agent作为子任务的执行者有针对性的选择任务来执行可以得到近似agentic workflow的效果。与workflow LLM的区别它和“workflow的第二春”中说的workflow LLM又有什么区别呢从几个维度来对比1). 动态规划能力Agentic Workflow通过 AI Agent 的推理能力动态分解复杂任务任务分解模式并根据环境反馈调整执行路径。Workflow LLMLLM 仅作为静态模块嵌入预定义流程。2). 自我迭代优化Agentic Workflow引入反思模式Reflection通过执行结果评估和策略校准形成闭环。Workflow LLM缺乏反馈循环输出质量依赖单次提示效果无法自我优化。3). 执行主体性质Agentic Workflow以 AI Agent 为核心具备长期记忆如向量数据库存储用户画像和工具调用权限如 API、搜索引擎形成类人认知架构。Workflow LLMLLM 作为流程中的“工具人”仅处理特定环节如文本生成无自主决策权。4). 任务协作模式Agentic Workflow支持多 Agent 协同如数据分析 Agent 与优惠优化 Agent 联动通过信息传递形成集体智能。Workflow LLM流程由人工预先编排各模块独立运行缺乏动态协作。5). 小结Agentic Workflow是由AI Agent集体动态生成并可随机变动的协作流程而workflow LLM中的workflow是一种由开发者定义的静态工作流。示例分析下图所描述的是一个通过CrewAI实现的多agent智能化的客户优惠推荐系统。蓝色部份是定义了一种工作流程及每个节点的任务提取购买记录基于用户ID和时间范围查询数据。匹配最优优惠通过SQL连接JOIN购买记录与优惠表按折扣排序。生成通知文案整合优惠信息添加表情符号生成吸引人的消息。绿色部份是定义了三种不同职能的Agent购买历史分析Agent编写SQL查询客户购买记录。优惠管理Agent结合购买历史与优惠表筛选最优折扣。创意文案Agent生成个性化优惠通知。工作流程CrewAI框架协调Agent们执行任务输出最终优惠通知。CrewAI在任务的调度模式上有两种一种顺序执行(sequential)一种是层级模式(hierarchical)后者由一个管理者LLM来动态调度执行。窃以为hierarchical模式才是真正意义上的agentic workflow因为工作流是动态的可通过反思机制进行实时调整的是由管理者LLM来自主决定的。而顺序执行的模式和workflow LLM的模型没有本质的区别。Why Do Multi-Agent LLM Systems Fail?多Agent看起来很美但在实际的落地过程却也有一地鸡毛的时候加州大学伯克利分校等机构经过研究发表的《Why Do Multi-agent LLM Systems Fail》的论文指出了多Agent架构失败的原因系统设计与规范问题占37.2%核心问题架构设计缺陷、角色定义模糊、对话流程管理不当。● 违反任务规范智能体未遵循任务约束● 角色越权智能体超出职责范围如CPO擅自定义产品愿景。● 步骤重复冗余步骤导致效率低下。● 对话历史丢失上下文截断引发逻辑断裂。● 终止条件不明确无法判断任务何时完成。智能体间协作错位占31.4%核心问题沟通机制低效、信息共享不足、协作流程失控。● 对话重置意外重启对话导致进展丢失。● 信息隐瞒关键数据未共享如手机代理未告知API格式要求。● 任务偏离讨论偏离核心目标如32%的任务因跑题失败。● 推理-行动不匹配逻辑推理与执行行为矛盾。任务验证与终止问题占31.4%核心问题验证机制缺失或低效、过早终止任务。● 过早终止未完成必要步骤即结束如棋类游戏未验证规则。● 验证不完整仅检查表面问题如代码编译通过但功能错误。● 错误验证验证逻辑存在缺陷如接受非法棋步输入。从智能体间协作错位中可以看到多agent不仅复刻了人类协同的形态还把人与人沟通的坏毛病也学习了会隐瞒跑题和知行不一。中场战事推理“类Agent“的崛起上面工程侧为了Agent输出更好的性能想尽了办法极致压榨。模型侧也没闲着也一直在探寻着新的Scaling Law。OpenAI推出了推理模型O1它的工作方式是在输出内容前先进行一次内部思考(推理)然后再基于思考的结论来组织回答。这种分段式的生成像极了agent的工作方式所以我对O1的第一反应是openAI搞了个推理的agent大模型Scaling Law到头了改搞工程agent了后来看到技术实现才得知O1是强化学习的产物O1仍然是一个模型但它像agent一样工作的模式以致我在后来把它们称为类agent模型。犹抱琵琶半遮脸的O1O1刚出来的时候推理的过程是完全不可见的一个Loading转了几分钟看不到里面发生了什么。OpenAI是这样解释原因的技术权衡思维链的忠实性和可读性是监控模型推理过程的前提但若在思维链上加入政策合规性或用户偏好的训练会破坏其有效性。因此OpenAI选择不向用户展示原始思维链以避免潜在的干扰。竞争优势隐藏推理细节可保护核心技术不被竞争对手模仿尤其是在模型逻辑推理能力显著超越同行的背景下。用户体验优化原始思维链可能包含冗长且复杂的中间步骤直接展示会影响交互效率。OpenAI转而提供模型生成的思维链摘要以更简洁的方式呈现推理结果。掀桌子的DeepSeek R1DeepSeek是配得上伟大这样的赞誉的。DeepSeek R1以更高的性能、低一个数量级的成本、开源的方式打脸了O1掀翻了桌子。R1发布即公开了推理过程思维链的全部内容。DeepSeek成了真正的“OpenAI”。DeepSeek公开了R1的训练技术细节● R1-Zero版本完全摒弃监督微调通过多目标强化学习创新的GRPO算法整合准确性、推理速度与资源消耗指标。其中GRPO算法可以降低对标注数据的依赖大大降低了训练成本。● 但由于R1-Zero存在思维链的可读性问题在R1的正式版的训练时分拆成了两次的SFTRL的步骤○ 加入了一些冷启动数据思维链内容对V3进行有监督微调再强化学习得到较好的思维链可读效果○ 基于上一个Checkpoint模型生成60万条思维链内容再加上20万条生成的的示例数据进行监督微调最后通过强化学习进行对齐得到R1。过程如下图所示强化学习是后训练的Scaling Law如果抛开思维链的可读性不谈R1-Zero已经是一个高性能的推理模型在Zero的训练细节上我们看到只需要强化学习就够了。R1-Zero向我们传递了一个最重要的信息有针对性的强化学习训练的效果可能优于单纯增加大模型参数量做预训练的效果这也是OpenAI O1背后的秘密。OpenAI看起来已经放弃了更大规模参数预训练模型的路子而全面转向了后训练强化学习强化学习是新的Scaling Law。强化学习它不算是一种新技术了它原理是通过生成结果对模型进行的奖励和惩罚反馈让模型在无数次的生成和反馈中调整和优化并找到最有效的工作方式而不需要教模型怎么做。O1首先验证了新的训练路径R1把全部的细节公诸于众一时间强化学习训练成了大模型厂商们的Next。Claude sonnet 3.7跟上了节奏推出推理版并针对复杂的代码问题进行了强化学习在生成代码方面性能较sonnet 3.5有显著提升openAI 推出的DeepResearch就是基于O3端到端训练的Agent模型。产品的R1“后遗症“DeepSeek R1在2025年的春节期间爆火出圈成了国民级的AI应用。R1的交互简单朴素先是输出一大段思考过程再生成最终的答案输出推理的过程让用户避免了漫长的等待在正式答案出来之前阅读一下推理过程也是一件有意思的事。R1的产品交互也瞬间成为了教科书级别的范例。它的两阶段输出的形态正快速统一Agent们的输出行为。R1前Agent输出招式Agent不像LLM能快速地开始输出答案Agent通常有一系列的中间工作步骤到最后一步才会输出给用户的答案而这中间会有颇长的一段等待时间为了缓解用户在等待过程的焦虑和优化等待体现Agent们都很努力在尝试把中间过程也通过各种方式输出给用户例如ChatGPT是这样的dify是这样的我们的FoT Agent是这样的然而这些努力并没有什么作用Agent的用户们对这些输出的中间过程并不买单抱怨看不懂出结果又慢。R1后的统一“深度思考”R1出来后Agent产品们除了在模型层面光速接入DeepSeek之外在产品交互也是象素级的致敬着R1。例如我们的媒资助手Agent是一个基于DeepSeek V3的ReAct Agent它把ReAct每一步思考Thought的过程组装起来伪装成深度思考的过程看起来毫无违和感还有微信读书的AI问书、微信输入法的问AI底层的架构是基于小size的QWen模型做了SFT的Agent Deepseek R1做最终解读而在交互层也是把Agent的工作过程和R1的思考融合呈现到深度思考的内容里了不再有花哨的loading和中间步骤的结构化呈现过程只剩下朴实无华的“深度思考”样式的过程文本也貌似让原来挑剔无比的用户满意了感谢伟大的DeepSeek端的是一个大道至简大巧不工啊哈哈。下半场模型即产品与Agent社会化协同我把OpenAI的Deep Research问世看作AI Agent下半场开始的标记性事件。Agent正式进入模型内化的新阶段。沿着中场战事的推理“类Agent”模型同样的进化路子Deep Research基于O3通过端到端的强化学习得到了一个真.Agent模型。模型即产品Deep Research这个真.Agent有两个特点端到端训练就是它的训练是全链路的对于做研报这个场景从拿到问题、使用网络搜索工具、多轮验证重做到最终输出完整的研报的整个链路都在训练范围内。它不再像过去只让模型针对问题只做一次的文本输出。Agent模型对Deep Research的工作形式是一个Agent但技术上它是以一个模型出现的。在此之前我们基于常规的LLM也可以做Deep Research这类型的工作那就是写代码开发一个Agent大家可以看到现在有很多开源版的Deep Research这需要在工程侧来发力。但现在OpenAI的Deep Research告诉大家原来工程上要做的事情现在不需要了我们只需要通过强化学习就可以让模型本身掌握原来要用工程来控制的工作方式同时还能达到更高的质量。即工程复杂度没了效果还更好了。对比一下O1和Deep Research:● O1推理模通过强化训练“推理”能力推理能力得到了质的飞跃● Deep Research通过强化训练“做研报”的过程包括使用搜索工具和质量得到了一个做高质量研报的Agent。嗯AI Agent下半场的玩法变了你想要什么样的Agent通过强化学习训练一个Agent模型而不一定要通过编写工程代码来实现它而这个Agent模型就是一个产品。这就是最近流行起来的一个说法模型即产品。说的是未来针对场景化的产品需求可以基于大模型通过强化学习对场景进行训练最终交付一个Agent模型作为产品不再区分什么模型层应用层而是模应一体了。就在前两周OpenAI的O3也正式发布O3表现出来的则是一个比Deep Research更通用的Agent模型。这进一步指明了Agent模型化、模应一体化的道路。工程化Agent的生存空间如果AI Agent的下半场是面向场景的端到端Agent模型的战场那原来通过工程化手段做的Agent是否还有生存空间呢答案是确定的在接下来的一段时间内至少两年三种形态的Agent会持续共存纯工程Agent即由提示词工程加代码实现Agent在产品的MVP阶段用于快速验证产品或产品流量不大对Token成本不敏感的场景适合用这种方式落地。它的实现门槛低包括技术实现和成本都一样甚至通过当下流行的可视化Agent搭建平台不用写代码就可以快速搭建起来。SFT Agent指针对Agent的行为包括但不限规划和反思能力等进行了有监督微调——目的是让指令跟随相对更稳定、节省提示词成本。实际上节省提示词成本是做SFT Agent的最大的动机相比起提示词token成本的下降微调带来的指令跟随稳定性的提升可能没那么显著这也是吴恩达一直说绝大多数Agent应用都能通过提示词来解决的原因。所以SFT Agent较为适用于大流量但工具需要支持动态添加的场景。端到端Agent模型即针对垂直场景通过端到端强化学习进行后训练的模型。它适用于大流量且需求明确垂直的场景。Agent才刚刚进入大众的视野在技术和生态侧随着MCP和A2A等协议的成熟及智能体生态的发展Agent的进化会进一步加速有更多的可能性在等待着我们。Agent的社会化协同以及A2A为代表的Agent间协同协议拉开了Agent社会化协同的大幕。之前我们提的多agent和agentic workflo中的agent们的通讯就如果我们在一个小团队里面紧密协同那样。而Google提出的A2A协议把Agent之间的协同范围一下子提升到了全球的范围它为每个Agent派发了身份证AgentCard在经过认识、握手后鉴权Agent们可以进行沟通和协作。展开想象一下● 每个人都配套一个人个的Agent用于代表你跟Agent的世界来交互这个场景就很好玩了跟朋友们约出去玩让咱们的Agent们先商量一下给我们一个方案● 买机票我也不需要直接用某程的平台只需要交代我的专属Agent它自动发现和跟服务商的Agent机构Agent来沟通并支付就OK了。● 你看一个赛博数字世界就这么展开了。我愿把这种场面称之为Agent的社会化协同它将最大程度上复刻人类社会的形同范式Agent间需要有验证机制能互相加好友具备支付能力能主动发起任务等等。技术上这将有模型技术之外的海量的agent社会基础平台等着被搭建。包括Agent通讯的安全、信用、支付体系等等。致亲爱的乘客做AI的领导者AI正在对全行业进行无差别的颠覆所有人都面临着工作方式的升级。不是说有全新职业的出现而是大部份职业都会被要求原地升级 AI。我们每个人都会从个人劳动者转变成AI领导者我们要提升自己的AI领导力。过去我们通过个人的专业能力来交付工作成果个人要亲自去执行具体的任务。现在到不远的未来是我们带着AI一起工作并完成目标我们作为AI的领导者需要对AI团队进行目标设定对AI协作过程进行管理和干预对AI最终产出进行验收。虽然执行性的工具会逐渐交给AI但这并不意味着对个人的专业能力不作要求了。相反它对我们的专业能力要求更高了因为我们需要以内行人的角度来验收AI给我们产出的东西减少的只是我们做具体任务的时间。因为AI未来可能每个行业都可能呈现出两头重中间轻的形成。以软件开发这个岗位来做一下推演。Vibe Coding这个词相信大家已有所耳闻现在越来越多完全没有编程经验的人暂称为小白通过Cursor这类AI编程工具摇身变成了开发者这类开发者自己动手解决长尾的、相对简单的个性化的需求中低端的开发者的工作将会由小白们AI来接管。但是大规模严肃的生产型应用小白 AI也是无法掌控的这个场景需要更专业的工程师甚至是架构师AI来支撑AI一定是必备的了。可见小白和架构师就是两头初中级的工程师如果想要继续留在这个行业是需要进一步提升自己的专业能力和AI领导力的。所以全面拥抱AI吧以最快的速度。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2025 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取