建站平台 discuz优秀网页设计排版
2026/1/7 18:52:54 网站建设 项目流程
建站平台 discuz,优秀网页设计排版,小蘑菇网站建设下载,seo是啥职业LLama 3 405B模型效果已经赶上目前最好的闭源模型比如GPT 4o和Claude 3.5#xff0c;这算是开源届的大事#xff0c;技术报告接近100页#xff0c;信息很丰富#xff0c;粗略看了一下#xff0c;很有启发。这里就LLaMA 3的模型结构、训练过程做些解读#xff0c;并对其影…LLama 3 405B模型效果已经赶上目前最好的闭源模型比如GPT 4o和Claude 3.5这算是开源届的大事技术报告接近100页信息很丰富粗略看了一下很有启发。这里就LLaMA 3的模型结构、训练过程做些解读并对其影响、小模型如何做、合成数据等方面谈点看法。一、LLaMA 3模型结构LLaMA 3的模型结构如图1所示这基本已经形成目前Dense LLM模型的标准结构了绝大多数LLM模型结构都与此非常接近。而很多采取MOE结构的LLM模型其变化无非是把上图的FFN模块里的单个SwiGLU**模块拓展成K个并联的SwiGLU模块形成多个专家再加上一个路由子网络来选择目前Token走这么多专家里的哪几个如此而已基本结构也差不太多所以不要误会MOE是Transformer的一种变体不是独立的模型结构。很多目前的新型结构其实是“线性Transformer”结构的变体目前很少有结构能逃脱Transformer架构的影响都处在它的阴影下。当然我对新结构持支持态度Transformer被替换只是时间问题只不过这不是当前制约大模型能力的瓶颈改变的迫切性没那么大而已LLaMa 3模型结构LLaMA 3的模型结构如上图所示这基本已经形成目前Dense LLM模型的标准结构了绝大多数LLM模型结构都与此非常接近。而很多采取MOE结构的LLM模型其变化无非是把上图的FFN模块里的单个SwiGLU模块拓展成K个并联的SwiGLU模块形成多个专家再加上一个路由子网络来选择目前Token走这么多专家里的哪几个如此而已基本结构也差不太多所以不要误会MOE是Transformer的一种变体不是独立的模型结构。很多目前的新型结构其实是“线性Transformer”结构的变体目前很少有结构能逃脱Transformer架构的影响都处在它的阴影下。当然我对新结构持支持态度Transformer被替换只是时间问题只不过这不是当前制约大模型能力的瓶颈改变的迫切性没那么大而已。之所以LLaMA结构基本快形成行业标准我觉得有两个原因。原因一是侧面说明了Transformer结构趋于稳定肯定很多人试过其它变体结构但是要么在效果要么在可扩展性Scalability总之某一点要比这个结构效果要差这虽然是无依据的推导但想来是大概率事件。原因之二是因为目前LLM已形成生态各种衍生的工具比如快速推理框架等都兼容这个结构如果你新结构变动太大很多流行工具不支持就很难扩散影响力形成新的行业标准。新结构不仅仅要达成替换Transformer那么简单你面对的是整个生态再没有确切证据表明各方面都明显好于上述结构前提下是很难替换掉Transformer的。从这里就看出Meta坚决走开源路线的高明之处了早开源早形成影响力早成为行业标准那么以后LLM的技术路线做技术选型话语权就非常大 其他人就比较被动。谷歌因为一心二用开源不坚决有点错失时机。二、LLaMA 3的预训练过程Llama 3 预训练包括三个主要阶段(1) 初始预训练(2) 长上下文预训练以及 (3) 退火Annealing。总体而言和目前一些其它开源模型的训练过程差别不大不过技术报告公开了很多技术细节。2.1 初始预训练就是常规的预训练阶段训练初期使用较小Batch Size以稳定训练随后逐步增大以提高效率最终达到 16M token 的Batch大小。为了提升模型的多语言和数学推理能力增加了非英语和数学数据的比例。2.2 长上下文预训练在预训练的后面阶段采用长文本数据对长序列进行训练支持最多128K token的上下文窗口。采取逐步增加上下文窗口长度策略在Llama 3 405B的预训练中从最初的8K上下文窗口开始逐步增加上下文长度最终达到128K上下文窗口。这个长上下文预训练阶段使用了大约800B训练token数据。2.3 退火annealing在预训练的最后4000万个token期间线性地将学习率退火至0同时保持上下文长度为128K个token。在这一退火阶段调整了数据混合配比以增加高质量数据比如数学、代码、逻辑内容的影响。最后将若干退火期间模型Check Point的平均值作为最终的预训练模型。在训练后期对高质量数据进行上采样目前其实也是比较标准的做法。三、预训练阶段不同类型数据配比不同类型的数据配比如何配置大模型才能有最好的效果这可能是目前大模型预训练仅剩的唯一秘密了LLama**报告对此做了披露他们先通过小规模实验确定最优配比然后将之应用到大模型的训练中。结论是50%的通用知识Token25%的数学与逻辑Token17%的代码Token8%的多语言Token。四、LLaMA 3的Post-TrainingLLaMA 3 Post-Training流程目前LLM的Post-Training主要有两种模式一种是仿照ChatGPT的SFT**RMPPO的模式采用强化学习需要调的超参很多比较复杂不太好调通另外一种是SFTDPO的模式去掉了PPO强化学习相对简化了整个流程比较容易跑起来。LLaMA 3在这个阶段主体结构是SFTDPO的模式不过也有自己特殊的一些设计上图展示了LLaMA 3整个Post-Training的流程。首先用人工标注数据训练RM模型用来评价一个Prompt,answer数据的质量然后用RM参与拒绝采样Rejection Sampling就是说对于一个人工Prompt用模型生成若干个回答RM给予质量打分选择得分最高的保留作为SFT数据其它抛掉。这样得到的SFT数据再加上专门增强代码、数学、逻辑能力的SFT数据一起用来调整模型得到SFT模型。之后用人工标注数据来使用DPO模型调整LLM参数DPO本质上是个二分类就是从人工标注的PromptGood AnswerBad Answer三元数据里学习调整模型参数鼓励模型输出Good Answer不输出Bad Answer。这算完成了一个迭代轮次的Post-Training。上述过程会反复迭代几次每次的流程相同不同的地方在于拒绝采样阶段用来对给定Prompt产生回答的LLM模型会从上一轮流程最后产生的若干不同DPO模型不同超参等里选择最好的那个在下一轮拒绝采样阶段给Prompt生成答案。很明显随着迭代的增加DPO模型越来越好所以拒绝采样里能选出的最佳答案质量越来越高SFT模型就越好如此形成正反馈循环。可以看出尽管RLHF** 和DPO两种模式都包含RM但是用的地方不一样RLHF是把RM打分用在PPO强化学习阶段而LLaMA 3则用RM来筛选高质量SFT数据。而且因为拒绝采样的回答是由LLM产生的可知这里大量采用了合成数据来训练SFT模型。五、LLama 3 405B为何不用MOE结构MOE结构会让模型效果更好吗答案是否定的。这个在很久以前ChatGPT火之前就有研究结论从对模型效果的影响来说MOE结构相对Dense模型本身并不会带来额外优势甚至是有劣势的。MOE的主要优势是减少训练和推理成本付出的代价是训练不够稳定以及推理时额外付出大内存来存储膨胀的参数量。但当用户量大请求多的时候推理成本占比会更高此时使用MOE对于推理会更友好这是为何当模型大到一定程度模型结构就会从Dense转向MOE的主要原因是出于成本、效率而非效果角度考虑。我之前看到有些介绍说MOE结构效果更好这种观点是没有事实依据的。Llama3 405B 之所以没有采用MOE技术报告指出主要是考虑到Dense模型训练更稳定所以选择了Dense结构。相比GPT 4的1.8T的MOE模型结构405B的Dense模型效果与之相当甚至要更好一些当然不排除GTP 4目前已经是一个蒸馏小模型的可能。六、LLaMA 3模型带来的影响开源模型效果快速追赶闭源模型前几个月关于开源和闭源大模型谁优谁劣争吵的很厉害不同立场者各执一词上图展示了开源和闭源模型随着时间能力差异曲线可以看出两者差距随着时间是逐步减小的而LLaMA 3 405B让两线出现了交点我想这图基本可以终结“开源闭源之争”了。LLaMA 3 405B的开源对于其它无论闭源还是开源模型都有重大影响。对于闭源模型如果其能力还赶不上LLaMA 3就需要向公众解释对用户收费的依据问题除了覆盖推理成本外的费用。对于开源模型而言如果能力不如LLaMA 3就需要考虑如何作出差异化和不同特色的问题。目前看Meta继续开源比如LLaMA 4等后续更强模型的决心是比较大的毕竟从大模型开源带来的股价上涨就能覆盖成本了这买卖合算的随着LLaMA 4的进一步开源形势将逼迫很多原先定位为基础模型AGI的创业公司转向特色产品赛道。我觉得这其实是个负面作用尤其是对开源界即使是开源赛道也是百家争鸣比一两家独大要好但是逐渐收敛看样子不可避免。我觉得之后一方面要重视LLAMA和Gemma的中文化工作让中文支持效果更好。如果这方面作出特点完全可以实现小公司、小投入但是拥有当前最强中文模型的能力从能力角度看并不弱于获得大量资金支持的专业大模型公司而从投入角度则小的多性价比很高。另外一方面在做小模型的时候要注重用LLaMA 405B这种最强开源模型来蒸馏小模型的思路这样做对小模型效果提升会非常明显很明显这也是小投入高产出合算的买卖。七、小模型崛起三要素最近半年小模型在快速崛起各种开源小模型此起彼伏且效果也越来越好。小模型无论是训练成本、推理成本还是对于用户数据隐私保护相比大模型都有独到的好处。唯一的问题是效果只要Scaling law成立就可以推断出小模型效果不会比超大规模模型效果好否则就直接反证了Scaling law是不成立的。所以小模型的关键点在于在模型规模大小受限的情况下如何通过其它技术手段来不断提升模型效果最好的结局是小模型尺寸比最大模型小很多倍但是效果逐步逼近最大模型的效果两者差距越来越小。这样美好的结局会出现么目前看有极大可能会达成这一目标。从最近一年各种技术进展来说我归纳下不断提升小模型效果的三个关键因素第一个武器是预训练阶段增加训练数据数量和质量。要打破Optimal Chinchilla Law在保证质量前提下加大数据数量这个肯定是有效的。去年早些时候有些模型就比较实在比如pythia和Llama 1严格遵循这个法则导致相同规模的模型效果远比不上那些大量增加数据的模型。后来大家都开始猛加数据小模型的效果就越来越好。第二个武器是模型蒸馏。从开源角度来看这个武器相对较新而且我判断用蒸馏来提升小模型效果的能力非常强大。所谓“蒸馏”就是说在预训练阶段小模型作为Student大模型作为TeacherTeacher告诉Student更多信息来提升小模型效果。原先小模型预训练目标是根据上文context信息正确预测Next Token而蒸馏则改成Teacher把自己做相同上下文做Next Token预测的时候把Token词典里每个Token的生成概率都输出来形成Next Token的概率分布这就是Teacher交给Student的额外附加信息小模型从原先的预测Next Token改为预测Next Token的概率分布要求和Teacher输出的分布尽量一致这样就学到了Teacher的内部信息。Gemma 2采用模型蒸馏对于小版本模型提升非常明显。Llama 3技术报告貌似没有看到采用这个技术但是在宣传页里到处暗示你应该拿405B模型作为Teacher去蒸馏自己的小模型无疑这会是很有效提升小模型能力的新武器。感觉其它模型在这里没有足够的重视而之后这应该成为普及方案。而研究怎样的蒸馏方法是最好的会是一个重要研究领域。第三个武器是Annealing Data。这个说法是Llama 3技术报告提的但是其实去年很多模型应该已经这么做了只是叫法不一样。核心思想就是在预训练的最后阶段对高质量数据比如数学、逻辑、代码数据进行上采样增加其影响。LLama 3技术报告说这招对405B模型不怎么起作用但是对8B小模型在逻辑代码能力方面有明显提升。根据现有资料分析我推断模型蒸馏和Annealing Data很可能存在一种“反规模效应”就是说小模型的参数规模越小上这两个技术对其正面影响越大。推断的没明确证据谨慎参考所以在研发小模型时尤其注意要引入这两项改进三个武器并用我觉得作出接近最强大模型能力的小模型目前看是可行的。其实还有一个重要因素就是Post-Training阶段合成数据的影响这个对几乎所有尺寸模型都成立所以放在后面“驱动大模型效果提升三要素”分析了对小模型也成立八、合成数据进入实用化阶段在Post-Training阶段合成数据目前已经产品化。尤其是其中的SFT阶段目前看在朝着完全由合成数据主导的方向发展。比如LLama 3 的SFT数据里有相当比例是由模型生成的合成数据而Gemma2 在SFT阶段的数据很大比例是由规模更大的模型合成的且证明了合成数据质量不比人工标注质量差。在预训练阶段类似Dalle-3和Sora这种由语言大模型根据图片或视频改写人写好的文字描述也已实用化。目前合成数据的一个重点方向是在Post-Training阶段对数学、逻辑、代码等数据的合成数据质量将直接极大影响模型最终效果。严格来说目前的所谓合成数据只是“半合成数据”比如Sora的视频人写文字描述视频模型改写文字描述以及Post-Training阶段的Prompt人写答案Prompt模型生成答案都是部分人工数据、部分模型生成数据所以称其为“半合成数据”感觉更为恰当。如果深入思考一下你会发现合成数据其实是模型蒸馏的一种变体算是一种特殊的模型蒸馏。LLM预训练预测Next Token其实是人类作为TeacherLLM作为student。所以LLM本身就是对人类知识的蒸馏。合成数据是更大的模型输出数据作为Teacher小点的模型作为Student从中学习知识所以其实本质上是一种模型蒸馏。九、驱动大模型效果提升的三要素其实从ChatGPT火了以后看各种大模型的技术报告包括LLama系列模型在内可以看出大模型之所以能力仍在快速提升主要驱动力有三个首先就是不断扩大模型和数据规模Scaling Law**。除此外在数据方面有两个发展趋势一个是越来越强调数据质量的作用各种数据筛选方法和工具越来越多保证质量是第一位的这个早在Google T5时代就能推出这个结论目前只是进一步验证并延续这个思路而已。第二个是不断增加数学、逻辑、代码这种能够提升大模型理性能力的数据配比比例包括在预训练阶段增加预训练数据此类数据比例且在预训练后面阶段来上采样此类数据就是说同样数据多执行几遍以增加其对模型参数影响的权重和Post-Training阶段增加此类数据占比Llama3的经过instruct的模型比仅做预训练模型相比各种尺寸的效果提升都很大皆是如此。目前看在通用数据快被用完情况下第三个因素会成为之后大模型进步的主导力量包括使用数学、逻辑、代码合成数据在Post-Training阶段的应用目前技术也越来越成熟其质量和数量会是决定未来大模型效果差异的最关键因素。想入门 AI 大模型却找不到清晰方向备考大厂 AI 岗还在四处搜集零散资料别再浪费时间啦2025 年AI 大模型全套学习资料已整理完毕从学习路线到面试真题从工具教程到行业报告一站式覆盖你的所有需求现在全部免费分享扫码免费领取全部内容​一、学习必备100本大模型电子书26 份行业报告 600 套技术PPT帮你看透 AI 趋势想了解大模型的行业动态、商业落地案例大模型电子书这份资料帮你站在 “行业高度” 学 AI1. 100本大模型方向电子书2. 26 份行业研究报告覆盖多领域实践与趋势报告包含阿里、DeepSeek 等权威机构发布的核心内容涵盖职业趋势《AI 职业趋势报告》《中国 AI 人才粮仓模型解析》商业落地《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》领域细分《AGI 在金融领域的应用报告》《AI GC 实践案例集》行业监测《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。3. 600套技术大会 PPT听行业大咖讲实战PPT 整理自 2024-2025 年热门技术大会包含百度、腾讯、字节等企业的一线实践安全方向《端侧大模型的安全建设》《大模型驱动安全升级腾讯代码安全实践》产品与创新《大模型产品如何创新与创收》《AI 时代的新范式构建 AI 产品》多模态与 Agent《Step-Video 开源模型视频生成进展》《Agentic RAG 的现在与未来》工程落地《从原型到生产AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。二、求职必看大厂 AI 岗面试 “弹药库”300 真题 107 道面经直接抱走想冲字节、腾讯、阿里、蔚来等大厂 AI 岗这份面试资料帮你提前 “押题”拒绝临场慌1. 107 道大厂面经覆盖 Prompt、RAG、大模型应用工程师等热门岗位面经整理自 2021-2025 年真实面试场景包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题每道题都附带思路解析2. 102 道 AI 大模型真题直击大模型核心考点针对大模型专属考题从概念到实践全面覆盖帮你理清底层逻辑3. 97 道 LLMs 真题聚焦大型语言模型高频问题专门拆解 LLMs 的核心痛点与解决方案比如让很多人头疼的 “复读机问题”三、路线必明 AI 大模型学习路线图1 张图理清核心内容刚接触 AI 大模型不知道该从哪学起这份「AI大模型 学习路线图」直接帮你划重点不用再盲目摸索路线图涵盖 5 大核心板块从基础到进阶层层递进一步步带你从入门到进阶从理论到实战。L1阶段:启航篇丨极速破界AI新时代L1阶段了解大模型的基础知识以及大模型在各个行业的应用和分析学习理解大模型的核心原理、关键技术以及大模型应用场景。L2阶段攻坚篇丨RAG开发实战工坊L2阶段AI大模型RAG应用开发工程主要学习RAG检索增强生成包括Naive RAG、Advanced-RAG以及RAG性能评估还有GraphRAG在内的多个RAG热门项目的分析。L3阶段跃迁篇丨Agent智能体架构设计L3阶段大模型Agent应用架构进阶实现主要学习LangChain、 LIamaIndex框架也会学习到AutoGPT、 MetaGPT等多Agent系统打造Agent智能体。L4阶段精进篇丨模型微调与私有化部署L4阶段大模型的微调和私有化部署更加深入的探讨Transformer架构学习大模型的微调技术利用DeepSpeed、Lamam Factory等工具快速进行模型微调并通过Ollama、vLLM等推理部署框架实现模型的快速部署。L5阶段专题集丨特训篇 【录播课】四、资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容​2025 年想抓住 AI 大模型的风口别犹豫这份免费资料就是你的 “起跑线”

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询