邯郸学做网站学校网站上的定位怎么做
2026/1/8 22:15:55 网站建设 项目流程
邯郸学做网站学校,网站上的定位怎么做,重庆八大员证书查询网站,网页小游戏flash不能正常运行本文以非技术视角解释大语言模型(LLM)工作原理#xff0c;包括词向量表示单词含义、Transformer架构中的注意力机制与前馈步骤、模型训练方式及规模与性能的关系。通过GPT系列模型为例#xff0c;展示了如何通过预测下一个词构建语言模型#xff0c;以及模型如何表现出类似人…本文以非技术视角解释大语言模型(LLM)工作原理包括词向量表示单词含义、Transformer架构中的注意力机制与前馈步骤、模型训练方式及规模与性能的关系。通过GPT系列模型为例展示了如何通过预测下一个词构建语言模型以及模型如何表现出类似人类的推理能力。文章揭示了尽管内部机制不完全理解但LLM通过大量数据学习语言规律与世界知识。一、Word vectors——词向量理解语言模型工作原理首要了解它如何表示单词。人类用字母序列表示单词如cat为C-A-T。语言模型用长词向量列表表示单词如cat表示为[0.0074, 0.0030, -0.0105, … , 0.0002]。为什么要使用这样的复杂表示法呢这里举个类比。华盛顿特区位于北纬38.9度、西经77度。我们可以使用向量表示法来表示它Washington DCis at [38.9, 77]New Yorkis at [40.7, 74]Londonis at [51.5, 0.1]Parisis at [48.9, -2.4]空间推理对判断地点间距离至关重要。38.9与40.777与74的接近性表明纽约与华盛顿特区相近而巴黎与伦敦相近但与华盛顿特区远离。语言模型采用类似方法将词向量视为“词空间”中的点含义相近的单词在空间中更靠近。如“cat”的相近词为“dog”、“kitten”和“pet”。实数向量非字母序列能执行字母无法实现的操作。由于单词复杂性语言模型使用数百甚至数千维度的向量空间。人类难以想象但计算机能推理并得出有用结果。词向量概念自20世纪70年代已有但真正流行始于2013年谷歌的word2vec项目。谷歌分析数百万份Google新闻文档学习预测共现单词将相似词放置在靠近位置。其特性之一是使用向量算术推理单词如“biggest”向量减去“big”加上“small”得“smallest”。可以使用向量算术进行类比如big对应biggestsmall对应smallest。谷歌的词向量捕捉到了多种关系如nationalities、capitals、opposites、plurals和gender roles。这些向量根据人类使用单词的方式构建反映了语言中的偏见如doctor-manwomannurse。减轻偏见是研究的一个方向。词向量对语言模型是有用的构建模块因为它们编码了单词间关系的微妙信息。语言模型若学到猫的一些情况同样适用于小猫或狗若学到巴黎和法国的关系则柏林和德国、罗马和意大利也可能存在相同情况。Word meaning depends on context词义取决于上下文词向量方案不能全面捕捉自然语言的多义性。例如“bank”可以是金融机构或河岸“杂志”在“John picks up a magazine”和“Susan works for a magazine”中含义微妙不同。这是多义性polysemy或同音异义词homonyms的体现。语言模型如ChatGPT能根据上下文以不同向量表示相同单词。对于“bank”和“杂志”它们会有不同的向量表示以区分其不同含义。这种向量表示对理解语言模型的工作方式至关重要。传统软件处理明确数据但自然语言存在歧义。如“the customer asked the mechanic to fix his car”中的“his”“the professor urged the student to do her homework”中的“her”以及“fruit flies like a banana”中的“flies”。人们依赖上下文解决这些歧义但无确定规则。词向量为语言模型提供了在特定上下文中表示单词精确含义的灵活方式。现在我们来探究它们如何实现这一点。二、将词向量转化为词语预测GPT-3即ChatGPT原始版本背后的模型由数十个层组成。每个层以一系列向量作为输入输入文本中每个单词对应一个向量并添加信息来澄清该单词的含义并更好地预测接下来可能出现的单词。让我们从一个简化的例子开始LLM语言模型每层都是transformer这种神经网络架构由Google在2017年首次引入。模型的输入是句子的一部分这些单词被表示为word2vec风格的向量并输入到第一个transformer中。Transformer能推断出单词的词性生成新的向量称为隐藏状态传递给下一个transformer。后续的层对整个段落进行高层次的理解。LLM的层数通常远不止两个例如GPT-3有96个层。前几层主要关注理解句子的语法和解决歧义后续层致力于对整个段落进行高层次的理解。例如当LLM“阅读”短篇小说时它会跟踪性别、年龄、关系、位置、个性和目标等信息。研究人员不完全理解LLM如何跟踪这些信息但模型通过在层与层之间传递时修改隐藏状态向量来实现。现代LLM使用的词向量非常大例如GPT-3使用具有12,288个维度的词向量。这些额外的维度为模型提供了对每个单词的上下文进行记录的“临时空间”。后续层次可以读取和修改早期层次所做的记录使模型逐渐加深对整个段落的理解。96层的LLM的目标是输出包含所有必要信息的最终词的隐藏状态以预测下一个词。这种模型通过多层transformer实现对句子和段落的深层次理解并通过大维度的词向量记录每个单词的上下文信息。三、Transformer的注意力机制让我们聚焦Transformer内部的工作机制。Transformer通过两步过程更新输入段落中每个单词的隐藏状态注意力步骤单词寻找与其上下文相关的其他单词并共享信息。前馈步骤单词思考注意力步骤中收集的信息并尝试预测下一个单词。执行这些步骤的是网络而不是单词本身。这种以单词为基本单位的分析方法充分利用了现代GPU的大规模并行处理能力使得语言模型能够处理数千个单词的段落克服了之前模型的限制。注意力机制类似于单词之间的媒婆服务。每个单词创建一个查询向量描述它寻找的单词特征以及一个键向量描述它自身的特征。网络通过比较查询和键向量来找到最佳匹配的单词并传递信息。例如假设Transformer推断出“his”指的是“John”。his的查询向量可能表示“我正在寻找描述男性的名词”而John的键向量表示“我是描述男性的名词”。网络检测到匹配后将John的信息转移到his的向量中。每个注意力层有多个注意力头每个头专注于不同的任务如代词与名词匹配、同音异义词解析或短语链接。这些头按顺序操作每层的结果成为下一层的输入。例如GPT-3有96层每层96个注意力头每次预测执行9,216个注意力操作。四、A real-world example一个完整的案例在最后两部分中我们了解了注意力头如何工作。现在让我们探究真实语言模型内部的工作机制。去年Redwood Research的科学家研究了GPT-2即ChatGPT的前身预测下一个单词的方式。他们使用了句子“When Mary and John went to the store, John gave a drink to.”作为样本。研究发现GPT-2使用三种类型的注意力头来预测下一个单词为Mary。首先“Name Mover Heads”从Mary的向量中复制信息到最终输入向量。其次“Subject Inhibition Heads”通过标记第二个John向量阻止“Name Mover Heads”复制John。最后“Duplicate Token Heads”将第二个John向量标记为第一个John向量的重复帮助“Subject Inhibition Heads”做出决策。这九个注意力头使GPT-2推断出“John gave a drink to John”无意义而选择了“John gave a drink to Mary”。这个例子展示了理解语言模型的困难性。Redwood团队的论文详细解释了他们如何识别和验证这些注意力头但即使如此我们仍未能全面解释GPT-2为何选择Mary。例如模型如何知道下一个单词应该是人名而非其他类型的词类似句子中Mary可能不是好的预测。科学家们仍在努力揭示GPT-2推理过程的其他步骤。然而要全面理解GPT-2的决策可能需要数月甚至数年的努力。ChatGPT背后的GPT-3.5和GPT-4更为庞大和复杂。因此完全解释这些系统的工作原理将是一项巨大的任务可能在短时间内无法完成。the feed-forward step前馈步骤模型推理的过程在注意力头之间传递信息后有一个前馈网络进行思考每个词向量并尝试预测下一个单词。在这个阶段词之间不进行信息交换前馈层独立分析每个单词。然而前馈层可以访问之前由注意力头复制的任何信息。以下是GPT-3最大版本中前馈层的结构。绿色和紫色圆圈代表神经元这些神经元通过计算输入的加权和来进行数学运算。前馈层的强大之处在于其庞大的连接数。GPT-3的前馈层规模庞大输出层有12,288个神经元隐藏层有49,152个神经元。每个前馈层有大约12亿个权重参数总共有96个前馈层总参数数达到1160亿占据GPT-3总参数的三分之二。前馈层通过模式匹配工作每个神经元匹配输入文本中的特定模式。随着层数的增加模式变得更加抽象。早期的层匹配特定单词而后期的层匹配更广泛的语义类别如电视节目或时间间隔。这很有趣因为前馈层一次只检查一个单词但它能够将上下文信息移入向量中从而判断单词与某个类别相关。当神经元匹配这些模式之一时它会向词向量添加信息这些信息可以视为关于下一个单词的初步预测。布朗大学的研究揭示了前馈层如何使用向量运算进行推理来预测下一个单词。例如他们发现GPT-2在前几层之后开始预测下一个单词而在更高层时预测变得越来越准确。布朗大学研究人员发现通过向模型中添加一个向量第20个前馈层能够将波兰转换为华沙中国转换为北京。同时该层也能将小写单词转换为大写现在时转换为过去时。注意力层和前馈层在GPT-2中有不同任务注意力层基于提示预测而前馈层依赖训练数据中的信息。禁用前馈层模型无法预测华沙但添加“波兰的首都是华沙”后GPT-2又能回答。这表明注意力层从提示中检索信息前馈层则提供训练数据中的信息。因此可将前馈层视为模型的数据库早期层编码简单事实如“特朗普与唐纳德常同时出现”而后期层则编码更复杂的关系如国家与首都间的转换。How language models are trained语言模型是如何训练的模型训练的过程早期的机器学习算法需要人工标记的训练数据这限制了模型的规模和训练成本。然而语言模型的创新在于它们可以利用未标记的文本数据进行学习。这种模型可以从大量的书面材料中学习如维基百科页面、新闻文章和计算机代码。语言模型通过预测下一个单词来学习初始的模型表现会很差因为其权重参数是随机设置的。随着模型接触到更多的示例这些权重参数会逐渐调整以改进预测。这一过程可以类比为调整水龙头的温度直到找到合适的水温。在语言模型中这个过程更为复杂因为它需要调整数百亿的阀门权重参数以控制信息的流动。虽然这个概念听起来很复杂但由于计算机的性能不断提高这种规模的运算在现实中是可行的。所有的语言模型部分如前馈层中的神经元和注意力头都被实现为简单的数学函数这些函数的行为由权重参数决定。训练算法通过增加或减少这些权重参数来控制信息在神经网络中的流动。训练过程分为两个步骤前向传递和反向传递。在前向传递中模型会检查预测是否准确。然后在反向传递中模型会调整权重参数以改进预测。这个过程需要大量的数学运算训练像GPT-3这样的大型模型需要数十亿次的前向和反向传递。尽管计算量大但由于计算机性能的提升这种训练在数月内即可完成。The surprising performance of GPT-3GPT-3的惊人表现您可能会对ChatGPT的表现感到惊讶它能够执行撰写论文、类比推理和编写计算机代码等复杂任务。那么为什么这样一个简单的学习机制能够产生如此强大的模型呢其中一个重要原因是规模。像GPT-3这样的模型所接触到的例子数量庞大其在大约5000亿个单词的语料库上进行训练相比之下一个10岁的孩子大约只接触到1亿个单词。过去五年OpenAI逐渐扩大了其语言模型的规模。据2020年论文报道模型准确性与其规模、数据集规模和训练计算量呈幂律关系趋势跨越七个数量级以上。随着模型规模的增大其在语言任务上的表现也逐渐提升。但前提是训练数据量也需要以类似比例增加这就需要更多的计算能力。OpenAI从2018年的GPT-1开始逐步增加了模型的规模。GPT-1有117万个参数而GPT-2的最大版本则有15亿个参数。到了2020年的GPT-3参数数量更是达到了1750亿个。今年发布的GPT-4虽然具体细节尚未公布但普遍认为其规模远超GPT-3。这样的模型规模使得ChatGPT等语言模型能够在各种任务中展现出强大的能力。每个模型不仅学到了比其较小的前身更多的事实而且在需要某种形式的抽象推理的任务上表现更好例如考虑以下故事这是一个装满爆米花的袋子。袋子里没有巧克力。然而袋子上的标签却写着“巧克力”而不是“爆米花”。Sam找到了这个袋子。她以前从未见过这个袋子。她无法看到袋子里面的东西。她读了标签。Sam相信袋子里有巧克力发现爆米花时会惊讶。这是心智理论人类从小就具备但对非人类动物有争议。今年斯坦福大学研究了大型语言模型的心智理论能力。GPT-1和GPT-2失败了但GPT-3准确率约为40%与三岁儿童相当。最新版的GPT-3准确率提高到90%与七岁儿童相当而GPT-4则有95%的准确率。Kosinski认为没有证据表明心智理论能力被特意设计进模型中且科学家也不清楚如何实现。这种能力可能是随着模型语言能力的增强自然涌现的。不过并非所有研究者都认同这一观点他们认为GPT-3在某些任务中的表现可能受到混淆效应的影响。尽管存在争议GPT-3在一些衡量心智理论的任务上展现出近乎人类的能力这与大型模型在高级推理任务上表现更佳的观点相符。此外GPT-4也展现了类似人类的复杂思考方式如在TiKZ图形编程语言中绘制独角兽的任务中尽管结果略显粗糙但显示出GPT-4对独角兽外观的理解。研究人员认为GPT-4可能以某种方式从其训练数据中记住了绘制独角兽的代码所以他们给它一个后续挑战他们修改了独角兽的代码将犄角移除并移动了其他一些身体部位。然后他们要求GPT-4将犄角放回去。GPT-4的回答是将犄角放在了正确的位置上尽管GPT-4的训练数据未包含图像它仍能从文本中推理出独角兽的身体形状。这引发了关于模型是否真正理解单词含义的辩论。尽管此辩论深具哲学性我们仍应关注模型的实际表现。若模型能在特定问题上给出正确答案且已控制混淆因素那么无论其理解方式是否与人类相同这都是有趣且重要的结果。语言模型使用下一个令牌预测的原因之一是语言本身的可预测性。语言中的规律通常与物理世界中的规律相关因此模型在学习单词关系时也在学习世界关系。预测是生物智能和人工智能的基础良好的预测需要良好的表示方式。传统上语言模型的挑战在于如何最佳表示词语尤其是词语含义随上下文变化的情况。下一个词语预测方法使研究人员能绕过这一难题通过提供足够数据和计算能力模型最终能学到很多关于人类语言如何工作的知识。然而这些系统的内部工作机制并不完全理解。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2025 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询