2026/1/3 11:51:33
网站建设
项目流程
企业网站建设教程 pdf,多用户版商城系统,Hexo与wordpress,同步到wordpress1.1 一个关键的洞察
在讲 Word2Vec 之前#xff0c;我们先思考一个问题#xff1a;人类是怎么理解一个词的含义的#xff1f;
假设你第一次看到「Transformer」这个词#xff0c;你会怎么理解它#xff1f;
句子1#xff1a;Transformer 是一种深度学习模型句子2#xf…1.1 一个关键的洞察在讲 Word2Vec 之前我们先思考一个问题人类是怎么理解一个词的含义的假设你第一次看到「Transformer」这个词你会怎么理解它句子1Transformer 是一种深度学习模型句子2Transformer 使用了注意力机制句子3BERT 和 GPT 都基于 Transformer句子4Transformer 在 NLP 领域取得了巨大成功通过这些句子你大概能猜到「Transformer」是一种与深度学习、注意力机制、NLP 相关的模型。❝你并不需要一个明确的定义仅仅通过观察一个词的「上下文」就能理解它的含义。这就是 1954 年语言学家 J.R. Firth 提出的著名论断❝“You shall know a word by the company it keeps.”通过一个词的「同伴」你就能知道这个词的含义这被称为分布假说Distributional Hypothesis语义相似的词往往出现在相似的上下文中1.2 分布假说的直觉让我们看几个例子我 喜欢 吃 ___我 喜欢 喝 ___能填入第一个空的词苹果、香蕉、米饭、面条…… 能填入第二个空的词咖啡、牛奶、果汁、可乐……「吃」和「喝」的上下文不同所以它们的语义不同。再看___ 是一种深度学习模型___ 使用了注意力机制___ 在 NLP 领域很流行能填入这些空的词Transformer、BERT、GPT……这些词的上下文高度相似所以它们的语义也相似1.3 Word2Vec 的核心思想Word2Vec 的核心思想就是❝通过预测上下文来学习词向量具体来说如果两个词经常出现在相似的上下文中那么它们的词向量应该相近。Word2Vec 提供了两种模型架构CBOWContinuous Bag of Words用上下文预测中心词Skip-gram用中心词预测上下文下面我们逐一详解。二、CBOW 模型用上下文预测中心词2.1 任务定义CBOW 的任务是给定一个词的上下文预测这个词是什么。假设我们有一个句子我 喜欢 自然 语言 处理设窗口大小 即左右各看 2 个词。对于中心词「自然」上下文{我, 喜欢, 语言, 处理}目标预测「自然」用数学语言描述给定上下文词 预测中心词 。2.2 模型结构那么 CBOW 的网络结构是什么样的呢CBOW 是一个简单的三层神经网络输入层 → 隐藏层投影层 → 输出层输入层上下文词的 One-Hot 向量设词汇表大小为 每个上下文词 表示为 One-Hot 向量隐藏层投影层词向量的平均这里有一个关键的权重矩阵 其中 是词向量的维度。对于每个上下文词 我们从 中取出对应的行向量❝这里需要说明一下由于 是 One-Hot 向量 实际上就是取出 中对应词的那一行。这就是所谓的查表操作。然后将所有上下文词的向量取平均得到隐藏层表示输出层预测中心词另一个权重矩阵 用于计算每个词作为中心词的得分其中 表示词汇表中第 个词作为中心词的得分。最后通过 Softmax 将得分转换为概率分布2.3 训练目标CBOW 的训练目标是什么最大化给定上下文时正确中心词的概率。用对数似然表示其中 是语料库中的总词数。等价地我们可以最小化负对数似然损失函数2.4 完整的数学推导下面我们把整个过程串起来。Step 1输入表示设上下文词为 不含 每个词的 One-Hot 向量为 。Step 2查表得到词向量从输入权重矩阵 中取出每个上下文词的词向量Step 3计算隐藏层将上下文词向量取平均Step 4计算输出得分用输出权重矩阵 计算每个词的得分其中 是 的第 列代表词 的输出向量。Step 5Softmax 得到概率Step 6计算损失设正确的中心词是 损失为2.5 一个具体的例子让我们用一个 NLP 例子来理解 CBOW。假设语料库只有一句话深度 学习 改变 了 世界词汇表 深度学习改变了世界大小 。设词向量维度 窗口大小 。对于中心词「改变」索引 2上下文{深度, 学习, 了, 世界}索引 0, 1, 3, 4输入4 个 One-Hot 向量深度学习了世界查表假设输入矩阵 为则深度学习了世界隐藏层取平均输出通过 和 Softmax 计算每个词作为中心词的概率然后最大化「改变」的概率。三、Skip-gram 模型用中心词预测上下文3.1 任务定义Skip-gram 与 CBOW 相反给定中心词预测它的上下文。还是那个句子我 喜欢 自然 语言 处理设窗口大小 。对于中心词「自然」输入自然目标预测 {我, 喜欢, 语言, 处理}用数学语言描述给定中心词 预测上下文词 。3.2 模型结构Skip-gram 的结构与 CBOW 类似但方向相反输入层中心词→ 隐藏层 → 输出层上下文词  **输入层**中心词的 One-Hot 向量 **隐藏层**中心词的词向量 ❝ 注意这里没有平均操作因为输入只有一个词。 **输出层**预测每个上下文词 对于每个位置 计算上下文词 的概率 其中 是 中词 对应的列向量。 ### 3.3 训练目标 **Skip-gram 的训练目标是什么** 最大化给定中心词时所有上下文词的联合概率。假设上下文词之间相互独立 对数似然为 损失函数负对数似然 ### 3.4 Skip-gram 的概率公式详解 让我们仔细看一下这个概率公式 其中 * 输入的中心词Input word * 输出的上下文词Output word * 中心词的**输入向量**从 中取 * 上下文词的**输出向量**从 中取 ❝ **这里有个重要的细节**每个词实际上有**两个向量**——一个输入向量 一个输出向量 。训练完成后我们通常只使用输入向量 作为词的最终表示也有人用两者的平均。 ### 3.5 为什么 Skip-gram 在实践中更常用 **问题来了**CBOW 和 Skip-gram 哪个更好 Mikolov 等人在论文中指出 ❝ * **小数据集**Skip-gram 效果更好 * **低频词**Skip-gram 效果更好 * **训练速度**CBOW 更快 **原因分析** 对于同一个句子Skip-gram 可以生成更多的训练样本。 以「深度 学习 改变 了 世界」为例窗口大小 **CBOW** * (上下文: {深度, 学习, 了, 世界}, 中心词: 改变) → **1 个样本** **Skip-gram** * (中心词: 改变, 上下文词: 深度) → 1 个样本 * (中心词: 改变, 上下文词: 学习) → 1 个样本 * (中心词: 改变, 上下文词: 了) → 1 个样本 * (中心词: 改变, 上下文词: 世界) → 1 个样本 * → **4 个样本** ❝ Skip-gram 从较少的数据中构造出更多的训练样本这对于低频词尤其重要。 --- 四、训练优化负采样Negative Sampling ----------------------------- ### 4.1 Softmax 的计算瓶颈 **问题又来了**上面的 Softmax 公式有一个严重的问题。 分母 需要遍历整个词汇表 现实中的词汇表大小 * 英语~100,000 * 中文~500,000 每次计算一个概率都要算 50 万次指数运算和求和这太慢了 ### 4.2 负采样的核心思想 Mikolov 等人提出了**负采样Negative Sampling**来解决这个问题。 核心思想是**不再计算完整的 Softmax而是把问题转化为二分类问题。** 具体来说 * **正样本**中心词和真实的上下文词如「改变」和「学习」 * **负样本**中心词和随机采样的「噪声词」如「改变」和「月亮」 目标变成**让模型学会区分正样本和负样本**。 ### 4.3 负采样的数学公式 对于一个正样本 中心词和上下文词我们随机采样 个负样本 。 **新的目标函数** 其中 * 是 Sigmoid 函数 * 是噪声分布用于采样负样本 * 是负样本数量通常取 5-20 **直觉理解** * 第一项 让正样本的得分尽量高 接近 1 * 第二项 让负样本的得分尽量低 接近 1 ### 4.4 噪声分布的选择 **那么负样本应该怎么采样呢** Mikolov 等人发现使用如下的噪声分布效果最好 其中 是词 在语料库中的词频。 **为什么是 次方** * 如果直接按词频采样高频词如「的」「是」被采样的概率太高 * 次方起到了「平滑」作用降低高频词的采样概率提高低频词的采样概率 **举例** 假设两个词的词频为 * 「的」1% * 「Transformer」0.01% 词频比 次方后 ❝ 原本「的」被采样的概率是「Transformer」的 100 倍现在降到了约 32 倍。 ### 4.5 负采样的计算复杂度 使用负采样后计算复杂度从 降到了 。 由于 通常取 5-20远小于词汇表大小几十万训练速度大大提升。 --- 五、另一种优化层次 SoftmaxHierarchical Softmax ---------------------------------------- ### 5.1 核心思想 层次 Softmax 是另一种加速训练的方法。它的核心思想是 ❝ **用二叉树通常是哈夫曼树来组织词汇表将 分类问题转化为 个二分类问题。** ### 5.2 具体做法 1. 根据词频构建哈夫曼树高频词离根节点近低频词离根节点远 2. 每个词对应树中的一个叶子节点 3. 预测一个词 从根节点走到该词对应的叶子节点 **每次走到一个内部节点做一次二分类决策**往左走还是往右走 左 右左 ### 5.3 计算复杂度 树的深度约为 所以计算复杂度从 降到了 。 对于 的词汇表 * 原始 Softmax * 层次 Softmax ❝ **在实践中**负采样通常比层次 Softmax 更简单、效果更好所以更常用。 --- 六、Word2Vec 的神奇性质 ---------------- ### 6.1 词向量的线性关系 训练完成后Word2Vec 的词向量展现出了一些神奇的性质。 最著名的是**线性类比关系** 这意味着「国王」和「男人」的差异约等于「女王」和「女人」的差异——这个差异向量编码了「性别」的概念 **更多例子** ### 6.2 为什么会有这种性质 **这可能有点绕但值得仔细理解。** 回顾 Skip-gram 的目标让经常共现的词的向量点积更大。 越大和越可能共现 假设「king」和「queen」都经常与「royal」「throne」「crown」等词共现那么它们的向量会被「拉」向相似的方向。 同时「king」和「man」都经常与「he」「his」等词共现「queen」和「woman」都经常与「she」「her」等词共现。 这种共现模式的规律性导致了向量空间中的线性结构。 ### 6.3 语义相似度计算 有了词向量我们就可以计算任意两个词的语义相似度了 **示例**使用预训练的 Word2Vec | 词对 | 余弦相似度 | | --- | --- | | (猫, 狗) | 0.76 | | (猫, 汽车) | 0.12 | | (北京, 上海) | 0.82 | | (北京, 苹果) | 0.08 | ❝ 语义相近的词向量也相近这正是 One-Hot 编码无法做到的。 --- 七、Word2Vec 的优势与局限 ----------------- ### 7.1 优势 **优势一低维稠密表示** 词向量维度通常为 100-300远小于词汇表大小几十万且每个维度都有意义。 **优势二捕捉语义相似性** 语义相近的词在向量空间中距离相近可以用于相似度计算、聚类等任务。 **优势三支持词向量运算** 著名的 。 **优势四训练高效** 负采样等技术使得在大规模语料上训练成为可能。 ### 7.2 局限 **问题来了**Word2Vec 有什么局限呢 **局限一静态表示一词一向量** 每个词只有一个向量无法处理一词多义。 plaintext 我在银行存钱河的两岸长满了芦苇这边是左岸那边是右岸河岸也叫河的两边「银行」在两句话中的含义完全不同金融机构 vs 河岸但 Word2Vec 只能给它一个向量。局限二忽略词序CBOW 把上下文词取平均Skip-gram 把上下文词独立处理都没有考虑词的顺序。局限三OOV 问题Out-of-Vocabulary对于训练时没见过的词无法生成词向量。局限四只利用局部上下文只考虑窗口内的词没有利用全局的共现统计信息。❝这些局限催生了后来的GloVe利用全局信息、FastText处理 OOV、ELMo/BERT动态上下文表示等技术我们将在后续文章中介绍。八、小结8.1 核心公式回顾CBOWSkip-gram负采样8.2 关键概念概念含义分布假说语义相似的词出现在相似的上下文中CBOW用上下文预测中心词Skip-gram用中心词预测上下文负采样用二分类代替多分类加速训练输入向量词作为中心词时的向量来自 输出向量词作为上下文词时的向量来自 下一篇预告《词嵌入技术演进史三GloVe——当全局统计遇上局部上下文》我们将深入探讨共现矩阵如何利用全局统计信息GloVe 的目标函数为什么是加权最小二乘Word2Vec vs GloVe各自的优劣是什么AI时代未来的就业机会在哪里答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具到自然语言处理、计算机视觉、多模态等核心领域技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。掌握大模型技能就是把握高薪未来。那么普通人如何抓住大模型风口AI技术的普及对个人能力提出了新的要求在AI时代持续学习和适应新技术变得尤为重要。无论是企业还是个人都需要不断更新知识体系提升与AI协作的能力以适应不断变化的工作环境。因此这里给大家整理了一份《2025最新大模型全套学习资源》包括2025最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题等带你从零基础入门到精通快速掌握大模型技术由于篇幅有限有需要的小伙伴可以扫码获取1. 成长路线图学习规划要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。这里我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。2. 大模型经典PDF书籍书籍和学习文档资料是学习大模型过程中必不可少的我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。书籍含电子版PDF3. 大模型视频教程对于很多自学或者没有基础的同学来说书籍这些纯文字类的学习教材会觉得比较晦涩难以理解因此我们提供了丰富的大模型视频教程以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识。4. 大模型项目实战学以致用当你的理论知识积累到一定程度就需要通过项目实战在实际操作中检验和巩固你所学到的知识同时为你找工作和职业发展打下坚实的基础。5. 大模型行业报告行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。6. 大模型面试题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我们将提供精心整理的大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。为什么大家都在学AI大模型随着AI技术的发展企业对人才的需求从“单一技术”转向 “AI行业”双背景。企业对人才的需求从“单一技术”转向 “AI行业”双背景。金融AI、制造AI、医疗AI等跨界岗位薪资涨幅达30%-50%。同时很多人面临优化裁员近期科技巨头英特尔裁员2万人传统岗位不断缩减因此转行AI势在必行这些资料有用吗这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。大模型全套学习资料已整理打包有需要的小伙伴可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】