2026/1/10 11:07:40
网站建设
项目流程
北京做网站ezhixi,广东建设工程执业资格注册中心网站,关于网站建设的意义,产品开发流程图模板本文通过 Retrieval and Structuring (RAS) 范式理解精准推理与领域专长#xff0c;并附实现示例
Large Language Models#xff08;LLM#xff0c;大型语言模型#xff09;在文本生成和复杂推理方面展现了卓越能力。但它们并不完美。
当 LLM 用于真实世界场景时#xf…本文通过 Retrieval and Structuring (RAS) 范式理解精准推理与领域专长并附实现示例Large Language ModelsLLM大型语言模型在文本生成和复杂推理方面展现了卓越能力。但它们并不完美。当 LLM 用于真实世界场景时会面临多种挑战有时会出现“幻觉”有时会给出过时的答案。为了解决这些问题引入了 Retrieval-Augmented GenerationRAG。RAG 先从外部文档检索相关信息以此为 LLM 的回答“接地气”显著减少幻觉。看起来是个好方案还不完全是。传统 RAG 往往把外部信息当作原始、非结构化的文本片段来处理。这些杂乱文本中常包含令人困惑或非原子化的信息容易误导 LLM。同时当问题需要多步推理时系统也会变得吃力。为突破这些限制Retrieval and StructuringRAS范式应运而生。RAS 在 RAG 基础上增加了知识结构化这一步。本文将带你了解 RAS 框架、各阶段及其实现步骤。一、为什么需要为 RAG 进行结构化结构化通过把检索到的非结构化文本转化为有组织、可操作的知识解决传统 RAG 的关键限制。下面来理解在 RAG 中进行数据结构化的重要性。1. 克服传统 RAG 的局限传统 RAG 连接 LLM 与外部信息以缓解幻觉和知识过时等问题。然而RAG 仍然处理的是非结构化文本片段。非结构化文本常包含无关细节容易干扰模型导致误导性答案。面对需要多步推理或需要有组织的领域知识的复杂问题常规 RAG 会很吃力。2. 增强 LLM 的生成与推理把外部知识结构化为诸如 Knowledge Graph知识图谱之类的表示是提升 LLM 输出质量与推理能力的关键。当答案构建于结构化知识之上模型更不易产生幻觉。比如KG-RAG 以 Knowledge Graph 引导模型使得回答更准确、更有依据。结构化数据能让模型看到事实之间的连接从而应对需要更深层推理的复杂问题。与闭源和开源模型的对比显示RAS 能显著提升 AI 应用的效果。二、什么是 RASRetrieval And StructuringRAS范式在传统 RAG 基础上引入 Taxonomy 和 Knowledge Graph 等知识结构化技术将非结构化文本转化为有组织的知识以增强推理与可验证性。RAS 将三个关键组件统一到一个框架中信息检索、结构化知识表示如 Knowledge Graph以及 LLM。下面用一个通俗的版本来说明 RAS。传统 LLM 只依赖训练中“记住”的内容可能过时或不完整因此可能猜测甚至“幻觉”答案。RAGRetrieval-Augmented Generation为解决幻觉与过时/专有数据问题而发展让 LLM 先查资料检索非结构化文本片段。问题在于检索回来的是一大堆杂乱文本信息不原子且容易误导。RASRetrieval-And-Structuring发展出一种更强的策略用于彻底消除“脏数据”的困扰Step 1: Retrieval——LLM 搜索所有相关文档。Step 2: Structuring——不直接拉取原始文本而是访问组织化的数据如 Knowledge Graph 或 Taxonomy消除混淆并提炼事实与关系。Step 3: Generation——LLM 基于这个组织化的 Knowledge Graph 构建事实正确、可验证的答案。RAS 范式抽象示意 [Source]本质上RAS 不仅教会 LLM 如何找到信息还教它如何正确组织与运用信息进行推理。三、RAS 范式的基础原则RAS 提升了 LLM 执行知识密集型任务的能力并促进更高效的知识发现。其核心是有效使用结构化数据改进检索流程与 LLM 输出质量1. Structure-Enhanced Retrieval结构增强检索更聪明地找知识结构化技术帮助检索系统精准找到 LLM 需要的内容尤其在复杂或领域特定的问题上。三种基础方法Taxonomy-Based Approaches不再只做通用搜索而是使用领域特定的主题 Taxonomy。搜索由领域结构引导不必依赖大量标注数据。Knowledge GraphKG-Based Approaches使用 Knowledge Graph 提升检索质量。例如 KG-RAG 让 LLM 按图逐步推理聚焦实体及关系而非仅关键词从而更准确。The Iterative Cycle采用迭代循环。先由“Taxonomy 增强的检索器”找到相关文档立即结构化为子图以更新“面向查询的 KG”。LLM 基于该 KG 回答问题必要时再生成聚焦的子查询开启新一轮精炼检索。2. Structure-Enhanced LLM Generation结构增强生成更聪明地用知识在得到结构化知识后关键是利用它增强 LLM 的回答。结构增强生成将模型回答锚定在显式知识结构上显著减少幻觉并提升事实一致性。ToGThink-on-Graph通过引导式提示在 KG 上直接推理逐步构建显式推理链。GoTGraph-of-Thought将 LLM 的推理过程结构化为图而非简单的线性链支持多路径探索和循环思考等复杂模式。其他技术如 GraphRAG 将复杂结构化知识浓缩为文本摘要使 LLM 能处理需要对语料全局理解的复杂查询。RAS 范式基础原则 - 图片由作者使用 Napkin.ai 制作四、为 RAG 创建并添加结构的技术与实现1. 为数据添加简单结构添加结构涉及多个步骤从 Taxonomy 构建开始随后进行 Taxonomy 丰富、实体抽取与 Knowledge Graph 创建。为数据添加简单结构的步骤 - 作者Vivedha ElangoStep 1: 创建核心的结构化表示Taxonomies 与 Entities该阶段建立领域知识的组织结构第一步通常是构建一个 Taxonomy。什么是 TaxonomyTaxonomy 是一种树状结构从上层的广义类别父节点组织到下层更具体的类别子节点。在文本挖掘中Taxonomy 有助于结构化标签与组织信息。Taxonomy 构建从一个“seed”起步。不同方法在宽度与深度上扩展 seed并在后续调整整体结构。HiExpan 通过实体扩展来生长 Taxonomy并用词类比进行细化。它面向任务地从领域语料中构建 Taxonomy。用户可提供 seed Taxonomy 进行引导确保结果与需求匹配。其流程会自动生成关键词列表基于 seed 逐步扩展各节点并递归拓展子节点集保持子节点组的一致性与相关性并提供弱监督关系抽取模块。任务引导的 Taxonomy 构建用户提供 seed 树系统从原始语料中抽取关键词并自动生成 Taxonomy [Source]层级树扩展算法概览 [Source]CoRel 使用预训练语言模型学习可泛化的父子关系。ColRel 提供一种更契合用户兴趣的 Taxonomy 构建方式以用户提供的 seed Taxonomy 与语料为起点生成覆盖更丰富的定制化 Taxonomy。每个节点是一个相关术语簇使得结构更有意义、更贴近用户需求。其核心模块包括Relation Transferring学习用户关注的关系并在不同路径间迁移从而在宽度与深度上扩展结构获得更细致与更广的层级。Concept Learning通过对 Taxonomy 与语料进行联合嵌入让每个概念由一组一致的相关术语来表示以增强语义。Seed 引导的主题 Taxonomy 构建 [Source]Step 2: Taxonomy Enrichment该步骤为已构建的 Taxonomy 节点关联描述性文本如关键词使每个节点更具信息性与区分度并在丰富过程中显式建模树状结构。TaxoGen递归地对词向量进行聚类并用本地语料细化簇。它将相关术语聚为单一主题先用嵌入捕捉语义再用特殊聚类逐级细化主题确保一般性术语位于高层、具体术语位于低层。随后在与小主题相关的本地语料上重学嵌入以分辨细微差别最终自动产出清晰有用的 Taxonomy。TaxoGen 概览 [Source]NetTaxo在 TaxoGen 基础上引入网络结构信息让文档之间的连接与文本内容共同作用构建更丰富、更准确的主题层级更易发现主题及其子主题提升可用性与信息量。NetTaxo 概览 [Source]Step 3: Information Extraction实体与关系挖掘Information ExtractionIE聚焦于抽取实体级信息作为知识结构化的基石。该步骤识别现实世界实体与其关系是构建 Knowledge Graph 的关键。常用技术包括Entity Mining如 Named Entity RecognitionNERFine-Grained Entity TypingFET将实体归类进本体/ontologyRelation ExtractionStep 4: Knowledge Graph ConstructionKG在该步骤中将抽取的信息实体化为 Knowledge GraphKG用节点表示实体用边表示关系。典型技术与框架包括Pipelined Methods历史上常用 Open Information ExtractionOpenIE工具抽取三元组再进行过滤与融合。OpenIE 能抽取开放域的主语-关系-宾语三元组并产出对应蕴含句片段存于 CoreMap 的 EntailedSentencesAnnotation 键。OpenIE 工作流概览 [Source]End-to-End Models如 REBEL 等框架直接利用 Pre-trained Language Models 将原始文本端到端转成结构化知识。LLM-based Construction如 KnowledgeGraph GPT直接通过提示 LLM如 GPT-4将纯文本转为 KG。以上步骤构成了简单 RAS 循环所需的流程与可用框架下面的流程图有助于整体把握。四、为 RAG 添加简单结构的实现kg-gen 包提供了便捷实现。它是一个 text-to-KG 生成器使用 LLM 从纯文本直接构建高质量图。kg-gen 会把相近实体聚类降低稀疏性、提升可用性。通过 pip install kg-gen 可安装为 Python 库。from kg_gen import KGGen# Initialize KGGen with optional configurationkg KGGen( modelopenai/gpt-4o, # Default model temperature0.0, # Default temperature api_keyYOUR_API_KEY# Optional if set in environment or using a local model)# EXAMPLE 1: Single string with contexttext_input Linda is Joshs mother. Ben is Joshs brother. Andrew is Joshs father.graph_1 kg.generate( input_datatext_input, contextFamily relationships)# Output: # entities{Linda, Ben, Andrew, Josh} # edges{is brother of, is father of, is mother of} # relations{(Ben, is brother of, Josh), # (Andrew, is father of, Josh), # (Linda, is mother of, Josh)}对于长文本可通过 chunk_size 参数分块处理graph kg.generate( input_datalarge_text, chunk_size5000 # Process in chunks of 5000 characters)你还可以在生成时或之后对实体与关系进行聚类# During generationgraph kg.generate( input_datatext, clusterTrue, contextOptional context to guide clustering)# Or after generationclustered_graph kg.cluster( graph, contextOptional context to guide clustering)聚合多个图使用 aggregate 方法合并多个图graph1 kg.generate(input_datatext1)graph2 kg.generate(input_datatext2)combined_graph kg.aggregate([graph1, graph2])2. 进阶动态添加结构迭代式 RAS 循环在进阶 RAS 系统中结构化过程通常是动态与迭代的结合 Taxonomy 与 KG针对查询定制上下文。该技术适用于更灵活的高级 RAG 应用动态构建并细化与用户查询强相关的结构化知识上下文。RAS 如何构建与使用知识来回答问题可分为四个关键阶段Stage1: Action Planning规划所需信息需求评估Planner 模型先检查主问题判断现有知识是否足够。无需检索若可直接作答则进入生成阶段。生成子查询若知识不足Planner 会生成聚焦的子查询以弥补特定知识缺口。该迭代规划机制突破了一次性检索方法的局限。Stage 2: Theme-Scoped Retrieval主题域检索主题域划定通过分类器确定子查询的主题分布并据此限定到主题子语料。密集检索仅在该子语料内进行语义匹配以找到最相关文本提高效率与相关性。Stage 3: Dynamic Knowledge Structuring动态知识结构化文本到三元组将检索到的文本转为知识三元组subject-predicate-object。迭代丰富将新事实并入随查询演化的 KG使其逐步扩展。再评估Action Planner 基于更新后的 KG 判断是否足以回答主问题否则生成下一轮子查询。Stage 4: Knowledge-Augmented Generation结构增强生成利用结构Answerer 模型使用累积的 KG、子查询链与检索事实生成最终答案。输出准确在 KG 的精确结构化知识支撑下回答更准确、连贯且优于旧式 RAG 在复杂任务上的表现。下面的流程图概括了迭代式 RAS 循环的步骤。RAS 步骤 - 作者Vivedha Elango迭代式 RAS 的实现RAS 论文链接提供了代码实现GitHub 链接。你可按说明搭建并在复杂查询上测试其效果。性能对比 [Source]五、RAS 的技术挑战Retrieval and StructuringRAS为让 LLM 更聪明、更实用开辟了新路但仍有诸多挑战。主要集中在三方面检索效率、知识质量与集成复杂度。1. 检索效率首要挑战是速度。数据越大快速而准确地找到所需信息就越难。Scaling 与 Latency更大的模型与数据带来更大负载RAS 的额外步骤也会提高时延。Dense RAG 与 RAS 的时延对比 [Source]关键在于如何在规模化时保持速度与相关性这需要新的索引方法与高并发请求处理机制。自适应策略查询难度不一。系统需具备自适应能力何时深入、何时浅尝辄止从而在性能与体验间取得平衡。2. 知识质量RAS 依赖将杂乱的非结构化文本转为干净的结构化知识这并不容易。噪声、矛盾与不一致都会削弱系统。噪声与不一致自动化构建 Taxonomy 与 Knowledge Graph 的工具可能引入错误或矛盾。稳健验证需要更强的质控方法最好引入领域专家参与并支持迭代改进。跨领域一致性医学、法律、工程等领域有差异化语境需在尊重领域差异的前提下保持结构化知识的连贯性。3. 集成复杂度即便检索快速、知识高质结构化信息与 LLM 推理的深度融合仍然最为棘手。融合异源知识来源多样、可能冲突、重叠或过时。系统需要解决与更新机制。一致性维护新数据加入时旧知识需增量更新与冲突消解保持整体一致。实时适配LLM 既要准确信息也要实时性要求框架能动态摄取与整合信息。性能权衡更多结构意味着更多计算开销需要在推理能力与效率之间取得平衡。六、研究机会随着数据类型、规模与复杂度增长RAS 仍在演进未来有多条有前景的方向。多模态知识集成当下数据不仅是文本还有图像、视频、音频等。未来 RAS 需要无缝处理多模态构建统一索引跨模态建立语义连接如把视频片段关联到文本、把图像关联到音频描述。融合 vision-language 模型与文本编码器的神经架构是方向之一使 LLM 能跨模态推理并在回答中引用非文本线索。跨语言系统知识不受语言限制但大多数结构化系统仍受限于语言。多语言嵌入与平行语料可帮助构建跨语言的 Taxonomy迁移学习可将高资源语言的结构迁移到低资源语言。标准化的跨语基准与健壮的领域自适应方法将进一步提高准确性。交互式与自我精炼系统静态检索有其上限。用户常希望通过对话自然细化查询。交互式界面可以支持这一点同时借助强化学习或元学习的自我精炼机制系统能自检自纠若还能解释修正步骤并结合用户反馈将更聪明也更透明。人机协作框架在复杂结构化任务中人类专家仍不可或缺。专家可精炼 Taxonomy、审查边界案例众包可帮助保持数据新鲜与相关。人机协作还有助于确保隐私与公平。机器的规模与人的判断结合才能发挥最大价值。个性化知识投递用户诉求各异。个性化通过引入用户画像、历史行为或直接反馈使检索更相关。同时需内置隐私保护。随着时间推移系统可在核心架构之上叠加上下文线索以自适应。七、结语Retrieval and StructuringRAS是推动 LLM 从“惊艳但不完美”迈向“可靠、知识驱动”的下一步。传统 RAG 通过引入外部文档缓解了部分问题但面对杂乱无章、重复、缺失或难以解析的非结构化数据时仍会失灵。RAS 的核心很简单把非结构化数据转成结构化、可验证的知识。通过文本结构化构建 Taxonomy、创建层级、抽取实体进而组织成可用的 Knowledge Graph。当然RAS 仍面临挑战检索需更快、更可扩展Knowledge Graph 随增长需保持准确与一致结构化数据需要持续维护、精炼与验证。展望未来RAS 将走向更深的集成与更强的适应性包括跨文本、图像、视频、音频等多模态的系统以及跨语言共享知识的结构。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】