2026/1/11 3:47:40
网站建设
项目流程
网络营销网站类型,适合女生的计算机专业有哪些,牛商网网站做seo好么,百度云如何建设网站华瑞指数云企业该企业由华瑞指数云投递并参与金猿组委会数据猿上海大数据联盟共同推出的《2025中国大数据产业年度AI Infra领先企业》榜单/奖项评选。大数据产业创新服务媒体——聚焦数据 改变商业客户是中国电子旗下企业#xff0c;是一家领先的智算服务和AI Infra解决方案提…华瑞指数云企业该企业由华瑞指数云投递并参与金猿组委会×数据猿×上海大数据联盟共同推出的《2025中国大数据产业年度AI Infra领先企业》榜单/奖项评选。大数据产业创新服务媒体——聚焦数据 · 改变商业客户是中国电子旗下企业是一家领先的智算服务和AI Infra解决方案提供商面向各行业提供AI算力与模型推理解决方案和推理算力服务。2025年客户开始在自有数据中心构建AI推理集群对其行业客户提供AI推理服务为其行业客户提供一个开发、测试、验证AI大模型和Agentic应用的实验平台。首批已经购买并上线部署的AI算力服务器包括3台配置了AMD MI200 GPU的推理服务器每台推理服务器配置4张MI 200 GPU一共12张MI200 GPU3台配置了英伟达H20 GPU的推理服务器每台推理服务器配置8张H20GPU,一共24张H20 GPU。后续还规划购买和上线国产GPU卡。以KV Cache为中心优化和加速AI推理系统的性能是当下全球AI Infra领域的热点课题。华瑞指数云面向AI推理场景原生设计和实现了分布式的KV Cache Storage命名为WQS (WiDE Query Storage)。该客户选择与华瑞指数云进行深度合作基于AI原生的分布式KV Cache方案构建全局共享的分布式KV Cache集群与AI推理集群配套工作实现分布式AI推理系统的总体性能的大幅提升为客户提供更加高效的AI推理服务同时也降低了推理算力的投入成本。时间周期项目开始时间2025年8月15日中间重要时间节点2025年10月15日完成AMD卡推理集群与分布式KV Cache存储的对接并上线运行项目完结时间2026年12月15日完成英伟达卡推理集群与分布式KV Cache存储的对接并上线运行AI Infra应用需求客户迫切需要一套能在极致性能、超大容量、灵活扩展性以及可控成本之间取得最优平衡的高性能AI Infra解决方案为其AI推理业务的持续创新和规模化发展提供强大而可靠的基础底座。需求呈现出以下关键特征1.推理性能要求模型推理的响应速度至关重要毫秒级甚至亚毫秒级的延迟都会直接导致最终用户的观感和体验流畅度挑战着系统的处理上限。2.海量上下文数据处理瓶颈支撑高质量内容生成和理解通常需要处理超长上下文如128K tokens或更长。这导致模型推理过程中KVCache数据量极其庞大读写操作异常频繁。传统GPU架构依赖的高带宽内存HBM容量有限且成本高昂成为制约模型规模、会话长度和并发能力的关键瓶颈。3.高并发与高吞吐压力随着AI驱动的应用走向规模化、常态化推理任务并发数量激增这不仅要求极高的计算吞吐量TFLOPS更对系统并行处理时延和内存/存储带宽提出了空前的要求以确保海量模型参数和数据能够被快速调度和访问避免因数据供给不足导致的算力闲置。4.容量与成本的矛盾单纯依赖高性能GPU搭配HBM的方案虽然能提供强大的单卡算力但其显存容量有限且单位成本极高。面对需要支撑多用户长会话、大模型多实例部署、以及历史素材库快速检索调用的业务需求纯GPU方案在容量扩展性和总体拥有成本TCO上均难以承受亟需更优的性价比方案。5.复杂模型与异构负载支持多种模态文本、语音、图像、视频融合处理的需求以及生成式模型与判别式模型的混合部署等需要基础设施具备灵活性能够高效支持不同的GPU卡不同的模型架构和计算特性计算密集型、访存密集型的任务避免资源浪费。面临挑战KV Cache是大模型在自回归推理场景下不可或缺的加速技术是全球在AI Infra领域的热门课题。本项目主要围绕着KV Cache来实现AI推理集群的性能优化和成本优化。理论上基于KV Cache加速能带来了显著的性能收益和算力成本节省收益但在工程上实现KV Cache需要解决一系列不容忽视的挑战尤其是在部署百亿甚至千亿参数级别的大模型时1.巨大的显存占用由于模型执行推理任务是一个长期持续的过程执行推理任务几分钟就有可能产生数百GB的数据量远远不是GPU的显存可以存储下来因而使用显存只能保存最近产生的最热的KV向量大量的KV向量值被迫丢弃依然导致大量的重复计算2.KV Cache只存放在GPU卡的显存内无法做到全局共享许多跨卡跨节点跨Session的推理请求的许多重复Token无法做到KV Cache共享被迫重复计算3.构建层级化KV Cache存储是当下的一个主要解决思路构建一个由“GPU显存-CPU内存-NVMe SSD存储”组成的虚拟化、一体化的KVCache池它可以在很大程度上解决显存容量不够的问题也能实现KV Cache的全局共享但是其性能挑战和工程挑战是很大的NVMe SSD的I/O速度远慢于内存和显存延迟更高如果分布式的KV Cache存储池的存储带宽不是足够高并发访问时延不是足够低通过网络访问KV Cache尤其是长序列的延迟和带宽消耗可能抵消甚至超过重复计算的开销这要求面向KV Cache的高并发、高带宽、低时延的随机读写需求精心设计分布式的KV Cache Storage。此外还需要与主流推理框架进行兼容性匹配和联合调优需要更加精心设计KV Cache在不同速度的存储层次上的调度策略以及流水线并行和预取技术。战略目标1.通过建设分布式KV Cache存储集群实现AI Infra推理性能的大幅度优化 实现生产场景下的KV Cache缓存命中率的大幅度提升要求综合的缓存命中率达到50%以上部分场景比如多轮连续对话的缓存命中率达到80%以上2.实现AI Infra推理集群性能的大幅度优化高并发请求下TTFT500msToken吞吐量相比未建设分布式KV Cache存储集群之前提升2到3倍3.实现基于统一的AI推理框架管理多种GPU卡组成的AI推理集群对接分布式KV Cache存储集群所有的GPU卡都可以把KV Cache卸载写入到分布式KV Cache集群实现全局的KV Cache共享4.实现AI Infra算力成本的节省在达到满足同等性能指标的前提下推理卡的算力需求减少60%实现总体AI Infra建设成本节省50%。5.形成AI Infra的总体组网设计推理算力分布式KV Cache容量协同规划工程部署推理框架选型与部署等最佳实践。6.形成AI Infra推理基础设施的标准化示范性生产部署实践围绕分布式KV Cache带来的推理加速效果形成“高性能、低成本、可持续、可复制”的 AI Infra建设方案。实施与部署过程1.核心产品与部署架构·硬件配置推理节点3台一期单节点配置AMD MI200 GPU,4U,4卡包含2张南北向100Gbps*2 RoCE网卡用于访问外置KV Cache分布式存储推理节点3台二期单节点配置NVIDIA H20 GPU8U,8卡NVLink包含2张南北向100Gbps*2 RoCE网卡用于访问外置KV Cache分布式存储KV Cache分布式存储服务器3台32C512GB内存12*3.5TB NVMe SSD,2张200Gbps*2RoCE网卡分布式KVCache存储软件华瑞指数云AI原生KVCache Storage WQS运行于3台分布式存储服务器内组成了一个3节点的分布式KV Storage集群推理框架vLLMLMCacheMooncake运行于推理节点上模型DeepSeek-R1-0528·核心产品华瑞指数云原创自研实现的AI原生的分布式KV Storage命名为WQS (WiDE Query Storage)是华瑞指数云AI原生数据平台WADP的子产品和重要模块但是WQS也是可以独立部署和使用的。WQS的目标是针对AI推理场景向大规模的外部存储池进行KV读写的核心需求不再依赖于文件系统的硬盘空间管理目录树元数据文件协议栈等对于KV Cache来说冗余无用的体系通过原生设计的KV接口和KV Storage存储实现极简和可以高度并行的IO路径适应KV Cache面对不同IO Size的并发随机读写需求并且达到带宽的最大化和最低的时延。其关键特性包括原生KV Storage实现•GPU HBM显存内部的KV Block的形态与外置KV Storage存储池上的KV Block的形态完全一致均可以通过统一的Block ID实现快速定位和读写。通过统一的Block ID与RDMA网络外部SSD池在逻辑上成为GPU HBM的透明扩展空间实现跨存储层的KV数据无缝迁移和读写•原生KV接口Distributed KV Storage引擎直接管理分布式的可以无限扩容的外置SSD存储空间不需要把KV Block封装成文件再走文件协议栈写入到分布式文件系统中去极大提升随机访问KV的存储带宽大幅降低时延完备的兼容性及协同优化•兼容现在主流推理框架(vLLMSGLang等)以及这些推理框架支持的GPU卡和大模型•推理系统的用户不需要对业务端做任何改变就可以获得KV Cache Storage带来的推理加速效果•与推理框架协同支持KV Cache流水线处理可以把从KV Cache Storage加载KV的时间大部分隐藏于的新Token的KV计算的过程中分布式并行扩展•高并发读写支持千卡规模的推理集群对统一的KV Cache Storage集群进行并发读写实现全局KV共享•空间无限扩展性能线性扩展可以通过加入更多的物理服务器节点来实现KV Cache Storage空间的无限扩展性能同步线速扩展超级性能•外置分布式KV Cache存储池上的高并发读写时延200us流水线加载时KV Cache加载时间10us•在中小IO(64K IO size)随机读写场景依然可以提供逼近物理网络带宽上限的线速存储带宽·部署架构2.测试验证·测试用例一随机生成提示词•使用vLLM提供的bench命令来进行压测•使用随机生成的数据集可以指定输入长度。在测试过程中分别指定上下文长度为1001k10k50k100k以模拟不同的业务场景下的不同的上下文长度•使用随机生成的数据集但在多轮测试中使用相同的随机种子保证每轮请求的prompt相同以验证KV Cache命中效果。意味着从测试的第二轮对话开始理论上应该100%命中KV Cache。在真实多轮对话业务场景中根据一些业界的论文和实践数据可以Cache下来的KV向量约在50%~90%之间也就是说有50%~90%的Token可以命中KV Cache如果历史Token的KV向量都很好的保存下来了并且可以检索到的话节省50%~90%的重复运算大幅度减少算力浪费。一些主要的配置参数如下vLLM 通用参数TP8关闭前缀缓存以减少vLLM内存Cache对测试的干扰使用LMCacheConnectorV1(--tensor-parallel-size8--no-enable-prefix-caching--disable-log-requests-kv-transfer-config {kv_connector:LMCacheConnectorV1, kv_role:kv_both})LMCachechunk_size256max_local_cpu_size100.0--max-concurrency 16--random-input-len 100, 1k, 10k, 50k, 100k--random-output-len 1--num-prompts 50--seed $SEEDMooncake配置8G内存给Mooncake配置很小的内存主要也是为了尽量排除Mooncake内存Cache的干扰更好的验证分布式KV Cache Storage的加速效果。·测试用例二SharedGPT测试集ShareGPT数据集是一个高质量的中英文双语人机问答数据集覆盖了真实复杂场景下的用户提问。该数据集常用于训练高质量的对话模型比那些通过反复调用API接口生成机器模拟问答的数据在指令分布上更为健壮。数据集特点双语对照提供意义表达完全相同的中英文平行对照语料可进行双语对话模型训练。真实数据所有问题均非人为臆想加上API轮询拟造的假数据更加符合真实用户场景的指令分布和提问表达。自然过滤数据集是由网友自发分享而收集到的相当于有一层非常天然的过滤通过人类感觉筛除了大部分体验不好的对话。正因为SharedGPT数据集的以上特征我们可以用其来模拟真实的多轮对话人机问答的场景验证在该场景下能够在全局KV Cache池上命中的概率以及由此带来的对整体AI推理系统的性能提升。·测试单节点Prefill场景的KVCache加速效果在单个推理服务器上部署Prefill节点只测试Prefill的流程即只测试到模型输出第1个token为止。TTFT首Token响应时长是本次测试关注的主要指标。测试结果表明当输入序列的长度在1000个token时使用WQS KV Cache Storage做推理加速能够把TTFT降到300ms左右不使用KV Cache时的TTFT是1300msTTFT下降为原来的约1/4;当输入序列的长度在100k时使用WQS KV Cache Storage做推理加速TTFT在16s左右而不使用KV Cache时的TTFT是323s左右WQS KV Cache把TTFT降低为原来的约1/20。输入序列上下文长度越长并发量越大batch size越大外置的KV Cache Storage带来的加速效率越明显因为输入序列的长度和推理请求并发量越大推理系统产生的KV向量值越多远远超过GPU显存和主机内存能够存储的容量这时外置的超大容量空间的KV Cache Storage就更能发挥其价值。同时外置的KV Cache Storage能够实现KV向量的持久化存储和全局共享有助于AI推理系统支持更长的上下文简化AI推理任务的调度大幅提升KV Cache的命中率。Total token throughput总体的token吞吐量是指AI推理系统每秒能够处理和产生的Token数token的吞吐量实际上是与Token的响应时延成反比的。随着首Token的响应时长TTFT的降低系统的Token吞吐量会上升。测试结果表明当输入序列长度为1000时WQS把推理系统的Token吞吐量由11102提升到了40000多提升4倍当输入序列长度为100k时WQS把推理系统的Token吞吐量由4194提升到了近90000提升20多倍。AI推理系统本质上就是一个Token的计算和生产工厂其生产率和经济效益本质就是由Token吞吐量来衡量的。因此当采用WQS KV Cache Storage能够大幅度提升Token吞吐量时就是大幅度提升了AI推理系统的产量可以获得非常直观的经济效益提升·测试多机多卡并行推理(PD不分离)场景的KVCache加速效果在3台推理服务器上同时混合部署推理任务采用多机多卡并行策略(TP12), 测试推理任务的全流程。测试结果表明当输入序列的长度在1000个token时使用WQS KV Cache Storage做推理加速能够把TTFT降到250ms左右不使用KV Cache时的TTFT是870msTTFT下降为原来的约1/3.5;当输入序列的长度在100k时使用WQS KV Cache Storage做推理加速TTFT在14s左右而不使用KV Cache时的TTFT是213s左右WQS KV Cache把TTFT降低为原来的约1/15。ITLInter-Token Latency是指Decode阶段连续两个输出Token之间的间隔时间。当输入序列长度在1000个token时使用WQS KV Cache Storage做推理加速能够把ITL降到34ms左右不使用KV Cache时的ITL是65ms,ITL下降为原来的约1/2;当输入序列的长度在100k时使用WQS KV Cache Storage做推理加速能够把ITL降到300ms左右不使用KV Cache时的ITL是3550ms,ITL下降为原来的约1/12。当输入序列长度为1000时使用WQS KV Cache Storage做推理加速推理系统的Token吞吐量提升约2倍当输入序列长度为100k时使用WQS KV Cache Storage做推理加速WQS把推理系统的Token吞吐量提升约12倍。·测试多机多卡并行推理且PD分离场景的KVCache加速效果在传统LLM推理系统中Prefill和Decode阶段通常在混合在同一推理节点上顺序执行。Prefill阶段负责处理所有输入token生成初始的KV缓存(Key-Value Cache)和第一个输出token而Decode阶段则基于这些KV缓存通过自回归方式逐步生成后续token。这种传统架构虽然简单直接但存在明显的性能瓶颈Prefill阶段是计算密集型操作需要大量并行计算能力而Decode阶段则是IO密集型操作更依赖高带宽内存访问和访问KV Cache。当这两个阶段共享同一计算资源时它们的资源需求特性会相互干扰导致整体效率低下。PD分离技术的核心思想是将Prefill和Decode这两个阶段解耦并将它们分配到不同类型的计算设备上执行。具体来说Prefill阶段被分配到专门的高算力GPU上执行以充分利用其并行计算能力而Decode阶段则被分配到具有大显存高内存带宽和高网络带宽的GPU节点上执行以满足其IO访问需求。两个阶段之间通过高速网络(如NVLink或RDMA)传输中间状态(主要是KV缓存)。本次测试使用2P1D的分离部署方案即在2台推理服务器上同时部署Prefill节点在1台推理服务器上部署Decode节点按PD分离的方式进行并行分布式推理。Prefill节点产生的KV Cache写入WQS KV Cache StorageDecode节点从WQS KV Cache Storage读取Prefill节点的KV Cache数据。也就是说Prefill节点与Decode节点之间的KV Cache传输不是走P2P transfer的方式而是通过WQS KV Cache Storage的全局共享能力来完成。测试结果表明采用2P1D的PD分离方案同时采用”WQS KV Cache Storage作为全局共享的分布式KV Cache层完成KV Cache的全局共享”与”PD不分离混合部署WQS KV Cache Storage作为全局共享的分布式KV Cache层“的方式相比可以进一步降低推理系统的TTFT,ITL的时延提升推理系统的Token吞吐量总体的性能提升效果约在20%左右。理论上分析这个还不是最佳效果因为本次测试的Prefill节点和Decode节点采用了相同的配置并没有按照Prefill节点是算力密集型Decode是IO密集型的不同特征来设计GPU卡和硬件配置。这个在后续的工作中可以进一步优化。3.实现效果经过测试验证之后最后系统的第一期采用2个Prefill节点1个Decode节点的方式进行部署对接了客户的智能问答助手和AI编程等场景实现了方案的生产落地。该方案落地后在性能、成本、容量、兼容性等维度达成预期目标·性能突破比实施分布式KV Cache方案之前TTFT, ITL等主要时延指标下降为原来的1/3~1/8Token吞吐量提升3到8倍·Token在分布式KV Cache上的缓存命中率达到60%左右后续通过对分布式KV Cache集群进行容量扩容将能够保存下来更多的重复Token的KV向量通过提示词工程和上下文工程的优化可以进一步提升重复前缀命中的概率KV Cache的缓存命中率还可以持续提升。·成本优化可以实现约60%的推理GPU卡成本节省大幅降低AI Infra的硬件投入门槛。·容量释放提供近似无限可以持续扩容且成本低的可持久化memory空间为KVCache及Context数据提供充足存储“容器”彻底摆脱存储容量对大模型业务的制约。单集群可稳定支撑超PB级KV Cache及Context数据存储不仅满足现有大模型多会话、长时推理等需求还为未来超万亿参数级大模型部署预留了充足空间业务拓展性大幅增强。·兼容灵活与vLLM、Mooncake、Dynamo等主流推理框架无缝兼容可灵活适配不同大模型推理场景的技术需求全面释放大模型训练推理的效率潜力。生态伙伴合作大普微电子本案例里面的分布式KV Cache集群采用了大普微电子自研的高性能NVMe SSD能够在高并发随机访问的压力中始终稳定的提供高性能的IOPS和稳定的低时延。大普微提供的SLC SSD和QLC SSD配合华瑞指数云的分布式KV Cache存储软件可以组合实现NVMe SSD的分层分级达到性能和成本的双优。合作服务效果1.实现了AI Infra推理服务集群在时延token吞吐量缓存容量缓存命中率并发性能算力成本等多个维度的大幅度优化最终表现为AI推理系统处理和生成token的成本的大幅下降推理服务使用者的体验提升。2.通过本项目的实践客户在AI Infra的建设方案方面从简单的堆积算力进行建设和粗放式运营进化到了更加关注AI Infra的系统级设计和端到端优化实现算力网络存力的协同设计并以为基础实现AI Infra的效率和成本的大幅度优化。3.形成了围绕分布式KV Cache进行AI Infra推理基础设施建设的设计方案和最佳实践为客户进一步扩展其AI推理服务为其服务的行业企业建设AI Infra提供了宝贵的实践成果和可复制的总体方案。关于企业·华瑞指数云华瑞指数云ExponTech成立于2020年是一家致力于以面向未来的Universal Storage架构为企业客户构建新一代AI数据基础设施的高科技企业。原创自研的AI原生数据平台产品旨在帮助企业和组织建设“以数据为中心”的AI基础设施实现企业核心业务数据与AI数据的融合存储和智能应用。Universal Storage架构的软件产品2023年在面向企业核心业务场景的SPC-1全球存储系统性能榜上创造了世界纪录2025年在国际权威AI Storage性能基准测评MLPerf Storage中斩获多项世界第一。产品商用发布以来已在金融、运营商、医疗等许多行业获得一批头部客户在生产环境上承载企业的关键业务并且平稳运行。点击文末“阅读原文”链接还可查看华瑞指数云官网★以上由华瑞指数云投递申报的企业最终将会角逐由金猿组委会×数据猿×上海大数据联盟联合推出的《2025中国大数据产业年度AI Infra领先企业》榜单/奖项。该榜单最终将于1月上旬上海举办的“2025第八届金猿大数据产业发展论坛——暨AI Infra Data Agent趋势论坛”现场首次揭晓榜单并举行颁奖仪式欢迎报名莅临现场。