资讯中心


性能提升10倍,首Token时延降低72%丨新华三X20000存储KV Cache方案助力AI推理效率提升

2026-03-04 15:19:15来源:新华三 关键词:新华三存储阅读量:4

导读:X20000存储通过EPC私有客户端,将每个6MB文件自动切分为1MB粒度进行分布式并发处理。这种细粒度切分机制,将单次KV访问转化为多通道并发读写,数据均匀分布至多个存储节点与引擎,使访问天然具备并行性,从而有效降低单路径阻塞概率。
  据IDC预测,2026年中国智能算力规模将达2024年的两倍,其中推理算力增速将远超过训练,到2027年中国智能算力中推理占比将提高到72.6%。随着大模型推理进入规模化落地阶段,KV Cache 通过“以存换算”的思路,节省了GPU算力、提高了推理效率,成为AI推理应用落地的主流方案。
 
  但随着8K、16K、32K乃至更大上下文长度逐渐普及,KV Cache的规模呈线性增长;在多并发场景下,KV数据读写压力更是呈指数级放大。比如,在Llama-405B上运行一个具有64K上下文的单个用户需要15.75GB KV缓存,当扩展到32个用户时,容量需求将飙升至504GB。如何高效承载KV Cache,已经成为AI推理基础设施架构中的核心议题。
 
  此外,随着AI推理走入我们的日常生活,衡量应用体验和系统效率的关键指标——TTFT(Time To First Token,首次输出Token时延)被越来越多用户关注。TTFT不仅直接影响推理应用的用户交互体验,更决定单位时间内可承载的有效请求数。
 
  实现架构级优化
 
  目前,将KV Cache从GPU显存中卸载已经成为行业共识。相比本地SSD,外置分布式存储具备更强的横向扩展能力,能够将KV访问转化为并行模型,且提供全局数据共享,支持大规模PD分离部署。这意味着在模型规模持续扩大、上下文不断拉长、并发请求持续增长的情况下,存储系统仍然能够保持可控的TTFT与稳定的吞吐能力。
 
  基于这一趋势,H3C UniStor X20000 AI原生存储围绕KV Cache场景进行了系统级协同调优,使“外置存储承载KV Cache”从概念方案真正演进为生产级可用架构。
 
  X20000存储通过EPC私有客户端,将每个6MB文件自动切分为1MB粒度进行分布式并发处理。这种细粒度切分机制,将单次KV访问转化为多通道并发读写,数据均匀分布至多个存储节点与引擎,使访问天然具备并行性,从而有效降低单路径阻塞概率。
 
  同时,针对KV文件分布扁平、目录与文件数量接近1:1的特点,X20000对目录与文件分布进行均衡优化,使数据在存储引擎间实现更均匀分布,进一步降低访问时延波动。这种优化逻辑的核心在于:不是单纯提升单盘性能,而是将KV Cache读写行为重构为“分布式并发访问模型”。这是一种架构级优化,而非参数级优化。
 
  测试数据:KV Cache卸载至X20000后TTFT最高降低72%
 
  围绕KV Cache卸载场景,实测数据显示,当KV Cache命中率达到90%时,将KV数据卸载至X20000分布式存储,TTFT得到大幅度优化。
 
  ◆ 测试环境:
 
  ■ GPU:  A100 * 4
 
  ■ 推理引擎:vLLM 0.9.2
 
  ■ 模型:Qwen2.5-14B
 
  ◆ UCM:性能最大提升6倍
 
  ■ 在90% KV Cache命中条件下,将KV Cache卸载至X20000存储,相比纯GPU计算模式,TTFT平均优化超过4倍,最大接近6倍。
 
  ■ 在相同条件下,X20000的TTFT仅为本地SSD的28%~44%,最高下降72%。
 
  ■ 系统可扩展能力提升4倍,在TTFT不超过2秒的约束下,采用X20000存储承载KV Cache后,模型的上下文长度可由8K扩展至32K,实现4倍提升,并发能力可由4路提升至16路,同样实现4倍扩展。
 
  ◆ LMCache:性能最大提升10倍
 
  ■ 在90% KV Cache命中条件下,将KV Cache卸载至X20000存储,相比纯GPU计算模式,TTFT最大优化10倍。
 
  ■ 系统可扩展能力提升4倍,在TTFT不超过2秒的约束下,采用X20000存储承载KV Cache后,模型的上下文长度可实现8倍扩展,并发能力同样实现8倍提升。在16K上下文场景中,不同并发条件下普遍达到10倍以上性能提升。
 
  ◆ 并发与上下文持续拉升,时延曲线依然平滑
 
  同时,随着并发数量或上下文长度持续增加,X20000的TTFT增长曲线保持相对平缓,而GPU纯算模式与本地NVMe SSD方案则呈现明显陡峭上升趋势。也就是说,当系统进入真实生产负载阶段——多用户并发、多轮长对话、持续高压访问——X20000所承载的KV Cache访问路径更具稳定性与可预测性。
 
  X20000为AI应用构建可扩展的数据底座
 
  在大模型推理进入规模化生产阶段后,KV Cache已成为影响系统承载能力与用户体验的关键因素。作为AI原生存储,X20000通过重构KV Cache访问路径,实现最大10倍性能提升,TTFT最大降低72%,并发能力提升4到8倍,帮助客户实现更高推理效率、更大模型承载、更高并发能力,为AI应用构建可扩展的数据底座。
我要评论
评论
文明上网,理性发言。(您还可以输入200个字符)

所有评论仅代表网友意见,与本站立场无关。

    • 数据海啸下的智慧灯塔:存储风波中的挑战与企业应对

      一场由人工智能驱动、席卷全球存储产业链的“超级周期”,正将智慧城市等数据密集型行业推向变革的前沿。在此背景下,领军企业依据自身基因,展开了一场精彩纷呈的战略博弈,其推出的多元技术路径不仅是对当前挑战的直接回应,更在重塑产业未来的竞争格局。
      存储大模型
      2026-01-19 15:10:55
    版权与免责声明:

    凡本站注明“来源:兴旺宝工业网”的所有作品,均为浙江兴旺宝明通网络有限公司-兴旺宝工业网合法拥有版权或有权使用的作品,未经本站授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:兴旺宝工业网”。违反上述声明者,本站将追究其相关法律责任。

    本站转载并注明自其它来源(非兴旺宝工业网)的作品,目的在于传递更多信息,并不代表本站赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、平台或个人从本站转载时,必须保留本站注明的作品第一来源,并自负版权等法律责任。如擅自篡改为“稿件来源:兴旺宝工业网”,本站将依法追究责任。

    鉴于本站稿件来源广泛、数量较多,如涉及作品内容、版权等问题,请与本站联系并提供相关证明材料。

    热门搜索:

    葡萄酒滋补品封口设备膨松剂增香剂