云天励飞DeepEdge10实现DeepSeek来源项目FlashMLA适配，打造国产大模型算力新底座

来源：宿迁网 2025-02-27 16:17

来源：宿迁网

2025-02-27 16:17　

分享到

分享到微信

2月24日，DeepSeek＂开源周＂正式启动，并发布首个代码库FlashMLA，引发全球关注。

FlashMLA是针对英伟达Hopper GPU优化的高效MLA解码内核，专为可变长度序列优化设计，是DeepSeek高效使用算力的核心程序模块。FlashMLA通过MLA解码优化与分页KV缓存技术，显著提升硬件利用率，加速大语言模型解码过程，有效提高响应速度与吞吐量，适用于各种实时对话生成场景。

云天励飞芯片团队在FlashMLA开源后，迅速完成了DeepEdge10平台与FlashMLA的适配工作。在适配过程中，云天励飞采用了Op fusion tiling、Online softmax、Double buffer、细粒度存算并行等先进技术，并基于自研的Triton－like编程语言快速开发验证了高效的FlashMLA算子。通过一系列优化，不仅显著提升了计算效率，还大幅降低了显存占用，充分展现了DeepEdge10平台“算力积木”芯片架构的卓越优势，以及其与DeepSeek生态的高度契合性。

今日，云天励飞已将相关代码提交至开源平台Gitee，为开源AI贡献了重要的技术力量。

DeepEdge10系列芯片是专门针对大模型时代打造的芯片，支持包括 Transformer 模型、BEV 模型、CV 大模型、LLM 大模型等各类不同架构的主流模型；基于自主可控的先进国产工艺打造，采用独特的“算力积木”架构，可灵活满足智慧城市、智慧交通、智能制造、智慧仓储、机器人、边缘智算中心等不同场景对算力的需求，为大模型推理提供强大动力。

目前，DeepEdge10芯片平台已成功适配DeepSeek R1系列模型及国产鸿蒙操作系统。未来，云天励飞将持续加大研发力度，推动芯片在国产化领域取得更大突破，为国产AI生态建设贡献更多力量。

免责声明：该文章系我网转载，旨在为读者提供更多新闻资讯。所涉内容不构成投资、消费建议，仅供读者参考。

【责任编辑：钟经文】