近期,国家数据局明确将加速构建全国一体化算力网,深入推进“东数西算”工程,完善国家数据标准体系。政策导向清晰传递出产业信号:大模型竞争的“上半场”聚焦训练能力,“下半场”正转向推理效率与成本优化。谁能率先实现推理成本可控、服务稳定可靠,谁便更有可能推动AI从示范项目走向规模化落地。全国一体化算力网强调跨区域调度、标准体系、供给能力,也将会把行业关注点推向“可计量、可对账、可调度”的推理服务,而不是单纯堆卡。
面对这一趋势,专注大模型推理优化的国产AI芯片企业曦望(Sunrise),在推理成本与系统交付层面持续展开探索,并提出“百万token一分钱”的推理成本目标,系统推进推理算力体系构建、开放推理平台共建及新型算力服务模式探索。此举并非孤立的技术宣言,而是将行业焦点从单点性能引向推理环节的单位经济性与基础设施可持续供给能力。
推理算力:AI下半场核心竞争力
训练决定模型能力上限,推理决定技术扩散速度。随着AI应用进入规模化阶段,推理由辅助环节转为长期主负载,企业关注重心从一次性训练投入转向持续调用带来的算力、电力与运维综合成本。德勤《2026年科技、传媒和电信行业预测》指出,到2026年推理计算量将占AI总计算量约三分之二,且大量负载仍将集中于数据中心与企业本地环境。产业竞争逻辑正从“谁的模型更强”转向“谁的推理更经济、更稳定、更可规模化”。
从“模型能力”到“推理单位经济学”
可量化、可对账的单位成本成为推理时代关键标尺。“每百万token成本”正形成行业新参照系。行业估算显示,当前推理服务价格区间约为1至10元/百万token,成本下探将直接激发应用调用量。斯坦福大学以人为本人工智能研究所(Stanford HAI)发布的《2025 年人工智能指数报告》亦印证全球趋势:2022年11月至2024年10月间,在达到GPT-3.5水平以上的系统推理成本已下降逾280倍,成本革命势不可挡。
在此背景下,曦望提出的“百万token一分钱”目标,更多被视为对推理单位经济学的一种量化表达,是行业背景下国内科技企业长期围绕推理系统效率、能效结构与交付稳定性进行工程化拆解后的外显结果:将讨论拉回商业本质——token成本、能效表现与服务稳定性,直接决定应用企业的毛利率与用户体验。曦望董事长徐冰指出,在推理算力工程化落地过程中,部分AI应用场景中推理成本占比可达70%,而2025年全球大模型token消耗量增长近100倍。这一目标实质是对推理供给体系经济模型的重新锚定。
系统交付:推理时代的深层护城河
训练如“集中冲刺”,推理似“持久供给”。持续服务的挑战往往不在峰值算力,而在系统层损耗:资源碎片化导致利用率偏低,模型适配周期长,运维复杂度推高隐性成本。曦望联席首席执行官王湛分析认为,从系统交付视角看,在多类推理服务交付实践中,当前算力服务集中暴露出三重瓶颈:传统架构下GPU闲置率常超40%、适配效率不足、运维问题中约75%与硬件相关。破局关键在于“把系统跑满、跑稳、跑可复制”。
在全国一体化算力网框架下,系统交付内涵持续扩展:跨区域调度能力、可验证的服务等级协议(SLA)、与能效约束匹配的部署方案,共同构成推理算力供给新维度。硬件性能仍是基础,但能否将芯片、软件与服务整合为可规模化交付的工程体系,正成为产业分水岭。
从“示范”到“普惠”:推理服务能力融入实体经济
当推理成本趋近“水电级”可负担水平,AI方能真正渗透千行百业。曦望强调“推理基础设施”定位,通过平台化服务提供稳定、可预期的算力供给,助力制造、能源、具身智能机器人等实体场景实现智能化升级。这一路径推动芯片企业角色从零部件供应商向国家级算力基础设施共建者跃迁。
全国一体化算力网建设标志着AI基础设施迈向体系化供给新阶段。以曦望为代表的国产算力企业,以“百万token一分钱”切入推理单位经济学讨论,折射出行业深层转向:当成本、能耗与稳定性成为智能服务的定价基准,竞争逻辑便从参数规模回归基础设施渗透力,而这正是国产算力企业的优势所在。
未来,推理成本计量标准、能耗纳入总拥有成本(TCO)评估、SLA验证机制等议题将成为行业发展关键。国内国产算力企业在推理基础设施层面的持续实践,将为上述指标的建立提供现实参照,助力完善我国AI算力标准体系。随着国产算力技术的不断成熟、前瞻布局的持续落地,必将推动我国AI产业在全球下半场竞争中占据主动,为中国AI建设筑牢算力底座。
编辑:ZXSD04