腾讯副总裁蒋杰:腾讯混元率先采用MoE结构升级,性能提升超50%

来源: 中国网
2024-05-06 17:31 
分享
分享到
分享到微信

在4月26日—28日举行的第十七届中国电子信息年会上,腾讯公司副总裁蒋杰表示,腾讯专注于自主可控的大模型技术发展路线,聚焦基础研究,正在利用自身积累和实力构建底层算力网络,开发训练框架,不断迭代技术,积极落地新应用,推动人工智能+及新质生产力发展。

腾讯公司副总裁蒋杰

腾讯混元是腾讯基于全链路自主可控技术打造的生成式大模型,自2023年9月首次亮相以来,通过持续迭代和实践,积累了从底层算力到机器学习平台再到上层应用的完整自主技术。目前,腾讯混元大模型参数量已达到万亿,tokens数量超过7万亿。国际权威调研机构沙利文发布的《2024年中国大模型能力评测》显示,腾讯混元在通用基础能力和专业应用能力已居国内第一梯队。

算法层面,腾讯混元大模型率先采用混合专家模型 (MoE)结构,并在这个过程积累大量自研技术,其中包括创新的专家路由Routing算法、独创的MoE Scaling Law机制以及合成数据技术,实现模型总体性能相比上一代Dense模型提升50%。 

训练和推理框架上,腾讯自研Angel机器学习平台面向大模型训练,在预训练、模型精调、强化学习多个阶段进行优化,相比业界开源框架,可以用更少的资源训练更大的模型,训练速度是主流框架的2.6倍;面向大模型推理,Angel机器学习平台实现成本相比业界主流框架下降70%,支持国产主流硬件的适配。

算力层面,腾讯拥有自研星脉高性能计算网络,使用领先的3层网络架构,可支持单集群12.8万卡规模,具备业界最高的3.2T通信带宽,可提升40%的GPU利用率,节省30%—60%的模型训练成本,为AI大模型带来10倍通信性能提升。此外,星脉网络中的交换机、光模块、网卡均是腾讯全链路自研。

会上,中国电子学会正式颁发2023中国电子学会科学技术奖。腾讯联合北京大学、北京科技大学共同研制的项目《面向大规模数据的Angel机器学习平台关键技术及应用》荣获科技进步一等奖。由多名院士等权威专家组成的鉴定委员会认为:Angel机器学习平台技术复杂度高、研制难度大、创新性强,应用前景广阔,整体技术达到国际先进水平。

创新技术的同时,腾讯也在持续探索大模型在各行业场景中的实际应用。目前,腾讯混元大模型已经支持腾讯会议、企业微信、腾讯文档等内部超过400个业务和场景接入,并通过腾讯云,面向企业和个人开发者全面开放。腾讯旗下协作SaaS产品已经全面接入腾讯混元大模型,腾讯乐享、腾讯电子签、腾讯问卷、腾讯云AI代码助手等协作SaaS产品也都已实现智能化升级。

据蒋杰现场介绍,目前腾讯混元大模型也在文生图、图片理解和生成、视频生成等多模态方向进行技术探索,并携手合作伙伴尝试落地应用,在传媒领域,目前,新华社、央视新闻、南方都市报等20多家媒体也深度使用腾讯混元视频生成、文生图等进行内容生产和创作提效。

免责声明:该文章系我网转载,旨在为读者提供更多新闻资讯。所涉内容不构成投资、消费建议,仅供读者参考。
【责任编辑:钟经文】
中国日报网版权说明:凡注明来源为“中国日报网:XXX(署名)”,除与中国日报网签署内容授权协议的网站外,其他任何网站或单位未经允许禁止转载、使用,违者必究。如需使用,请与010-84883777联系;凡本网注明“来源:XXX(非中国日报网)”的作品,均转载自其它媒体,目的在于传播更多信息,其他媒体如需转载,请与稿件来源方联系,如产生任何问题与本网无关。
版权保护:本网登载的内容(包括文字、图片、多媒体资讯等)版权属中国日报网(中报国际文化传媒(北京)有限公司)独家所有使用。 未经中国日报网事先协议授权,禁止转载使用。给中国日报网提意见:rx@chinadaily.com.cn