百川智能与鹏城实验室开展合作，突破国产算力大模型长窗口技术

来源：中国日报网 2023-11-17 17:18

来源：中国日报网

2023-11-17 17:18　

分享到

分享到微信

11月16日，百川智能与鹏城实验室宣布携手探索大模型训练和应用，合作研发基于国产算力的128K长窗口大模型“鹏城-百川·脑海33B”。这是国产算力大模型创新与落地的一次实践，对国产算力大模型发展具有积极示范作用。

鹏城实验室表示，鹏城实验室秉持“国产算力+自主大模型”的创新理念，依托“鹏城·脑海”开源联合体，广泛联合企业、高校和科研院所，致力于通过开源群智的合作模式共享资源，为千行百业插上人工智能的“翅膀”。百川智能是国内领先的大模型企业，自成立以来一直在推动大模型研发和开源生态建设，其开源和闭源模型在同等量级权威评测中都取得了优异成绩。双方在合作过程中能够充分发挥各自优势形成合力，更好地满足我国不断增长的智能化转型需求，助力中国人工智能产业快速崛起。

百川智能表示，百川智能希望通过开源、与合作伙伴共创等方式助力中国大模型创新，繁荣本土大模型生态。鹏城实验室作为国家战略科技力量的重要组成部分，在国产算力大模型研发和应用等方面一直处于国内领先位置。本次百川智能与鹏城实验室合作研发“鹏城-百川·脑海33B”长窗口大模型，是国产算力大模型技术创新和落地的一次突破。未来，百川智能将在技术、算力等诸多维度不断深化与鹏城实验室的合作，持续助力本土大模型创新发展。

论坛上，百川智能和鹏城实验室展示了双方共同研发的“鹏城-百川·脑海33B”大模型。“鹏城-百川·脑海33B”的128K长上下文窗口基于“鹏城云脑”国产算力平台训练，未来可升级至192K，是基于国产算力训练的最长上下文窗口。

为了更好地提升“鹏城-百川·脑海33B”上下文窗口长度和模型整体性能，百川智能和鹏城实验室对模型进行了全流程优化。在数据集构建方面，采用精细的数据构造，实现了段落、句子粒度的自动化数据过滤、选择、配比，良好的提升了数据质量；在训练架构上，通过NormHead、max-Z-Loss、dynamic-LR等自研或业界领先的模型训练优化技术，对Transformer模块进行深度优化，确保模型收敛稳定的同时，全面提升了模型优化效率和最终效果；此外，还在全生命周期的模型工具集中，通过与北京大学王亦洲、杨耀东老师团队的合作，首创了带安全约束的RLHF对齐技术，有效提升了模型内容生成质量和安全性。

未来，双方将在国产算力大模型技术创新和模型落地等方面继续加强合作，并与相关领域的优势单位如北京大学、清华大学等开展协同创新，助力本土大模型在模型性能、技术创新方面持续突破，推动本土大模型进一步开源开放，为更多行业智能化转型提供帮助和支持。

【责任编辑：曹静】