再突破!腾讯“混元”AI大模型登顶视觉常识推理VCR榜单

来源:中国网    2022-05-31 17:31
来源: 中国网
2022-05-31 17:31 
分享
分享到
分享到微信

5月31日,腾讯“混元”AI大模型在多模态理解领域国际权威榜单VCR(视觉常识推理,Visual Commonsense Reasoning)中登顶,两个单项成绩和总成绩均位列第一。

image.png

据了解,这是继在跨模态检索领域大满贯、CLUE自然语言理解分类榜及CLUE总榜登顶后,“混元”AI大模型的又一重大突破,展现了其在多模态理解领域的强大实力。

与跨模态理解任务不同的是,多模态理解任务要求计算机除了做到识别层次的感知(如分类检测等),还需要达到认知层次的感知(如判断意图、逻辑推理等),具备和人类一样的思考能力。

视觉常识推理VCR(Visual Commonsense Reasoning)作为多模态理解核心任务之一,由华盛顿大学等研究机构于2018年发起,自举办以来吸引了众多知名高校、企业和研究机构参加,已成为国际上最权威的多模态理解领域榜单。

此次登顶VCR榜首的“混元”AI大模型由腾讯广告多媒体AI团队自主研发,同时借助腾讯太极机器学习平台的GPU算力和训练加速框架,该模型在预训练任务、训练方式上进行了诸多的创新改进和设计,有效提升了模型性能。

训练任务方面,“混元”AI大模型基于视觉场景图预测任务(VSGP)进行细粒度的建模学习,能够获取更丰富的视觉语义信息;交互层面,“混元”采用全局+局部注意力的方式,能够在有限训练成本的情况下达到最大化的学习效率。

在训练方式上,“混元”AI大模型在预训练阶段、微调阶段增加对抗训练,提升模型的泛化性能,增强该模型在下游任务上的性能。基于此,“混元”多模态理解大模型在图文跨模态检索、视觉问答等多个理解任务上都取得了明显的效果提升,并最终在VCR上登顶榜首。

截至目前,“混元”AI大模型在MSR-VTT、MSVD、CLUE、VCR等多个领域的AI权威榜单中取得第一名的成绩,并刷新多项行业历史纪录。这意味着,“混元”在自然语言理解、多模态理解、跨模态理解等领域的技术实力已经得以验证。

据悉,“混元”已应用到腾讯广告业务中的多个场景,有效提升广告推荐精准度,提升用户体验和推荐效果。未来腾讯“混元”AI大模型研发团队也将持续加强对模型的性能优化及迭代,使其发挥更大的学术价值和社会价值。

 

免责声明:该文章系我网转载,旨在为读者提供更多新闻资讯。所涉内容不构成投资、消费建议,仅供读者参考。
【责任编辑:钟经文】
中国日报网版权说明:凡注明来源为“中国日报网:XXX(署名)”,除与中国日报网签署内容授权协议的网站外,其他任何网站或单位未经允许禁止转载、使用,违者必究。如需使用,请与010-84883777联系;凡本网注明“来源:XXX(非中国日报网)”的作品,均转载自其它媒体,目的在于传播更多信息,其他媒体如需转载,请与稿件来源方联系,如产生任何问题与本网无关。
版权保护:本网登载的内容(包括文字、图片、多媒体资讯等)版权属中国日报网(中报国际文化传媒(北京)有限公司)独家所有使用。 未经中国日报网事先协议授权,禁止转载使用。给中国日报网提意见:rx@chinadaily.com.cn