日前,我们从华为云官方了解到,华为推出了一款基于华为云AI技术的全新产品,来自华为诺亚方舟实验室新推出的写诗AI“乐府”,其不仅能写诗、作词,而且还能写藏头诗。自产品问世以来,就引发了不少网友的关注,不少网友更是为强大的华为云AI技术点赞。
针对这款基于华为云AI技术打造的产品,华为诺亚方舟实验室语音语义首席科学家刘群也讲述了华为云AI背后的故事,其表示,我们不懂诗,且在这个系统中,并没有用诗的规矩去训练,这一切都是系统自己学到的。
那么,华为云AI技术是如何实现写诗的呢?对此,一位负责华为云AI研发的负责人给出了答案。据其介绍,生成中国的古诗词与自由生成文本不同,通常需要满足内容和形式两个方面的要求。中国的古诗词有各种各样的形式,比如五律、七律、五绝、七绝、满江红、西江月、水调歌头等各种词牌以及对联,每一种都有相应的押韵、平仄、字数、对仗等规定;内容方面,一首诗要围绕着一个主题展开,同时还要保证内容的连贯性,它的要求相对而言是比较复杂的。
华为提出的“乐府”系统,与当前大多数解决方案不同,它是基于华为云AI打造的,不需要任何特性或者人工设定规则,也没有设计任何额外的神经元组件。在研究的过程中,华为云AI技术需要做的是把训练用的诗词序列化为格式化的文本序列,作为训练数据。并通过对语言模型token的抽样,生成满足内容和形式要求的诗词,比如律诗、绝句、对联以及词等等。
值得注意的是,乐府AI是首个基于GPT打造的作诗系统,而且与谷歌提出的BERT息息相关。整体的GPT模型是在BERT的源代码基础上实现的,Transformer大小的配置也采用了BERT中发布的中文 vocab和tokenization 脚本,与BERT-Base相同。
整个模型训练过程一共有两个阶段: 微调和预训练。其中,预训练是在华为云AI上完成的,一共耗费了90个小时,期间共训练了4个echo,使用8块英伟达V100(16G) GPU。微调的过程是将所有诗歌序列输入Transformer,并训练一个自回归语言模型。而当整个训练完成之后,需要将通过华为云AI技术生成的诗歌格式和主题转化为一个初始序列,并将其输入到模型中,最后再进行解码即可。
中国古诗词生成AI,基于华为云AI打造的“乐府”并不是第一个,也不是最后一个。未来,华为将不断研发出更多基于华为云AI技术打造的创新产品,致力为更多领域、更多客户提供全新的体验方式。