从NLP领域顶尖学者,到深度学习框架创新推动者,王海峰的AI之路

来源:中国网科学    2019-05-30 09:48
来源: 中国网科学
2019-05-30 09:48 
分享
分享到
分享到微信

作为自然语言处理领域最顶级的国际学术会议之一,历年的「国际计算语言学协会年会(ACL)」都备受整个 AI行业的关注。特别是过去几年, AI领域诞生了众多图像、语音的佼佼者,但却没有一家专注自然语言处理的创业公司可以快速崛起,可见该领域的技术突破是有多难。也因此,每一年ACL都被人们当做AI发展的风向标之一。

眼下,ACL 2019召开在即。不久前, ACL 2019大会官方公布了最终论文录用结果,有效投稿数量达到2694篇,相比去年的1544篇增长高达 75%,火热程度可见一斑。其中,作为国内自然语言处理领域领军者的百度,共有十篇论文被大会收录,又一次向世人展示出百度在该领域的积淀和国际水准。

细看这十篇论文,其内容涵盖了信息抽取、机器阅读理解、对话系统、视频语义理解、机器翻译等诸多NLP领域的热点和前沿研究方向,在人机交互、智能客服、视频理解、机器翻译等场景中具有很大的应用价值,凸显出百度在自然语言处理领域的雄厚实力。

百度能在自然语言领域得到如此多的学术认可,一方面得力于其在海量的数据以及丰富的应用场景,为学术研究提供了工业化落地的可能性;另一方面,在「得人才就得天下」的 AI领域,百度也汇聚了一大批自然语言领域的技术大拿,其中的灵魂人物,就是百度高级副总裁、百度研究院院长王海峰博士。

顶级学者: NLP领域的诸多第一

在过去30年的时间里,自然语言处理也像 AI一样历经沉浮,而见证这一切的王海峰,在某种意义上也像是自然语言领域的「活化石」。

1993年,王海峰进入李生教授在哈尔滨工业大学的机器翻译实验室,从此开始了机器翻译及自然语言处理的相关研究。

硕士期间,王海峰主导开发的汉英机器翻译系统,就已经获得了国家863评测第一名及部级科技进步奖。而在1999年的博士论文里,他开创新地提出将神经网络应用到机器翻译。

彼时,整个机器翻译领域面临数据规模以及计算力的限制,其结果就是大量翻译规则冲突、翻译语料稀缺、不同语种翻译代价高和口语翻译难度大等一系列「世纪性难题」。

王海峰认为,可以利用融合规则、实例和统计模型的多策略机器翻译技术,去解决传统规则翻译系统里的人力开销大、翻译速度慢、词汇覆盖不足等核心难题。而对于机器翻译语种覆盖度受限的行业难题,他提出基于枢轴语言的翻译知识桥接和模型桥接方法,这个方法也让原本翻译语料稀缺的小语种翻译不再无从下手。

这一系列研究成果也得到学术领域的认可。2008年,王海峰主持研发的统计机器翻译系统参加了国际口语机器翻译评测比赛 IWSLT,在所参加的5项任务的15个评价指标中,共取得12项第一及3项第二的优异成绩,凸显出巨大的技术优势。

2009年,王海峰正式成为 ACL年会机器翻译领域主席,由此创造一系列第一,比如他是 ACL五十多年历史上首位出任过主席的华人、唯一来自中国大陆的ACL会士。ACL在授予他会士称号时强调:「王海峰在机器翻译、自然语言处理和搜索引擎技术领域,在学术界和工业界都做出了杰出贡献」。

产业落地推动者:推动中国自主研发核心技术的探索实践

美国 CBInsights的一份报告显示,早在2010年,百度就已经在财报分析师提出 AI战略。

也是在这一年,王海峰正式加盟百度,开启了百度在 AI领域的一系列探索。

在百度,王海峰从自然语言处理的应用开始,不仅打造了百度 NLP核心团队,还将自己的研究方向拓展到语音、图像、知识图谱、机器学习、数据挖掘、推荐及个性化等领域。这既让他拥有了丰富的 AI应用场景经验,也为百度人工智能的全面布局奠定了核心基础。

而在这些探索的过程中,他在学术研究领域长期浸淫所获得的视角,在与产业应用实践的接触和碰撞中,绽放出了火花。学术研究的前瞻视角,让他对技术的发展走向有着敏锐的洞察力。早在2012年前后,在很多人还不知道深度学习为何物时,他就已经意识到其对于人工智能技术发展的意义,以及巨大的潜力,并带领团队开始将深度学习技术应用到百度的语音识别、图像识别产品里。一年后,深度学习又被大规模应用在百度搜索中,展现出巨大的实用价值。

深度学习的引入,推动了百度搜索技术的转型升级。王海峰带领团队攻克了众多技术难关,比如,通过融合知识图谱、深度语义分析的需求理解、基于深度学习的层叠式搜索排序、语音语义一体化交互技术等技术,大幅提升了搜索结果的精准性,也引领了国内深度学习的发展。

上述颇具前瞻性的探索和布局,体现在了深度学习开源框架 PaddlePadle的发展之中。

作为中国唯一一款深度学习开源框架,PaddlePaddle是百度内部深度学习技术能力的集中展现,自2016年开源之后,进入到一个良性互动、高速迭代的快车道。前不久,在首届深度学习开发者峰会上,百度首次对外公布了PaddlePaddle全景图,包括核心框架、工具组件和服务平台等,同时还展示了其在农业、城市等领域的落地案例。王海峰也在峰会现场,结合对工业革命和人工智能发展的思考,对深度学习及深度学习框架在人工智能领域的核心地位价值做出了论断:“深度学习推动人工智能进入工业大生产阶段,而深度学习框架是智能时代的操作系统。”

核心技术,国之重器。在现时代中国人工智能技术发展突飞猛进、新一代高新技术不断取得突破、国家社会层面对于科技自主创新的重视提高到前所未有的高度之时,PaddlePaddle作为中国自主研发的智能时代的操作系统,有了不同一般的含义。

这一切都离不开王海峰的努力和远见,他也成为百度承建「深度学习技术及应用国家工程实验室」的关键人物,持续推进 PaddlePaddle技术突破与生态发展。

王海峰曾经说:「我们研发最顶尖的AI技术,我们也致力于开放最顶尖的AI技术」。可以看得到,因为王海峰们的努力,一个围绕深度学习技术、人才、产业的中国 AI生态正在形成,这不仅将惠及中国广大的 AI从业者,也将使得中国在未来全球 AI格局里拥有自己的话语权。

写在最后

2018年年底,中国首个「吴文俊人工智能杰出贡献奖」公布,获奖者正是王海峰,根据评委会的说明,这个奖项是寻找那些在智能科学、技术与工程领域取得重大突破,贡献巨大,并在国际上有较大影响力的智能科技工作者。

王海峰获奖可谓实至名归。他既是 NLP领域的世界级学者,截至目前已经在国内外顶级会议或期刊发表学术论文120余篇,已授权或公开的发明专利200余项;他又是中国 AI领域的「布道师」,在他的不懈努力下,深度学习、NLP等技术成为百度各个产品的底层支撑,也为不同行业、个人开发者踏入 AI领域提供了最便捷的通道。

在当下世界各国竞相投入AI、将其视为未来国家竞争力的关键赛道这一背景下,王海峰的 AI学术影响力以及在百度的 AI落地能力,特别是他一手推动的 PaddlePaddle,已经具备国家层面的战略意义,这也让外界格外期待,在中国成为 AI强国的道路上,王海峰和百度AI在未来还能带来怎样的惊喜?

(陈蕊)

免责声明:该文章系我网转载,旨在为读者提供更多新闻资讯。所涉内容不构成投资、消费建议,仅供读者参考。
【责任编辑:钟经文】
中国日报网版权说明:凡注明来源为“中国日报网:XXX(署名)”,除与中国日报网签署内容授权协议的网站外,其他任何网站或单位未经允许禁止转载、使用,违者必究。如需使用,请与010-84883777联系;凡本网注明“来源:XXX(非中国日报网)”的作品,均转载自其它媒体,目的在于传播更多信息,其他媒体如需转载,请与稿件来源方联系,如产生任何问题与本网无关。
版权保护:本网登载的内容(包括文字、图片、多媒体资讯等)版权属中国日报网(中报国际文化传媒(北京)有限公司)独家所有使用。 未经中国日报网事先协议授权,禁止转载使用。给中国日报网提意见:rx@chinadaily.com.cn