追一科技NL2SQL挑战赛火热进行 千支队伍决出30强

来源:南方网    2019-08-22 11:15
来源: 南方网
2019-08-22 11:15 
分享
分享到
分享到微信

图片2.jpg

  挑战中文数据集

值得注意的是,本次比赛提出的NL2SQL中文数据集比英文数据集WikiSQL引入了口语化表达、结合表格内容、命名实体链接、更复杂的SQL语法等挑战,难度更高的同时也更贴近于真实应用场景,但在选手们的积极、多方探索下,短期内就已经可以达到与英文数据集上相当水平的分数。

近两个月的初赛过程中,选手们的方案一直持续刷新着本次比赛的新记录。

图片1.jpg

比赛初期,排行榜头部选手们的分数聚集在0.58左右,已经超过了比赛方所提供的baseline。随后,选手通过各种讨论、交流,加深对数据集理解,不断探索更优的方案,从而提高成绩,头部选手的分数很快突破了0.80大关。在8月12日初赛结束时,比赛榜上的头部分数已经达到0.89,已经接近WikiSQL的成绩。

比赛成绩的快速提升,充分体现出选手们的投入与方案的优秀,同时也侧面反映出,目前积累的许多技术方案都可以在NL2SQL这一个新任务上发挥作用,大家也意识到,只要有充分的数据来支撑, 目前人工智能领域的方法论可以有效地为数据库乃至结构化数据提供自然语言的交互方式。

千支队伍挑战NL2SQL

任务上的创新、应用上的潜力,NL2SQL比赛一经推出,就受到了学界和工业界的广泛关注。

据了解,本次1457支参赛队伍中,院校和企业参与者各占“半壁江山”。其中,学生及科研人员占比48%,企业技术员工占比52%。学生参赛队伍来自众多知名院校,如北京大学、清华大学、复旦大学、上海交通大学、南京大学、浙江大学、中国科学技术大学、哈尔滨工业大学、西安交通大学等。

虽然本次比赛的数据内容是中文形式,但仍然吸引了美国、英国、新加坡、日本、澳大利亚、加拿大等海外顶级院校参与,包括卡内基梅隆、墨尔本大学、新加坡国立大学、南安普顿大学、新南威尔士大学、布里斯托大学、昆士兰大学等。

作为新兴NLP研究任务,NL2SQL在专业难度上,也对选手提出较高要求。据了解,本次参赛选手中,硕士及以上学历占比57%,其中,博士学历占比6%;而专业分布上,计算机科学专业背景的选手则属于参赛主力。

应用潜力吸引名企参赛

值得注意的是,NL2SQL挑战赛,还吸引了众多的企业技术人员参与。

来自中国移动、平安集团、搜狗、达闼科技、中兴通讯、网宿科技、国双科技、捷通华声等众多企业的技术人员,也成为参赛队伍的重要力量。

“此次挑战赛参与规模远超预期,显示出NL2SQL在学术和工业应用上的潜力,数据库的交互创新,正在受到越来越多关注。”追一科技联合创始人兼CTO刘云峰博士表示,追一科技将与更多院校、企业界同仁携手,共同推动中文NLP研究与应用突破。

据了解,中文NL2SQL挑战赛复赛将于8月19至9月9日进行。复赛阶段采用线上运行的方式来进行评测,测试集不可下载,并且内容对选手不可见。同时,测试集在保证数据分布与初赛测试集一致同时,加入更多在初赛中没有出现过的表格数据,届时,将对选手方案提出更高挑战。而复赛胜出者,将会参加10月份的最终决赛。

【责任编辑:钟经文】
中国日报网版权说明:凡注明来源为“中国日报网:XXX(署名)”,除与中国日报网签署内容授权协议的网站外,其他任何网站或单位未经允许禁止转载、使用,违者必究。如需使用,请与010-84883777联系;凡本网注明“来源:XXX(非中国日报网)”的作品,均转载自其它媒体,目的在于传播更多信息,其他媒体如需转载,请与稿件来源方联系,如产生任何问题与本网无关。
版权保护:本网登载的内容(包括文字、图片、多媒体资讯等)版权属中国日报网(中报国际文化传媒(北京)有限公司)独家所有使用。 未经中国日报网事先协议授权,禁止转载使用。给中国日报网提意见:rx@chinadaily.com.cn