获两大国际权威榜单第一 腾讯云小微NL2SQL让“人人都可数据分析”

来源:中国网    2022-05-06 10:03
来源: 中国网
2022-05-06 10:03 
分享
分享到
分享到微信

腾讯云小微提出的CQR-SQL模型,在2021年12月、2022年4月先后取得国际权威榜单SparC榜单和CoSQL榜单两项第一名的成绩。

image.png

  云小微NL2SQL取得两大榜单第一

SparC和CoSQL是美国耶鲁大学于2019年陆续发布的面向对话交互场景的大规模多表匹配NL2SQL数据集,是目前对话交互场景下表格语义解析任务公认的最难最复杂的测试基准(benchmark),吸引了来自微软、Salesforce、Facebook、阿里巴巴等国内外知名企业和北大、华盛顿大学以及Yale等国内外知名高校提交测试结果,竞争十分激烈。

其中SParC数据集有4298个对话,1.2万多个单独问题,每个对话平均4-5个子问题,涵盖138个领域的200个复杂数据库。CoSQL数据集有3,007个对话,且在交互过程中增加了拒识、澄清等轮次,平均对话轮次更多,更加考验模型对上下文的理解。

某写字楼租赁中介,向客户讲解当前北京市海淀区中关村软件园租赁情况时,被问到:北京中关村软件园各写字楼每一层的租赁情况、可覆盖的工位数、保洁人员配比如何?

某汽车经销商与某地出租车公司在召开线上会议时,客户问道:这个品牌的汽车返修率与交付平均周期如何,与行业数据对比如何?

某仓储货运集团在天津有一个国际物流港,如何根据市场行情和客户要求,及时通知一线人员进行发货囤货等货运周转操作,并通过人机对话方式实时将关键数据信息进行同步?

当用户面对这些问题时,希望得到的是及时且准确的回答和互动,但人类大脑记忆和运转效率是有限的,这时就需要拥有着海量数据库和数据提取分析能力的计算机发挥作用。然而,这个过程中最大的难点是,如何把完全遵从于用户视角和语言习惯的问题表述,高效转化为机器的分析语言请求,从而让用户通过简单的提问方式,即可获取全面的、准确的的数据洞察分析结果。

人们长期以来都在追求,实现用自然语言与计算机的顺畅有效通信,即自然语言处理。自然语言处理是体现语言智能十分关键的技术,推动着人工智能体系的进步。近年来,腾讯云小微AI团队重点关注NL2SQL任务并围绕该任务做了一系列探索,着力将NL2SQL技术打造为产品落地过程中的优势能力。

NL2SQL任务的目标是将用户输入的自然语言问题转成可执行数据库操作的SQL查询语句,是一种典型的语义解析任务。相比于以往通过交互界面进行分析条件的筛选的“界面交互式分析表达”,这种“自然语言”的表达大大降低了技术使用门槛,人们无需再花大量的时间和精力去学习各种深奥的计算机语言,计算机自身既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。从而做到更贴合真实业务人员的使用诉求,在数据分析、人机问答、商业智能应用数据库查询信息生成报表等场景,更好地提升普通用户对结构化数据的查询效率,可以广泛应用于旅游、中介、物流等服务行业,快消、房地产、汽车等传统行业,以及金融、媒体、泛互、政务等更多行业。

腾讯云小微结合多个能力模块推动NL2SQL技术走向落地,目前已经应用于DataTalk数据问答、客服机器人等产品中。

从技术实现的角度,云小微NL2SQL首先对用户会话进行语音识别,通过敏感词广告监测模块得到用户的文本请求;其次,将用户文本请求通过自然语言实体关键词识别模块,经多路AI语义解析NL2SQL模块获取融合后的SQL语句;然后,通过SQL语句在数据库中进行查询得到用户请求的结果;最后将SQL查询结果通过深度话术生成模型生成回复语句,实现NL2SQL数据问答。此外,云小微还创新性地提出了基于双塔模型结合隐变量的机制,将自包含问题和多轮问题的上下文映射到同一潜在空间,保证模型充分学习到语义信息。

image.png

  云小微NL2SQL流程示意图

从用户视角来看,云小微NL2SQL的能力优势表现在,实现了将AI能力嵌入到业务数据分析中,让不懂任何数据库查询语言,不懂任何数据分析理论,甚至是不懂任何指标、维度等数据相关概念的业务人员,也仍然可以站在自己熟悉的业务领域视角去做提问,由数据问答机器人完成背后复杂的转化。

image.png

  产品使用示意图

通过NL2SQL技术,可以大大降低数据分析、数据洞察产品的应用门槛,让智能分析走入大众的日常,让大多数真正需要数据分析服务的市场人员、销售人员、前台客服等非技术人员,也能够随时随地询问“数据问答机器人”;让专业数据分析服务更加普惠化,适用于更多生活场景,从而实现“人人都是数据分析师”的目标;让数据驱动切实服务于企业发展,助力推动更多企业的数字化转型。

注:NL2SQL (Natural Language to SQL)常用同义术语有:Text2SQL (Text to SQL)、NL2LF (Natural Language to Logical Form)、TableQA (Table Question Answering)。

 

免责声明:该文章系我网转载,旨在为读者提供更多新闻资讯。所涉内容不构成投资、消费建议,仅供读者参考。
【责任编辑:钟经文】
中国日报网版权说明:凡注明来源为“中国日报网:XXX(署名)”,除与中国日报网签署内容授权协议的网站外,其他任何网站或单位未经允许禁止转载、使用,违者必究。如需使用,请与010-84883777联系;凡本网注明“来源:XXX(非中国日报网)”的作品,均转载自其它媒体,目的在于传播更多信息,其他媒体如需转载,请与稿件来源方联系,如产生任何问题与本网无关。
版权保护:本网登载的内容(包括文字、图片、多媒体资讯等)版权属中国日报网(中报国际文化传媒(北京)有限公司)独家所有使用。 未经中国日报网事先协议授权,禁止转载使用。给中国日报网提意见:rx@chinadaily.com.cn