自然语言转结构化查询语句(NL2SQL)

举报
Xinyu_Duan 发表于 2020/09/08 16:32:31 2020/09/08
【摘要】 定义:NL2SQL(Natural Language to SQL)旨在将用户的自然语句转为可执行 SQL 语句,从数据库中得到查询结果。任务类型:按照表格划分:1. 单表格NL2SQL:WikiSQL2. 多表格NL2SQL:Spider 按照Query轮数划分:1. 单轮NL2SQL:WikiSQL、Spider2. 多轮N...

定义:

NL2SQLNatural Language to SQL)旨在将用户的自然语句转为可执行 SQL 语句,从数据库中得到查询结果。

image.png

任务类型:

按照表格划分:

1.         单表格NL2SQLWikiSQL

2.         多表格NL2SQLSpider

 

按照Query轮数划分:

1.         单轮NL2SQLWikiSQLSpider

2.         多轮NL2SQLSparC

 

经典模型:

1.       SQLnet: Xu X, Liu C, Song D. Sqlnet: Generating structured queries from natural language without reinforcement learning[J]. arXiv preprint arXiv:1711.04436, 2017.

image.png


          技术点:

          a.          使用分类器选择Column、Aggregator;
          b.          使用Pointer Network从Query中选择Value。

2.       SQLova: Hwang W, Yim J, Park S, et al. A Comprehensive Exploration on WikiSQL with Table-Aware Word Contextualization[J]. arXiv preprint arXiv:1902.01069, 2019.

          技术点:

          a. 编码器:问题和表头都作为BERT的输入,两者的信息在BERT层就有交互

image.png


          b. 解码器:构建三种不同的解码器,实验效果的差距在1%左右(86.8%,85.5%,86.2%)

image.png


3.       X-net: He P, Mao Y, Chakrabarti K, et al. X-SQL: reinforce schema representation with context[J]. arXiv preprint arXiv:1908.08113, 2019.

          技术点:

          a. 为问题与表头添加了属性信息; 

          b. 使用分类器选择Column、Aggregator; 

          c. 使用Pointer Network从Query中选择Value。

image.png

4.       IRnet: Guo J, Zhan Z, Gao Y, et al. Towards Complex Text-to-SQL in Cross-Domain Database with Intermediate Representation[J]. arXiv preprint arXiv:1905.08205, 2019.

          技术点:

          a. 非端到端模型

          b. 构建了适合Spider的语法SemQL

image.png

        c. 使用预训练语言模型Bert作为编码器

image.png

        d. 使用Coarse-to-fine机制构建解码器

image.png

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。