当前位置：首页 > news >正文

【Text2SQL 经典模型】HydraNet

news 2025/7/30 12:19:25

论文：Hybrid Ranking Network for Text-to-SQL

⭐⭐⭐

arXiv:2008.04759

HydraNet 也是利用 PLM 来生成 question 和 table schema 的 representation 并用于生成 SQL，并在 SQLova 和 X-SQL 做了改进，提升了在 WikiSQL 上的表现。

一、Intro

论文总结了 WikiSQL 上做 Text2SQL 的 3 个挑战：

如何融合来自 NL question 和 table schema 的信息，这是由 encoder 处理的；
如何保证输出的 SQL 查询是可执行且准确的，这是由 decoder 处理的；
如何利用 PLM。

本篇模型主要解决第 3 个问题，同时顺带解决了前两个问题。本论文认为，之前的方法没有很好地将 task model 和 PLM 对齐，从而导致 PLM 的力量被 task model 削弱，比如 SQLova 和 X-SQL 都是在 BERT 编码结果上施加了另外的 pooling 层（如添加 LSTM 操作等），这带来了信息丢失和不必要的复杂性。但本文是充分利用 BERT 的功能，认为 [CLS] 的 output representation 捕获了 question 和 columns 的所有融合信息，这也正是 decoder 所需要的 column vector，因此，本文工作没有应用进一步的 pooling 或者额外的复杂曾，这让模型结构更加简单高效。

二、HydraNet

HydraNet 将 Text2SQL 视为一个多任务学习问题。

2.1 PLM 的 encode

给定一个 question $q$ 和候选列 $c_1 \sim c_k$ 。

针对每一个 column $c_i$ ，我们为它构造一个 pair：

其中：

Concat 表示字符串的拼接，本文使用空格连接
$\phi_{c_i}$ 表示 column $c_i$ 的类型：string、real 等
$t_{c_i}$ 表示 $c_i$ 的 table name

然后，将 concat 的拼装结果作为 x，question 作为 y，得到下面的 token 序列：

将上面的 token seq 输入给 BERT 做编码，从而得到 seq representation。

2.2 Tasks

本文考虑没有嵌套结构的 SQL query，这里将一个 SQL 表述为以下的形式：

也就是一个 SQL 包括 SELECT、FROM、WHERE 这三个部分。

我们将上面的 SQL query 中的 objects 分为两类：

与特定 column 有关联的 objects：比如 aggregator、value text span
与特点 column 无关的全局 objects：比如 select-num（select 从句的个数）和 where-num（where conditions 的个数）

2.2.1 对与 column 有关的 objects 的预测

对于每个 col-question 的 pair $c_i, q)$ ，对于上面 1 中的与 column 有关的 objects 的预测可以被视为对 sentence pair 的分类或者 QA task。

使用 BERT 输出的 seq representation 来做预测：

对于一个 aggregator $a_j$ 的预测：将 $h_{[CLS]}$ 经过一个仿射变换再经过一个 softmax 后做分类。
对一个 condition operator $o_j$ 的预测：也是将 $h_{[CLS]}$ 经过一个仿射变换再经过一个 softmax 做分类。
对 value text span 的 start index 和 end index 的预测：分别计算 question 中每个 token 作为 start index 和 end index 的概率，并选择概率最大的作为 start 和 end 形成 text span。