Text-to-SQL文本信息處理技術(shù)研究綜述

2024-07-20 00:00:00彭鈺寒喬少杰薛騏李江敏謝添丞徐康鐳冉黎瓊曾少北

無線電工程 2024年5期

摘要：信號與信息處理的需求日益增加，離不開數(shù)據(jù)處理技術(shù)，數(shù)據(jù)處理需要數(shù)據(jù)庫的支持，然而沒有經(jīng)過訓(xùn)練的使用者會因為不熟悉數(shù)據(jù)庫操作產(chǎn)生諸多問題。文本轉(zhuǎn)結(jié)構(gòu)化查詢語言（ＴｅｘｔｔｏＳｔｒｕｃｔｕｒｅｄＱｕｅｒｙＬａｎｇｕａｇｅ，Ｔｅｘｔ-ｔｏ-ＳＱＬ）的出現(xiàn)，使用戶無需掌握結(jié)構(gòu)化查詢語言（ＳｔｒｕｃｔｕｒｅｄＱｕｅｒｙＬａｎｇｕａｇｅ，ＳＱＬ）也能夠熟練操作數(shù)據(jù)庫。介紹Ｔｅｘｔ-ｔｏ-ＳＱＬ的研究背景及面臨的挑戰(zhàn)；介紹Ｔｅｘｔ-ｔｏ-ＳＱＬ關(guān)鍵技術(shù)、基準(zhǔn)數(shù)據(jù)集、模型演變及最新研究進展，關(guān)鍵技術(shù)包括Ｔｒａｎｓｆｏｒｍｅｒ等主流技術(shù)，用于模型訓(xùn)練的基準(zhǔn)數(shù)據(jù)集包括ＷｉｋｉＳＱＬ和Ｓｐｉｄｅｒ；介紹Ｔｅｘｔ-ｔｏ-ＳＱＬ不同階段模型的特點，詳細(xì)闡述Ｔｅｘｔ-ｔｏ-ＳＱＬ最新研究成果的工作原理，包括模型構(gòu)建、解析器設(shè)計及數(shù)據(jù)集生成；總結(jié)Ｔｅｘｔ-ｔｏ-ＳＱＬ未來的發(fā)展方向及研究重點。

關(guān)鍵詞：文本轉(zhuǎn)結(jié)構(gòu)化查詢語言；解析器；文本信息處理；數(shù)據(jù)庫；深度學(xué)習(xí)

中圖分類號：ＴＰ３９１．１文獻標(biāo)志碼：Ａ開放科學(xué)（資源服務(wù)）標(biāo)識碼（ＯＳＩＤ）：

文章編號：１００３－３１０６（２０２４）０５－１０５３－１０

０引言

隨著信號與信息處理領(lǐng)域（圖像處理、文本處理、數(shù)據(jù)處理、語音處理等）研究工作的快速發(fā)展，需要考慮如何高效和準(zhǔn)確地處理、查詢、存儲數(shù)據(jù)信息，因此數(shù)據(jù)庫成為首選工具。專業(yè)人員可以熟練使用結(jié)構(gòu)化查詢語言（ＳｔｒｕｃｔｕｒｅｄＱｕｅｒｙＬａｎｇｕａｇｅ，ＳＱＬ）對數(shù)據(jù)庫中的信息進行增刪改查，但是越來越多的應(yīng)用開始投入到信號與信息處理領(lǐng)域，并非所有使用者都擁有專業(yè)的數(shù)據(jù)庫使用技巧，所以將用戶輸入的文本自動轉(zhuǎn)換為機器可執(zhí)行ＳＱＬ的文本轉(zhuǎn)結(jié)構(gòu)化查詢語言（ＴｅｘｔｔｏＳｔｒｕｃｔｕｒｅｄＱｕｅｒｙＬａｎｇｕａｇｅ，ＴｅｘｔｔｏＳＱＬ）文本信息處理技術(shù)產(chǎn)生并蓬勃發(fā)展［１］。

Ｔｅｘｔ-ｔｏ-ＳＱＬ研究面臨的挑戰(zhàn)主要集中在３個方面：① 對輸入的文本進行預(yù)處理，理解輸入的自然語言的含義，提取文本涉及的數(shù)據(jù)庫關(guān)鍵字、列名和表名，減小模型訓(xùn)練難度；② 將經(jīng)過預(yù)處理的文本轉(zhuǎn)換成一種中間表示，ＳＱＬ的作用并非是方便閱讀，而是提高計算機處理數(shù)據(jù)庫的效率，它與文本之間存在巨大的差距，所以需要建立文本與數(shù)據(jù)庫語句之間的映射關(guān)系，提高文本轉(zhuǎn)化數(shù)據(jù)庫語句的效率；③ 將中間表示轉(zhuǎn)化為最終的ＳＱＬ語句。

傳統(tǒng)的Ｔｅｘｔ-ｔｏ-ＳＱＬ方法雖然有效，但需要耗費大量的人力，需要提前為各種場景下的ＳＱＬ設(shè)置轉(zhuǎn)換模板，過程十分繁瑣［２］，并且傳統(tǒng)方法沒有解決上述Ｔｅｘｔ-ｔｏ-ＳＱＬ面臨的挑戰(zhàn)，轉(zhuǎn)換模板沒有設(shè)置文本與ＳＱＬ之間的中間表示，導(dǎo)致文本與ＳＱＬ之間的轉(zhuǎn)換效率低下。隨著近年來深度學(xué)習(xí)的崛起，深度學(xué)習(xí)逐漸運用到Ｔｅｘｔ-ｔｏ-ＳＱＬ中。在眾多深度學(xué)習(xí)模型中，循環(huán)神經(jīng)網(wǎng)絡(luò)模型在這一領(lǐng)域的效果最佳，因為文本語言和ＳＱＬ都可以當(dāng)作序列信息，需要結(jié)合前后文信息預(yù)測當(dāng)前信息，所以主要用于處理序列信息（文本、視頻和音頻等）的循環(huán)神經(jīng)網(wǎng)絡(luò)模型在Ｔｅｘｔ-ｔｏ-ＳＱＬ研究中效果較好。

１關(guān)鍵技術(shù)

文本和ＳＱＬ都是序列信息，使用處理序列信息的序列模型訓(xùn)練文本效果較好，本節(jié)針對常見的序列模型以及模型評判標(biāo)準(zhǔn)進行介紹。Ｔｅｘｔ-ｔｏ-ＳＱＬ工作過程示例如圖１所示。

長短期記憶（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ，ＬＳＴＭ）［３］神經(jīng)網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)的變體，通過內(nèi)部的４類門控單元：輸入門控單元、遺忘門控單元、候選記憶門控單元和輸出門控單元對序列信息進行篩選。ＬＳＴＭ單元在循環(huán)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上，除了隱藏狀態(tài)（對應(yīng)短期記憶），還加入了記憶單元（對應(yīng)長期記憶），解決了序列信息作為輸入面臨的長期信息保存和短期輸入缺失的問題。

門控循環(huán)單元（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ，ＧＲＵ）［４］是ＬＳＴＭ神經(jīng)網(wǎng)絡(luò)的簡化版本，將ＬＳＴＭ神經(jīng)網(wǎng)絡(luò)內(nèi)部的４類門控單元簡化為２個門控單元：重置門控單元和更新門控單元。雖然ＧＲＵ針對簡易輸入的訓(xùn)練速度更快、效果更好，但面對輸入文本包含復(fù)雜語法和語義信息的情況，ＬＳＴＭ神經(jīng)網(wǎng)絡(luò)是更好的選擇。

Ｔｒａｎｓｆｏｒｍｅｒ［５］模型是當(dāng)前主流深度學(xué)習(xí)模型，諸多文本處理工作都是基于Ｔｒａｎｓｆｏｒｍｅｒ完成的。Ｔｒａｎｓｆｏｒｍｅｒ是一種基于編碼器－解碼器的架構(gòu)，編碼器用于編碼輸入序列，將輸入序列變成向量形式并添加位置編碼，然后將其編碼為隱藏狀態(tài)輸出到解碼器中。解碼器除了接收編碼器的輸出，在每一個當(dāng)前時間步處理序列信息時，還會接受來自上一個時間步的輸出，解碼器也會將輸入信息轉(zhuǎn)變?yōu)橄蛄坎⑻砑游恢镁幋a?；冢裕颍幔睿?ｆｏｒｍｅｒ模型的Ｔｅｘｔ-ｔｏ-ＳＱＬ模型工作原理如圖２所示。

Ｂｅｒｔ［６］模型是Ｔｒａｎｓｆｏｒｍｅｒ模型的變體，Ｔｒａｎｓ-ｆｏｒｍｅｒ基于編碼器－解碼器架構(gòu)，Ｂｅｒｔ模型雖然僅有編碼器架構(gòu)，但其內(nèi)部的參數(shù)是Ｔｒａｎｓｆｏｒｍｅｒ的數(shù)倍，它是一種預(yù)訓(xùn)練微調(diào)模型，設(shè)置好預(yù)訓(xùn)練任務(wù)對模型進行訓(xùn)練，訓(xùn)練后的模型僅需要針對不同的任務(wù)對輸出層進行微調(diào)。Ｂｅｒｔ模型具有極高的泛化性，基于Ｂｅｒｔ的Ｔｅｘｔ-ｔｏ-ＳＱＬ模型工作原理如圖３所示。

域外數(shù)據(jù)（ＯｕｔｏｆＤｏｍａｉｎ）。數(shù)據(jù)集分為訓(xùn)練集、開發(fā)集和測試集。訓(xùn)練集用于訓(xùn)練模型，開發(fā)集用于驗證模型，測試集用于最后測試模型。因為測試集只能測試一次，不能用于多次訓(xùn)練測試模型好壞，所以在數(shù)據(jù)集比較大的情況下，可以劃分出開發(fā)集對模型訓(xùn)練效果進行驗證。域外數(shù)據(jù)是指訓(xùn)練集與開發(fā)集中不同的部分，過多會導(dǎo)致訓(xùn)練難度變大。

ＢＬＥＵ分?jǐn)?shù)（ＢｉｌｉｎｇｕａｌＥｖａｌｕａｔｉｏｎＵｎｄｅｒｓｔｕｄｙＳｃｏｒｅ）［７］用于評估序列模型語義解析的好壞，將文本解析為數(shù)據(jù)庫語句的好壞程度通常用ＢＬＥＵ分?jǐn)?shù)去評估。分?jǐn)?shù)值介于０～１，越接近１代表解析結(jié)果越接近參考值。除了ＢＬＥＵ分?jǐn)?shù)，還有ＭＥＴＥＯＲ、ＲＯＵＧＥ和ＰＰＬ等標(biāo)準(zhǔn)也可以評價解析模型的好壞，根據(jù)不同需求選擇不同的評價指標(biāo)。

２基準(zhǔn)數(shù)據(jù)集

高質(zhì)量的數(shù)據(jù)集能夠直接決定模型訓(xùn)練的效果，在Ｔｅｘｔ-ｔｏ-ＳＱＬ領(lǐng)域，用于絕大多數(shù)模型檢驗常用的基準(zhǔn)數(shù)據(jù)集為ＷｉｋｉＳＱＬ［８］和Ｓｐｉｄｅｒ［９］數(shù)據(jù)集，其為大規(guī)模、多領(lǐng)域的基準(zhǔn)測試集，也是使用最為廣泛的基準(zhǔn)數(shù)據(jù)集。

ＷｉｋｉＳＱＬ是目前文本轉(zhuǎn)數(shù)據(jù)庫語句領(lǐng)域使用最頻繁的基準(zhǔn)數(shù)據(jù)集，包含約２５０００個維基百科數(shù)據(jù)表和８００００個由人工創(chuàng)建的自然語言與ＳＱＬ句子對，數(shù)據(jù)集中每一行由一個自然語言文本、一個文本對應(yīng)的ＳＱＬ查詢還有ＳＱＬ查詢中涉及的列和表組成。ＷｉｋｉＳＱＬ中的ＳＱＬ復(fù)雜性較低，因為其內(nèi)部沒有使用復(fù)雜的ＳＱＬ子句，如：“ＪＯＩＮ”“ＧＲＯＵＰＢＹ”“ＯＲＤＥＲＢＹ”“ＵＮＩＯＮ”“ＩＮＴＥＲＳＥＣＴＩＯＮ”等，且在執(zhí)行查詢語句時不允許在單個查詢中選擇多個列。因此在訓(xùn)練模型時，ＷｉｋｉＳＱＬ的訓(xùn)練難度比較低，這是ＷｉｋｉＳＱＬ使用率最高的原因。

Ｓｐｉｄｅｒ是一個大規(guī)模的、復(fù)雜的跨領(lǐng)域數(shù)據(jù)集，包含來自１３８個不同領(lǐng)域的２００多個關(guān)系數(shù)據(jù)庫。相較于ＷｉｋｉＳＱＬ，Ｓｐｉｄｅｒ數(shù)據(jù)集具有更多復(fù)雜的嵌套查詢子句、更多的域外數(shù)據(jù)，讓訓(xùn)練更加困難。經(jīng)過Ｓｐｉｄｅｒ訓(xùn)練的機器學(xué)習(xí)模型可以變得更加泛化，研究人員廣泛依賴它訓(xùn)練可以生成復(fù)雜ＳＱＬ查詢的模型，適應(yīng)更多的任務(wù)。還有數(shù)據(jù)集針對Ｓｐｉｄｅｒ做了擴展，用于訓(xùn)練指定任務(wù)。Ｓｐｉｄｅｒ-ｄｋ擴展了Ｓｐｉｄｅｒ，用于訓(xùn)練跨領(lǐng)域泛化模型，探索模型在面對不同領(lǐng)域中專業(yè)名詞的表現(xiàn)；Ｓｐｉｄｅｒ-ｓｙｎ側(cè)重于訓(xùn)練模型區(qū)分同義詞、反義詞的性能。

此外，其他數(shù)據(jù)集，例如：ＫａｇｇｌｅＤＢＱＡ是一個跨域數(shù)據(jù)集［１０］，雖然規(guī)模比不上ＷｉｋｉＳＱＬ和Ｓｐｉｄｅｒ，但它是從Ｋａｇｇｌｅ中提取出來的，包含相當(dāng)多工業(yè)界的真實數(shù)據(jù)。

３模型演變

本節(jié)將按時間演變介紹文本轉(zhuǎn)數(shù)據(jù)庫領(lǐng)域的模型，模型發(fā)展歷程如圖４所示。

（１）理論提出

在文本轉(zhuǎn)數(shù)據(jù)庫語句領(lǐng)域，Ｌｉ等［１１］提出的ＳＱＬＮｅｔ是較早成理論體系的模型，該模型使用的方法基于草圖技術(shù)，草圖中包含數(shù)據(jù)庫語句的關(guān)鍵字、列名和表名，通過這個草圖，ＳＱＬＮｅｔ僅需往草圖留空處添加信息，就可以實現(xiàn)自然語言到數(shù)據(jù)庫語句的轉(zhuǎn)換。

（２）理論發(fā)展

基于ＳＱＬＮｅｔ，Ｍｉｎ等［１２］提出一種樹型結(jié)構(gòu)返回輸出的模型———Ｓｅｑｕｅｎｃｅ-ｔｏ-Ｔｒｅｅ。該模型可以看作是序列到樹的模型，使用ＬＳＴＭ網(wǎng)絡(luò)編碼器對輸入問題進行編碼，在編碼器處理輸入序列后，通過解碼器輸出樹型結(jié)構(gòu)的ＳＱＬ查詢語句。模型通過識別單個詞元來理解輸入，并將其轉(zhuǎn)化為樹型結(jié)構(gòu)，樹節(jié)點上包括關(guān)鍵字（如ＳＥＬＥＣＴ、ＷＨＥＲＥ）、表名和列名。

（３）理論加工

這一階段數(shù)據(jù)庫領(lǐng)域開始大規(guī)模使用深度神經(jīng)網(wǎng)絡(luò)構(gòu)建模型，采用中間表示生成查詢，顯著提高了計算效率。Ｋｅｖｉｎ等［１３］提出Ｓｅｑｕｅｎｃｅ-ｔｏ-ＳＱＬ模型以深度學(xué)習(xí)模型為基準(zhǔn)，引入了強化學(xué)習(xí)方法，將交叉熵?fù)p失和數(shù)據(jù)庫在運行中執(zhí)行查詢的獎勵函數(shù)作為模型評價指標(biāo)。該模型內(nèi)部采用了一種增強指針網(wǎng)絡(luò)，該網(wǎng)絡(luò)是一種能夠改變輸出序列長度的網(wǎng)絡(luò)架構(gòu)，相較于循環(huán)神經(jīng)網(wǎng)絡(luò)輸入輸出的序列長度需要一一對應(yīng)，增強指針網(wǎng)絡(luò)能使模型具有更好的性能。Ｓｅｑｕｅｎｃｅ-ｔｏ-ＳＱＬ模型由聚合分類器、ＳＥＬＥＣＴ組件和ＷＨＥＲＥ組件構(gòu)成。

Ｓｅｑｕｅｎｃｅ-ｔｏ-ＳＱＬ模型對查詢的聚合操作進行分類，將輸入的文本數(shù)據(jù)分類為最大最小升序降序這類約束條件。聚類分類器內(nèi)部采用的是編碼器－解碼器架構(gòu)，編碼器內(nèi)部使用了雙向ＬＳＴＭ網(wǎng)絡(luò)，解碼器內(nèi)部采用普通的ＬＳＴＭ；ＳＥＬＥＣＴ組件用于處理輸入文本中的列名和表名；ＷＨＥＲＥ組件，用于確定用于轉(zhuǎn)換的數(shù)據(jù)庫語句約束條件。

（４）理論成型

這一階段文本轉(zhuǎn)數(shù)據(jù)庫語句技術(shù)趨于成熟，開始運用復(fù)雜跨域文本數(shù)據(jù)集訓(xùn)練模型。大部分模型訓(xùn)練選用基準(zhǔn)數(shù)據(jù)集ＷｉｋｉＳＱＬ進行訓(xùn)練，但Ｇｕｏ等［１４］提出的ＩＲＮｅｔ選用Ｓｐｉｄｅｒ數(shù)據(jù)集訓(xùn)練模型。相較于Ｓｐｉｄｅｒ數(shù)據(jù)集，ＷｉｋｉＳＱＬ的生態(tài)更加成熟，沒有復(fù)雜的嵌套查詢語句和大量域外數(shù)據(jù)，簡化了模型的訓(xùn)練過程，但Ｇｕｏ等［１４］的目的是訓(xùn)練適用于復(fù)雜且有跨域文本的數(shù)據(jù)庫，所以選用更為復(fù)雜的Ｓｐｉｄｅｒ對模型進行訓(xùn)練。

ＩＲＮｅｔ是基于編碼器－解碼器架構(gòu)的模型，工作原理包括３個關(guān)鍵步驟：① 編碼器，分為問題編碼器（ＱｕｅｓｔｉｏｎＥｎｃｏｄｅｒ）和模式編碼器（ＳｃｈｅｍａＥｎ-ｃｏｄｅｒ）。問題編碼器內(nèi)部是雙向ＬＳＴＭ神經(jīng)網(wǎng)絡(luò)，負(fù)責(zé)預(yù)處理輸入數(shù)據(jù)，將輸入的文本詞元化，并使用Ｎｇｒａｍ算法對文本中出現(xiàn)的列名和表名賦予一個類，如果詞元是數(shù)據(jù)庫中的列則分配一個“Ｃｏｌｕｍｎ”，如果詞元是數(shù)據(jù)庫中的表則分配一個“Ｔａｂｌｅ”；模式編碼器負(fù)責(zé)為Ｎ-ｇｒａｍ算法中識別的列名、表名的準(zhǔn)確性匹配一個類型。其中有２個控制單元，模式單元和記憶單元，模式單元負(fù)責(zé)為Ｎ-ｇｒａｍ算法識別正確的列名和表名分配一個“ＥｘａｃｔＭａｔｃｈ”類型，沒有正確識別的列名和表名分配一個“ＰａｒｔｉａｌＭａｔｃｈ”類型，分配好類型后將這些信息送入記憶單元進行存儲。② 解碼器，負(fù)責(zé)接收問題編碼器的輸出，將其作為自身的隱藏狀態(tài)，將文本數(shù)據(jù)轉(zhuǎn)化為樹型結(jié)構(gòu)中間表示樹。解碼器中有一套樹型結(jié)構(gòu)的轉(zhuǎn)化規(guī)則，樹中節(jié)點用字母Ｚ表示數(shù)據(jù)庫中的交集（ｉｎｔｅｒｓｅｃｔ）、并集（ｕｎｉｏｎ）和補集（ｅｘｃｅｐｔ）操作，沒有這些操作時也用字母Ｚ表示；樹中結(jié)點用字母Ｒ表示“ＳＥＬＥＣＴ”關(guān)鍵字；樹中結(jié)點“Ｓｅｌｅｃｔ”可以分化出一個或多個節(jié)點；樹中結(jié)點“Ｏｒｄｅｒ”對應(yīng)升序（ａｓｃ）和降序（ｄｅｓｃ）；樹中結(jié)點“Ｓｕｐｅｒｌａｔｉｖｅ”對應(yīng)最大（ｍｏｓｔ）和最小（ｌｅａｓｔ）；樹中結(jié)點“Ｆｉｌｔｅｒ”表示過濾操作，對應(yīng)條件關(guān)鍵字，比如：大于、小于、等于、ｂｅ-ｔｗｅｅｎ、ｎｏｔｉｎ等；樹中結(jié)點“Ａ”表示可以分化出列和表，列和表分別用字母Ｃ和Ｔ表示。③ 輸出層，遍歷解碼器輸出的樹將其轉(zhuǎn)化為最終的ＳＱＬ語句。

４最新研究進展

Ｏｃｔａｖｉａｎ等［１５］以編碼器－解碼器架構(gòu)為原型，提出了一個結(jié)合自動訓(xùn)練數(shù)據(jù)增強及多模型集成技術(shù)的系統(tǒng)，該系統(tǒng)可以處理和提取輸入問題中的特定信息，從數(shù)據(jù)庫中將詞元連接到特定的表和列。編碼器中常用的實體識別（ＮａｍｅＥｎｔｉｔｙＲｅｃｏｇｎｉｔｉｏｎ）模塊在該模型中被替換成消除歧義字典模塊（Ｄｉｓ-ａｍｂｉｇｕａｔｉｏｎＤｉｃｔｉｏｎａｒｙＭｏｄｕｌｅ），用于提供模型所需要的關(guān)鍵信息。系統(tǒng)具有以下優(yōu)勢：① 集成了種子訓(xùn)練數(shù)據(jù)增強技術(shù)，基于被稱為種子的初始訓(xùn)練語料庫，利用這種方法生成更大的訓(xùn)練集；② 使用不同的自動生成訓(xùn)練數(shù)據(jù)集，訓(xùn)練不同的模型，并使用集成技術(shù)來分析組合多個模型的輸出。

Ｌｉ等［１６］提出了用于聚合表內(nèi)文本到數(shù)據(jù)庫語句轉(zhuǎn)換的方法———Ｗａｇｇ，該方法使用了一種動態(tài)修剪策略對多個聚合表中的不相關(guān)項進行修剪，大大減少模型訓(xùn)練的時間成本。聚合是一種數(shù)據(jù)批處理的操作，可以將數(shù)據(jù)分組，對每組數(shù)據(jù)執(zhí)行多種批處理操作。聚合表為經(jīng)過聚合處理的表，常用于頻繁使用查詢操作的情況。目前針對聚合表的文本轉(zhuǎn)數(shù)據(jù)庫語句方向的研究相對較少，主要面臨２個方面的挑戰(zhàn)：① 聚合表意味著更復(fù)雜的映射關(guān)系，在文本與數(shù)據(jù)庫語句進行轉(zhuǎn)換時面臨更多歧義；② 目前的深度學(xué)習(xí)模型處理聚合表會產(chǎn)生巨大的時間成本。Ｌｉ等［１６］的方法使用動態(tài)修剪策略克服了上述困難，讓聚合表這種復(fù)雜的數(shù)據(jù)庫表可以輸入模型進行訓(xùn)練。

Ｗｅｉ等［１７］在解碼器中引入了多任務(wù)學(xué)習(xí)的共享機制，通過不同的子任務(wù)共享同一個解碼器來實現(xiàn)，可以有效降低模型的復(fù)雜性，并且允許不同子任務(wù)在訓(xùn)練過程中共享知識，使模型能夠更好地學(xué)習(xí)到不同子任務(wù)之間的依賴關(guān)系。文本轉(zhuǎn)數(shù)據(jù)庫語句使用基于編碼器－解碼器架構(gòu)的模型時，普通解碼器學(xué)習(xí)不同子任務(wù)之間相關(guān)性的能力有限，過于復(fù)雜的解碼器會增加訓(xùn)練成本。文獻［１７］的方法避免了上面２種情況，保證模型訓(xùn)練效果的同時避免了過高的模型復(fù)雜性。

Ｔｏｍｅｒ等［１８］提出了一種基于弱監(jiān)督學(xué)習(xí)的方法———Ｏｄｍｒｓ來訓(xùn)練模型中文本轉(zhuǎn)數(shù)據(jù)庫語句的解析器，其未使用手動標(biāo)記的高質(zhì)量數(shù)據(jù)作為訓(xùn)練標(biāo)準(zhǔn)，而是使用非專業(yè)用戶提供的數(shù)據(jù)進行訓(xùn)練，證明了模型強大的泛化性。解析器中合成ＳＱＬ的算法流程，如算法１所示。

算法１的工作原理為：定義一個數(shù)組ｍａｐｐｅｄ用于后續(xù)存儲變量（第１行）；利用啟發(fā)式函數(shù)ｆ將ｘｉ表達為結(jié)構(gòu)化形式Ｍｉ，根據(jù)模板推斷Ｍｉ中的具體操作（第２行）；然后通過弱監(jiān)督學(xué)習(xí)模型將結(jié)構(gòu)化表示Ｍｉ映射到數(shù)組中（第３～１４行），針對每個結(jié)構(gòu)化的表示Ｍｉ，提取出其中的列名和相關(guān)性強的ＳＱＬ查詢，并創(chuàng)建數(shù)組ｊｏｉｎ（第３～７行）。根據(jù)列與列之間的相關(guān)性和構(gòu)建的結(jié)構(gòu)化模板去生成ＳＱＬ查詢（第８～１４行），ＪＯＩＮＰ函數(shù)用于連接表之間的不同列，ＯＰＴＹＰＥ函數(shù)用于從結(jié)構(gòu)化模板中推斷Ｍｉ中的具體數(shù)據(jù)庫操作，ＭＡＰＳＱＬ函數(shù)將Ｍｉ映射到ＳＱＬ中；最后返回ＳＱＬ查詢（第１５行）。Ｔｅｘｔ-ｔｏ-ＳＱＬ最新研究進展總結(jié)如表１所示。

Ｇｅｕｎｙｅｏｎｇ等［１９］提出了一種混合譯碼器，為ＳＱＬ生成構(gòu)建出基本結(jié)構(gòu)，結(jié)構(gòu)中包含每個查詢過程中可能需要使用的自行定義數(shù)據(jù)庫語句組件，混合解碼器依據(jù)該結(jié)構(gòu)依次生成ＳＱＬ查詢。Ｑｉ等［２０］提出了一種基于Ｔｒａｎｓｆｏｒｍｅｒ的架構(gòu)，利用Ｔｒａｎｓｆｏｒｍｅｒ中的自注意力機制識別表與表之間的關(guān)系，將模式連接和模式編碼等關(guān)系結(jié)構(gòu)引入模型，讓模型生成更符合邏輯的ＳＱＬ。Ｘｕ等［２１］提出一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法———ＳｅａＤ，將自回歸模型與序列到序列模型結(jié)合，過濾輸入文本，克服解碼過程對模型的限制，提高文本到ＳＱＬ的準(zhǔn)確性。Ｑｉｎ等［２２］設(shè)計了一種基于神經(jīng)網(wǎng)絡(luò)的方法———Ｓｕｎ，在Ｓｕｎ中使用一種啟發(fā)式的約束規(guī)則來限制模型輸出，提高模型的泛化性和穩(wěn)定性。Ｓｈｉ等［２３］針對跨語言文本到ＳＱＬ語義解析的問題，提出一種基于遷移學(xué)習(xí)的文本解析模型———ＴｒａｎｓｆｅｒＬｅａｒｎｉｎｇｉｎＣｒｏｓｓ-Ｌｉｎｇｕａｌ（ＸＲＩＣＬ），利用基于英文數(shù)據(jù)集的訓(xùn)練成果遷移到其他語言模型中。Ｐｉ等［２４］設(shè)計了一種名為Ａｄｖｅｔａ的系統(tǒng)，用于測試Ｔｅｘｔ-ｔｏ-ＳＱＬ模型魯棒性，使用ＡｄｖｅｒｓａｒｉａｌＴａｂｌｅＰｅｒｔｕｒｂａｔｉｏｎ（ＡＴＰ）指標(biāo)評估模型魯棒性，該系統(tǒng)內(nèi)部結(jié)構(gòu)主要是對抗生成框架，在監(jiān)測模型魯棒性的同時也能對模型進行改進。Ｈａｎ等［２５］提出一種基于圖的方法———ＲｕｌｅＳＱＬｏｖａ，偏向于處理數(shù)據(jù)庫中的聚合操作符。Ｚｈｅｎｇ等［２６］提出了一種基于模式連接圖的方法———ＨＩＥＳＱＬ，該方法增強輸入文本與ＳＱＬ之間的連接，提升了模式連接的準(zhǔn)確率。Ｘｉａｏ等［２７］基于上下文相關(guān)文本序列問題提出ＣｏｎｖｅｒｓａｔｉｏｎＱｕｅｓｔｉｏｎＲｅｆｏｒｍｕｌａｔｉｏｎ（ＣＱＲ）方法，該方法基于遞歸增強模式來生成文本與ＳＱＬ之間的中間表示，讓模型充分理解上下文語義，增強ＳＱＬ的解析能力。Ｗａｎｇ等［２８］提出了一種基于大規(guī)模預(yù)訓(xùn)練語言模型來誘導(dǎo)解析器對輸入文本進行處理的方法———Ｐｒｏｔｏｎ，該方法是無監(jiān)督學(xué)習(xí)模型，無需對輸入文本進行預(yù)處理。Ａｂｈｉｊｅｅｔ等［２９］提出了一種名為ＲＥＦＩＬＬ的框架，用于合成高質(zhì)量、多樣化的并行數(shù)據(jù)集，ＲＥＦＩＬＬ框架從現(xiàn)有模式中檢索和添加文本查詢，提高模型訓(xùn)練效率。Ｃｈｅｎ等［３０］提出了一種基準(zhǔn)數(shù)據(jù)集修改器，用于預(yù)訓(xùn)練基準(zhǔn)數(shù)據(jù)集ＳＱｕＡＬＬ時進行分割，該解析器由模式擴展和模式修剪組成，在訓(xùn)練過程中對輸入數(shù)據(jù)ＳＱｕＡＬＬ進行合成與分割。Ｌｅｅ等［３１］設(shè)計了一種符合醫(yī)院應(yīng)用場景的數(shù)據(jù)庫———ＥｌｅｃｔｒｏｎｉｃＨｅａｌｔｈＲｅｃｏｒｄｓ（ＥＨＲｓ），用于醫(yī)學(xué)場景下的模型訓(xùn)練。

５結(jié)束語

本文綜述了Ｔｅｘｔ-ｔｏ-ＳＱＬ文本處理技術(shù)最新研究成果，包括關(guān)鍵技術(shù)、基準(zhǔn)數(shù)據(jù)集、模型演變和最新研究進展。關(guān)鍵技術(shù)包括ＬＳＴＭ、ＧＲＵ、Ｔｒａｎｓｆｏｒｍｅｒ、Ｂｅｒｔ、域外數(shù)據(jù)和ＢＬＥＵ分?jǐn)?shù)等技術(shù)；基準(zhǔn)數(shù)據(jù)集主要介紹了ＷｉｋｉＳＱＬ和Ｓｐｉｄｅｒ；模型演變從４個階段詳述了Ｔｅｘｔ-ｔｏ-ＳＱＬ技術(shù)，包括理論提出、理論發(fā)展、理論加工和理論成型；最新研究進展從模型構(gòu)建、解析器設(shè)計和數(shù)據(jù)集生成３個方面概述了最新研究成果。

在模型的構(gòu)建上，雖然大部分是基于Ｔｒａｎｓｆｏｒｍｅｒ的編碼器－解碼器架構(gòu)模型，但是ＣｈａｔＧｅｎｅｒａｔｉｖｅＰｅ-ｔｒａｉｎｅｄＴｒａｎｓｆｏｒｍｅｒ（ＣｈａｔＧＰＴ）模型的成功預(yù)示著這類架構(gòu)具有很大的潛力，未來仍可以針對該結(jié)構(gòu)進行改良，從不同角度提高模型性能。對于解析器而言，未來可以設(shè)計基于圖神經(jīng)網(wǎng)絡(luò)的模型，利用圖中節(jié)點之間的關(guān)系解析上下文，增加文本與ＳＱＬ之間的轉(zhuǎn)換效率。目前常用的數(shù)據(jù)集主要包括ＷｉｋｉＳＱＬ和Ｓｐｉｄｅｒ，數(shù)據(jù)集是決定模型訓(xùn)練效果好壞的重要因素，未來可以針對不同業(yè)務(wù)場景構(gòu)建出適合的基準(zhǔn)數(shù)據(jù)集用于該領(lǐng)域模型訓(xùn)練，如針對性的構(gòu)建適合法律、教育和互聯(lián)網(wǎng)等環(huán)境的訓(xùn)練數(shù)據(jù)集，讓模型在上述領(lǐng)域具有更好的性能。

此外，文本信息處理涉及隱私數(shù)據(jù)，隱私保護問題是不可忽視的，通常獲取的文本信息是公開的、性比較低的，不能擅自使用未公開或是私密性高的數(shù)據(jù)，未來可以制定相關(guān)規(guī)范或是制定更多的基準(zhǔn)數(shù)據(jù)集，吸引更多的研究者投入Ｔｅｘｔ-ｔｏ-ＳＱＬ領(lǐng)域的研究。

參考文獻

［１］ＧＥＯＲＧＥＫＭ，ＧＥＯＲＧＩＡＫ．ＡＳｕｒｖｅｙｏｎＤｅｅｐＬｅａｒｎｉｎｇＡｐｐｒｏａｃｈｅｓｆｏｒＴｅｘｔｔｏＳＱＬ［Ｊ］．ＴｈｅＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｎＶｅｒｙＬａｒｇｅＤａｔａＢａｓｅｓ，２０２３，３２（４）：９０５－９３６．

［２］ＧＵＺＨ，ＦＡＮＪ，ＴＡＮＧＮ，ｅｔａｌ．ＳａｍＭａｄｄｅｎ：ＦｅｗｓｈｏｔＴｅｘｔｔｏＳＱＬＴｒａｎｓｌａｔｉｏｎＵｓｉｎｇＳｔｒｕｃｔｕｒｅａｎｄＣｏｎｔｅｎｔＰｒｏｍｐｔＬｅａｒｎｉｎｇ［Ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＣＭｏｎＭａｎａｇｅｍｅｎｔｏｆＤａｔａ，２０２３，１（２）：１４７．

［３］ＺＨＯＵＳＬ，ＬＩＪ，ＷＡＮＧＨ，ｅｔａｌ．ＧＲＬＳＴＭ：ＴｒａｊｅｃｔｏｒｙＳｉｍｉｌａｒｉｔｙＣｏｍｐｕｔａｔｉｏｎｗｉｔｈＧｒａｐｈｂａｓｅｄＲｅｓｉｄｕａｌＬＳＴＭ［Ｃ］∥ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＴｈｉｒｔｙｓｅｖｅｎｔｈＡＡＡＩＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．［Ｓ．ｌ．］：ＡＡＡＩ，２０２３：４９７２－４９８０．

［４］ＣＨＥＮＹ，ＣＡＯＨ，ＺＨＯＵＹＱ，ｅｔａｌ．ＡＧＣＮＧＲＵＢａｓｅｄＥｎｄｔｏＥｎｄＬＥＯＳａｔｅｌｌｉｔｅＮｅｔｗｏｒｋＤｙｎａｍｉｃＴｏｐｏｌｏｇｙＰｒｅｄｉｃｔｉｏｎＭｅｔｈｏｄ［Ｃ］∥２０１６ＩＥＥＥＷｉｒｅｌｅｓｓＣｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＮｅｔｗｏｒｋｉｎｇＣｏｎｆｅｒｅｎｃｅ．Ｇｌａｓｇｏｗ：ＩＥＥＥ，２０２３：１－６．

［５］ＣＨＡＴＺＩＡＮＡＳＴＡＳＩＳＭ，ＬＵＴＺＥＹＥＲＪＦ，ＤＡＳＯＵＬＡＳＧ，ｅｔａｌ．ＧｒｐｈＯｒｄｅｒｉｎｇＡｔｔｅｎｔｉｏｎＮｅｔｗｏｒｋｓ［ＥＢ／ＯＬ］．（２０２２－０４－１１）［２０２３－０７－１０］．ｈｔｔｐｓ：∥ａｒｘｉｖ．ｏｒｇ／ａｂｓ／２２０４．０５３５１．

［６］ＺＨＡＯＷＣ，ＨＵＨＺ，ＺＨＯＵＷＧ，ｅｔａｌ．ＢＥＳＴ：ＢＥＲＴＰｒｅｔｒａｉｎｉｎｇｆｏｒＳｉｇｎＬａｎｇｕａｇｅＲｅｃｏｇｎｉｔｉｏｎｗｉｔｈＣｏｕｐｌｉｎｇＴｏｋｅｎｉｚａｔｉｏｎ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３７ｔｈＡＡＡＩＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．ＷａｓｈｉｎｇｔｏｎＤ．Ｃ．：ＡＡＡＩ，２０２３：３５９７－３６０５．

［７］ＳＡＭＡＮＴＡＤ，ＶＥＮＫＡＴＥＳＨＶ，ＭＯＮＩＫＡＧ，ｅｔａｌ．ＥｖａｌｕａｔｉｎｇＣｏｍｍｉｔＭｅｓｓａｇｅＧｅｎｅｒａｔｉｏｎ：ＴｏＢＬＥＵｏｒＮｏｔｔｏＢＬＥＵ？［Ｃ］∥２０２２ＩＥＥＥ／ＡＣＭ４４ｔｈＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｏｆｔｗａｒｅＥｎｇｉｎｅｅｒｉｎｇ：ＮｅｗＩｄｅａｓａｎｄＥｍｅｒｇｉｎｇＲｅｓｕｌｔｓ．Ｐｉｔｔｓｂｕｒｇｈ：ＩＥＥＥ，２０２３：３１－３５．

［８］ＳＥＭＩＨＹ，ＩＺＺＥＤＤＩＮＧ，ＳＵＹ，ｅｔａｌ．ＷｈａｔＩｔＴａｋｅｓｔｏＡｃｈｉｅｖｅ１００％ＣｏｎｄｉｔｉｏｎＡｃｃｕｒａｃｙｏｎＷｉｋｉＳＱＬ［Ｃ］∥ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．Ｂｒｕｓｓｅｌｓ：ＡＣＬ，２０１８：１７０２－１７１１．

［９］ＹＵＴ，ＺＨＡＮＧＲ，ＹＡＮＧＫ，ｅｔａｌ．Ｓｐｉｄｅｒ：ＡＬａｒｇｅｓｃａｌｅＨｕｍａｎｌａｂｅｌｅｄＤａｔａｓｅｔｆｏｒＣｏｍｐｌｅｘａｎｄＣｒｏｓｓｄｏｍａｉｎＳｅｍａｎｔｉｃＰａｒｓｉｎｇａｎｄＴｅｘｔｔｏＳＱＬＴａｓｋ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１８ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．Ｂｒｕｓｓｅｌｓ：ＡＣＬ，２０１８：３９１１－３９２１．

［１０］ＬＥＥＣＨ，ＰＯＬＯＺＯＶＯＰ，ＲＩＣＨＡＲＤＳＯＮＭ．ＫａｇｇｌｅＤＢＱＡ：ＲｅａｌｉｓｔｉｃＥｖａｌｕａｔｉｏｎｏｆＴｅｘｔｔｏＳＱＬＰａｒｓｅｒｓ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５９ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓａｎｄ１１ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．［Ｓ．ｌ．］：ＡＣＬ，２０２１：２２６１－２２７３．

［１１］ＬＩＤ，ＭＩＲＥＬＬＡＬ．ＬａｎｇｕａｇｅｔｏＬｏｇｉｃａｌＦｏｒｍｗｉｔｈＮｅｕｒａｌＡｔｔｅｎｔｉｏｎ［Ｃ］∥ Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５４ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｂｅｒｌｉｎ：ＡＣＬ，２０１６：３３－４３．

［１２］ＭＩＮＱＫ，ＳＨＩＹＦ，ＺＨＡＮＧＹ．ＡＰｉｌｏｔＳｔｕｄｙｆｏｒＣｈｉｎｅｓｅＳＱＬＳｅｍａｎｔｉｃＰａｒｓｉｎｇ［Ｃ］∥ Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１９ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇａｎｄｔｈｅ９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（ＥＭＮＬＰＩＪＣＮＬＰ）．ＨｏｎｇＫｏｎｇ：ＡＣＬ，２０１９：３６５２－３６５８．

［１３］ＫＥＶＩＮＳ，ＤＩＲＫＫ．Ｓｅｑ２ＳＱＬＥｖａｌｕａｔｉｎｇＤｉｆｆｅｒｅｎｔＤｅｅｐＬｅａｒｎｉｎｇＡｒｃｈｉｔｅｃｔｕｒｅｓＵｓｉｎｇＷｏｒｄＥｍｂｅｄｄｉｎｇｓ［Ｃ］∥１５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅＭａｃｈｉｎｅＬｅａｒｎｉｎｇａｎｄＤａｔａＭｉｎｉｎｇｉｎＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．ＮｅｗＹｏｒｋ：ＭＬＤＢ，２０１９：３４３－３５４．

［１４］ＧＵＯＪＱ，ＺＨＡＮＺＣ，ＧＡＯＹ，ｅｔａｌ．ＴｏｗａｒｄｓＣｏｍｐｌｅｘＴｅｘｔｔｏＳＱＬｉｎＣｒｏｓｓｄｏｍａｉｎＤａｔａｂａｓｅｗｉｔｈＩｎｔｅｒｍｅｄｉａｔｅＲｅｐｒｅｓｅｎｔａｔｉｏｎ［Ｃ］∥ Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５７ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｆｌｏｒｅｎｃｅ：ＡＣＬ，２０１９：４５２４－４５３５．

［１５］ＯＣＴＡＶＩＡＮＰ，ＩＲＥＮＥＭ，ＮＧＯＣＰＡＯ，ｅｔａｌ．ＡｄｄｒｅｓｓｉｎｇＬｉｍｉｔａｔｉｏｎｓｏｆＥｎｃｏｄｅｒＤｅｃｏｄｅｒＢａｓｅｄＡｐｐｒｏａｃｈｔｏＴｅｘｔｔｏＳＱＬ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｇｙｅｏｎｇｊｕ：ＩＣＣＬ，２０２２：１５９３－１６０３．

［１６］ＬＩＳＱ，ＺＨＯＵＫＢ，ＺＨＵＡＮＧＺＹ，ｅｔａｌ．ＴｏｗａｒｄｓＴｅｘｔｔｏＳＱＬｏｖｅｒＡｇｇｒｅｇａｔｅＴａｂｌｅｓ［Ｊ］．ＤａｔａＩｎｔｅｌｌｉｇｅｎｃｅ，２０２３，５（２）：４５７－４７４．

［１７］ＷＥＩＣ，ＨＵＡＮＧＳＢ，ＬＩＲＳ．ＥｎｈａｎｃｅＴｅｘｔｔｏＳＱＬＭｏｄｅｌＰｅｒｆｏｒｍａｎｃｅｗｉｔｈＩｎｆｏｒｍａｔｉｏｎＳｈａｒｉｎｇａｎｄＲｅｗｅｉｇｈｔＬｏｓｓ［Ｊ］．ＭｕｌｔｉｍｅｄｉａＴｏｏｌｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，２０２２，８１（１１）：１５２０５－１５２１７．

［１８］ＴＯＭＥＲＷ，ＤＡＮＩＥＬＤ，ＪＯＮＡＴＨＡＮＢ．ＷｅａｋｌｙＳｕｐｅｒｖｉｓｅｄＴｅｘｔｔｏＳＱＬＰａｒｓｉｎｇＴｈｒｏｕｇｈＱｕｅｓｔｉｏｎＤｅｃｏｍｐｏｓｉｔｉｏｎ［Ｃ］∥ＦｉｎｄｉｎｇｓｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ：ＮＡＡＣＬ２０２２．Ｓｅａｔｔｌｅ：ＡＣＬ，２０２２：２５２８－２５４２．

［１９］ＧＥＵＮＹＥＯＮＧＪ，ＭＩＲＡＥＨ，ＳＥＵＬＧＩＫ，ｅｔａｌ．ＩｍｐｒｏｖｉｎｇＴｅｘｔｔｏＳＱＬｗｉｔｈａＨｙｂｒｉｄＤｅｃｏｄｉｎｇＭｅｔｈｏｄ［Ｊ］．Ｅｎｔｒｏｐｙ，２０２３，２５（３）：５１３．

［２０］ＱＩＪＸ，ＴＡＮＧＪＹ，ＨＥＺＷ，ｅｔａｌ．ＲＡＳＡＴ：ＩｎｔｅｇｒａｔｉｎｇＲｅｌａｔｉｏｎａｌＳｔｒｕｃｔｕｒｅｓｉｎｔｏＰｒｅｔｒａｉｎｅｄＳｅｑ２ＳｅｑＭｏｄｅｌｆｏｒＴｅｘｔｔｏＳＱＬ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０２２ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．ＡｂｕＤｈａｂｉ：ＡＣＬ，２０２２：３２１５－３２２９．

［２１］ＸＵＫ，ＷＡＮＧＹＢ，ＷＡＮＧＹＬ，ｅｔａｌ．ＳｅａＤ：ＥｎｄｔｏＥｎｄＴｅｘｔｔｏＳＱＬＧｅｎｅｒａｔｉｏｎｗｉｔｈＳｃｈｅｍａａｗａｒｅＤｅｎｏｉｓｉｎｇ［Ｃ］∥ＦｉｎｄｉｎｇｓｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｓｅａｔｔｌｅ：ＡＣＬ，２０２２：１８４５－１８５３．

［２２］ＱＩＮＢＷ，ＷＡＮＧＬＨ，ＨＵＩＢＹ，ｅｔａｌ．ＳＵＮ：ＥｘｐｌｏｒｉｎｇＩｎｔｒｉｎｓｉｃＵｎｃｅｒｔａｉｎｔｉｅｓｉｎＴｅｘｔｔｏＳＱＬＰａｒｓｅｒｓ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｇｙｅｏｎｇｊｕ：ＩＣＣＬ，２０２２：５２９８－５３０８．

［２３］ＳＨＩＰ，ＺＨＡＮＧＲ，ＢＡＩＨ，ｅｔａｌ．ＸＲＩＣＬ：ＣｒｏｓｓｌｉｎｇｕａｌＲｅｔｒｉｅｖａｌａｕｇｍｅｎｔｅｄＩｎｃｏｎｔｅｘｔＬｅａｒｎｉｎｇｆｏｒＣｒｏｓｓｌｉｎｇｕａｌＴｅｘｔｔｏＳＱＬＳｅｍａｎｔｉｃＰａｒｓｉｎｇ［Ｃ］∥ＦｉｎｄｉｎｇｓｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．ＡｂｕＤｈａｂｉ：ＡＣＬ，２０２２：５２４８－５２５９．

［２４］ＰＩＸＹ，ＷＡＮＧＢ，ＧＡＯＹ，ｅｔａｌ．ＴｏｗａｒｄｓＲｏｂｕｓｔｎｅｓｓｏｆＴｅｘｔｔｏＳＱＬＭｏｄｅｌｓＡｇａｉｎｓｔＮａｔｕｒａｌａｎｄＲｅａｌｉｓｔｉｃＡｄｖｅｒｓａｒｉａｌＴａｂｌｅＰｅｒｔｕｒｂａｔｉｏｎ［Ｃ］∥ Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ６０ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｄｕｂｌｉｎ：ＡＣＬ，２０２２：２００７－２０２２．

［２５］ＨＡＮＳＫ，ＧＡＯＮ，ＧＵＯＸＢ，ｅｔａｌ．ＲｕｌｅＳＱＬｏｖａ：ＩｍｐｒｏｖｉｎｇＴｅｘｔｔｏＳＱＬｗｉｔｈＬｏｇｉｃＲｕｌｅｓ［Ｃ］∥２０２２ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ．Ｐａｄｕａ：ＩＥＥＥ，２０２２：１－８．

［２６］ＺＨＥＮＧＹＺ，ＷＡＮＧＨＢ，ＤＯＮＧＢＨ，ｅｔａｌ．ＨＩＥＳＱＬ：ＨｉｓｔｏｒｙＩｎｆｏｒｍａｔｉｏｎＥｎｈａｎｃｅｄＮｅｔｗｏｒｋｆｏｒＣｏｎｔｅｘｔｄｅｐｅｎｄｅｎｔＴｅｘｔｔｏＳＱＬＳｅｍａｎｔｉｃＰａｒｓｉｎｇ［Ｃ］∥ＦｉｎｄｉｎｇｓｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｄｕｂｌｉｎ：ＡＣＬ，２０２２：２９９７－３００７．

［２７］ＸＩＡＯＤＬ，ＣＨＡＩＬＺ，ＺＨＡＮＧＱＷ，ｅｔａｌ．ＣＱＲＳＱＬ：ＣｏｎｖｅｒｓａｔｉｏｎａｌＱｕｅｓｔｉｏｎＲｅｆｏｒｍｕｌａｔｉｏｎＥｎｈａｎｃｅｄＣｏｎｔｅｘｔｄｅｐｅｎｄｅｎｔＴｅｘｔｔｏＳＱＬＰａｒｓｅｒｓ［Ｃ］∥ＦｉｎｄｉｎｇｓｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．ＡｂｕＤｈａｂｉ：ＡＣＬ，２０２２：２０５５－２０６８．

［２８］ＷＡＮＧＬＨ，ＱＩＮＢＷ，ＨＵＩＢＹ，ｅｔａｌ．Ｐｒｏｔｏｎ：ＰｒｏｂｉｎｇＳｃｈｅｍａＬｉｎｋｉｎｇＩｎｆｏｒｍａｔｉｏｎｆｒｏｍＰｒｅｔｒａｉｎｅｄＬａｎｇｕａｇｅＭｏｄｅｌｓｆｏｒＴｅｘｔｔｏＳＱＬＰａｒｓｉｎｇ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２８ｔｈＡＣＭＳＩＧＫＤＤＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ．ＮｅｗＹｏｒｋ：ＡＣＭ，２０２２：１８８９－１８９８．

［２９］ＡＢＨＩＪＥＥＴＡ，ＡＳＨＵＴＯＳＨＳ，ＳＵＮＩＴＡＳ．ＤｉｖｅｒｓｅＰａｒａｌｌｅｌＤａｔａＳｙｎｔｈｅｓｉｓｆｏｒＣｒｏｓｓｄａｔａｂａｓｅＡｄａｐｔａｔｉｏｎｏｆＴｅｘｔｔｏＳＱＬＰａｒｓｅｒｓ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０２２ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．ＡｂｕＤｈａｂｉ：ＡＣＬ，２０２２：１１５４８－１１５６２．

［３０］ＣＨＥＮＺ，ＳＵＹ，ＡＤＡＭＰ，ｅｔａｌ．ＢｒｉｄｇｉｎｇｔｈｅＧｅｎｅｒａｌｉｚａｔｉｏｎＧａｐｉｎＴｅｘｔｔｏＳＱＬＰａｒｓｉｎｇｗｉｔｈＳｃｈｅｍａＥｘｐａｎｓｉｏｎ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ６０ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｄｕｂｌｉｎ：ＡＣＬ，２０２２：５５６８－５５７８．

［３１］ＬＥＥＧ，ＨＷＡＮＧＨ，ＢＡＥＳ，ｅｔａｌ．ＥＨＲＳＱＬ：ＡＰｒａｃｔｉｃａｌＴｅｘｔｔｏＳＱＬＢｅｎｃｈｍａｒｋｆｏｒＥｌｅｃｔｒｏｎｉｃＨｅａｌｔｈＲｅｃｏｒｄｓ［ＥＢ／ＯＬ］．（２０２３－０１－１６）［２０２３－０７－１８］．ｈｔｔｐｓ：∥ａｒｘｉｖ．ｏｒｇ／ａｂｓ／２３０１．０７６９５．

作者簡介

彭鈺寒男，（１９９９—），碩士研究生。主要研究方向：人工智能數(shù)據(jù)庫。

（*通信作者）喬少杰男，（１９８１—），博士，教授。主要研究方向：人工智能數(shù)據(jù)庫、時空數(shù)據(jù)庫、機器學(xué)習(xí)。

薛騏男，（１９９９—），碩士研究生。主要研究方向：時空數(shù)據(jù)庫。

李江敏男，（１９９７—），碩士研究生。主要研究方向：人工智能數(shù)據(jù)庫。

謝添丞男，（１９９７—），碩士研究生。主要研究方向：軌跡預(yù)測。

徐康鐳男，（１９９９—），碩士研究生。主要研究方向：人工智能數(shù)據(jù)庫。

冉黎瓊女，（１９９８—），碩士研究生。主要研究方向：數(shù)據(jù)挖掘、云計算。

曾少北男，（１９８０—），碩士。主要研究方向：數(shù)據(jù)智能應(yīng)用。

基金項目：國家自然科學(xué)基金（６２２７２０６６，６１９６２００６）；四川省科技計劃（２０２１ＪＤＪＱ００２１，２０２２ＹＦＧ０１８６，２０２２ＮＳＦＳＣ０５１１，２０２３ＹＦＧ００２７）；教育部人文社會科學(xué)研究規(guī)劃基金（２２ＹＪＡＺＨ０８８）；宜賓市引進高層次人才項目（２０２２ＹＧ０２）；成都市“揭榜掛帥”科技項目（２０２２-ＪＢ００-００００２-ＧＸ，２０２１-ＪＢ００-０００２５-ＧＸ）；四川省教育廳人文社科重點研究基地四川網(wǎng)絡(luò)文化研究中心資助科研項目（ＷＬＷＨ２２-１）；成都信息工程大學(xué)國家智能社會治理實驗基地開放課題（ＺＮＺＬ２０２３Ｂ０５）；成都信息工程大學(xué)科技創(chuàng)新能力提升計劃（ＫＹＴＤ２０２２２２）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

Text-to-SQL文本信息處理技術(shù)研究綜述