基于類型輔助引導(dǎo)的代碼注釋生成模型

2024-09-14 00:00:00劉利呂韋岑汪洋

無線電通信技術(shù) 2024年4期

摘要：代碼注釋生成方法通?；诮Y(jié)構(gòu)－序列（Ｓｔｒｕｃｔｕｒｅ-Ｓｅｑｕｅｎｃｅ，Ｓｔｒｕｃｔ２Ｓｅｑ）框架，但忽略了代碼注釋的類型信息，例如操作符、字符串等。由于類型信息之間的層次具有依賴性，將類型信息引入已有的Ｓｔｒｕｃｔ２Ｓｅｑ框架并不適用。為了解決上述問題，提出一種基于類型輔助引導(dǎo)的代碼注釋生成（ＣｏｄｅＣｏｍｍｅｎｔＧｅｎｅｒａｔｉｏｎｂａｓｅｄｏｎＴｙｐｅ-ａｓｓｉｓｔｅｄＧｕｉｄ-ａｎｃｅ，ＣＣＧ-ＴＧ）模型，將源代碼視為帶有類型信息的ｎ元樹。該模型包含一個關(guān)聯(lián)類型編碼器和一個限制類型解碼器，可以對源代碼進(jìn)行自適應(yīng)總結(jié)。此外，提出一種多級強(qiáng)化學(xué)習(xí)（Ｍｕｌｔｉ-ｌｅｖｅｌＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ，ＭＲＬ）方法來優(yōu)化所提模型的訓(xùn)練過程。在多個數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，與多種基準(zhǔn)模型對比，證明所提ＣＣＧ-ＴＧ模型在所有評價指標(biāo)上的性能最優(yōu)。

關(guān)鍵詞：代碼注釋生成；類型信息；結(jié)構(gòu)序列框架；類型輔助引導(dǎo)；強(qiáng)化學(xué)習(xí)

中圖分類號：ＴＰ３１１文獻(xiàn)標(biāo)志碼：Ａ開放科學(xué)（資源服務(wù)）標(biāo)識碼（ＯＳＩＤ）：

文章編號：１００３－３１１４（２０２４）０４－０８０７－０８

０引言

程序員對代碼進(jìn)行注釋對維護(hù)軟件項(xiàng)目代碼庫以及顯著提高可讀性至關(guān)重要。代碼注釋生成旨在借助深度學(xué)習(xí)技術(shù)將程序代碼自動轉(zhuǎn)換為自然語言，以提高代碼開發(fā)和維護(hù)的效率［１］。

現(xiàn)有方法利用代碼固有的結(jié)構(gòu)特征，以編碼器－解碼器的方式解決結(jié)構(gòu)－序列（Ｓｔｒｕｃｔｕｒｅ-Ｓｅｑｕｅｎｃｅ，Ｓｔｒｕｃｔ２Ｓｅｑ）的編碼生成任務(wù)。充分利用抽象語法樹（ＡｂｓｔｒａｃｔＳｙｎｔａｘＴｒｅｅｓ，ＡＳＴ）的語法結(jié)構(gòu)或源代碼的解析樹，可以顯著提升注釋生成的質(zhì)量［２－３］。另外，通過提取代碼的結(jié)構(gòu)信息，使用圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)更新各節(jié)點(diǎn)信息也可以提高注釋生成的質(zhì)量［３－５］。文獻(xiàn)［６］構(gòu)建了一種結(jié)構(gòu)感知的混合編碼模型，兼顧程序代碼的序列表示和結(jié)構(gòu)表示，并利用聚合編碼過程將兩類信息融合至解碼器。

代碼注釋生成框架可以從源代碼片段，例如結(jié)構(gòu)化查詢語言（ＳｔｒｕｃｔｅｄＱｕｅｒｙＬａｎｇｕａｇｅ，ＳＱＬ）、ｌａｍｂｄａ表達(dá)式等，生成自然語言。作為一種特定的自然語言生成任務(wù)［７－８］，主流的方法可分為文本驅(qū)動方法和結(jié)構(gòu)驅(qū)動方法。

文本驅(qū)動方法：該類方法僅考慮源代碼的順序文本信息。文獻(xiàn)［９］使用主題模型和ｎ-ｇｒａｍ來預(yù)測源代碼片段的注釋。Ｉｙｅｒ等［１０］提出一種帶有注意力的長短期記憶網(wǎng)絡(luò)（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ，ＬＳＴＭ）語言模型，用于生成關(guān)于Ｃ＃和ＳＱＬ的注釋。文獻(xiàn)［１１］提出一種基于卷積神經(jīng)網(wǎng)絡(luò)（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ，ＣＮＮ）的自動化代碼注釋生成方法來緩解長期依賴問題，以生成更準(zhǔn)確的注釋信息。文獻(xiàn)［１２］研究了１４個不同的Ｊａｖａ軟件項(xiàng)目使用代碼注釋的風(fēng)格，提出一種機(jī)器學(xué)習(xí)方法將行級Ｊａｖａ代碼注釋自動分類。

結(jié)構(gòu)驅(qū)動方法：該方法考慮了不同程序語言的結(jié)構(gòu)信息，優(yōu)于文本驅(qū)動方法。Ａｌｏｎ等［１３］在ＡＳＴ中將代碼片段處理為組合路徑集，并在解碼過程中使用注意力機(jī)制選擇相關(guān)路徑。Ｈｕ等［１４］提出一種基于神經(jīng)機(jī)器翻譯的模型，該模型將ＡＳＴ節(jié)點(diǎn)序列作為輸入，并捕獲Ｊａｖａ代碼的結(jié)構(gòu)和語義。Ｈａｑｕｅ等［１５］提出使用三類編碼器分別對給定子程序的代碼／文本、ＡＳＴ和文件上下文進(jìn)行編碼，其中文件上下文是子程序的代碼／文本嵌入矢量。

復(fù)制機(jī)制：通過重用部分輸入而不是從目標(biāo)詞匯表中選擇單詞來解決生成任務(wù)中的域外詞（ＯｕｔｏｆＶｏｃａｂｕｌａｒｙ，ＯＯＶ）問題。文獻(xiàn)［１６］提出一種混合指針生成器網(wǎng)絡(luò)，將指針網(wǎng)絡(luò)［１７］用于抽象文本摘要的標(biāo)準(zhǔn)序列－序列（Ｓｅｑｕｅｎｃｅ-Ｓｅｑｕｅｎｃｅ，Ｓｅｑ２Ｓｅｑ）模型。Ｇｕ等［１８］提出使用ＣＯＰＹＮＥＴ將傳統(tǒng)的復(fù)制機(jī)制融入到Ｓｅｑ２Ｓｅｑ模型中，并有選擇地將輸入片段復(fù)制到輸出序列中。文獻(xiàn)［１９］提出一種指針生成網(wǎng)絡(luò)模型，該模型結(jié)合了抽取式和生成式兩種文本摘要方法，能夠選擇從源文本中復(fù)制單詞或利用詞匯表來生成新的摘要信息。

為了解決上述問題，提出一種基于類型輔助引導(dǎo)的代碼注釋生成（ＣｏｄｅＣｏｍｍｅｎｔＧｅｎｅｒａｔｉｏｎｂａｓｅｄｏｎＴｙｐｅ-ａｓｓｉｓｔｅｄＧｕｉｄａｎｃｅ，ＣＣＧＴＧ）模型，將源代碼視為帶有類型信息的ｎ元樹。該模型包含一個關(guān)聯(lián)類型編碼器和一個限制類型解碼器，可以對源代碼進(jìn)行自適應(yīng)總結(jié)。此外，提出一種多級強(qiáng)化學(xué)習(xí)（Ｍｕｌｔｉ-ｌｅｖｅｌＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ，ＭＲＬ）方法來優(yōu)化所提模型的訓(xùn)練過程。

１相關(guān)定義

定義１（令牌類型樹）令牌類型樹Ｔｘ，τ 是一棵ｎ元樹，表示節(jié)點(diǎn)集Ｖ的源代碼。Ｖ＝｛ｖ１，ｖ２，…，ｖＶ｝表示偏序節(jié)點(diǎn)集，令節(jié)點(diǎn)ｖｉ＝｛ｘｉ，τｉ｝，ｘｉ表示令牌序列，τｉ表示語法類型集Ｔ中的類型?？梢詮脑创a的令牌信息及其ＡＳＴ的類型信息構(gòu)造令牌類型樹。

定義２（代碼注釋生成任務(wù)）設(shè)Ｓ為訓(xùn)練數(shù)據(jù)集，標(biāo)記樣本（Ｔｘ，τ，ｙ）∈Ｓ，其中Ｔｘ，τ 為輸入的令牌類型樹，ｙ＝（ｙ１，ｙ２，…，ｙＭ）為帶有Ｍ個詞的真實(shí)注釋。代碼注釋生成的任務(wù)是設(shè)計一種模型，該模型將未標(biāo)記的樣本Ｔｘ，τ 作為輸入，并預(yù)測輸出ｙ作為注釋。

２ＣＣＧＴＧ模型

圖１（ａ）展示了使用樹型結(jié)構(gòu)的長短期記憶網(wǎng)絡(luò)（Ｔｒｅｅ-ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ，Ｔｒｅｅ-ＬＳＴＭ）編碼器提?。樱眩?結(jié)構(gòu)信息，關(guān)鍵字ＳＥＬＥＣＴ的子樹和ＷＨＥＲＥ子句的子樹具有相同的結(jié)構(gòu)，但類型不同。如果忽略了類型信息，傳統(tǒng)編碼器使用相同的神經(jīng)網(wǎng)絡(luò)參數(shù)對結(jié)構(gòu)樹進(jìn)行編碼，會導(dǎo)致注釋生成不準(zhǔn)確。因此，充分利用類型信息，提出基于類型輔助引導(dǎo)的代碼注釋生成模型。

在圖１（ａ）的解碼器中，缺少ＴＯＭ節(jié)點(diǎn)的類型通常會導(dǎo)致生成的注釋中出現(xiàn)未知符號或詞語（記作ＵＮＫ）。因此，解決局限性的關(guān)鍵是有效利用節(jié)點(diǎn)類型信息。

如圖１（ｂ）所示，在編碼階段，包含一個關(guān)聯(lián)類型編碼器，對ｎ元樹的節(jié)點(diǎn)類型信息進(jìn)行編碼；在解碼階段，利用類型信息輔助注釋生成，并通過操作選擇階段和詞語選擇階段來減少搜索空間大小，避免出現(xiàn)ＯＯＶ的情況?？紤]到解碼過程中的操作選擇結(jié)果沒有真實(shí)標(biāo)簽，進(jìn)一步設(shè)計一種ＭＲＬ方法來優(yōu)化訓(xùn)練過程。

所提ＣＣＧ-ＴＧ模型遵循編碼器－解碼器架構(gòu)，主要由關(guān)聯(lián)類型編碼器和限制類型解碼器組成。如圖２左側(cè)所示，關(guān)聯(lián)類型編碼器循環(huán)地將令牌類型樹Ｔｘ，τ 作為輸入，并使用隱藏狀態(tài)保持源代碼的語義信息。關(guān)聯(lián)類型編碼器使用多組參數(shù)集來學(xué)習(xí)不同類型的節(jié)點(diǎn)。在處理輸入令牌類型樹時，根據(jù)當(dāng)前節(jié)點(diǎn)的類型自適應(yīng)地調(diào)用相應(yīng)單元的參數(shù)，使結(jié)構(gòu)化語義表示能夠包含源代碼的類型信息。

如圖２右側(cè)所示，限制類型解碼器以關(guān)聯(lián)類型編碼器的原始令牌類型樹Ｔｘ，τ 及其語義表示作為輸入，并生成相應(yīng)的注釋。采用注意力機(jī)制計算注意力向量，通過兩階段解碼過程生成輸出詞：

① 根據(jù)操作的分布決定是從原始的令牌類型樹復(fù)制輸出詞還是從當(dāng)前的隱藏狀態(tài)生成輸出詞。

② 如果選擇復(fù)制操作，則從Ｔｘ，τ 中選擇的節(jié)點(diǎn)復(fù)制具有類型限制的單詞；否則，將從目標(biāo)字典中選擇候選詞。

兩階段解碼過程均由注意力機(jī)制從編碼器的隱藏狀態(tài)中提取類型來引導(dǎo)，實(shí)現(xiàn)了復(fù)制和生成過程之間的自適應(yīng)切換，不僅減少了生成過程的搜索空間，而且復(fù)制機(jī)制解決了ＯＯＶ問題。

盡管所提ＣＣＧ-ＴＧ利用代碼中的類型信息提供了有效的解決方案，但其訓(xùn)練過程面臨如下困難：① 沒有為操作選擇階段提供訓(xùn)練標(biāo)簽；② 評價指標(biāo)與目標(biāo)函數(shù)無法適配。因此，進(jìn)一步設(shè)計一個ＭＲＬ方法來訓(xùn)練ＣＣＧ-ＴＧ模型。在ＭＲＬ訓(xùn)練中，ＣＣＧ-ＴＧ模型不依賴于操作選擇階段的真實(shí)標(biāo)簽，將評價指標(biāo)作為學(xué)習(xí)獎勵反饋到訓(xùn)練過程。

２．１關(guān)聯(lián)類型編碼器

關(guān)聯(lián)類型編碼器用于學(xué)習(xí)輸入源代碼的語義表示，為具有相同結(jié)構(gòu)但不同語義的子樹進(jìn)行信息總結(jié)。關(guān)聯(lián)類型編碼器的本質(zhì)是ｎ元Ｔｒｅｅ-ＬＳＴＭ［２０］。將類型信息作為編碼器網(wǎng)絡(luò)學(xué)習(xí)參數(shù)集的索引進(jìn)行集成，而不是直接將類型信息作為特征輸入到編碼器中進(jìn)行學(xué)習(xí)。換句話說，通過不同的類型定義不同的參數(shù)集，提供了更詳細(xì)的輸入信息。令牌類型樹包含Ｎ個有序子節(jié)點(diǎn)，索引１～Ｎ。對于第ｊ個節(jié)點(diǎn)，其第ｋ個子節(jié)點(diǎn)的隱藏狀態(tài)和存儲單元分別表示為ｈｊｋ和ｃｊｋ。為了有效地捕獲類型信息，設(shè)置和為第ｊ個節(jié)點(diǎn)的權(quán)重和偏置，為第ｊ個節(jié)點(diǎn)的第ｋ個子節(jié)點(diǎn)權(quán)重，ｎ元Ｔｒｅｅ-ＬＳＴＭ的形式化表示如式（１）～式（６）所示。

式中：ｆｊｋ表示第ｊ個節(jié)點(diǎn)的第ｋ個子節(jié)點(diǎn)參數(shù)向量，Ｕτｊｌ，ｋ表示第ｋ個遺忘門中第ｊ個節(jié)點(diǎn)的第ｌ個子節(jié)點(diǎn)的類型權(quán)重。

２．２限制類型解碼器

本節(jié)介紹解碼階段的限制類型解碼器，將類型信息合并到兩階段解碼過程中。解碼時，使用高速ＬＳＴＭ（ＨｉｇｈｗａｙＬＳＴＭ，ＨＬＳＴＭ）［２１］作為基本解碼單元。采用注意力機(jī)制，將編碼器的隱藏狀態(tài)作為輸入，生成注意力向量。得到的注意力向量作為兩階段解碼過程的輸入，分別稱為操作選擇階段和詞語選擇階段。操作選擇階段在生成操作和復(fù)制操作之間進(jìn)行選擇。如果選擇生成操作，將從目標(biāo)字典中生成預(yù)測的單詞。如果選擇復(fù)制操作，則啟用類型限制復(fù)制機(jī)制，通過屏蔽非法語法類型來限制搜索空間。此外，使用復(fù)制衰減策略解決由注意力機(jī)制引起的對特定節(jié)點(diǎn)的重復(fù)關(guān)注問題。

ＨＬＳＴＭ重復(fù)利用記憶單元堆疊層之間的空間域連接。ＨＬＳＴＭ僅在細(xì)胞狀態(tài)的計算方式上與傳統(tǒng)ＬＳＴＭ不同，如式（７）～式（８）所示：

ｃｌｔ＝ｄｌｔ·ｃｌ－１ｔ＋ｆｌｔ·ｃｌｔ－１＋ｉｌｔ·ｔａｎｈ（Ｗｌｘｃ·ｘｌｔ＋Ｗｌｈｃ·ｈｌｔ－１＋ｂｌｃ），（７）

ｄｌｔ＝σ（Ｗｌｘｄｘｌｔ＋Ｗｌｃｄｃｌｔ－１＋Ｗｌｃｄｃｌ－１ｔ＋ｂｌｄ），（８）

式中：ｄｌｔ表示連接第ｌ－１層的細(xì)胞狀態(tài)ｃｌ－１ｔ和第ｌ層細(xì)胞狀態(tài)ｃｌｔ的深度門，ｆｌｔ表示第ｌ層遺忘門，ｉｌｔ表示輸入門。

編碼器中根節(jié)點(diǎn)的隱藏狀態(tài)記為ｈｒ，初始化解碼器的隱藏狀態(tài)ｚ０ ←ｈｒ。在時間步長為ｍ時，給定輸出ｙｍ－１和時間步長ｍ－１時解碼器的隱藏狀態(tài)ｚｍ－１，由解碼器中的ＨＬＳＴＭ單元計算隱藏狀態(tài)ｚｍ，如式（９）所示：

ｚｍ＝ＨＬＳＴＭ（ｚｍ－１，ｙｍ－１）。（９）

注意力向量ｑｍ的計算方法如式（１０）～式（１１）所示：

式中：Ｗｑ為注意力機(jī)制的權(quán)重參數(shù)，αｍｊ為注意力分?jǐn)?shù)，|Ｖｘ| 為節(jié)點(diǎn)數(shù)。注意力向量包含標(biāo)記和類型信息。

操作選擇階段根據(jù)編碼器的注意力向量和隱藏狀態(tài)決定使用復(fù)制操作還是生成操作來選擇單詞。給定時間步長ｍ的注意力向量ｑｍ，操作選擇階段估計條件概率計算方法如式（１２）所示：

ｐ（ａｍ |ｙ*＜ｍ；Ｔｘ，τ）＝ｓｏｆｔｍａｘ（Ｗｓ·ｑｍ），（１２）

式中：ａｍ∈｛０，１｝，０和１分別表示復(fù)制和生成操作，Ｗｓ表示可訓(xùn)練參數(shù)。式（１２）由一個全連接層和一個ｓｏｆｔｍａｘ激活函數(shù)實(shí)現(xiàn)。由于沒有操作選擇的真值標(biāo)簽，采用多級ＭＲＬ方法訓(xùn)練操作選擇階段，詳細(xì)內(nèi)容見２．３節(jié)。

詞語選擇階段也包括兩個分支，如果在操作選擇階段選擇了生成操作，注意力向量將被輸入ｓｏｆｔｍａｘ層來預(yù)測目標(biāo)詞分布式：

ｐ（ｙｍ| ａｍ＝１，ｙ*＜ｍ；Ｔｘ，τ）＝ｓｏｆｔｍａｘ（Ｗｇ·ｑｍ），（１３）

式中：Ｗｇ表示輸出層的可訓(xùn)練參數(shù)。

如果選擇復(fù)制操作，使用點(diǎn)積（Ｄｏｔ-ｐｒｏｄｕｃｔ）得分函數(shù)計算節(jié)點(diǎn)隱藏狀態(tài)和注意力向量的得分向量ｓｍ。得分向量將被輸入到ｓｏｆｔｍａｘ層來預(yù)測輸入詞的分布，計算方法如式（１４）～式（１５）所示：

ｓｍ＝［ｈ１，ｈ２，…，ｈ |Ｖｘ| ］Ｔ ·ｑｍ，（１４）

ｐ（ｙｍ| ａｍ＝０；ｙ*＜ｍ；Ｔｘ，τ）＝ｓｏｆｔｍａｘ（ｓｍ）。（１５）

為了過濾非法復(fù)制的候選項(xiàng)，在每個解碼步驟ｍ中使用基于語法類型的掩碼向量ｄｍ，其每個維度對應(yīng)于令牌類型樹的每個節(jié)點(diǎn)。如果令牌類型樹中節(jié)點(diǎn)的掩碼表明該節(jié)點(diǎn)需要被過濾掉，則設(shè)置為負(fù)無窮。否則，設(shè)置為０。受限復(fù)制階段如式（１６）所示：

ｐ（ｙｍ |ａｍ＝０；ｙ*＜ｍ；Ｔｘ，τ）＝ｓｏｆｔｍａｘ（ｓｍ＋ｄｍ）。（１６）

在式（１３）和式（１６）中，詞語概率分布用輸入單詞或目標(biāo)字典單詞的ｓｏｆｔｍａｘ輸出表示。在每個時間步驟中，將選擇概率最高的詞語。

使用注意力向量作為指針來引導(dǎo)復(fù)制過程。帶有類型限制的復(fù)制機(jī)制可能關(guān)注特定節(jié)點(diǎn)，忽略其他可用節(jié)點(diǎn)，使得某些復(fù)制的令牌在單個生成的文本中重復(fù)出現(xiàn)，導(dǎo)致內(nèi)容大量冗余。因此，引入復(fù)制衰減策略來微調(diào)某些未被復(fù)制節(jié)點(diǎn)的概率。定義第ｉ個樹節(jié)點(diǎn)在第ｍ個解碼步驟中的衰減率為λｍ，ｉ。如果在時間步長中復(fù)制一個節(jié)點(diǎn)，則將其衰減率初始化為１。在下一個時間步ｍ＋１中，衰減率通過系數(shù)γ∈（０，１）縮放，如式（１７）所示：

λｍ＋１，ｉ＝γ*λｍ，ｉ。（１７）

限制類型解碼器的完整公式如下：

ｐ（ｙｍ |ａｍ＝０；ｙ*＜ｍ；Ｔｘ，τ）＝ｓｏｆｔｍａｘ（ｓｍ＋ｄｍ）⊙（１－λｍ）。（１８）

２．３多級強(qiáng)化學(xué)習(xí)

訓(xùn)練所提ＣＣＧＴＧ存在２個挑戰(zhàn)：① 缺乏操作選擇階段的基礎(chǔ)真值標(biāo)簽；② 評估指標(biāo)與目標(biāo)函數(shù)之間不兼容。為了解決上述問題，提出一種ＭＲＬ方法來訓(xùn)練操作選擇階段和詞語選擇階段。

將ＭＲＬ的目標(biāo)設(shè)置為最大化預(yù)測序列ｙ*和真值序列ｙ之間獎勵Ｒ（ｙ*，ｙ）的期望值記為Ｌｒ，可以表示為輸入元組｛Ｔｘ，τ，ｙ｝的函數(shù)：

式中：Ｙ表示候選注釋序列的集合。獎勵Ｒ（ｙ*，ｙ）是不可微的評價指標(biāo)。通過從分布ｐ（ｙ* Ｔｘ，τ）中采樣ｙ*來近似期望值。預(yù)測序列ｙ*依賴于詞語選擇階段和操作選擇階段，令ａ表示操作選擇階段的動作。將動作ａｍ引入時間步長ｍ中，兩個階段的聯(lián)合分布如式（２０）所示：

式中：模型從ｙ*＜ｍ，ａｍ，Ｔｘ，τ 為條件的詞語分布中選擇詞語ｙ*ｍ，而操作選擇的動作ａｍ需要單獨(dú)計算，在詞語選擇階段和操作選擇階段之間存在多級依賴關(guān)系。Ｙ表示所有候選注釋的搜索空間，利用該搜索空間最大化Ｌｒ的計算代價巨大。解碼過程可近似于從概率分布中采樣，采樣方法采用Ｇｕｍｂｅｌ-Ｍａｘ算法［２２］。經(jīng)過最大采樣步長Ｍ時，Ｌｒ可近似于：

３實(shí)驗(yàn)與分析

３．１數(shù)據(jù)集描述

本文在３個通用的基準(zhǔn)數(shù)據(jù)集上評估ＣＣＧＴＧ框架的性能，分別是ＷｉｋｉＳＱＬ［２３］、ＡＴＩＳ［２４］和ＣｏＮａＬａ［２５］。ＷｉｋｉＳＱＬ是一個數(shù)據(jù)集，包含了８０６５４個手工標(biāo)注的ＳＱＬ查詢和自然語言注釋對示例，分布在維基百科的２４２４個表中。ＳＱＬ查詢進(jìn)一步分為訓(xùn)練集（５６３５個）、開發(fā)集（８４２１個）和測試集（１５８７個）。ＡＴＩＳ以ｌａｍｂｄａｃａｌｃｕｌｕｓ的形式存在，是一個包含４４３４個訓(xùn)練實(shí)例、４９１個開發(fā)實(shí)例和４４８個測試實(shí)例的５３７３個飛行信息查詢集合。ＣｏＮａＬａ是一個與ｐｙｔｈｏｎ相關(guān)的數(shù)據(jù)集，使用其原始版本，其中包括從ＳｔａｃｋＯｖｅｒｆｌｏｗ抓取的２８７９個片段對，分為２３７９個訓(xùn)練實(shí)例和５００個測試實(shí)例。從其訓(xùn)練集中提取了２００個隨機(jī)樣本作為開發(fā)集。

根據(jù)抽象語法描述語言（ＡｂｓｔｒａｃｔＳｙｎｔａｘＤｅ-ｓｃｒｉｐｔｉｏｎＬａｎｇｕａｇｅ，ＡＳＤＬ）語法，將ＷｉｋｉＳＱＬ的ＳＱＬ查詢轉(zhuǎn)換成具有６種類型的ＡＳＴ，其中ＳＱＬ查詢的ＡＳＤＬ語法在文獻(xiàn)［２５］提出。根據(jù)文獻(xiàn)［２４］提出的方法，將ＡＴＩＳ的ｌａｍｂｄａ-ｃａｌｃｕｌｕｓ邏輯形式轉(zhuǎn)換為７種類型的樹結(jié)構(gòu)。ＣｏＮａＬａ的ｐｙｔｈｏｎ代碼段則按照ｐｙｔｈｏｎ的官方ＡＳＤＬ語法轉(zhuǎn)化為２０種類型的ＡＳＴ。這些數(shù)據(jù)集的ＡＳＴ數(shù)據(jù)如表１所示，其中顯示了ＡＳＴ的最大深度（Ｍａｘ-Ｔｒｅｅ-Ｄｅｐｔｈ）、ＡＳＴ中的最大子節(jié)點(diǎn)數(shù)（Ｍａｘ-ＣｈｉｌｄＣｏｕｎｔ）和ＡＳＴ中的平均樹節(jié)點(diǎn)數(shù)（Ａｖｇ-Ｔｒｅｅ-ＮｏｄｅＣｏｕｎｔ）。

３．２基準(zhǔn)模型

選擇具有代表性的代碼注釋生成設(shè)計作為比較基準(zhǔn)。選擇Ｃｏｄｅ-ＮＮ［１０］的原因在于其第一個將源代碼轉(zhuǎn)化為句子的模型；指針生成器（ＰＧ）是一種基于Ｓｅｑ２Ｓｅｑ的模型，具有標(biāo)準(zhǔn)的復(fù)制機(jī)制。此外，選擇了Ｔｒｅｅ-ｔｏ-Ｓｅｑｕｅｎｃｅ（Ｔｒｅｅ２Ｓｅｑ）模型［２６］。在Ｔｒｅｅ２Ｓｅｑ模型中加入了復(fù)制機(jī)制，作為基準(zhǔn)模型（Ｔ２Ｓ＋ＣＰ）。Ｇｒａｐｈ-ｔｏ-Ｓｅｑｕｅｎｃｅ（Ｇｒａｐｈ２Ｓｅｑ）［２７］作為基于圖的基準(zhǔn)模型進(jìn)行比較，因?yàn)闆]有發(fā)布數(shù)據(jù)預(yù)處理的代碼，于是將ＳＱＬ數(shù)據(jù)源代碼的樹狀結(jié)構(gòu)表示轉(zhuǎn)換成有向圖，用于復(fù)制。

３．３超參數(shù)設(shè)置

Ｃｏｄｅ-ＮＮ的嵌入大小和隱藏大小均為４００，使用隨機(jī)均勻初始化器進(jìn)行初始化，初始化權(quán)重為０．３５，并采用隨機(jī)梯度下降算法訓(xùn)練模型，學(xué)習(xí)率為０．５。Ｐ-Ｇ采用１２８嵌入大小、２５６隱藏大小，并使用０．０２初始化權(quán)重的隨機(jī)均勻初始化器進(jìn)行初始化，采用Ａｄａｍ優(yōu)化器訓(xùn)練模型，學(xué)習(xí)率為０．００１。Ｇｒａｐｈ２Ｓｅｑ采用１００嵌入大小、２００隱藏大小，并使用截斷正態(tài)初始化器進(jìn)行初始化。使用Ａｄａｍ優(yōu)化器以０．００１的學(xué)習(xí)率訓(xùn)練模型。

使用Ｘａｖｉｅｒ初始化器［２８］初始化提出的ＣＣＧ-ＴＧ框架的參數(shù)。嵌入的大小與ＬＳＴＭ狀態(tài)和隱藏層的維度相當(dāng)，ＡＴＩＳ和ＣｏＮａＬａ的維度為６４，ＷｉｋｉＳＱＬ的維度為１２８。ＣＣＧ-ＴＧ使用學(xué)習(xí)率為０．００１的Ａｄａｍ優(yōu)化器進(jìn)行訓(xùn)練。為了縮小詞匯量，源代碼詞匯和目標(biāo)注釋詞匯中都不保留低頻詞。ＷｉｋｉＳＱＬ和ＡＴＩＳ的最小閾值頻率設(shè)為４，而ＣｏＮａＬａ的最小閾值頻率設(shè)為２。所有基準(zhǔn)模型和所提出模型的最小批大小都設(shè)為３２。

３．４評估標(biāo)準(zhǔn)

使用基于ｎ-ｇｒａｍ的ＢＬＥＵ［２９］和ＲＯＵＧＥ評價來評估生成評論的質(zhì)量，并在基于ＭＲＬ的訓(xùn)練中使用上述評價指標(biāo)來設(shè)置獎勵。ＢＬＥＵ-４、ＲＯＵＧＥ-２和ＲＯＵＧＥ-Ｌ被用來評估模型的性能，因?yàn)槠錇榛谏舷挛牡奈谋旧芍凶罹叽硇缘脑u估指標(biāo)。

３．５不同基準(zhǔn)模型對比

圖３給出了基準(zhǔn)框架和所提出的框架的評估結(jié)果。由ＭＲＬ可以切換到不同的獎勵函數(shù)，因此同時評估了框架的ＢＬＥＵ定向訓(xùn)練和ＲＯＵＧＥ定向訓(xùn)練，分別稱為ＣＣＧ-ＴＧ（Ｂ）和ＣＣＧ-ＴＧ（Ｒ）。相比之下，ＣＣＧ-ＴＧ（Ｂ）和ＣＣＧ-ＴＧ（Ｒ）的結(jié)果略有不同。不過，這兩個結(jié)果都明顯高于所有選定的同類結(jié)果，表明所提出的框架在所有使用不同編程語言的數(shù)據(jù)集上都具有最佳的生成質(zhì)量。

具體而言，與Ｔ２Ｓ＋ＣＰ相比，ＣＣＧ-ＴＧ在ＷｉｋｉＳＱＬ上的ＢＬＥＵ-４指標(biāo)提高了４％，ＲＯＵＧＥ-２指標(biāo)提高了４．１％，ＲＯＵＧＥ-Ｌ指標(biāo)提高了２．８％。對于與ｌａｍｂｄａ計算相關(guān)的語料庫，ＣＣＧ-ＴＧ在ＡＴＩＳ上的ＢＬＥＵ-４提高了３．５％、ＲＯＵＧＥ-２提高了３．７％、ＲＯＵＧＥ-Ｌ提高了３．６％。由于ＡＴＩＳ中ｌａｍｂｄａ-ｃａｌｃｕｌｕｓ邏輯形式的子樹差異很大，因此其性能比其他兩個語料庫更難提高。在與ｐｙｔｈｏｎ相關(guān)的語料庫中，與基準(zhǔn)中最好的語料庫相比，ＣＣＧ-ＴＧ在ＣｏＮａＬａ上的ＢＬＥＵ-４提高了１．２％，ＲＯＵＧＥ-２提高了１．８％，ＲＯＵＧＥ-Ｌ提高了０．７％。ＣｏＮａＬａ的評估得分和改進(jìn)幅度較低的原因在于語法結(jié)構(gòu)復(fù)雜和缺乏足夠的訓(xùn)練樣本，即僅有２１７４個訓(xùn)練樣本中的２０種類型，導(dǎo)致所提方法沒有充分發(fā)揮其優(yōu)勢。在這兩個數(shù)據(jù)集上，ＣＣＧ-ＴＧ模型仍然優(yōu)于對比算法。

３．６消融實(shí)驗(yàn)

為了研究模型中每個組件的性能，對開發(fā)集進(jìn)行了消融實(shí)驗(yàn)。由于所有實(shí)驗(yàn)結(jié)果趨勢相同，因此省略了其他數(shù)據(jù)集上的結(jié)果，僅介紹ＷｉｋｉＳＱＬ數(shù)據(jù)集上的結(jié)果。模型的變體如下：

① ＣＣＧ-ＴＡ：移除類型相關(guān)編碼器，改用樹狀ＬＳＴＭ。

② ＣＣＧ-ＭＶ：移除掩碼向量ｄｍ。

③ ＣＣＧ-ＣＤ：刪除復(fù)制衰減策略。

④ ＣＣＧ-ＲＬ：用ＭＬＥ替換，將操作選擇的動作邊緣化。

圖４給出了消融實(shí)驗(yàn)的結(jié)果。總體而言，所有組件都是ＣＣＧ-ＴＧ框架必需的，并對最終輸出做出了重要貢獻(xiàn)。與ＣＣＧ-ＴＡ相比，標(biāo)準(zhǔn)ＣＣＧ-ＴＧ的高性能得益于關(guān)聯(lián)類型編碼器，它能自適應(yīng)地處理不同類型的節(jié)點(diǎn)，并提取出更好的源代碼摘要。ＣＣＧ-ＭＶ和ＣＣＧ-ＣＤ的性能下降表明了類型限制掩碼向量和復(fù)制衰減策略的優(yōu)勢。共同確保了復(fù)制和選詞的準(zhǔn)確執(zhí)行。ＣＣＧ-ＴＧ和ＣＣＧ-ＲＬ的比較表明了對所提出的框架訓(xùn)練的必要性。

４結(jié)束語

本文所提模型通過關(guān)聯(lián)類型編碼器和限制類型解碼器，充分利用了與代碼相關(guān)的類型信息，為模型的訓(xùn)練提供了分層強(qiáng)化學(xué)習(xí)方法。實(shí)驗(yàn)結(jié)果表明，與其他方法相比，本文所提模型有了顯著的改進(jìn)，在軟件開發(fā)中具有很強(qiáng)的應(yīng)用潛力。在未來的工作中，將通過設(shè)計高效的學(xué)習(xí)算法，將所提出模型擴(kuò)展到更復(fù)雜的環(huán)境中。

參考文獻(xiàn)

［１］ＣＡＩＲＣ，ＬＩＡＮＧＺＨ，ＸＵＢＹ，ｅｔａｌ．ＴＡＧ：ＴｙｐｅＡｕｘｉｌｉａｒｙＧｕｉｄｉｎｇｆｏｒＣｏｄｅＣｏｍｍｅｎｔＧｅｎｅｒａｔｉｏｎ［Ｃ］∥５８ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｓｔｒｏｕｄｓｂｕｒｇ：ＡＣＬ，２０２０：２９１－３０１．

［２］王瀚森，王婷，陳鐵明，等．融合語法和語義的代碼注釋生成方法［Ｊ］．小型微型計算機(jī)系統(tǒng)，２０２３，４４（１１）：２４５７－２４６３．

［３］陳翔，于池，楊光，等．基于雙重信息檢索的Ｂａｓｈ代碼注釋生成方法［Ｊ］．軟件學(xué)報，２０２３，３４（３）：１３１０－１３２９．

［４］ＸＵＫ，ＷＵＬＦ，ＷＡＮＧＺＧ，ｅｔａｌ．ＳＱＬｔｏＴｅｘｔＧｅｎｅｒａｔｉｏｎｗｉｔｈＧｒａｐｈｔｏＳｅｑｕｅｎｃｅＭｏｄｅｌ［Ｃ］∥２０１８ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．Ｂｒｕｓｓｅｌｓ：ＡＣＬ，２０１８：９３１－９３６．

［５］ＦＥＲＮＡＮＤＥＳＰ，ＡＬＬＡＭＡＮＩＳＭ，ＢＲＯＣＫＳＭ．ＳｔｒｕｃｔｕｒｅｄＮｅｕｒａｌＳｕｍｍａｒｉｚａｔｉｏｎ［Ｃ］∥７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ．ＮｅｗＯｒｌｅａｎｓ：ＩＣＬＲ，２０１９：１－１８．

［６］蔡瑞初，張盛強(qiáng)，許柏炎．基于結(jié)構(gòu)感知混合編碼模型的代碼注釋生成方法［Ｊ］．計算機(jī)工程，２０２３，４９（２）：６１－６９．

［７］段瑞雪，劉鑫，張仰森．融合依存關(guān)系的對話關(guān)系抽?。郏剩荩?重慶理工大學(xué)學(xué)報（自然科學(xué)），２０２３，３７（７）：２１７－２２６．

［８］王素芳，吳晨，陳志成．智能節(jié)目輔助主持機(jī)器人系統(tǒng)與推薦算法［Ｊ］．重慶理工大學(xué)學(xué)報（自然科學(xué)），２０２２，３６（１２）：１０２－１０９．

［９］ＡＴＴＩＡＳＤＭ，ＣＯＨＥＮＷＷ．ＮａｔｕｒａｌＬａｎｇｕａｇｅＭｏｄｅｌｓｆｏｒＰｒｅｄｉｃｔｉｎｇＰｒｏｇｒａｍｍｉｎｇＣｏｍｍｅｎｔｓ［Ｃ］∥５１ｓｔＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｓｏｆｉａ：ＡＣＬ，２０１３：３５－４０．

［１０］ＩＹＥＲＳ，ＩＯＡＮＮＩＳＫ，ＣＨＥＵＮＧＡ，ｅｔａｌ．ＳｕｍｍａｒｉｚｉｎｇＳｏｕｒｃｅＣｏｄｅＵｓｉｎｇａＮｅｕｒａｌＡｔｔｅｎｔｉｏｎＭｏｄｅｌ［Ｃ］∥５４ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｂｅｒｌｉｎ：ＡＣＬ，２０１６：２０７３－２０８３．

［１１］彭斌，李征，劉勇，等．基于卷積神經(jīng)網(wǎng)絡(luò)的代碼注釋自動生成方法［Ｊ］．計算機(jī)科學(xué)，２０２１，４８（１２）：１１７－１２４．

［１２］ＰＡＳＣＡＲＬ，ＢＲＵＮＴＩＮＫＭ，ＢＡＣＣＨＥＬＬＩＡ．ＣｌａｓｓｉｆｙｉｎｇＣｏｄｅＣｏｍｍｅｎｔｓｉｎＪａｖａＳｏｆｔｗａｒｅＳｙｓｔｅｍｓ［Ｊ］．ＥｍｐｉｒｉｃａｌＳｏｆｔｗａｒｅＥｎｇｉｎｅｅｒｉｎｇ，２０１９，２４（３）：１４９９－１５３７．

［１３］ＡＬＯＮＵ，ＢＲＯＤＹＳ，ＬＥＶＹＯ，ｅｔａｌ．Ｃｏｄｅ２Ｓｅｑ：ＧｅｎｅｒａｔｉｎｇＳｅｑｕｅｎｃｅｓｆｒｏｍＳｔｒｕｃｔｕｒｅｄＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｏｆＣｏｄｅ［Ｃ］∥７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ．ＮｅｗＯｒｌｅａｎｓ：ＩＣＬＲ，２０１９：１－２２．

［１４］ＨＵＸ，ＬＩＧ，ＸＩＡＸ，ｅｔａｌ．ＤｅｅｐＣｏｄｅＣｏｍｍｅｎｔＧｅｎｅｒａｔｉｏｎ［Ｃ］∥２６ｔｈＣｏｎｆｅｒｅｎｃｅｏｎＰｒｏｇｒａｍＣｏｍｐｒｅｈｅｎｓｉｏｎ．ＮｅｗＹｏｒｋ：ＡＣＭ，２０１８：２００－２１０．

［１５］ＨＡＱＵＥＳ，ＬＥＣＬＡＩＲＡ，ＷＵＬＦ，ｅｔａｌ．ＩｍｐｒｏｖｅｄＡｕｔｏｍａｔｉｃＳｕｍｍａｒｉｚａｔｉｏｎｏｆＳｕｂｒｏｕｔｉｎｅｓｖｉａＡｔｔｅｎｔｉｏｎｔｏＦｉｌｅＣｏｎｔｅｘｔ［Ｃ］∥１７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｉｎｉｎｇＳｏｆｔｗａｒｅＲｅｐｏｓｉｔｏｒｉｅｓ．Ｓｅｏｕｌ：ＡＣＭ，２０２０：３００－３１０．

［１６］ＳＥＥＡ，ＬＩＵＰＪ，ＭＡＮＮＩＮＧＣＤ．ＧｅｔｔｏｔｈｅＰｏｉｎｔ：ＳｕｍｍａｒｉｚａｔｉｏｎｗｉｔｈＰｏｉｎｔｅｒｇｅｎｅｒａｔｏｒＮｅｔｗｏｒｋｓ［Ｃ］∥５５ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｖａｎｃｏｕｖｅｒ：ＡＣＬ，２０１７：１０７３－１０８３．

［１７］ＶＩＮＹＡＬＳＯ，ＦＯＲＴＵＮＡＴＯＭ，ＪＡＩＴＬＹＮ．ＰｏｉｎｔｅｒＮｅｔｗｏｒｋｓ［Ｃ］∥ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ２８：ＡｎｎｕａｌＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．Ｍｏｎｔｒｅａｌ：ＮＩＰＳ，２０１５：２６９２－２７００．

［１８］ＧＵＪＴ，ＬＵＺＤ，ＬＩＨ，ｅｔａｌ．ＩｎｃｏｒｐｏｒａｔｉｎｇＣｏｐｙｉｎｇＭｅｃｈａｎｉｓｍｉｎＳｅｑｕｅｎｃｅｔｏＳｅｑｕｅｎｃｅＬｅａｒｎｉｎｇ［Ｃ］∥５４ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｂｅｒｌｉｎ：ＡＣＬ，２０１６：１６３１－１６４０．

［１９］胡清豐，魏赟，鄔春學(xué)．基于指針生成網(wǎng)絡(luò)的中文對話文本摘要模型［Ｊ］．計算機(jī)系統(tǒng)應(yīng)用，２０２３，３２（１）：２２４－２３２．

［２０］ＴＡＩＫＳ，ＳＯＣＨＥＲＲ，ＭＡＮＮＩＮＧＣＤ．ＩｍｐｒｏｖｅｄＳｅｍａｎｔｉｃＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒｅｅｓｔｒｕｃｔｕｒｅｄＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙＮｅｔｗｏｒｋｓ［Ｃ］∥５３ｒｄＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｂｅｒｌｉｎ：ＡＣＬ，２０１５：１５５６－１５６６．

［２１］ＺＨＡＮＧＹ，ＣＨＥＮＧＧ，ＹＵＤ，ｅｔａｌ．ＨｉｇｈｗａｙＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙＲＮＮＳｆｏｒＤｉｓｔａｎｔＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ［Ｃ］∥２０１６ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ．Ｓｈａｎｇｈａｉ：ＩＥＥＥ，２０１６：５７５５－５７５９．

［２２］ＨＵＩＪＢＥＮＩＡ，ＫＯＯＬＷ，ＰＡＯＬＵＳＭＢ，ｅｔａｌ．ＡＲｅｖｉｅｗｏｆｔｈｅＧｕｍｂｅｌｍａｘＴｒｉｃｋａｎｄＩｔｓＥｘｔｅｎｓｉｏｎｓｆｏｒＤｉｓｃｒｅｔｅＳｔｏｃｈａｓｔｉｃｉｔｙｉｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，２０２３，４５（２）：１３５３－１３７１．

［２３］ＺＨＯＮＧＶ，ＸＩＯＮＧＣＭ，ＳＯＣＨＥＲＲ．Ｓｅｑ２ＳＱＬ：ＧｅｎｅｒａｔｉｎｇＳｔｒｕｃｔｕｒｅｄＱｕｅｒｉｅｓｆｒｏｍＮａｔｕｒａｌＬａｎｇｕａｇｅＵｓｉｎｇＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ［ＥＢ／ＯＬ］．（２０１７－１１－０９）［２０２４－０１－０５］．ｈｔｔｐｓ：∥ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１７０９．００１０３．

［２４］ＬＩＤ，ＭＩＲＥＬＬＡＬ．ＬａｎｇｕａｇｅｔｏＬｏｇｉｃａｌｆｏｒｍｗｉｔｈＮｅｕｒａｌＡｔｔｅｎｔｉｏｎ［Ｃ］∥５４ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｂｅｒｌｉｎ：ＡＣＬ，２０１６：３３－４３．

［２５］ＰＥＮＧＣＨＥＮＧＹ，ＧＲＡＨＡＭＮ．ＡＳｙｎｔａｃｔｉｃＮｅｕｒａｌＭｏｄｅｌｆｏｒＧｅｎｅｒａｌｐｕｒｐｏｓｅＣｏｄｅＧｅｎｅｒａｔｉｏｎ［Ｃ］∥５５ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｂｅｒｌｉｎ：ＡＣＬ，２０１７：４４０－４５０．

［２６］ＡＫＩＫＯＥ，ＫＡＺＵＭＡＨ，ＹＯＳＨＩＭＡＳＡＴ．ＴｒｅｅｔｏＳｅｑｕｅｎｃｅＡｔｔｅｎｔｉｏｎａｌＮｅｕｒａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ［Ｃ］∥５４ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｂｅｒｌｉｎ：ＡＣＬ，２０１６：８２３－８３３．

［２７］ＫＵＮＸ，ＬＩＮＧＦＥＩＷ，ＺＨＩＧＵＯＷ，ｅｔａｌ．Ｇｒａｐｈ２Ｓｅｑ：ＧｒａｐｈｔｏＳｅｑｕｅｎｃｅＬｅａｒｎｉｎｇｗｉｔｈＡｔｔｅｎｔｉｏｎｂａｓｅｄＮｅｕｒａｌＮｅｔｗｏｒｋｓ［ＥＢ／ＯＬ］．（２０１８－１２－０３）［２０２４－０１－０５］．ｈｔｔｐｓ：∥ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１８０４．００８２３．

［２８］ＸＡＶＩＥＲＧ，ＹＯＳＨＵＡＢ．ＵｎｄｅｒｓｔａｎｄｉｎｇｔｈｅＤｉｆｆｉｃｕｌｔｙｏｆＴｒａｉｎｉｎｇＤｅｅｐＦｅｅｄｆｏｒｗａｒｄＮｅｕｒａｌＮｅｔｗｏｒｋｓ［Ｃ］∥１３ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅａｎｄＳｔａｔｉｓｔｉｃｓ．Ｓａｒｄｉｎｉａ：ＪＬＭＲ，２０１０：２４９－２５６．

［２９］ＫＩＳＨＯＲＥＰ，ＳＡＬＩＭＲ，ＴＯＤＤＷ，ｅｔａｌ．Ｂｌｅｕ：ＡＭｅｔｈｏｄｆｏｒＡｕｔｏｍａｔｉｃＥｖａｌｕａｔｉｏｎｏｆＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ［Ｃ］∥４０ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｂｅｒｌｉｎ：ＡＣＬ，２００２：３１１－３１８．

作者簡介：

劉利男，（１９８８—），碩士，講師。主要研究方向：數(shù)據(jù)挖掘、大數(shù)據(jù)技術(shù)、人工智能。

呂韋岑男，（１９８７—）碩士，講師。主要研究方向：電子技術(shù)應(yīng)用、物聯(lián)網(wǎng)技術(shù)。

汪洋男，（１９８７—），碩士，講師。主要研究方向：人工智能、數(shù)據(jù)挖掘、軟件技術(shù)。

基金項(xiàng)目：瀘州市科技計劃項(xiàng)目（２０２１－ＪＹＪ－９６）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于類型輔助引導(dǎo)的代碼注釋生成模型