国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于句法和語義關(guān)聯(lián)的科技文獻(xiàn)“問題—方法”聯(lián)合抽取模型

2024-10-07 00:00:00劉勘李冶石鍇文
知識管理論壇 2024年4期

摘要:[目的/意義]發(fā)現(xiàn)海量科技文獻(xiàn)中的研究問題及其對應(yīng)的研究方法,有助于挖掘科學(xué)研究中的熱點(diǎn),促進(jìn)技術(shù)方法的創(chuàng)新,探索知識的演化傳播規(guī)律。[方法/過程]提出一種融合句法結(jié)構(gòu)和語義關(guān)聯(lián)信息的科技文獻(xiàn)“問題—方法”聯(lián)合抽取模型,模型采用編碼器—解碼器結(jié)構(gòu)。在編碼層,以科技文獻(xiàn)的摘要文本為對象,從中抽取SAO三元組句法結(jié)構(gòu)用以表達(dá)研究問題和研究方法的關(guān)系(即:研究方法—作用于—研究問題),基于SAO三元組構(gòu)造語義關(guān)聯(lián)圖并利用圖注意力網(wǎng)絡(luò)進(jìn)行編碼,再與摘要文本編碼融合作為解碼器的輸入特征;在解碼層,通過指針網(wǎng)絡(luò)基于先抽取的研究方法再抽取研究問題,實(shí)現(xiàn)“問題—方法”的聯(lián)合抽取。[結(jié)果/結(jié)論]實(shí)驗(yàn)結(jié)果表明,模型在測評指標(biāo)及人工測評中均能取得較好的效果,能夠提升從科技文獻(xiàn)中抽取核心問題和核心方法的能力。

關(guān)鍵詞:“問題—方法”抽?。籊AT;SAO三元組

分類號:G255;TP391.1

引用格式:劉勘, 李冶, 石鍇文. 基于句法和語義關(guān)聯(lián)的科技文獻(xiàn)“問題—方法”聯(lián)合抽取模型[J/OL]. 知識管理論壇, 2024, 9(4): 353-366 [引用日期]. http://www.kmf.ac.cn/p/398/. (Citation: Liu Kan, Li Ye, Shi Kaiwen. “Problem-method” Joint Extraction Model in Scientific Literature Based on Syntax and Semantic Association[J/OL]. Knowledge Management Forum, 2024, 9(4): 353-366 [cite date]. http://www.kmf.ac.cn/p/398/.)

1 引言/Introduction

科學(xué)研究通常被描述為解決問題的活動,科技文獻(xiàn)中的研究問題和研究方法是用于描述科學(xué)研究活動的重要組成部分[1]。其中,研究問題是指文獻(xiàn)所聚焦的研究領(lǐng)域中需要解決的關(guān)鍵問題,研究方法是指作者針對研究問題所采用的技術(shù)方法或所設(shè)計(jì)的解決方案[2-3]。從本領(lǐng)域的科技文獻(xiàn)中挖掘研究問題和研究方法,除了可以幫助研究人員快速梳理當(dāng)前研究的發(fā)展脈絡(luò)、提煉潛在的科學(xué)問題、探索創(chuàng)新技術(shù)方法之外,對科學(xué)研究的熱點(diǎn)主題分析[4]、文獻(xiàn)創(chuàng)新性評估[5-7]、學(xué)術(shù)價(jià)值判斷[8]、領(lǐng)域知識的組織與管理[9]等也有著重要意義。然而,近年來科技文獻(xiàn)數(shù)量不斷增長,每年已有超過250萬篇的新論文發(fā)表[10]。數(shù)量龐大的文獻(xiàn)資源使學(xué)科知識量迅速膨脹,信息精準(zhǔn)檢索和知識快速獲取越發(fā)困難[11]??蒲腥藛T需要花費(fèi)大量的時(shí)間和精力閱讀相關(guān)領(lǐng)域文獻(xiàn)來搜集研究問題和研究方法等重要信息。因此,如何高效、準(zhǔn)確地獲取科技文獻(xiàn)中的研究問題和研究方法正在成為一個越來越重要的熱點(diǎn)問題。

針對科技文獻(xiàn)中“問題—方法”的聯(lián)合抽取問題,已有一些研究思路,早期通過分析科技文獻(xiàn)內(nèi)容特征構(gòu)建規(guī)則是較為常用的方法。隨著自然語言處理技術(shù)的發(fā)展,出現(xiàn)了各種基于監(jiān)督式信息抽取的科技文獻(xiàn)“問題—方法”抽取方法。在早期研究中,主要通過特征工程從論文摘要中提取論文的特征表示,然后基于樸素貝葉斯 (Naive Bayes, NB)、邏輯回歸 (Logistic Regression, LR) 和支持向量機(jī)(Support Vector Machines, SVM)等傳統(tǒng)機(jī)器學(xué)習(xí)算法構(gòu)建分類模型。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)、長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)、預(yù)訓(xùn)練語言模型BERT(Bidirectional Encoder Representations from Transformers)等模型的“問題—方法”抽取方法成為研究熱點(diǎn)。雖然基于監(jiān)督式信息抽取的科技文獻(xiàn)“問題—方法”抽取研究取得了不少進(jìn)展,但目前絕大部分抽取方法僅考慮了論文摘要文本的語義特征,忽略了“問題—方法”的句法結(jié)構(gòu),尤其是其中的語義關(guān)聯(lián)特征。因此,筆者提出一種融合句法和語義關(guān)聯(lián)信息的科技文獻(xiàn)“問題—方法”聯(lián)合抽取模型。

2 相關(guān)研究/Related research

近年來,隨著人工智能尤其是自然語言處理技術(shù)的發(fā)展,從科技文獻(xiàn)中挖掘出研究問題和研究方法被看作是一種科技信息提?。⊿cientific Information Extraction,SciIE)任務(wù)[12-13],涉及研究問題抽取[14]、研究方法識別[15]、數(shù)據(jù)集構(gòu)建[16]、評價(jià)指標(biāo)及評價(jià)得分[17-18]等具體內(nèi)容。

2.1 問題、方法抽取

科技文獻(xiàn)中的“問題”“方法”抽取可以作為兩個單獨(dú)的任務(wù)分別研究。①針對研究問題的抽取,王露等[2]將研究不足、研究缺陷以及研究難點(diǎn)等給研究人員帶來挑戰(zhàn)的問題稱為“問題實(shí)例”,通過句子成分分析抽取候選短語,并使用句法依賴增強(qiáng)分類模型實(shí)現(xiàn)對問題實(shí)例的識別;H. Sasaki等[19]首先使用基于注意力的語言模型提取有可能包含問題定義的句子,然后構(gòu)建分類模型對提取出的句子是否為問題句進(jìn)行判斷;王路等[20]也先提取可能包含研究問題的候選子句,再使用變分自編碼器以及注意力機(jī)制對子句進(jìn)行分類判斷。②針對研究方法的識別,章成志等[3]使用基于字向量的、結(jié)合條件隨機(jī)場(Conditional Random Field,CRF)的雙向LSTM網(wǎng)絡(luò)模型來識別研究方法;張穎怡等[21]使用多種基于神經(jīng)網(wǎng)絡(luò)的句子分類模型從科技文獻(xiàn)全文本中進(jìn)行研究方法句抽取,并從中分析研究方法句的分布情況。但是,分別抽取的研究問題和研究方法,缺少“問題”與“方法”之間的對應(yīng)關(guān)系,使“哪個問題采用了哪些方法”或者“哪個方法解決了哪些問題”這類重要的分析難以順利完成。

2.2 “問題—方法”聯(lián)合抽取

因此,不少研究將科技文獻(xiàn)中的“問題”和“方法”進(jìn)行聯(lián)合抽取,其研究思路多采用設(shè)計(jì)規(guī)則或構(gòu)建特征工程再結(jié)合機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的模式。

2.2.1 基于規(guī)則的抽取方法

規(guī)則的構(gòu)建多基于科技文獻(xiàn)內(nèi)容特征分析,設(shè)計(jì)正則表達(dá)式檢索模板來進(jìn)行。李賀等[22]設(shè)計(jì)了“研究/分析(.*?)領(lǐng)域的(.*?)的(.*?)問題”等規(guī)則來識別研究問題,設(shè)計(jì)了“提出(.*?)方法/流程/算法/程序/過程”等規(guī)則來識別其對應(yīng)的研究方法;王艷艷等[23]使用“針對……問題”“在……的基礎(chǔ)上”等表達(dá)式來表征問題要素,“采取了……方法”等表征方法要素,利用問題要素和方法要素句式結(jié)構(gòu)組合抽取“問題—方法”;徐珍珍等[24]使用“propose (.* ) to (.* )$、(.* ) (is|are) (.* ) task”和“the problems?\b of (.* )”等23個模板來抽取研究問題,使用領(lǐng)域?qū)<覙?gòu)建的技術(shù)列表來抽取技術(shù)詞,僅保留在同一句的技術(shù)詞語與問題詞語,并假定該技術(shù)可以解決這個問題;唐曉波等[8]使用“針對……問題”“對……進(jìn)行分析”等表達(dá)式來抽取問題詞,使用“提出/借鑒……算法/模型”等表達(dá)式來抽取方法詞;張吉玉等[25]使用“(基于|結(jié)合|融合)(.* )的(.* )(算法研究|方法|模型|--|研究)”“(提升|提高)(.* )(效果|準(zhǔn)確性)”等問題模板從標(biāo)題、摘要和結(jié)論句中抽取問題要素,從摘要的方法句中保留所有包含于方法詞表中的詞作為方法要素。這些通過規(guī)則方法進(jìn)行科技文獻(xiàn)中的“問題—方法”抽取雖然簡單易操作,但受限于模板的表達(dá)能力,通常召回率較低,且需要依賴人工在不同領(lǐng)域構(gòu)建并維護(hù)模板,消耗的時(shí)間成本和人力成本較高。

2.2.2 基于特征工程的機(jī)器學(xué)習(xí)方法

特征工程結(jié)合機(jī)器學(xué)習(xí)是近年來常用的“問題—方法”聯(lián)合抽取模式。K. Heffernan等[26]通過人工定義11個特征,將特征之間的疊加組合作為樸素貝葉斯(NB)、邏輯回歸(LR)和支持向量機(jī)(SVM)等機(jī)器學(xué)習(xí)分類器的輸入,取得了較好的實(shí)驗(yàn)效果;G. Garechana等[27]使用斯坦福大學(xué)的開放信息提取工具(OpenIE)來提取“標(biāo)題”和“摘要”字段中存在的三元組對象,使用Bernoulli Na?ve Bayes分類器將其分類為“問題”“方法”和“空”3類,再對其中的問題和方法對象配對;J. W. G. Putra等[28]結(jié)合句子信息類型,使用基于模板的方法和自適應(yīng) K 近鄰方法來抽取研究方法和研究問題。

2.2.3 基于語義的深度學(xué)習(xí)方法

隨著深度學(xué)習(xí)技術(shù)的發(fā)展,傳統(tǒng)的機(jī)器學(xué)習(xí)也被深度學(xué)習(xí)方法取代,如R. B. Mishra等[1]在K. Heffernan[26]研究的基礎(chǔ)上,使用LSTM、CNN深度學(xué)習(xí)模型提升了分類效果,并探究了人工特征之間的疊加組合效果。余麗等[29]使用LSTM-CRF來識別“研究范疇”“研究方法”“實(shí)驗(yàn)數(shù)據(jù)”“評價(jià)指標(biāo)及取值”;G. Chen等[14]使用BERT-BiLSTM-CRF抽取摘要中的實(shí)體,并對“問題—問題”“問題—方法”“方法—方法”層級關(guān)系進(jìn)行了識別;陸偉等[30]先利用標(biāo)題模板抽出研究方法和研究問題的關(guān)鍵詞,再利用BERT-LSTM模型對關(guān)鍵詞進(jìn)行“問題”和“方法”的分類;程齊凱等[31]則采用seq2seq生成模型來抽取摘要文本中的研究問題和方法。實(shí)驗(yàn)結(jié)果表明,深度學(xué)習(xí)方法效果優(yōu)于機(jī)器學(xué)習(xí)方法。

但是,現(xiàn)有研究在“問題—方法”的聯(lián)合抽取任務(wù)中還存在一些不足[32],如高度依賴人工模板或人工標(biāo)注數(shù)據(jù),對于新樣本和新領(lǐng)域的泛化能力較差,尤其是在研究問題與研究方法的關(guān)聯(lián)上,其對應(yīng)關(guān)系特征未能充分提取,影響了“問題—方法”抽取的準(zhǔn)確率。筆者針對這一問題,通過句法分析挖掘“問題—方法”的SAO三元組結(jié)構(gòu)特征,進(jìn)而構(gòu)建關(guān)聯(lián)圖模型挖掘“問題—方法”的對應(yīng)關(guān)系特征,經(jīng)過編碼、解碼過程,實(shí)現(xiàn)科技文獻(xiàn)中“問題—方法”的聯(lián)合抽取。

3 模型設(shè)計(jì)/Model design

3.1 基本思路

首先需要分析科技文獻(xiàn)中研究問題和研究方法的表現(xiàn)形式與關(guān)聯(lián)關(guān)系。在表現(xiàn)形式方面,問題與方法通常以名詞短語的形式顯性呈現(xiàn),尤其在科技文獻(xiàn)的摘要和結(jié)語等部分,問題與方法的名詞短語形式較為顯著,因此筆者通過句法結(jié)構(gòu)進(jìn)行分析挖掘。在關(guān)聯(lián)關(guān)系方面,問題與方法則通常存在于隱性的語義關(guān)聯(lián)中[25],這種關(guān)聯(lián)不同文獻(xiàn)表達(dá)的差異較大,規(guī)則匹配及句法位置關(guān)系難以描述,筆者將通過構(gòu)建關(guān)聯(lián)圖的形式利用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行挖掘。因此,筆者提出一種基于名詞短語句法及語義關(guān)聯(lián)信息的科技文獻(xiàn)“問題—方法”識別模型NCGAT(Noun-phrase Connected Graph Attention Network),共包含5個模塊:輸入層、圖構(gòu)造層、嵌入層、圖注意力網(wǎng)絡(luò)層和指針網(wǎng)絡(luò)解碼層,模型架構(gòu)如圖1所示:

(1)輸入層。獲取文獻(xiàn)的原始文本信息。在科技文獻(xiàn)中,研究問題和研究方法有可能出現(xiàn)在標(biāo)題、摘要、引言、結(jié)論等部分,其中摘要部分通常以名詞短語的形式表達(dá)研究問題和研究方法,且結(jié)構(gòu)、語義比其他部分更完整、規(guī)范。因此,筆者將科技文獻(xiàn)的摘要文本作為輸入數(shù)據(jù),目的是從中提取文獻(xiàn)的研究問題及其研究方法的名詞短語對。

(2)圖構(gòu)造層。從摘要中提取每個句子的SAO三元組,然后基于抽取的三元組構(gòu)建關(guān)聯(lián)圖結(jié)構(gòu)。SAO三元組用于表征句法結(jié)構(gòu),依次由名詞短語、動詞短語和名詞短語(頭、關(guān)系、尾)組成[33]。研究方法和研究問題包含在這些三元組的短語中。將每對三元組作為節(jié)點(diǎn)同時(shí)合并三元組中的共同短語構(gòu)建SAO關(guān)聯(lián)圖,通過該圖利用圖神經(jīng)網(wǎng)絡(luò)模型以發(fā)現(xiàn)研究問題與研究方法的隱性關(guān)聯(lián)特征。

(3)嵌入層。實(shí)現(xiàn)文本和圖的編碼表示,包含文本嵌入和圖節(jié)點(diǎn)嵌入兩個部分,分別將輸入的摘要文本進(jìn)行向量化和SAO關(guān)聯(lián)圖中的節(jié)點(diǎn)進(jìn)行向量化,筆者均采用預(yù)訓(xùn)練模型BART實(shí)現(xiàn)向量化編碼表示。

(4)圖注意力網(wǎng)絡(luò)層。利用注意力機(jī)制發(fā)現(xiàn)重要關(guān)聯(lián)節(jié)點(diǎn)。將編碼后的關(guān)聯(lián)圖送入圖注意力神經(jīng)網(wǎng)絡(luò)(Graph Attention Network,GAT),利用圖注意力層的多頭注意力機(jī)制,捕獲各組成成分間的依賴關(guān)系,為準(zhǔn)確表達(dá)“問題—方法”的節(jié)點(diǎn)賦予較高的權(quán)重,降低無效節(jié)點(diǎn)的權(quán)重,得到加權(quán)后的圖節(jié)點(diǎn)編碼。

(5)指針網(wǎng)絡(luò)解碼層。對融合了文本信息和圖結(jié)構(gòu)信息的編碼向量建模解碼,抽取出其中的研究問題和研究方法。首先將摘要文本的詞向量與圖節(jié)點(diǎn)向量融合組合,作為解碼層的輸入向量;然后通過指針網(wǎng)絡(luò)對方法進(jìn)行解碼抽??;最后基于得到的研究方法抽取其對應(yīng)的研究問題。

3.2 圖構(gòu)造層

研究問題與研究方法的關(guān)聯(lián)是本模型的重點(diǎn),從輸入層的文獻(xiàn)摘要文本中能夠獲得包含研究問題和研究方法的名詞短語三元組,但是研究問題與研究方法的關(guān)聯(lián)則需要通過圖結(jié)構(gòu)來表征,圖構(gòu)造層包括三元組提取和圖結(jié)構(gòu)設(shè)計(jì)兩部分。

(1)三元組名詞短語。SAO三元組(Subject-Action-Object)是最常用的句法表征結(jié)構(gòu),科技文獻(xiàn)的研究問題與研究方法在摘要中表現(xiàn)為簡潔的名詞短語,通常在摘要句子結(jié)構(gòu)中做主體或?qū)ο蟪煞?,因此可將研究問題與研究方法的聯(lián)系表征為SAO三元組形式,即“主體(頭實(shí)體:研究方法短語)、謂詞(關(guān)系:解決)、對象(尾實(shí)體:研究問題短語)”的形式。通過句法分析可以從科技文獻(xiàn)摘要中抽取所有名詞短語三元組,研究問題與研究方法名詞短語就包含在其中,且有可能多次出現(xiàn)。通過依存句法分析(Dependency Parsing, DP)可以對復(fù)雜的摘要長句進(jìn)行拆解,獲取多組名詞短語三元組,抽取出的主體、謂詞、對象分別對應(yīng)SAO三元組中的S、A、O位置。表1給出了一個SAO三元組示例,來自某摘要文本中的語句:“隨后利用科技文獻(xiàn)全文數(shù)據(jù),基于BERT模型采用多階段微調(diào)的方式構(gòu)建了面向?qū)嶋H應(yīng)用的概念定義句自動識別模型”。

(2)三元組關(guān)聯(lián)圖。由于SAO三元組缺乏語義關(guān)聯(lián)信息,而圖結(jié)構(gòu)是表達(dá)這種關(guān)聯(lián)的有效手段,因此界定三元組所表達(dá)的名詞短語間的指向關(guān)系是構(gòu)建關(guān)聯(lián)圖的核心,可以將每一個三元組針對S、O元素分別創(chuàng)造節(jié)點(diǎn),將A則看作是一條由主體指向?qū)ο螅⊿→O)的有向邊,再通過聚合相同節(jié)點(diǎn)來連接多個SAO三元組,從而生成關(guān)聯(lián)圖的基本結(jié)構(gòu)。以表1為例,提取的4對SAO三元組構(gòu)成的4條有向邊關(guān)聯(lián)結(jié)構(gòu)見圖2,這樣可將主體—對象的名詞短語指向關(guān)系清晰地表達(dá)出來。

3.3 嵌入層

在嵌入層,摘要文本和關(guān)聯(lián)圖節(jié)點(diǎn)將被進(jìn)行向量化編碼表示,這里均采用BART模型實(shí)現(xiàn)。BART模型[34]是一種預(yù)訓(xùn)練模型,相較于一般的編碼方式,更能捕捉深層的雙向語言特征,準(zhǔn)確獲取到上下文信息。對于給定科技文獻(xiàn)摘要文本D={w1, w2, w3, …, wN},wi表示第i個字,用BART預(yù)訓(xùn)練模型對每個摘要文本D進(jìn)行編碼,得到向量表示如公式(1)所示:

3.4 圖注意力層

3.5 指針網(wǎng)絡(luò)解碼層

4 實(shí)驗(yàn)/Experiment

4.1 數(shù)據(jù)集及評價(jià)指標(biāo)

在中文科技文獻(xiàn)中,存在著大量“基于X的Y”樣式的文獻(xiàn)標(biāo)題,這些標(biāo)題在一定程度上明確揭示了科技文獻(xiàn)的核心方法和核心問題。通過語言學(xué)中的直接成分分析法,從論文標(biāo)題的結(jié)構(gòu)入手,發(fā)現(xiàn)在此類標(biāo)題中,“基于”后的內(nèi)容X通常為研究方法,Y為具體的研究問題[37],如表3所示:

實(shí)驗(yàn)評估指標(biāo)包括:①Rouge。其用于比較模型獲取的“問題—方法”和參考“問題—方法”,通過計(jì)算二者之間重疊詞的數(shù)量用以評價(jià)模型抽取“問題—方法”的能力。筆者使用計(jì)算一元分詞(unigram)的Rouge-1、二元分詞(bigram)的Rouge-2和最長公共子序列(LCS)的Rouge-L的F1值作為模型性能的評價(jià)指標(biāo)。②BLEU。其用于計(jì)算模型獲取的“問題—方法”和參考“問題—方法”之間的精度差異。筆者使用BP-BLEU、BLEU-1、BLEU-2和BLEU-3作為模型性能的評價(jià)指標(biāo)。

4.2 參數(shù)設(shè)置

使用一張顯存為16GB的P100顯卡進(jìn)行所有實(shí)驗(yàn),運(yùn)行的操作系統(tǒng)平臺是Ubuntu操作系統(tǒng)。實(shí)驗(yàn)參數(shù)如表4所示:

實(shí)驗(yàn)使用BART來學(xué)習(xí)摘要上下文向量,詞嵌入維度設(shè)置為768,注意力頭和層數(shù)設(shè)置為12。實(shí)驗(yàn)中使用的損失函數(shù)為交叉熵?fù)p失函數(shù),所有參數(shù)均使用AdamW算法進(jìn)行優(yōu)化,初始學(xué)習(xí)率設(shè)置為3e-4。訓(xùn)練輪次設(shè)置為10。編碼器和解碼器的最大長度分別設(shè)置為512和30。為了緩解過擬合問題,采用0.5比例的Dropout機(jī)制,并將神經(jīng)元失活比例設(shè)置為 0.1。

4.3 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)選擇自然語言處理任務(wù)中較為流行的大型預(yù)訓(xùn)練序列性生成模型作為基線模型,即將BART、T5、GPT作為基線模型與筆者提出的模型進(jìn)行對比,具體如下所示:

(1)Bidirectional and Auto-Regressive Transformers (BART)[34]。這是一種去噪自編碼器預(yù)訓(xùn)練模型,經(jīng)過預(yù)訓(xùn)練,使用任意噪聲函數(shù)破壞文本,隨機(jī)屏蔽掉單詞子集,然后學(xué)習(xí)如何重建原始文本,在自然語言生成、自然語言理解任務(wù)中效果很好。

(2)Text-To-Text Transfer Transformer (T5)[38]。這是一個統(tǒng)一的框架,其將每個語言問題都視為一個文本到文本的問題,并且可以靈活地應(yīng)用相同的模型設(shè)置,包括其目標(biāo)、訓(xùn)練和解碼過程直接用于各種NLP任務(wù)。

(3)Generative Pre-trained Transformer (GPT)[39]。這是一個基于Transformer的大型語言模型,基于40GB的互聯(lián)網(wǎng)文本進(jìn)行訓(xùn)練,其簡單目標(biāo)是預(yù)測給定序列中所有先前單詞的下一個單詞,已廣泛用于自然語言生成任務(wù)。

筆者提出的NCGAT模型與基線模型的對比實(shí)驗(yàn)結(jié)果見表5。通過表5可以看出,與標(biāo)準(zhǔn)的序列模型相比,NCGAT模型在兩種自動評價(jià)方法上都獲得了較大的增益。以在該任務(wù)上表現(xiàn)最佳的序列模型BART為例,NCGAT模型在BP-BLEU和ROUGE-L分別提高了7.19%和1.4%。這說明本研究基于BART模型進(jìn)行的改進(jìn)具有有效性。同時(shí),NCGAT模型具有更好的捕捉深層信息關(guān)聯(lián)能力,其中Graph Encoder融合了摘要中的語義關(guān)聯(lián)和句法信息,可以幫助模型學(xué)習(xí)信息更為豐富的雙向語言表征。因此

筆者提出的NCGAT模型融合了摘要中的句法信息和關(guān)聯(lián)信息,相比其他模型在“問題—方法”抽取任務(wù)上取得了最好的效果。

在3種基線模型中,BART模型效果最優(yōu),其次為GPT、T5。這一實(shí)驗(yàn)結(jié)果表明,BART模型相較于GPT、T5模型更適用于中文科技文獻(xiàn)“問題—方法”詞抽取這一細(xì)分領(lǐng)域,這也體現(xiàn)了筆者選擇BART模型作為基線模型的優(yōu)越性。分析表5可以發(fā)現(xiàn),BLEU-1、BLEU-2和BLEU-3的結(jié)果呈現(xiàn)依次遞減狀態(tài),基于一元分詞計(jì)算的BLEU-1結(jié)果較高,單獨(dú)參考意義相對有限,通過差值比較分析發(fā)現(xiàn),其中筆者所提出的NCGAT模型與其他3種模型相比,其BLEU-2較BLEU-1未出現(xiàn)較大程度的下滑,且BLEU-3以相對平滑的幅度層級遞減,該實(shí)驗(yàn)結(jié)果表明,筆者所提出的方法抽取出的“問題—方法”能夠較其他3種基線模型更為完整和準(zhǔn)確。

4.4 消融實(shí)驗(yàn)

通過消融實(shí)驗(yàn)驗(yàn)證每個組件在模型中的貢獻(xiàn),消融實(shí)驗(yàn)的設(shè)計(jì)如下:

(1)w/o Graph Encoder:移除圖編碼器后的模型。圖編碼器的存在可以幫助模型學(xué)習(xí)到摘要文本的深層語義和語法信息,從而增強(qiáng)模型的特征表示。

(2)w/o Graph Direction:移除圖構(gòu)建過程中節(jié)點(diǎn)間的指向關(guān)系,即不利用句法信息,在節(jié)點(diǎn)間創(chuàng)造無向邊,將原本的有向圖變?yōu)闊o向圖。

(3)w/o Edge Attribute:移除鄰域信息融合時(shí)的邊連接詞信息。即在計(jì)算節(jié)點(diǎn)間注意力系數(shù)時(shí),不加入邊連接詞信息,只利用節(jié)點(diǎn)文本特征進(jìn)行計(jì)算。

(4)w/o Pointer Network:移除指針網(wǎng)絡(luò)后的模型。即在解碼時(shí)只使用詞表中的詞,通過只計(jì)算詞表中的詞的概率來選擇下一時(shí)刻解碼器的輸出詞。

(5)NGGAT(Full Model):筆者提出的完整模型,用于證實(shí)圖編碼器、節(jié)點(diǎn)指向關(guān)系、邊連接詞信息、指針網(wǎng)絡(luò)對“問題—方法”抽取任務(wù)的貢獻(xiàn)。

消融實(shí)驗(yàn)的結(jié)果如表6所示,符號“w/o”表示去除某特定模塊。

根據(jù)消融實(shí)驗(yàn)的結(jié)果,可以發(fā)現(xiàn)模型性能的提高主要來自以下4個方面:

(1)得益于圖編碼器(Graph Encoder)的引入,在BLEU-1值及ROUGE-1值上,模型提升約5.89%和1.31%。這說明圖編碼器幫助模型獲得摘要文本中各成分之間的依賴關(guān)系和關(guān)聯(lián)路徑,作為一種先驗(yàn)知識輔助模型更好地理解了文本語義,增強(qiáng)了模型的圖關(guān)聯(lián)特征。

(2)當(dāng)移除圖編碼器中的節(jié)點(diǎn)指向關(guān)系(w/o Graph Direction)后,原本的有向圖變?yōu)榱藷o向圖,BP-BLEU值及ROUGE-L值分別下降0.3%和0.11%,這說明構(gòu)建無向圖降低了模型性能。原因在于建模指向關(guān)系可以幫助模型充分利用句法結(jié)構(gòu)信息,區(qū)分節(jié)點(diǎn)文本的句法功能角色,幫助模型理解名詞短語在不同語境的語義功能。

(3)完整模型比移除邊連接詞信息(w/o Edge Attribute)后的模型獲得更好的效果。在節(jié)點(diǎn)更新時(shí)加入邊連接詞后,BP-BLEU值及ROUGE-L值分別提升1.1%和6.77%。這進(jìn)一步表明,在更新摘要中的圖節(jié)點(diǎn)信息時(shí),不同的連接詞(A元素)對問題、方法抽取有較大影響,重要程度也有所不同。通過在計(jì)算注意力系數(shù)時(shí)加入邊連接詞信息,能有效提升模型抽取“問題—方法”的能力。

(4)完整模型優(yōu)于移除指針網(wǎng)絡(luò)之后的模型(w/o Pointer Network),BP-BLEU值及ROUGE-L值分別降低1.12%和7.14%。這意味著加入指針網(wǎng)絡(luò)機(jī)制后模型效果更好,這是因?yàn)橹羔樉W(wǎng)絡(luò)通過賦予模型從摘要文本中復(fù)制詞的能力,有利于“問題—方法”的準(zhǔn)確抽取。

結(jié)合4個模塊總體來看,筆者提出的“問題—方法”抽取模型在每個模塊都能取得一定的效果,包括圖編碼器、指針網(wǎng)絡(luò)等,這些模塊的組合能夠顯著提升“問題—方法”的抽取效果。其中圖編碼器對模型效果影響最大,這表明句法和語義信息對模型效果影響最大,其次為指針網(wǎng)絡(luò),指針網(wǎng)絡(luò)解碼方式能夠有效提升模型從摘要文本中準(zhǔn)確抽取中文“問題—方法”的能力。對于模型而言,加入邊連接詞信息相較于圖有向信息效果更佳,這表明在“問題—方法”抽取過程中,“問題—方法”間的連接關(guān)系較“問題—方法”的指向關(guān)系對于模型抽取效果影響更大。

4.5 人工測評

筆者采用量化評分的方式對模型準(zhǔn)確抽取“問題—方法”的能力做進(jìn)一步評測。具體流程如下:

(1)從測試集中隨機(jī)選出300篇不是以“基于X的Y”樣式為標(biāo)題的科技文獻(xiàn),每篇文獻(xiàn)包含標(biāo)題、摘要字段和模型抽取出的“問題—方法”,這些文獻(xiàn)沒有明確指出研究問題和研究方法,需要人工來測評模型抽取出的“問題—方法”的準(zhǔn)確性。

(2)針對這300篇文獻(xiàn),由6名管理與科學(xué)工程專業(yè)研究生進(jìn)行獨(dú)立評測,被要求閱讀文獻(xiàn)全文,同時(shí)重點(diǎn)關(guān)注文獻(xiàn)的標(biāo)題和摘要,然后從兩個角度衡量每篇文獻(xiàn)由模型獲取的“問題—方法”結(jié)果:①模型是否準(zhǔn)確抽取科技文獻(xiàn)中的研究方法;②模型是否準(zhǔn)確抽取科技文獻(xiàn)中的研究問題。模型在達(dá)成一項(xiàng)要求時(shí),被評估為1,否則為0。

(3)獨(dú)立重復(fù)多次實(shí)驗(yàn),完成每個待測文獻(xiàn)的量化評分,對6名研究生的評測結(jié)果累計(jì)求均值,最終綜合評測結(jié)果如表7所示:

從表7綜合2個指標(biāo)來看,NCGAT抽取研究問題和研究方法的概率達(dá)到了96.33%和88.67%,這顯示了NCGAT模型的優(yōu)勢。同時(shí)可以看出,T5模型在人工評價(jià)中效果較差,BART在預(yù)訓(xùn)練模型中的效果最好,與自動評價(jià)結(jié)果一致。4個模型對于研究方法的識別率均高于研究問題,原因在于研究方法通常有規(guī)范的術(shù)語表達(dá)形式,而對研究問題的表述自由度更大,且對于研究問題,隨著科技和社會的演變發(fā)展,新的研究問題迭出,使得研究問題的描述形式更加多變,加大了對研究問題特征學(xué)習(xí)的困難。人工評測的實(shí)驗(yàn)結(jié)果也表明了NCGAT模型可以為科技文獻(xiàn)中研究問題和研究方法的抽取提供有力支撐。

5 結(jié)語/Conclusions

為了準(zhǔn)確高效地抽取科技文獻(xiàn)中的研究問題和研究方法,筆者提出一種融合句法特征和關(guān)聯(lián)關(guān)系圖的“問題—方法”抽取模型。該模型使用句法分析抽取出科技文獻(xiàn)文本摘要中的SAO三元組,用其表征科技文本中名詞短語之間的聯(lián)系,并通過句法特征信息將SAO三元組組成圖結(jié)構(gòu),利用圖神經(jīng)網(wǎng)絡(luò)充分挖掘潛在的語義關(guān)聯(lián)信息,進(jìn)而增強(qiáng)模型的表達(dá)能力。實(shí)驗(yàn)經(jīng)過自動評價(jià)和人工評價(jià)證實(shí)了本文模型有效提升了“問題—方法”的抽取效果,較好地實(shí)現(xiàn)了科技文獻(xiàn)中研究問題和研究方法的抽取。在此基礎(chǔ)上進(jìn)一步的研究可以延伸到科學(xué)問題和研究方法的發(fā)展脈絡(luò)分析、科技文獻(xiàn)貢獻(xiàn)度評價(jià)、科技文獻(xiàn)的細(xì)粒度知識挖掘等應(yīng)用任務(wù)。另外,由于不同語言的語法、句法結(jié)構(gòu)存在差異,三元組結(jié)構(gòu)更適合中文句法,因此提升模型的跨語言能力也可作為接下來的研究方向。

參考文獻(xiàn)/References:

MISHRA R B, JIANG H. Classification of problem and solution strings in scientific texts: evaluation of the effectiveness of machine learning classifiers and deep neural networks[J]. Applied sciences, 2021, 11(21): 9997.

王露, 樂小虬.基于句法依賴增強(qiáng)的主題—問題實(shí)例識別方法研究[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2022, 6(12): 13-22. (WANG L, LE X Q. Identifying topic-problem instances based on syntactic dependency enhancement[J]. Data analysis and knowledge discovery, 2022, 6(12): 13-22.)

章成志, 張穎怡.基于學(xué)術(shù)論文全文的研究方法實(shí)體自動識別研究[J]. 情報(bào)學(xué)報(bào), 2020, 39(6): 589-600. (ZHANG C Z, ZHANG Y Y. Automatic recognition of research methods from the full-text of academic articles[J]. Journal of the China Society for Scientific and Technical Information, 2020, 39(6): 589-600.)

鞠曉蓓, 李秀霞, 袁煒皓.基于問題、方法貢獻(xiàn)度的學(xué)術(shù)期刊熱點(diǎn)主題分析——以《情報(bào)學(xué)報(bào)》為例[J]. 圖書情報(bào)導(dǎo)刊, 2022, 7(11): 49-57. (JU X B, LI X X, YUAN W H. Analysis of hot topics in academic journals based on subject-method contribution: taking Journal of the China Society for Scientific and Technical Information as an example[J]. Journal of library and information science, 2022, 7(11): 49-57.)

張吉玉, 張均勝.考慮時(shí)序的單篇科技文獻(xiàn)新穎性評估方法[J]. 圖書情報(bào)工作, 2022, 66(17): 93-105. (ZHANG J Y, ZHANG J S. Novelty evaluation method of single scientific and technical literature considering time series[J]. Library and information service, 2022, 66(17): 93-105.)

羅卓然, 陸偉, 蔡樂, 等. 學(xué)術(shù)文本詞匯功能識別——在論文新穎性度量上的應(yīng)用[J]. 情報(bào)學(xué)報(bào), 2022, 41(7): 720-732. (LUO Z R, LU W, CAI L, et al. Application of lexical functions in novelty measurement of academic papers[J]. Journal of the China Society for Scientific and Technical Information, 2022, 41(7): 720-732.)

錢佳佳, 羅卓然, 陸偉.基于問題—方法組合的科技論文新穎性度量與創(chuàng)新類型識別[J]. 圖書情報(bào)工作, 2021, 65(14): 82-89. (QIAN J J, LUO Z R, LU W. Novelty measurement and innovation type identification of scientific literature based on question-method combination[J]. Library and information service, 2021, 65(14): 82-89.)

唐曉波, 向莉麗, 牟昊.基于研究問題與研究方法貢獻(xiàn)的論文學(xué)術(shù)價(jià)值早期識別方法[J]. 情報(bào)科學(xué), 2022, 40(9): 3-11, 19. (TANG X B, XIANG L L, MOU H. Early identification method of academic value of papers based on research question and research method contribution[J]. Journal of the China Society for Scientific and Technical Information, 2022, 40(9): 3-11, 19.)

陳果, 彭家彬, 肖璐.基于“問題—方法”知識抽取的科研領(lǐng)域知識演化研究:以人工智能為例[J]. 情報(bào)理論與實(shí)踐, 2022, 45(6): 32-38. (CHEN G, PENG J B, XIAO L. Knowledge evolution of scientific research domains based on problem-solution knowledge extraction: a case study of artificial intelligence[J]. Information studies: theory & application, 2022, 45(6): 32-38.)

WANG Y, ZHANG C, LI K. A review on method entities in the academic literature: extraction, evaluation, and application[J]. Scientometrics, 2022, 127(5): 2479-2520.

趙志耘, 劉耀, 朱禮軍, 等. 復(fù)雜信息環(huán)境下知識組織和再利用模式與方法研究[J]. 情報(bào)學(xué)報(bào), 2022, 41(12): 1266-1279. (ZHAO Z Y, LIU Y, ZHU L J, et al. Research on patterns and methods for knowledge construction and reuse in a complex information environment[J]. Journal of the China Society for Scientific and Technical Information, 2022, 41(12): 1266-1279.)

JAIN S, VAN Z M, HAJISHIRZI H, et al. Scirex: a challenge dataset for document-level information extraction[J]. ArXiv preprint, 2020, arXiv:2005.00512.

HONG Z, WARD L, CHARD K, et al. Challenges and advances in information extraction from scientific literature: a review[J]. Journal of the minerals, metals & materials society, 2021, 73(11): 3383-3400.

CHEN G, PENG J, XU T, et al. Extracting entity relations for “problem-solving” knowledge graph of scientific domains using word analogy[J]. Aslib journal of information management, 2023, 75(3): 481-499.

HOU L, ZHANG J, WU O, et al. Method and dataset entity mining in scientific literature: a CNN+ BiLSTM model with self-attention[J]. Knowledge-based systems, 2022, 235(1): 107621.

F?RBER M, ALBERS A, SCHüBER F. Identifying used methods and datasets in scientific publications[C]//Proceedings of the AAAI-21 workshop on scientific document understanding. Aachen: AAAI, 2021.

HOU Y, JOCHIM C, GLEIZE M, et al. Identification of tasks, datasets, evaluation metrics, and numeric scores for scientific leaderboards construction[J]. ArXiv preprint, 2019, arXiv:1906.09317.

KARDAS M, CZAPLA P, STENETORP P, et al. Axcell: automatic extraction of results from machine learning papers[J]. ArXiv preprint, 2020, arXiv:2004.14356.

SASAKI H, YAMAMOTO S, AGCHBAYAR A, et al. Extracting problem linkages to improve knowledge exchange between science and technology domains using an attention-based language model[J]. Engineering, technology & applied science research, 2020, 10(4): 5903-5913.

王路, 李壽山.基于變分自編碼器的問題識別方法[J]. 鄭州大學(xué)學(xué)報(bào)(理學(xué)版), 2019, 51(3): 79-84. (WANG L, LI S S. Question detection method based on variational auto-encoder[J] Journal of Zhengzhou University(natural science edition), 2019, 51(3): 79-84.)

張穎怡, 章成志.基于學(xué)術(shù)論文全文的研究方法句自動抽取研究[J]. 情報(bào)學(xué)報(bào), 2020, 39(6): 640-650. (ZHANG Y Y, ZHANG C Z. Methodological and automatic sentence extraction from academic articles full-text[J]. Journal of the China Society for Scientific and Technical Information, 2020, 39(6): 640-650.)

李賀, 杜杏葉.基于知識元的學(xué)術(shù)論文內(nèi)容創(chuàng)新性智能化評價(jià)研究[J]. 圖書情報(bào)工作, 2020, 64(1): 93-104. (LI H, DU X Y. Research on intelligent evaluation for the content innovation of acade-mic papers[J]. Library and information service, 2020, 64(1): 93-104.)

王艷艷, 張均勝, 喬曉東, 等. 基于問題—方法矩陣的文獻(xiàn)新穎性評估方法[J]. 情報(bào)理論與實(shí)踐, 2021, 44(2): 90-95. (WANG Y Y, ZHANG J S, QIAO X D, et al. Evaluating novelty of scientific literature based on question-method matrix[J]. Information studies: theory & application, 2021, 44(2): 90-95.)

徐珍珍, 張均勝, 劉文斌.科技文獻(xiàn)中技術(shù)關(guān)聯(lián)自動發(fā)現(xiàn)方法研究[J]. 圖書情報(bào)工作, 2021, 65(20): 113-122. (XU Z Z, ZHANG J S, LIU W B. Automatically discovering associations among technologies in scientific literature[J]. Library and information service, 2021, 65(20): 113-122.)

張吉玉, 張均勝, 喬曉東.輔助新穎性評估的科技論文評述畫像構(gòu)建方法[J]. 情報(bào)理論與實(shí)踐, 2023, 46(1): 159-167. (ZHANG J Y, ZHANG J S, QIAO X D. Constructing review profile of scientific article for novelty evaluation assistance[J]. Information studies: theory & application, 2023, 46(1): 159-167.)

HEFFERNAN K, TEUFEL S. Identifying problems and solutions in scientific text[J]. Scientometrics, 2018, 116(2): 1367-1382.

GARECHANA G, RíO-BELVER R, ZARRABEITIA E, et al. TeknoAssistant: a domain specific tech mining approach for technical problem-solving support[J]. Scientometrics, 2022, 127(9): 1-15.

PUTRA J W G, KHODRA M L. Automatic title generation in scientific articles for authorship assistance: a summarization approach[J]. Journal of ICT research and applications, 2017, 11(3): 253-267.

余麗, 錢力, 付常雷, 等. 基于深度學(xué)習(xí)的文本中細(xì)粒度知識元抽取方法研究[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2019, 3(1): 38-45. (YU L, QIAN L, FU C L, et al. Extracting fine-grained knowledge units from texts with deep learning[J]. Data analysis and knowledge discovery, 2019, 3(1): 38-45.)

陸偉, 李鵬程, 張國標(biāo), 等. 學(xué)術(shù)文本詞匯功能識別——基于BERT向量化表示的關(guān)鍵詞自動分類研究[J]. 情報(bào)學(xué)報(bào), 2020, 39(12): 1320-1329. (LU W, LI P C, ZHANG G B, et al. Recognition of lexical functions in academic texts: automatic classification of keywords based on Bert vectorization[J]. Journal of the China Society for Scientific and Technical Information, 2020, 39(12): 1320-1329.)

程齊凱, 李鵬程, 張國標(biāo), 等. 學(xué)術(shù)文本詞匯功能識別——基于標(biāo)題生成策略和注意力機(jī)制的問題方法抽取[J]. 情報(bào)學(xué)報(bào), 2021, 40(1): 43-52. (CHENG Q K, LI P C, ZHANG G B, et al. Recognition of lexical functions in academic texts: problem method extraction based on title generation strategy and attention mechanism[J]. Journal of the China Society for Scientific and Technical Information, 2021, 40(1): 43-52.)

張穎怡, 章成志, HE D Q .學(xué)術(shù)論文中問題與方法識別及其關(guān)系抽取研究綜述[J]. 圖書情報(bào)工作, 2022, 66(12): 125-138. (ZHANG Y Y, ZHANG C Z, HE D Q. A review of problem and method recognition and relation extraction in academic papers[J]. Library and information service, 2022, 66(12): 125-138.)

劉春江, 劉自強(qiáng), 方曙.基于SAO的技術(shù)主題創(chuàng)新演化路徑識別及其可視化研究[J]. 情報(bào)學(xué)報(bào), 2023, 42(2): 164-175. (LIU C J, LIU Z Q, FANG S. Evolution path identification and visualization of technological innovation based on SAO[J]. Journal of the China Society for Scientific and Technical Information, 2023, 42(2): 164-175.)

LEWIS M, LIU Y, GOYAL N, et al. Bart: denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension[J]. ArXiv preprint, 2019, arXiv:1910.13461.

VELIKOVI P , CUCURULL G , CASANOVA A , et al. Graph attention networks[J]. ArXiv preprint, 2017, arXiv: 1710.10903.

VINYALS O, FORTUNATO M, JAITLY N. Pointer networks[C]//Proceedings of the 28th international conference on neural information processing systems. Cambridge: MIT Press, 2015, 2: 2692-2700.

索傳軍, 葛倩, 魏長青.基于論題視角的圖情中文期刊論文關(guān)鍵詞標(biāo)注探析——以“基于”類論文為例[J]. 圖書情報(bào)工作, 2022, 66(12): 117-124. (SUO C J, GE Q, WEI C Q. An exploration of keyword labeling for Chinese journal papers in library and information science based on the perspective of paper titles: taking “based” papers as the example[J]. Library and information service, 2022, 66(12): 117-124.)

RAFFEL C, SHAZEER N, ROBERTS A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer[J]. The journal of machine learning research, 2020, 21(1): 5485-5551.

BROWN T, MANN B, RYDER N, et al. Language models are few-shot learners[J]. Advances in neural information processing systems, 2020, 33(4): 1877-1901.

作者貢獻(xiàn)說明/Author contributions:

劉 勘:提出研究問題,確定論文最終版本;

李 冶:設(shè)計(jì)研究方案,撰寫論文;

石鍇文:負(fù)責(zé)研究方案修正及編程實(shí)現(xiàn)。

“Problem-method” Joint Extraction Model in Scientific Literature Based on Syntax and Semantic Association

Liu Kan Li Ye Shi Kaiwen

School of Information Engineering, Zhongnan University of Economics and Law, Wuhan 430073

Abstract: [Purpose/Significance]Discovering research questions and methods from a vast corpus of scientific literature contributes to uncovering research trends, promoting innovation technical approaches, and exploring patterns of knowledge evolution and dissemination in scientific research.[Method/Process]This paper proposed an integrated model for the joint extraction of “Problem-Method” pairs in scientific literature, combining syntactic structural information and semantic relationships. The model employed an encoder-decoder architecture. At the encoding stage, we focused on the abstract text of scientific literature, extracting Subject-Action-Object (SAO) triplets to represent the relationship between research questions and research methods (i.e., research method - acts on - research question). We constructed a semantic association graph based on SAO triplets and utilized Graph Attention Neural Networks (GAT) for encoding. The resulting encoding, combined with the abstract text, serves as input features for the decoder. At the decoding stage, a pointer network was used to extract research questions based on previously extracted research methods, enabling the joint extraction of “Problem-Method” pairs. [Results/Conclusion] Experiments indicate that our model performs well in terms of evaluation metrics and human assessment, enhancing the ability to extract core research questions and methods from the scientific literature.

Keywords: problem-method extraction GAT SAO triples

Fund project(s): This work is supported by the National Natural Science Foundation of China titled “Knowledge System Constructing for Scholars of Excellence Oriented to Academic Innovation” (Grant No. 72174156).

Author(s): Liu Kan, professor, PhD, E-mail: liukan@zuel.edu.cn; Li Ye, master candidate; Shi Kaiwen, master candidate.

Received: 2024-01-15 Published: 2024-07-26

曲阜市| 汝阳县| 阿城市| 南平市| 邹城市| 明溪县| 方正县| 皮山县| 兰州市| 亳州市| 徐水县| 通道| 昌黎县| 连城县| 恩平市| 区。| 宁波市| 宜阳县| 贵溪市| 宜昌市| 韶关市| 利津县| 公主岭市| 朝阳市| 额尔古纳市| 西林县| 连州市| 金山区| 塔城市| 安泽县| 定边县| 封丘县| 伊宁市| 秦皇岛市| 塔城市| 平阳县| 永仁县| 台安县| 荣成市| 海口市| 三台县|