趙頌歌 張浩 常寶寶
摘 要:科技術(shù)語提取是科技術(shù)語自動處理的重要環(huán)節(jié),對后續(xù)的機器翻譯、信息檢索、QA問答等任務(wù)有重要意義。傳統(tǒng)的人工科技術(shù)語提取方法耗費大量的人力成本。而一種自動提取科技術(shù)語方法是將術(shù)語提取轉(zhuǎn)化為序列標(biāo)注問題,通過監(jiān)督學(xué)習(xí)方法訓(xùn)練出標(biāo)注模型,但是面臨缺乏大規(guī)模科技術(shù)語標(biāo)注語料庫的問題。文章引入遠(yuǎn)程監(jiān)督的方法來產(chǎn)生大規(guī)模訓(xùn)練標(biāo)注語料。另外又提出基于自注意力機制的Bi-LSTM的模型架構(gòu)來提高科技術(shù)語提取結(jié)果。發(fā)現(xiàn)新模型在發(fā)現(xiàn)新的科技術(shù)語的能力上遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)機器學(xué)習(xí)模型(CRF)。
關(guān)鍵詞:科技術(shù)語提取;遠(yuǎn)程監(jiān)督;自注意力
中圖分類號:TP391;N04;H083文獻(xiàn)標(biāo)識碼:ADOI:10.3969/j.issn.1673-8578.2021.02.003
Research on Automatic Extraction of Scientific Terminology from Texts Based on Self-Attention//ZHAO Songge,ZHANG Hao,CHANG Baobao
Abstract: Scientific terminology uses specific words to represent certain scientific concepts. The extraction of scientific terminology is an important part of the automatic processing of scientific terminology, and it is of great significance for the following tasks such as machine translation, information retrieval, and questions and answers. The traditional extraction of scientific terminology consumes a lot of manpower cost, and an automatic method for extracting scientific terminology is transforming terminology extraction into tagging problem and training out the tagging model through supervised learning methods, while the lack of annotated large-scale scientific terminology corpus is the problem. This paper introduces the method of distant supervision to generate large-scale annotated training corpus, and proposes Bi-LSTM model architecture based on Self-attention mechanism for the purpose of improving the extraction results of scientific terminology. We found that the ability of discovering new scientific terminology about our new model is far superior to the traditional machine learning model (CRF).
Keywords: the extraction of scientific terminology; distant supervision; self-attention
引言
科技術(shù)語作為科技領(lǐng)域信息知識的載體,有著廣泛的使用。在科技迅猛發(fā)展的今天,新的術(shù)語更是被不斷創(chuàng)造出來。科技術(shù)語的及時發(fā)現(xiàn)也是了解這些領(lǐng)域的關(guān)鍵。對于這些新出現(xiàn)的術(shù)語,相關(guān)組織每年都要花費巨大的人力物力進行統(tǒng)計和抽取,如何自動地提取術(shù)語是術(shù)語工作人員迫切希望解決的一個問題。傳統(tǒng)的基于人工的科技術(shù)語提取方法當(dāng)今已經(jīng)不再適用,為此國內(nèi)外的許多學(xué)者也對術(shù)語提取這個任務(wù)開展了一系列的研究工作。
早期Kageura[1]提出了術(shù)語具有術(shù)語度(termhood)和單元度(unithood)兩個屬性。研究者基于這兩個屬性開展了很多的研究。Pantel[2]嘗試?yán)没バ畔ⅲ╩utual-information)和對數(shù)似然比(log-likelihood)來衡量單元度;Hisamitsu[3]嘗試?yán)霉铂F(xiàn)(co-occurrence);Chang[4]嘗試?yán)糜蜷g熵(inter-domain entropy)來判別術(shù)語;Frantzi[5]在2000年提出C/NC value,用來衡量候選術(shù)語的術(shù)語度;Nakagawa[6]基于C-value提出MC-value;Wermter[7]針對多詞術(shù)語,提出P-Mod(paradigmatic modifiability)指標(biāo),也有人使用術(shù)語方差(term variance)、術(shù)語方差質(zhì)量(term variance quality)及術(shù)語貢獻(xiàn)度(term contribution)。同時,有人嘗試使用機器學(xué)習(xí),例如:Zhou[8]使用 SVM 對候選術(shù)語做多分類, Zhang[9]嘗試使用 CRF,Li[10]嘗試?yán)迷掝}模型的變種來解決。
科技術(shù)語提取任務(wù)面臨很多需要解決的問題,主要包括以下兩點。
(一)對于有監(jiān)督的機器學(xué)習(xí)模型來說,需要大規(guī)模標(biāo)注語料,由于人工標(biāo)注成本巨大,且目前對于科技術(shù)語提取任務(wù)來說標(biāo)注語料非常少,數(shù)據(jù)稀少。所以更高效地獲取大規(guī)模的標(biāo)注語料對于有監(jiān)督的模型來說是亟須解決的難題。
(二)對于傳統(tǒng)機器學(xué)習(xí)模型來說,需要設(shè)計更加精細(xì)的人工特征,即特征工程。而特征工程任務(wù)非常煩瑣,需要耗費人員巨大的精力。所以對于科技術(shù)語提取任務(wù)來說,特征的選擇也是亟須解決的問題。
本文針對第一個問題,引入遠(yuǎn)程監(jiān)督的訓(xùn)練方法,通過術(shù)語詞典對無標(biāo)注語料自動標(biāo)注,高效快捷地產(chǎn)生大規(guī)模訓(xùn)練標(biāo)注語料;針對第二個問題,在單層和多層Bi-LSTM基礎(chǔ)上引入自注意力機制提高模型提取科技術(shù)語的能力,從而省去特征工程的煩瑣。
1 術(shù)語標(biāo)注數(shù)據(jù)集的自動構(gòu)建
遠(yuǎn)程監(jiān)督是一種典型的弱監(jiān)督機器學(xué)習(xí)方法,在機器學(xué)習(xí)的算法當(dāng)中,我們很多情況下是需要訓(xùn)練數(shù)據(jù)用來訓(xùn)練模型的。那么傳統(tǒng)獲得訓(xùn)練數(shù)據(jù)的方式就是人工標(biāo)注,例如:對于“婚姻”這個關(guān)系,人們會將“克林頓”和“希拉里”當(dāng)作是“婚姻”這個關(guān)系的正例。但是在海量的數(shù)據(jù)中人工標(biāo)注的代價是很大的,也因為數(shù)據(jù)量太大,人工標(biāo)注也會有誤標(biāo)的情況。針對這個局限,基于半監(jiān)督學(xué)習(xí)的思想,Mintz等人[11]提出了遠(yuǎn)程監(jiān)督(distant supervision)。Mintz 等人當(dāng)時要處理的問題背景是關(guān)系提取這個任務(wù),人工標(biāo)注的語料太小,于是作者就根據(jù) Freebase 里出現(xiàn)的實體對無標(biāo)注語料(《紐約時報》新聞文本)進行自動標(biāo)注關(guān)系(例如:“克林頓”和“希拉里”在 Freebase 里是 “婚姻”關(guān)系,那么在一個無標(biāo)注語料的句子中如果出現(xiàn)了“克林頓”和“希拉里”,那么我們認(rèn)為這個句子中的“克林頓”和“希拉里”就是一種婚姻關(guān)系,這個句子就會被當(dāng)作“婚姻”關(guān)系的正例)。通過這種方法,可以將海量的無標(biāo)注數(shù)據(jù)自動標(biāo)注為有標(biāo)注數(shù)據(jù)。
所以本研究的思路是利用給定的科技文本和科技術(shù)語詞典,采用遠(yuǎn)程監(jiān)督的思想來快速構(gòu)建標(biāo)注語料庫。給定一段科技文本,如果有詞語出現(xiàn)在科技術(shù)語詞典里,那么我們就認(rèn)為這是“屬于術(shù)語”關(guān)系的正例,該詞就被打上了術(shù)語的標(biāo)簽。圖1很好地解釋了我們標(biāo)注的過程,紅色代表科技術(shù)語。
如圖1所示,我們在科技術(shù)語詞典查詢分詞后的句子的每個單詞,如果找到了對應(yīng)的詞條就認(rèn)為該詞為科技術(shù)語,否則就不是科技術(shù)語,作為負(fù)例。
本研究遵循最長匹配優(yōu)先的方法。另外考慮到各個領(lǐng)域都積累了大量的術(shù)語詞典資源,利用這種方式構(gòu)造術(shù)語標(biāo)注語料,不會面臨術(shù)語詞典缺乏的問題。
2 基于Bi-LSTM科技術(shù)語提取
2.1 基于單層Bi-LSTM科技術(shù)語提取
本節(jié)主要利用單層Bi-LSTM(雙向長短期記憶網(wǎng)絡(luò))結(jié)構(gòu)來進行科技術(shù)語提取。這里我們把科技術(shù)語提取當(dāng)作序列標(biāo)注任務(wù),每一個詞語都與一個標(biāo)簽對應(yīng)。我們采用了比較常見的BIEOS標(biāo)簽,即B(科技術(shù)語開始的位置),I(科技術(shù)語中間的位置),E(科技術(shù)語結(jié)束的位置),O(科技術(shù)語以外的位置),S(單獨作為一個科技術(shù)語)。
給定模型輸入句子,X=x1,x2,x3,x4,…,xn,其中xn代表輸入句子中的每個詞語,模型輸出Y=y1,y2,y3,y4,…,yn,其中yn代表每個詞語的標(biāo)簽,也就是BIEOS中的一種。
鑒于語篇特征對科技術(shù)語識別具有重要作用。這一點與詞類標(biāo)注、分詞等典型序列標(biāo)注任務(wù)不同,為了使模型表現(xiàn)能力更強,我們選擇Tf、Idf兩個特征作為額外信息輸入。
Tf:term frequency(詞頻),指目標(biāo)詞在整個文本中出現(xiàn)的次數(shù),在整個文本里出現(xiàn)得越多,說明越重要。這是一種簡單直觀的特征。
Idf:inverse document frequency(逆向文本頻率)。如公式(1)所示,分子是語料庫中文件總數(shù),分母是包含目標(biāo)詞的文件總數(shù),二者相除再取一個對數(shù),Idf是對一個詞普遍性的重要度量。而在實際的應(yīng)用當(dāng)中,為了防止有些詞的頻率為0,即沒有出現(xiàn)過,導(dǎo)致分母為0,通常取加1的平滑處理。
圖2是單層Bi-LSTM模型結(jié)構(gòu)圖,給定輸入通過Embedding層轉(zhuǎn)換成詞向量,另外我們還選擇了每個詞的詞性作為輸入,把詞向量和經(jīng)過隨機初始化的詞性向量連同Tf、Idf拼接起來一起作為最終輸入。對于Bi-LSTM的輸出,把正向和反向的結(jié)果拼接在一起,然后經(jīng)過MLP(多層感知機),再經(jīng)過激活函數(shù)。經(jīng)過比較,我們選擇了ReLU函數(shù)作為激活函數(shù)。
idfi=logDj:ti∈dj+1(1)
H;H=BiLSTMX(2)
H=H;H(3)
Hmlp=Wmlp*H+Bmlp(4)
Hrelu=RelUHmlp(5)
對于非線性層的輸出,我們利用softmax函數(shù)來進行類別概率的預(yù)測,然后選擇標(biāo)簽概率最大的當(dāng)作最終結(jié)果。公式如下:
PY=i|Hrelu,Wsoftmax,Bsoftmax=softmaxi(WsoftmaxHrelu+Bsoftmax)(6)
Ypred=argmaxiPY=i|Hrelu,Wsoftmax,Bsoftmax(7)
而我們的損失函數(shù)是交叉熵?fù)p失函數(shù)(cross-entropy cost function),如公式(8)所示
Lθ=W,B=-∑nk=1∑5i=1pkilogyki(8)
其中pki是第K個樣本術(shù)語類別i的概率,yki是我們網(wǎng)絡(luò)模型對第K個樣本預(yù)測屬于類別i的概率,而我們一共有5個類別。
2.2 基于多層Bi-LSTM科技術(shù)語提取
對于多層Bi-LSTM,每一層的輸出要經(jīng)過正反向拼接。向量維度會變成原來的2倍也就是2 * hidden_size,為了使維度不變,我們利用一層MLP(多層感知機)來達(dá)到壓縮維度的目的。多層Bi-LSTM的輸出處理和單層Bi-LSTM一樣,具體可參見2.1小節(jié)。
3 基于自注意力機制的科技術(shù)語提取
由于注意力機制能更好地捕捉到局部信息,在任務(wù)中科技術(shù)語往往和臨近的單詞的關(guān)系最為密切。在“研究/了/機抖/陀螺/的/零偏/和/溫度/的/關(guān)系/”這句話中,加粗的就是要提取的科技術(shù)語,但是直觀上看,“零偏”“溫度”等一些詞對術(shù)語提取沒有影響,而“機抖”“陀螺”作為賓語修飾了“研究”這個動詞,它們直接的關(guān)系應(yīng)該比較密切,并且“機抖”“陀螺”這兩個詞構(gòu)成科技術(shù)語,它們本身的聯(lián)系也應(yīng)當(dāng)比較緊密。所以我們的出發(fā)點就是想利用注意力機制這種原理,探究在分類的問題上能不能取得一定的效果,讓分類器在注意力機制的幫助下更好地觀察到局部信息,而不是全局信息。由于對序列標(biāo)注任務(wù)來說,只有句子單獨的信息,所以attention操作要對自己進行,所以我們在每一個時間維度上面都要對其他向量做一次attention操作。圖3就是網(wǎng)絡(luò)的具體結(jié)構(gòu)示意圖。
ci=∑Txj=1αijhj(9)
αij=expeij∑Txk=1exp eik(10)
eij=ahi-1,hj(11)
ahi-1,hj=hTi-1hjdothTi-1WahjgeneralvTatanhWahTi-1;hjconcat(12)
Ho=concatH:C(13)
其中h是Bi-LSTM在每個時間點拼接后的輸出,ci是每個當(dāng)前時間點的輸出對其他時間點的輸出做的attention過程加權(quán)求和得到的向量。而對于計算得分函數(shù),經(jīng)過對比實驗結(jié)果,最終選擇了general的方法。另外一點不同的是,因為經(jīng)過self-attention拼接后,輸出的向量維度變成了4 * hidden_size大小,如果把4 * hidden_size大小的向量直接映射到hidden_size 大小,會造成信息的局部損失,所以我們選擇了兩層MLP和非線性層進行處理,使模型的表達(dá)能力更強一些。
4 實驗結(jié)果及分析
4.1 科技術(shù)語標(biāo)注語料庫產(chǎn)生過程
我們發(fā)現(xiàn)科技論文的摘要非常適合做科技術(shù)語提取任務(wù),因為摘要作為一篇論文的精髓總結(jié),不僅具有非常強的專業(yè)領(lǐng)域性,而且出現(xiàn)新詞的概率非常大,所以我們采用了科技論文摘要來構(gòu)建語料庫。下面介紹具體的產(chǎn)生過程。
1)轉(zhuǎn)換論文格式文本為可處理的文本
首先我們找到了一些國內(nèi)計算機領(lǐng)域期刊的caj格式的論文,批量地將caj 格式轉(zhuǎn)化為pdf格式,成功轉(zhuǎn)化pdf的文件有116 107個,然后基于Linux 的一個工具包 pdf to text,批量地將 pdf 文件轉(zhuǎn)化為txt文件。
2)清洗數(shù)據(jù)和分詞及詞性標(biāo)注
對每個txt 文件根據(jù)關(guān)鍵字進行定位,其中基于“摘要”和“關(guān)鍵詞”獲得相應(yīng)的文本信息,因為原始文本是論文格式的,在格式轉(zhuǎn)化過程中,會有空格、斷詞、連詞的問題出現(xiàn)。對于中文,我們把所有的空格、縮進符等無用字符刪除即可得到過濾后的中文文本,最終獲得的中文摘要數(shù)量有64 919個。然后我們利用NLTK工具包對中文摘要進行自動分詞和詞性標(biāo)注。
3)自動標(biāo)注訓(xùn)練語料
我們利用爬蟲程序爬取了一個計算機領(lǐng)域的中英文科技術(shù)語詞典,經(jīng)過處理后得到 70 669個中文科技術(shù)語,為了在遠(yuǎn)程監(jiān)督的自動標(biāo)注中避免短詞造成的誤標(biāo),剔除了3個詞以下的科技術(shù)語,只保留長度大于等于3的科技術(shù)語,經(jīng)過剔除最終剩下64 748個中文科技術(shù)語。然后利用最長匹配優(yōu)先的方法在訓(xùn)練語料中進行匹配。如果訓(xùn)練語料中出現(xiàn)了科技術(shù)語詞典中的詞,我們就將其標(biāo)記為科技術(shù)語并標(biāo)注相應(yīng)的標(biāo)簽。最終,從64 919個術(shù)語中隨機選取100個進行人工標(biāo)注作為測試集,從剩下的文本中隨機選取60 000個作為訓(xùn)練集。
4.2 模型參數(shù)
我們使用word2vec[12]于整個訓(xùn)練集進行了預(yù)訓(xùn)練,獲得了50維,100維向量,最終比較實驗結(jié)果和權(quán)衡計算速度我們選取了50維的向量。詞性向量我們使用了隨機初始化的30維向量,初始學(xué)習(xí)率為0.1,Bi-LSTM隱層大小(hidden_size)選擇100。為了減少過擬合問題,模型增加Dropout和L2正則化,Dropout為0.5,L2系數(shù)為0.001。訓(xùn)練方法我們采用了隨機梯度下降(SGD)。
4.3 實驗結(jié)果對比
本文在我們提出的語料庫上做了CRF,單層和多層Bi-LSTM 以及基于自注意力機制的Bi-LSTM的對照實驗。實驗評測指標(biāo)我們選取了整個科技術(shù)語(term)的準(zhǔn)確率Pterm,召回率Rterm和F值Fterm。
CRF:我們考慮將CRF引入的原因,是基于有指導(dǎo)學(xué)習(xí)的術(shù)語識別多采用CRF(zhang[9])方法,因此選擇CRF在構(gòu)造的數(shù)據(jù)集上實驗作為基線對比。
我們利用CRF++[13]工具選取了5個模板。對于條件隨機來說,由于無法利用詞向量和詞性向量這樣的特征,為了和深度學(xué)習(xí)模型保持一致,我們選詞語本身、詞性分類名以及Tf、Idf作為特征。Unigram和Bigram模板分別生成CRF的狀態(tài)特征函數(shù)slyi,x,i和轉(zhuǎn)移特征函數(shù)tkyi-1,yi,x,i。其中yi代表類別標(biāo)簽,x代表觀察序列,i代表當(dāng)前節(jié)點位置。給定序列X=…xi-2,xi-1,xi,xi+1,xi+2…和當(dāng)前位置i我們可以定義xi-1,w,xi,w,xi,w,xi,tf等一系列Unigram模板,其中w,tf分別代表詞語本身和Tf值。Bigram是在Unigram的基礎(chǔ)上增加了上一個節(jié)點的標(biāo)簽。5種CRF模板的Unigram選擇依據(jù)是從只考慮前后2個詞逐步增加上下文信息,增加詞性、Tf、Idf等特征。Unigram的數(shù)量也在逐步增加。Bigram模板只考慮前后2個節(jié)點的標(biāo)簽。在實驗過程中,我們使用的是CRF++工具包,工具包分別利用crf_learn和 crf_test 對訓(xùn)練數(shù)據(jù)、訓(xùn)練模型和對測試數(shù)據(jù)進行預(yù)測。最終5個模板會訓(xùn)練出5個模型,對應(yīng)個測試實驗結(jié)果。表2是對應(yīng)5個模板的特征選擇和實驗結(jié)果,其中模板4的結(jié)果最好。
表3是我們利用不同層數(shù)Bi-LSTM以及加入自注意力機制之后的結(jié)果以及和CRF結(jié)果最好的模板4對比。可以明顯看出在加入自注意力機制之后,F(xiàn)term在原來的基礎(chǔ)上都有了不同程度的提高,證明了自注意力機制確實能在一定程度上更好捕捉到局部信息,加強關(guān)鍵科技術(shù)語詞與詞的聯(lián)系,從而提高結(jié)果。
4.4 自注意力機制可視化分析
從圖4中可以看出對于“研究”這個詞,自注意力機制學(xué)到了它和“機抖”“陀螺”之間有著很強的依賴關(guān)系。這也符合漢語語法中“研究”和“機抖陀螺”組成動賓短語的關(guān)系。而“機抖”“陀螺”這兩個詞構(gòu)成科技術(shù)語,它們之間也存在著很強的依賴關(guān)系,通過圖4也可以看出它們對應(yīng)的方塊顏色比較深,這也說明了自注意力機制能比較好地捕捉到局部信息。
4.5 發(fā)現(xiàn)新詞
新詞即為沒有出現(xiàn)在我們標(biāo)注所用的科技術(shù)語的詞典中的新的科技術(shù)語。我們經(jīng)過分析每個模型的測試集結(jié)果輸出,發(fā)現(xiàn) CRF 模型能夠根據(jù)訓(xùn)練數(shù)據(jù)學(xué)習(xí)到科技術(shù)語上下文的特征信息。但是由于模型本身的缺陷,這種能力非常有限,只能發(fā)現(xiàn)非常少量的新詞。對于簡單的單層以及多層Bi-LSTM而言抽象能力有限,發(fā)現(xiàn)的斷詞比較多,比如“主成分”“路由”等,在加入自注意力機制后模型有了更強的抽象能力,也更好地捕獲了局部信息,對應(yīng)地找到了“主成分分析法”“路由優(yōu)化算法”這些完整的科技術(shù)語。測試集標(biāo)注結(jié)果去重后共有448個科技術(shù)語,其中新詞有225個,兩層自注意力機制Bi-LSTM發(fā)現(xiàn)的新詞有54個,發(fā)現(xiàn)率為24%,同等條件下CRF模型發(fā)現(xiàn)率僅為5.3%。
為了解決在科技術(shù)語提取任務(wù)方面缺少大規(guī)模標(biāo)注語料庫的問題,我們利用遠(yuǎn)程監(jiān)督的方法,快速高效地構(gòu)建了帶標(biāo)注的語料庫,并且提出了利用自注意力機制來更好地抽象模型,捕獲局部信息,提高科技術(shù)語提取F值。另外又做了多組對比試驗,包括CRF、單層和多層Bi-LSTM以及基于自注意力機制的單多層Bi-LSTM,證明了自注意力機制的有效性。另外通過分析實驗結(jié)果發(fā)現(xiàn)我們的模型在發(fā)現(xiàn)新詞的能力上要遠(yuǎn)遠(yuǎn)強于傳統(tǒng)機器學(xué)習(xí)方法。
參考文獻(xiàn)
[1] KAGEURA K, UMINO B. Methods of Automatic Term Recognition [J].Terminology , 1996, 3(2):29-35.
[2] PANTEL P, LIN D. A Statistical Corpus-Based Term Extractor[M]//STUMPTNER M, CORBETT D, BROOKS M. Advances in Artificial Intelligence.Berlin Heidelberg: Springer-Verlag,2001:36-46.
[3] HISAMITSU T,NIWA Y,TSUJII J. A method of measuring term representativeness baseline method using co-occurrence distribution[C]. COLING, 2000:320-326.
[4] CHANG J S. Domain specific word extraction from hierarchical web documents: a first step toward building lexicon trees from web corpora[C]//Proceedings of the 4th SIGHAN Workshop on Chinese Language Learning: 64-71.
[5] FRANTZI K, ANANIADOU S,MIMA H. Automatic recognition of multi-word terms: the C value/NC-value method[J]. International Journal on Digital Libraries, 2000,3(2):115-130.
[6] NAKAGAWA H, MORI T. A simple but powerful automatic term extraction method[C]//Proceedings of 2nd International Workshop on Computational Terminology. COLING-2002 WORKSHOP, 2002, 109(4):229-30.
[7] WERMTER, JOACHIM, HAHN, et al. Paradigmatic modifiability statistics for the extraction of complex multi-word terms[J].Proceedings of HLT-EMNLP05, 2005:843-850.
[8] JU Z, ZHOU M, ZHU F. Identifying biological terms from text by support vector machine[J]. Industrial Electronics and Applications, 2011:455-458.
[9] ZHANG X, SONG Y, FANG A C. Term recognition using Conditional Random fields[J]. International Conference on Natural Language Processing and Knowledge Engineering,2010:1-6.
[10] LI S, LI J, SONG T, et al. A novel topic model for automatic term extraction[C]//Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval (SIGIR13). 2013:885-888.
[11] MINTZ M, BILLS S, SNOW R, et al. Distant supervision for relation extraction without labeled data[C]. Meeting of the association for computational linguistics, 2009: 1003-1011.
[12]word2vec project.[EB/OL].(2013-07-30)[2020-04-07]. https://code. google. com/p/word2vec.
[13] CRF++: Yet Another CRF toolkit.[EB/OL].(2013-02-13)[2020-04-08]. http://taku910. github. io/crfpp.
作者簡介:趙頌歌(1995—),男,北京大學(xué)信息科學(xué)技術(shù)學(xué)院研究生。研究方向為術(shù)語抽取、自然語言生成等。通信方式:zhaosongge@pku.edu.cn。
張浩(1993—),男,北京大學(xué)軟件與微電子學(xué)院碩士研究生。研究方向為術(shù)語抽取、語義搜索、視頻推薦等。通信方式:hao-zhang@pku.edu.cn。
常寶寶(1971—),博士,北京大學(xué)信息科學(xué)技術(shù)學(xué)院副教授。主要研究領(lǐng)域為自然語言處理。先后主持了多個國家自然科學(xué)基金和國家社會科學(xué)基金等項目。在包括ACL、EMNLP、COLING、IJCAI、AAAI等國際頂級會議在內(nèi)的國內(nèi)外學(xué)術(shù)會議及期刊上發(fā)表論文近百篇。作為主要成員,先后獲得教育部科技進步一等獎、中國電子學(xué)會科技進步一等獎、國家科技進步二等獎等。擔(dān)任《中國科技術(shù)語》編委、《中文信息學(xué)報》編委、中國中文信息學(xué)會計算語言學(xué)專業(yè)委員會委員、中國人工智能學(xué)會自然語言理解專業(yè)委員會委員等。通信方式:chbb@pku.edu.cn。