葉輝,姬東鴻
1.廣州中醫(yī)藥大學(xué),廣東 廣州 510016;2.武漢大學(xué),湖北 武漢 430007
基于多特征條件隨機(jī)場的《金匱要略》癥狀藥物信息抽取研究
葉輝1,姬東鴻2
1.廣州中醫(yī)藥大學(xué),廣東 廣州 510016;2.武漢大學(xué),湖北 武漢 430007
目的 結(jié)合自然語言處理方法,研究可以有效抽取中醫(yī)古籍中所含癥狀和藥物文本實體信息的方法。方法 以《金匱要略》為例,采用條件隨機(jī)場(CRF)算法,先將文本進(jìn)行分詞處理,然后以詞性、基于鍵值對的中醫(yī)診斷標(biāo)記集作為輔助特征,通過癥狀-藥物 BlO標(biāo)簽為訓(xùn)練特征來訓(xùn)練出模型,然后利用該模型對測試集文本進(jìn)行自動標(biāo)簽標(biāo)注。結(jié)果 基于多特征CRF自動標(biāo)注的結(jié)果準(zhǔn)確率達(dá)到84.5%,召回率達(dá)到70.9%,F(xiàn)測度值達(dá)到77.1%。結(jié)論 運(yùn)用CRF方法加入詞性、中醫(yī)診斷標(biāo)記集特征集進(jìn)行訓(xùn)練得出的多特征模型,能有效提高CRF算法對中醫(yī)古籍的實體抽取能力,生成的模型可用來自動化抽取中醫(yī)古籍文本的癥狀藥物實體信息。
條件隨機(jī)場;《金匱要略》;癥狀藥物信息抽??;中醫(yī)古籍
中國醫(yī)學(xué)存在大量的醫(yī)藥病案和古籍,如《傷寒論》《金匱要略》等中醫(yī)藥經(jīng)典。后人通過閱讀理解這些經(jīng)典,能夠?qū)W習(xí)名醫(yī)的經(jīng)典藥方和治療思路,甚至可以挖掘在古籍中的藥物信息,通過現(xiàn)代技術(shù)的藥物提純提煉,找出治療某種疾病的特效藥物。但由于中醫(yī)藥術(shù)語一直缺乏標(biāo)準(zhǔn),古籍中的古文又偏澀難懂,科研人員想要獲取古籍中的癥狀和藥物信息比較費(fèi)時,因此研究利用計算機(jī)自然語言處理中的算法高效地自動識別古籍里的中醫(yī)藥治療信息具有實際的應(yīng)用價值。
目前,醫(yī)學(xué)實體識別的方法主要有基于字典、基于規(guī)則和基于機(jī)器學(xué)習(xí)的方法[1],而基于機(jī)器學(xué)習(xí)的方法是主流。例如基于隱馬爾可夫模型、決策樹、支持向量機(jī)、最大熵、隨機(jī)條件場等方法等,這些方法把詞性、詞形等特征融入到機(jī)器學(xué)習(xí)模型中,利用訓(xùn)練得到的學(xué)習(xí)模型從生物醫(yī)學(xué)文本集合中識別出指定類型的名稱。
2001年,條件隨機(jī)場(conditional random fields, CRF)由美國Lafferty等人提出[2],結(jié)合了最大熵模型和隱馬爾可夫模型的特點,是一種無向圖模型,近年來在分詞、詞性標(biāo)注和命名實體識別等序列標(biāo)注任務(wù)中取得了很好的效果,該模型的特性表明它非常適用于醫(yī)學(xué)領(lǐng)域的命名實體識別研究。有鑒于此,本文采用CRF算法對中醫(yī)古籍《金匱要略》的醫(yī)學(xué)癥狀和藥物實體識別進(jìn)行研究。
在自然語言處理領(lǐng)域中,CRF模型可以使用字、詞、詞性等上下文特征,也可以引用詞典等外部特征,即可以將任意相關(guān)知識源融入文本特征中,解決了序列標(biāo)注和文本切分的問題,且在英文序列標(biāo)記名詞短語識別等方面取得了較好效果。CRF最常用的結(jié)構(gòu)為線性鏈,可以有效克服隱馬爾可夫模型假設(shè)條件的限制及最大熵模型標(biāo)記偏執(zhí)的問題。
一般采用CRF做醫(yī)學(xué)術(shù)語抽取包括特征選取、參數(shù)估計和結(jié)果標(biāo)注 3個步驟,首先選擇相關(guān)特征,然后利用所選特征對數(shù)據(jù)進(jìn)行訓(xùn)練,得出特征函數(shù)權(quán)重參數(shù),最后通過輸入測試數(shù)據(jù),使用訓(xùn)練好的模型對文本進(jìn)行序列標(biāo)記,完成醫(yī)學(xué)命名實體識別。
1.1 數(shù)據(jù)準(zhǔn)備與分詞
CRF的訓(xùn)練和測試選用了 CRF++工具包來實現(xiàn),CRF++工具包是一個可用于分詞、連續(xù)數(shù)據(jù)標(biāo)注的簡單、可定制的開源的條件隨機(jī)場工具。首先要對《金匱要略》文本進(jìn)行語料預(yù)處理和標(biāo)注,然,后將其標(biāo)注的語料分為 2個部分,70%的部分作為訓(xùn)練語料,30%的部分作為測試語料。利用CRF訓(xùn)練測試的步驟概括如圖1。
圖1 基于多特征的條件隨機(jī)場的中醫(yī)癥狀-藥物抽取步驟
《金匱要略》全書共25篇,方劑262首,列舉內(nèi)外科病癥60余種。由于年代久遠(yuǎn),古文意思較為難懂,又兼具通假字較多,所以首先要進(jìn)行必要的數(shù)據(jù)清洗,如古文中的“之乎者也”不影響上下文醫(yī)學(xué)表達(dá)的詞都去掉。分詞處理使用中國科學(xué)院計算技術(shù)研究所開發(fā)的 ICTCLAS 2015分詞工具,此版本比過往版本對中文分詞處理更加完善。但由于分詞系統(tǒng)沒有經(jīng)過大量古文的自然語言方面的優(yōu)化,所以分出來的詞匯偏向以單字的形式出現(xiàn)比較多。最后本文采用書中前 1~22篇的文本清洗后的分詞結(jié)果共15 525詞條作為實驗數(shù)據(jù)集。
1.2 多特征選擇
術(shù)語識別中可以利用的特征有很多,根據(jù)不同的文本和識別任務(wù)可以引入不同的特征,如字符、拼音、詞性、詞邊界、各類命名實體列表、引導(dǎo)信息和頻次統(tǒng)計及語法依賴關(guān)系和句子傾向性等,不同的特征對術(shù)語識別有不同的影響[3]。同時,特征數(shù)的增加對抽取效果的改善有積極作用。根據(jù)《金匱要略》的文本特征,本實驗選用以下3個特征。
特征 1:詞性。詞性是中文文本處理中常用的一項特征,詞性特征指當(dāng)前字符的詞性,本研究釆用 ICTCLAS2015的二級標(biāo)注對語料庫的詞條進(jìn)行自動詞性標(biāo)注,如:“極寒傷經(jīng)”被系統(tǒng)標(biāo)注為“極/d寒/a傷/v經(jīng)/n”,其中d、a、v、n分別代表該詞詞性為副詞、形容詞、動詞、名詞。
特征 2:采用鍵值對模型的中醫(yī)診斷標(biāo)記集進(jìn)行診斷標(biāo)注。王國龍等[4]發(fā)現(xiàn),使用基于鍵值對模型的中醫(yī)診斷標(biāo)記集標(biāo)注的中醫(yī)古文在基于詞匯聯(lián)系的隱馬爾可夫模型測試中得到比較好的結(jié)果,因此本文參考鍵值對模型的中醫(yī)診斷標(biāo)記集作為輔助特征引入到實驗中。其中剔去時機(jī)、屬性、附加描述這幾個標(biāo)記,簡化后的鍵值對模型的中醫(yī)診斷標(biāo)記如表1。
表1 鍵值對模型的中醫(yī)診斷標(biāo)記集的標(biāo)注情況
特征 3:癥狀-藥物類別標(biāo)簽。該特征作為術(shù)語識別過程中的狀態(tài)值特征。中醫(yī)癥狀一般包括主癥、舌象及脈象、部位、部位表征描述等信息,藥物包括方劑和治法。本文通過總結(jié)中醫(yī)對癥狀和藥物的處理方式,形成表 2的標(biāo)記集。在識別類別的基礎(chǔ)上采用“BIO”法標(biāo)記[5],其中 B(beginning)表示術(shù)語的首字符,I(intermediate)表示術(shù)語的非首字符和結(jié)束字符,O(outside)表示非術(shù)語字符。由于中醫(yī)診斷中對于脈象比較關(guān)注,因此在癥狀-脈象中特別標(biāo)簽了癥狀-脈類和癥狀-脈象,以提取其中的脈診知識。另外對癥狀也進(jìn)行了標(biāo)簽處理。
表2 CRF基于癥狀-藥物的類別標(biāo)簽
1.3 語料訓(xùn)練與測試
應(yīng)用 CRF++要求事先指定一種功能模板。本文根據(jù)《金匱要略》文本特點設(shè)定一個特征模板,該模板用于描述訓(xùn)練文本和測試文本中的特征,進(jìn)而提取訓(xùn)練集中的特征參數(shù)來實現(xiàn)測試文本標(biāo)簽的計算。模板文件中的每一行表示一個子模版,表達(dá)方式為:%X[row, col],一個子模板表示輸入數(shù)據(jù)的一個 Token。本文設(shè)計將相鄰位置的特征進(jìn)行聯(lián)合,有助于識別錯分詞或長距離詞。本實驗1和2選擇模板窗口的大小為前后兩行[-2,+2]。實驗2設(shè)計例子見表3。
表3 CRF實驗2設(shè)計例子
利用CRF++train訓(xùn)練工具,按照表3的訓(xùn)練集格式進(jìn)行訓(xùn)練得出模型文件 model,然后再利用CRF++test工具將該模型應(yīng)用到測試集中去,最后得出帶有癥狀-藥物自動標(biāo)簽的測試集。
1.4 實驗設(shè)計
本文設(shè)計了 2組實驗,通過對照組與實驗組的對比,測試采用不同特征的基于 CRF的《金匱要略》癥狀-藥物識別的性能及不同特征對性能的影響情況。實驗 1是單一特征對照實驗,僅選用詞本身、癥狀-藥物標(biāo)記(參見表 2)進(jìn)行實驗作為基準(zhǔn)。實驗 2選用詞、詞性、簡化的中醫(yī)診斷標(biāo)記集(參見表 1),癥狀-方劑-藥物標(biāo)記(參見表 2)的多特征進(jìn)行實驗,然后對以上 2組實驗的結(jié)果用conlleval工具進(jìn)行測評,分析多特征對實驗識別效能的影響。
1.5 評價標(biāo)準(zhǔn)
基于CRF的中醫(yī)專業(yè)術(shù)語識別性能的評估采用3個指標(biāo):準(zhǔn)確率(precision, P)、召回率(recall,R)和 F測度值(F-Measure)。P指抽取的信息中正確抽取的比例;R指正確抽取的信息占應(yīng)抽取信息的比例;F測度值即為正確率和召回率的調(diào)和平均值。其中 F測度值能比較合理地反映該信息抽取的有效程度。
實驗組1為實驗的基準(zhǔn),采用單一特征的CRF方法,得到抽取詞組準(zhǔn)確率 P為 72.0%,召回率 R 為55.3%,F(xiàn)測度值為62.5%;而實驗組2引入多特征,再采用CRF處理后,得到抽取詞組準(zhǔn)確率P為84.5%,召回率R為70.9%,F(xiàn)測度值為77.1%。見表4。單一特征進(jìn)行分詞和癥狀藥物BIO標(biāo)簽訓(xùn)練的F測度值比較低,而運(yùn)用了分詞、詞性、中醫(yī)診斷簡化標(biāo)記和癥狀藥物 BIO多特征標(biāo)簽后,F(xiàn)測度值結(jié)果升高到 77.1%,說明引入該組合特征模型的識別效能較優(yōu)??梢妼τ谥嗅t(yī)古籍的實體信息抽取,采用診斷標(biāo)記和語言學(xué)規(guī)則(如詞性、分詞等)相結(jié)合的多特征模型,可令CRF抽取信息效果提高。
表4 CRF2個實驗組結(jié)果分析
本文主要通過CRF工具對《金匱要略》進(jìn)行癥狀-藥物信息提取,首先經(jīng)過分詞處理語料,然后加入詞性、中醫(yī)診斷標(biāo)記等多個標(biāo)注特征對中醫(yī)癥狀-藥物 BIO標(biāo)簽進(jìn)行訓(xùn)練和測試,得到 F測度值77.1%,比只運(yùn)用單一特征的 CRF抽取的結(jié)果效率更高,可見利用本文提出的多特征模型的CRF提取方法對中醫(yī)古籍的信息抽取有良好的效果。通過對《金匱要略》等中醫(yī)古籍的信息抽取研究,為將來建立中醫(yī)藥搜索引擎及新藥物發(fā)掘等方面提供了一種可行的方法。
[1] 馬瑞民,馬民艷.基于CRFs的多策略生物醫(yī)學(xué)命名實體識別[J].齊齊哈爾大學(xué)學(xué)報,2011,27(1):39-42.
[2] LAFFERTY JD, MCCALLUM A, PEREIRA FCN. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C]//The 18th International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers Inc. ,2001:282-289.
[3] 孟洪宇.基于條件隨機(jī)場的《傷寒論》中醫(yī)術(shù)語自動識別研究[D].北京:北京中醫(yī)藥大學(xué),2014:33-34
[4] 王國龍,杜建強(qiáng),郝竹林,等.中醫(yī)診斷古文的詞性標(biāo)注與特征重組[J].計算機(jī)工程與設(shè)計,2015,36(3):836-841.
[5] 魏尊強(qiáng),舒紅平,王亞強(qiáng).基于序列標(biāo)注的中醫(yī)癥狀名識別技術(shù)研究[J].山東工業(yè)技術(shù),2015(8):237-238.
Research on Symptom and Medicine Information Abstraction of TCM Book Jin Gui Yao Lue Based on Conditional Random Field
YE Hui1, JI Dong-hong2
(1. Guangzhou Chinese Medicine University, Guangzhou Guangdong 510006, China; 2. Wuhan University,Wuhan Hubei 430007, China)
Objective To find an efficient way to abstract symptoms and medicine information from TCM book Jin Gui Yao Lue through combination of natural language processing method. Methods Taking Jin Gui Yao Lue as an example and by using conditional random fields (CRF), texts were processed according to words, and then part of speech and key assignments based on TCM diagnosis marker group were set as auxiliary features. Symptom-medicine BIO labels were set as the training features to train the model. Then this model was used to conduct automatic labeling to tested texts. Results The accuracy rate of automatic labeling based on multifeature CRF was 84.5%, recall rate 70.9%, F measure value 77.1%. Conclusion The multi-feature model trained through CRF combined with part of speech and TCM diagnosis marker group can successfully improve abstraction entity information ability from ancient TCM books. The model can be used to automatically abstract symptom and medicine entity information from ancient TCM books.
conditional random fields (CRF); Jin Gui Yao Lue; symptom and medicine information abstraction; ancient TCM books
R222.3
A
2095-5707(2016)05-0014-04
葉輝,姬東鴻.基于多特征條件隨機(jī)場的《金匱要略》癥狀藥物信息抽取研究[J].中國中醫(yī)藥圖書情報雜志,2016,40(5):14-17. DOI: 10.3969/j.issn.2095-5707.2016.05.004
2016-06-08)
(
2016-08-08;編輯:魏民)
2014廣東省中醫(yī)藥局建設(shè)中醫(yī)藥強(qiáng)省科研課題(20141073);廣東財政專項(2013170)
葉輝,講師,研究方向為醫(yī)學(xué)信息學(xué)。E-mail:yehui@gzucm.edu.cn