魏恒,紀(jì)芳,李儒夢
摘要:隨著互聯(lián)網(wǎng)的不斷發(fā)展,信息抽取技術(shù)也在不斷革新與進(jìn)步,將植物描述信息結(jié)構(gòu)化,對于植物分類學(xué)和植物標(biāo)本的采集鑒定等進(jìn)一步的深入研究具有重要意義。文章結(jié)合實體屬性抽取技術(shù),構(gòu)建了植物信息知識庫,從而實現(xiàn)了一個新型的植物問答系統(tǒng),使用戶能直接得到準(zhǔn)確具體的答案。
關(guān)鍵詞:實體屬性抽取;植物知識庫;問答系統(tǒng)
中圖分類號:G642.0 ? ? 文獻(xiàn)標(biāo)志碼:A ? ? 文章編號:1674-9324(2020)01-0070-02
一、引言
互聯(lián)網(wǎng)的不斷發(fā)展,推動了信息抽取技術(shù)的不斷革新與進(jìn)步。實體屬性抽取作為信息抽取的重要組成部分,其主要任務(wù)是抽取不同類型實體的獨有屬性特征。在非結(jié)構(gòu)屬性抽取中,目的是給定實體,從非結(jié)構(gòu)化文本中抽取(實體、屬性、屬性值)三元組[1]。盡管實體屬性抽取在國內(nèi)外成為一些領(lǐng)域的研究熱點[2],但針對植物領(lǐng)域的研究仍然較少。并且由于植物專業(yè)術(shù)語的特殊性,其邊界難以確定,導(dǎo)致其他領(lǐng)域的屬性集與技術(shù)不可完全移植。此外,植物信息檢索目前只能通過傳統(tǒng)的搜索引擎(如百度)或相關(guān)網(wǎng)站(如《中國植物志》官網(wǎng))完成,用戶只能得到相關(guān)網(wǎng)頁鏈接或大段非結(jié)構(gòu)化的文本描述,需要耗費大量的精力去篩選有用信息,不能直接得到準(zhǔn)確具體的答案。針對這些情況,本文在植物領(lǐng)域結(jié)合實體屬性抽取技術(shù),構(gòu)建了較全的植物信息知識庫,從而實現(xiàn)了植物問答系統(tǒng)。
二、基于實體屬性抽取的植物知識庫構(gòu)建
本文將基于實體屬性抽取的植物知識庫構(gòu)建分解為三項任務(wù):數(shù)據(jù)獲取與預(yù)處理、分詞與標(biāo)注、屬性與關(guān)系抽取并構(gòu)建知識庫。
1.數(shù)據(jù)獲取與預(yù)處理?!吨袊参镏尽啡珪?0卷,126冊,5000多萬字,記載了我國3萬多種植物,是目前世界上最龐大、種類最豐富的一部巨著。其中,種子植物數(shù)量約占總植物的80%。本文選其作為原始數(shù)據(jù)進(jìn)行研究。使用爬蟲從電子版網(wǎng)站(http://frps.eflora.cn)上獲取種子植物的相關(guān)數(shù)據(jù)。由于這些植物網(wǎng)頁的結(jié)構(gòu)可能有所不同,因而需要網(wǎng)頁清洗,進(jìn)行規(guī)范化處理。網(wǎng)頁是標(biāo)記語言構(gòu)建的半結(jié)構(gòu)化文本。將網(wǎng)頁解析成DOM樹,去除無關(guān)的HTML標(biāo)簽元素,提取植物的有效信息。進(jìn)行規(guī)范化處理,將植物的描述文本分為科學(xué)名稱、形態(tài)特征、地理分布、經(jīng)濟(jì)用途等文本塊。
2.分詞與標(biāo)注。本文基于種子植物的相關(guān)專業(yè)知識,確定了種子植物的基礎(chǔ)性狀及其屬性取值的范圍,構(gòu)建了植物屬性特征詞典,進(jìn)一步提高了植物實體屬性信息抽取的準(zhǔn)確性??紤]到中文的特性,尤其許多植物的專有名詞難以被計算機區(qū)分,為節(jié)省時間成本,對于植物信息描述,本文使用中文分詞軟件Jieba進(jìn)行分詞處理和詞性標(biāo)注預(yù)處理。由于植物專業(yè)術(shù)語的特殊性,為保證準(zhǔn)確率,在分詞前會將上述自主構(gòu)建的植物屬性特征詞典導(dǎo)入該軟件。此外,對于可能出現(xiàn)的嵌套詞等計算機無法識別的部分則進(jìn)行手工處理。通過分析與標(biāo)注,得到預(yù)處理的語料。
3.屬性與關(guān)系抽取并構(gòu)建知識庫。本文采用基于規(guī)則的方法進(jìn)行實體屬性與關(guān)系的抽取。并且使用RDF模型表示被識別和抽取的信息。RDF表達(dá)式的基本結(jié)構(gòu)是三元組,每個三元組由一個主體、一個謂詞和一個客體組成。首先,定義屬性規(guī)則集,包括通用規(guī)則和專用規(guī)則,進(jìn)行植物屬性抽取。通用規(guī)則,即針對具有共性的描述形式定義的提取規(guī)則。在《中國植物志》中,種子植物的信息描述大部分具有規(guī)律性和一致性。如:植物描述一般都是從生長習(xí)性、根、莖、葉、花、果實描述到物候?qū)W特征,對于較復(fù)雜的器官結(jié)構(gòu),則依其構(gòu)成進(jìn)一步展開;描述文本的句子通常以表示植物結(jié)構(gòu)的名詞詞組(先導(dǎo)詞)開頭;一些屬性具有內(nèi)部特征,如顏色的標(biāo)志為“色”,形狀的標(biāo)志為“狀”“形”等;標(biāo)點符號起一定作用,如“、”表示某一屬性的屬性值并列,“;”表示葉片與葉柄的分離,“?!北硎靖c葉的分離等。專用規(guī)則,即針對不同植物具有特性的描述形式定義的規(guī)則。譬如,在有些植物描述花的語句中出現(xiàn)“植物結(jié)構(gòu)”+“數(shù)量”的形式,抽取時需合理設(shè)定語序?;谕ㄓ靡?guī)則和專用規(guī)則,定義屬性規(guī)則集,用正則匹配的方式抽取出植物的屬性,包括生長類型、顏色、形狀、形態(tài)、質(zhì)地、毛被、花期、果期、長度、寬度、高度、胸徑等。在表示植物屬性的RDF模型中,三元組的主體是實體,謂詞是屬性,客體是屬性值,譬如“油杉”“高度”“30m”。其次,定義關(guān)系規(guī)則集,進(jìn)行植物關(guān)系抽取。由于數(shù)據(jù)的限制,本文從中只抽取到了3種關(guān)系:地域關(guān)系、異名關(guān)系、變種關(guān)系。地域關(guān)系可表示為一個植物實體與多個地域的關(guān)系,也可表示為多個植物實體與一個地域的關(guān)系。異名關(guān)系和變種關(guān)系也是如此。在表示植物關(guān)系的RDF模型中,三元組的主體是實體,謂詞是關(guān)系,客體是實體,譬如“油杉”“產(chǎn)于”“浙江南部、福建、廣東、廣西南部”。最后,通過數(shù)據(jù)庫實現(xiàn)RDF模型的實際存儲就完成了植物知識庫的構(gòu)建。
三、植物問答系統(tǒng)的實現(xiàn)
植物問答系統(tǒng)的實現(xiàn)包括三個部分:用戶輸入、調(diào)用問答模塊、答案輸出。其中,問答模塊的構(gòu)建是核心。本文基于自主構(gòu)建的結(jié)構(gòu)化植物知識庫,并且參照相關(guān)問答系統(tǒng)[3],確定本系統(tǒng)的問答模塊分為四個部分,包括問題分類、問題分析、三元組語義槽提取、答案生成。
1.問題分類。對于用戶輸入的問題,確定是屬性問題還是關(guān)系問題。譬如,問題“油杉有多高?”是屬性問題,問題“油杉產(chǎn)自哪里?”是關(guān)系問題。
2.問題分析。對問題進(jìn)行分析,確定句子中的實體、屬性或關(guān)系。譬如,問題“油杉有多高?”中的實體是“油杉”,屬性是“高度”;問題“油杉產(chǎn)自哪里?”中的實體是“油杉”,關(guān)系是“地域”。
3.三元組語義槽提取。從問題分析的結(jié)果中提取語義信息,用三元組表示。譬如,從問題“油杉有多高”中提取出三元組(“油杉”“高度”“?”),從問題“油杉產(chǎn)自哪里”中提取出三元組(“油杉”“產(chǎn)于”“?”)(“?”表示未知)。
4.答案生成。根據(jù)問題分類和提取到的三元組,在知識庫的屬性部分和關(guān)系部分中選擇查詢,填充三元組中的未知部分,生成答案。譬如,問題“油杉有多高?”查詢填充后的三元組為“油杉”“高度”“30m”,答案為“30m”;問題“油杉產(chǎn)自哪里?”查詢填充后的三元組為“油杉”“產(chǎn)于”“浙江南部、福建、廣東、廣西南部”,答案為“浙江南部、福建、廣東、廣西南部”。
將構(gòu)建的問答模塊結(jié)合Web應(yīng)用,即可實現(xiàn)植物問答系統(tǒng)。
四、結(jié)語
本文實現(xiàn)了一個基于實體屬性抽取的植物問答系統(tǒng),對于植物分類學(xué)和植物標(biāo)本的采集鑒定等進(jìn)一步地深入研究具有重要意義。筆者希望有更多的有志之士能夠投身這個課題的研究之中,并指出筆者在文中的不足之處,同時為這一課題的研究做出自己應(yīng)有的一份貢獻(xiàn)。
參考文獻(xiàn):
[1]曾道建,來斯惟,張元哲,劉康,趙軍.面向非結(jié)構(gòu)化文本的開放式實體屬性抽取[J].江西師范大學(xué)學(xué)報(自然科學(xué)版),2013,(03):279-283,305.
[2]丁君軍,鄭彥寧,化柏林.國內(nèi)外屬性抽取研究綜述[J].情報科學(xué),2011,(05):793-796.
[3]杜澤宇,楊燕,賀樑.基于中文知識圖譜的電商領(lǐng)域問答系統(tǒng)[J].計算機應(yīng)用與軟件,2017,(05):159-165.
Research on Plant Question Answering System Based on Entity Attribute Extraction
WEI Heng,JI Fang,LI Ru-meng
(School of Information Science & Technology,Beijing Forestry University,Beijing 100083,China)
Abstract:With the continuous development of the Internet,information extraction technology is also in constant innovation and progress,the plant description information structured,for plant taxonomy and plant specimen collection and identification of further in-depth research is of great significance.In this paper,a knowledge base of plant information is constructed by combining entity attribute extraction technology,so as to realize a new plant question answering system and enable users to get accurate and specific answers directly.
Key words:entity attribute extraction;plant knowledge base;question answering system