国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

本體與條件隨機(jī)場(chǎng)結(jié)合的涉農(nóng)商品名稱(chēng)抽取與類(lèi)別標(biāo)注

2017-04-17 05:13黃念娥王儒敬
計(jì)算機(jī)應(yīng)用 2017年1期
關(guān)鍵詞:類(lèi)別本體概念

黃念娥,黃 河,王儒敬

(1.中國(guó)科學(xué)院 合肥智能機(jī)械研究所,合肥 230031; 2.中國(guó)科學(xué)技術(shù)大學(xué) 合肥物質(zhì)研究院,合肥 230027)

(*通信作者電子郵箱hhuang@iim.ac.cn)

本體與條件隨機(jī)場(chǎng)結(jié)合的涉農(nóng)商品名稱(chēng)抽取與類(lèi)別標(biāo)注

黃念娥1,2,黃 河1*,王儒敬1

(1.中國(guó)科學(xué)院 合肥智能機(jī)械研究所,合肥 230031; 2.中國(guó)科學(xué)技術(shù)大學(xué) 合肥物質(zhì)研究院,合肥 230027)

(*通信作者電子郵箱hhuang@iim.ac.cn)

傳統(tǒng)的基于條件隨機(jī)場(chǎng)(CRF)的信息抽取方法在進(jìn)行涉農(nóng)商品名稱(chēng)抽取與類(lèi)別標(biāo)注時(shí),需要大量的訓(xùn)練語(yǔ)料,標(biāo)注工作量大,且抽取精度不高。為解決該問(wèn)題,提出了一種基于農(nóng)業(yè)本體與CRF相結(jié)合的涉農(nóng)商品名稱(chēng)抽取與類(lèi)別標(biāo)注方法,將涉農(nóng)商品名稱(chēng)的自動(dòng)抽取與分類(lèi)看作序列標(biāo)注的任務(wù)。首先是原始數(shù)據(jù)的分詞處理和詞、詞性、地理屬性、本體概念特征選擇;然后,采用改進(jìn)的擬牛頓算法訓(xùn)練CRF模型參數(shù),用維特比算法實(shí)現(xiàn)解碼,共完成4組對(duì)比實(shí)驗(yàn),識(shí)別出7種類(lèi)別,并將CRF和隱馬爾可夫模型(HMM)、最大熵馬爾可夫模型(MEMM)通過(guò)實(shí)驗(yàn)進(jìn)行比較;最后,將CRF應(yīng)用于農(nóng)產(chǎn)品供求趨勢(shì)分析。結(jié)合合適的特征模板,本體概念的加入使CRF開(kāi)放測(cè)試的總體準(zhǔn)確率提高10.20%,召回率提高59.78%,F(xiàn)值提高37.17%,證明了本體與CRF結(jié)合方法在涉農(nóng)商品名稱(chēng)和類(lèi)別抽取中的可行性和有效性,可以促進(jìn)農(nóng)產(chǎn)品供求對(duì)接。

條件隨機(jī)場(chǎng);農(nóng)業(yè)本體;涉農(nóng)商品名稱(chēng);供求趨勢(shì);序列標(biāo)注

0 引言

隨著互聯(lián)網(wǎng)的快速發(fā)展,目前已有超過(guò)30 000家的涉農(nóng)電商平臺(tái)[1],如阿里巴巴農(nóng)業(yè)頻道、中國(guó)惠農(nóng)網(wǎng)、順豐優(yōu)選等,這些網(wǎng)站每天會(huì)發(fā)布大量種植業(yè)、林木花卉、農(nóng)機(jī)、農(nóng)具等各類(lèi)涉農(nóng)商品信息。通過(guò)對(duì)這些供求信息的分析,有助于預(yù)測(cè)農(nóng)產(chǎn)品市場(chǎng)趨勢(shì)、及時(shí)發(fā)現(xiàn)買(mǎi)難賣(mài)難、促進(jìn)供求自動(dòng)對(duì)接。然而,對(duì)這些涉農(nóng)供求信息分析之前首先需要對(duì)涉農(nóng)商品名稱(chēng)與類(lèi)別進(jìn)行抽取。如“廠家直銷(xiāo) 兩行玉米播種機(jī) 免剝皮玉米脫粒機(jī)”這條供求信息中,需要抽取出“玉米播種機(jī)”和“玉米脫粒機(jī)”這兩個(gè)涉農(nóng)商品名稱(chēng),同時(shí)類(lèi)別標(biāo)注為農(nóng)業(yè)機(jī)械類(lèi)。這樣,就可以對(duì)一段時(shí)間內(nèi)、不同地域的農(nóng)業(yè)機(jī)械類(lèi)的供求情況進(jìn)行趨勢(shì)分析。

涉農(nóng)商品名稱(chēng)自動(dòng)抽取與類(lèi)別標(biāo)注主要涉及農(nóng)業(yè)領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取,包括基于規(guī)則與基于統(tǒng)計(jì)兩種方法?;谝?guī)則方法依賴(lài)于語(yǔ)言和領(lǐng)域規(guī)則模板的建立[2],需要人工編制大量規(guī)則和有經(jīng)驗(yàn)的領(lǐng)域?qū)<?,系統(tǒng)可移植性差?;诮y(tǒng)計(jì)的方法分為經(jīng)典的統(tǒng)計(jì)方法和統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法。經(jīng)典的統(tǒng)計(jì)方法主要基于詞頻、互信息以及信息熵等。Guan等[3]利用關(guān)聯(lián)規(guī)則、C-value和詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency,TF-IDF)混合算法提取中國(guó)戲曲領(lǐng)域的專(zhuān)業(yè)術(shù)語(yǔ)。該方法克服了基于規(guī)則的缺點(diǎn),但低頻術(shù)語(yǔ)通常不能被有效提取。統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法中,最具代表性的為條件隨機(jī)場(chǎng)(Conditional Random Field, CRF)[4-7],利用序列標(biāo)注的思想,融合上下文多特征提取領(lǐng)域術(shù)語(yǔ)。由于其條件獨(dú)立性,只需考慮當(dāng)前已經(jīng)出現(xiàn)的觀測(cè)狀態(tài)特性,對(duì)于整個(gè)序列內(nèi)部的信息和外部觀測(cè)信息均可有效利用,避免了標(biāo)記偏置問(wèn)題,被廣泛應(yīng)用。孟洪宇[8]通過(guò)CRF融合字符本身、詞性、詞邊界等多特征提取中醫(yī)術(shù)語(yǔ),F(xiàn)值達(dá)到75.56%。Zhan等[9]利用兩層CRF提取簡(jiǎn)單和復(fù)雜的術(shù)語(yǔ),并通過(guò)領(lǐng)域相關(guān)性和一致性提取最終領(lǐng)域術(shù)語(yǔ),F(xiàn)值為82.01%。

傳統(tǒng)CRF需要大規(guī)模的訓(xùn)練語(yǔ)料[10-12]。針對(duì)涉農(nóng)商品名稱(chēng)抽取與類(lèi)別標(biāo)注,由于涉農(nóng)商品名稱(chēng)繁多,人工標(biāo)注工作量大。如“玉米收割機(jī)”進(jìn)行了標(biāo)注,但當(dāng)遇到“小麥?zhǔn)崭顧C(jī)”時(shí),如果樣本沒(méi)有標(biāo)注,依然不能正確抽取,影響了抽取的精確率。而事實(shí)上,如果將“玉米”“小麥”的父類(lèi)概念“糧油作物”作為CRF的一項(xiàng)特征,可實(shí)現(xiàn)由“玉米收割機(jī)”抽取出新詞“小麥?zhǔn)崭顧C(jī)”。因此為實(shí)現(xiàn)對(duì)屬于同一概念的大量新詞(指未在樣本中標(biāo)注的詞)進(jìn)行有效抽取,文中將農(nóng)業(yè)本體與CRF相結(jié)合,引入詞所對(duì)應(yīng)的本體概念作為CRF的特征,賦予涉農(nóng)商品名稱(chēng)以語(yǔ)義知識(shí),同時(shí)結(jié)合詞、詞性、地理位置特征進(jìn)行CRF訓(xùn)練,最終實(shí)現(xiàn)涉農(nóng)商品名稱(chēng)的抽取與類(lèi)別標(biāo)注。通過(guò)學(xué)習(xí)樣本,CRF模型表現(xiàn)出一定的“推理”能力,如將概念為糧油作物和收獲機(jī)械的相鄰實(shí)例詞作為一個(gè)涉農(nóng)商品名稱(chēng)抽取,類(lèi)別識(shí)別為農(nóng)業(yè)機(jī)械類(lèi),概念為生鮮水果和農(nóng)作物種子種苗的相鄰實(shí)例詞抽取為種植業(yè)類(lèi)的涉農(nóng)商品名稱(chēng)等;并將CRF與隱馬爾可夫模型(Hidden Markov Model, HMM)、最大熵馬爾可夫模型(Maximum Entropy Markov Model, MEMM)進(jìn)行比較,同時(shí)用于農(nóng)產(chǎn)品供求趨勢(shì)的分析。表明農(nóng)業(yè)本體與CRF相結(jié)合進(jìn)行涉農(nóng)商品名稱(chēng)抽取與類(lèi)別標(biāo)注方法的有效性。

1 農(nóng)業(yè)本體與CRF

1.1 農(nóng)業(yè)本體

本體是關(guān)于概念體系的明確的、形式化的規(guī)范說(shuō)明[13],農(nóng)業(yè)本體是專(zhuān)業(yè)性的本體,表示的知識(shí)都是針對(duì)農(nóng)業(yè)學(xué)科領(lǐng)域,提供了關(guān)于該領(lǐng)域中概念的詞表以及概念之間的關(guān)系[14-15]。

概念層次是本體的骨架,主要反映概念之間的父類(lèi)子類(lèi)關(guān)系。文中使用阿里巴巴農(nóng)業(yè)(https://www.1688.com/)概念層次體系,結(jié)構(gòu)如圖1所示,該分類(lèi)體系有4個(gè)層次,包括218個(gè)葉子節(jié)點(diǎn),目前已有超過(guò)170萬(wàn)個(gè)農(nóng)業(yè)供求信息映射到該分類(lèi)體系中,因此基本可以涵蓋各種農(nóng)產(chǎn)品供求類(lèi)型,具有很強(qiáng)的覆蓋性。利用本體中的父子類(lèi)概念知識(shí)表示詞所對(duì)應(yīng)的概念,賦予詞以語(yǔ)義。生鮮水果作為蘋(píng)果、草莓的父類(lèi)概念,可用生鮮水果描述蘋(píng)果、草莓;種植業(yè)作為生鮮水果、農(nóng)作物種子種苗的父類(lèi)概念,使用種植業(yè)來(lái)描述生鮮水果、農(nóng)作物種子種苗,也可使用種植業(yè)來(lái)描述蘋(píng)果、草莓、蔬菜種子種苗等,進(jìn)一步增強(qiáng)知識(shí)泛化能力。

圖1 農(nóng)業(yè)本體概念層次樹(shù)

1.2 條件隨機(jī)場(chǎng)

CRF是用來(lái)標(biāo)注和劃分序列結(jié)構(gòu)數(shù)據(jù)的概率化的無(wú)向圖模型[4],具有表達(dá)元素長(zhǎng)距離依賴(lài)性和交疊性特征的能力,在模型中可包含眾多領(lǐng)域知識(shí)[16]。

1.2.1 CRF模型

對(duì)于給定的輸出標(biāo)記序列y=(y1,y2,…,yn)和輸入觀察序列x=(x1,x2,…,xn),CRF通過(guò)定義條件概念p(y|x,λ)來(lái)描述模型。圖2表示CRF鏈?zhǔn)浇Y(jié)構(gòu)。

圖2 CRF鏈?zhǔn)浇Y(jié)構(gòu)

CRF定義的條件概率公式為:

(1)

其中:x為觀察序列;y為標(biāo)記序列;λ=(λ1,λ2,…,λn)為權(quán)重向量;λj為特征函數(shù)的權(quán)重;fj(yi-1,yi,x,i)為對(duì)應(yīng)整個(gè)觀察序列x,標(biāo)記位于i和i-1的特征函數(shù);分母Z(x)為歸一化因子(保證所有可能的狀態(tài)序列概率之和為1),公式如下:

(2)

1.2.2 參數(shù)訓(xùn)練

對(duì)λj求導(dǎo):

分別表示經(jīng)驗(yàn)分布和模型分布中特征的期望值;令式(4)等于0,求λ。

由于改進(jìn)的擬牛頓算法(LimitedBroyden-Fletcher-Goldfarb-Shanno,L-BFGS)只保存并利用近幾次迭代(迭代次數(shù)由使用者控制)的曲率信息來(lái)構(gòu)造海森矩陣的近似矩陣,每次迭代的開(kāi)銷(xiāo)小,執(zhí)行速度快,能保證近似矩陣的正定,算法的魯棒性強(qiáng)[19]。本文選取L-BFGS算法估計(jì)似然參數(shù)λ。

1.2.3 解碼問(wèn)題

對(duì)于x來(lái)說(shuō),CRF要做的就是搜索概率最大的y*,即求解式(5):

(5)

該式可通過(guò)維特比動(dòng)態(tài)規(guī)劃算法[4]進(jìn)行計(jì)算,對(duì)狀態(tài)序列作出最優(yōu)估計(jì)。

模型的具體實(shí)現(xiàn)中,使用了Taku開(kāi)發(fā)的CRF++-0.58工具包[20],該工具包支持自定義特征集,可輸出所有候選的邊際概率值,含訓(xùn)練參數(shù)時(shí)的L-BFGS算法以及解碼時(shí)的維特比算法,可被應(yīng)用到各種各樣的自然語(yǔ)言處理任務(wù)中。實(shí)驗(yàn)在64位Windows7下,裝有Java、C++編譯環(huán)境進(jìn)行,其他配置為IntelPentiumP6200,2.13GHz,2.00GBRAM。

2 數(shù)據(jù)集和特征選擇

2.1 數(shù)據(jù)集

數(shù)據(jù)集選自構(gòu)建農(nóng)業(yè)本體時(shí)使用的阿里巴巴網(wǎng),從中抽取標(biāo)題數(shù)據(jù),包括七大類(lèi):種植業(yè)、園林業(yè)、養(yǎng)殖業(yè)、化肥、農(nóng)業(yè)用具、農(nóng)業(yè)機(jī)械及鮮活水產(chǎn)品加工制品,覆蓋了該網(wǎng)站中近90%的農(nóng)產(chǎn)品信息,每類(lèi)500條。

在轉(zhuǎn)換原始語(yǔ)料格式,構(gòu)造標(biāo)準(zhǔn)的數(shù)據(jù)集時(shí),利用基于開(kāi)源HanLp自然語(yǔ)言處理包[21]的CRF分詞。分詞得到詞和詞性,并去除停用詞,如“阿里巴巴”“淘寶”“順豐”“包郵”等。如“大量供應(yīng)優(yōu)質(zhì)紅小麥”CRF分詞后為“大量/m, 供應(yīng)/vn, 優(yōu)質(zhì)/b, 紅小麥/nz”,首先利用Java程序經(jīng)過(guò)“,”分隔,得到每個(gè)詞的詞和詞性組合,再經(jīng)由“/”分隔,即可轉(zhuǎn)換為符合CRF++-0.58工具包的輸入格式。因涉農(nóng)商品名稱(chēng)很多由三個(gè)及以上詞組成,選取5詞位標(biāo)注法,以詞為單位進(jìn)行序列標(biāo)注,標(biāo)注符號(hào)集為(B,M,E,S,O),為實(shí)現(xiàn)類(lèi)別標(biāo)注,添加符號(hào)集(Z,L,YZ,H,Y,J,X)作為序列標(biāo)注符號(hào)的后綴,各個(gè)符號(hào)含義如表1所示。如涉農(nóng)商品名稱(chēng)為“玉米小麥播種機(jī)”農(nóng)業(yè)機(jī)械類(lèi)中,標(biāo)注為玉米(B-J)小麥(M-J)播種機(jī)(E-J)。

2.2 特征選擇

CRF標(biāo)注算法中,特征選擇以及特征函數(shù)的定義至關(guān)重要,直接關(guān)系到模型的性能。CRF模型的特征一般分為三類(lèi)[22]:原子特征、復(fù)合特征以及全局變量特征,針對(duì)不同語(yǔ)料,選取的特征不同。選取詞Word、詞性(Part-Of-Speech,POS)、地理屬性和農(nóng)業(yè)本體概念作為特征。構(gòu)建特征模板時(shí),使用了對(duì)應(yīng)的原子特征和復(fù)合特征,上下文特征窗口為5。

表1 序列標(biāo)注符號(hào)含義

2.2.1 詞

由于涉農(nóng)商品名稱(chēng)具有領(lǐng)域性,有些詞只在本領(lǐng)域流通,故詞本身包含了最有效的信息,可作為特征。如“拖拉機(jī)”“玉米渣”“葉面肥”可作為農(nóng)業(yè)領(lǐng)域的商品名稱(chēng)。

2.2.2 詞性

詞性特征指當(dāng)前字符的詞性,是涉農(nóng)商品名稱(chēng)的一個(gè)重要特征,一般而言涉農(nóng)商品名稱(chēng)為名詞,復(fù)合名詞,還包括部分動(dòng)詞。如“麥麩/n”“狼/n青犬/nz”“麥稈/n撿拾/v打捆機(jī)/n”可作為涉農(nóng)商品名稱(chēng)。

2.2.3 地理屬性

涉農(nóng)商品名稱(chēng)中有些涉及到地理屬性,如“山東開(kāi)溝機(jī)”“河南特產(chǎn)玉米”“黑龍江大豆”。對(duì)于這類(lèi)數(shù)據(jù),應(yīng)將其地理屬性抽取出來(lái),分詞后詞性標(biāo)注為“ns”的表示地名,因此可很方便地將地理屬性作為特征加入到CRF中。

2.2.4 農(nóng)業(yè)本體概念

選取詞在農(nóng)業(yè)本體中所對(duì)應(yīng)的概念作為CRF的一項(xiàng)特征,將詞進(jìn)行泛化,利用概念知識(shí)表示實(shí)例詞,使詞具有語(yǔ)義。共使用2種本體概念,一種是實(shí)例詞在農(nóng)業(yè)本體概念層次樹(shù)中對(duì)應(yīng)的葉子節(jié)點(diǎn)概念,特征表示為F0;另一種是實(shí)例詞在本體中對(duì)應(yīng)的上層概念,在此指去除葉子節(jié)點(diǎn)和根節(jié)點(diǎn)后所對(duì)應(yīng)的概念,特征用F1表示。文中使用的農(nóng)業(yè)本體概念如表2所示。如“菠蘿莓”對(duì)應(yīng)的葉子節(jié)點(diǎn)概念為“草莓”,對(duì)應(yīng)的上層概念為“生鮮水果”和“種植業(yè)”。

表2 詞所對(duì)應(yīng)的本體概念關(guān)系

詞所對(duì)應(yīng)的農(nóng)業(yè)本體概念通過(guò)維護(hù)領(lǐng)域詞典實(shí)現(xiàn)。而中國(guó)搜農(nóng)網(wǎng)供求搜索欄目(http://www.sounong.net/)共搜集全國(guó)1萬(wàn)多個(gè)農(nóng)業(yè)網(wǎng)站,擁有超過(guò)3萬(wàn)條農(nóng)產(chǎn)品信息,實(shí)現(xiàn)了農(nóng)產(chǎn)品到類(lèi)別的映射,將該知識(shí)與阿里巴巴分類(lèi)體系建立聯(lián)系,實(shí)現(xiàn)涉農(nóng)商品名稱(chēng)到概念的映射,降低人工維護(hù)領(lǐng)域詞典的代價(jià),提高自動(dòng)化程度。圖3表示詞所對(duì)應(yīng)的本體概念標(biāo)注實(shí)現(xiàn)流程。

圖3 詞所對(duì)應(yīng)的本體概念標(biāo)注流程

3 實(shí)驗(yàn)及結(jié)果分析

3.1 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

涉農(nóng)商品名稱(chēng)抽取與類(lèi)別標(biāo)注的結(jié)果評(píng)價(jià)使用3個(gè)指標(biāo):準(zhǔn)確率P、召回率R和F-值[23],公式表示如下:

(6)

(7)

(8)

3.2 基于CRF涉農(nóng)商品名稱(chēng)抽取與類(lèi)別標(biāo)注

選取數(shù)據(jù)集中70%為訓(xùn)練數(shù)據(jù),30%為測(cè)試數(shù)據(jù),實(shí)現(xiàn)開(kāi)放測(cè)試。實(shí)驗(yàn)分為4組,每組包括7大類(lèi),即種植業(yè)、園林業(yè)、養(yǎng)殖業(yè)、化肥、農(nóng)業(yè)用具、農(nóng)業(yè)機(jī)械和鮮活水產(chǎn)品加工制品。第1組選取詞Word、詞性POS、地理屬性作為特征;第2組在前組的基礎(chǔ)上,加入詞在農(nóng)業(yè)本體概念層次樹(shù)中對(duì)應(yīng)的葉子節(jié)點(diǎn)概念特征F0;第3組基于第一組實(shí)驗(yàn)的特征,直接加入詞在農(nóng)業(yè)本體中對(duì)應(yīng)的上層概念特征F1;第4組在第3組實(shí)驗(yàn)特征基礎(chǔ)上,添加特征F0。實(shí)驗(yàn)總體流程如圖4所示。

圖4 實(shí)驗(yàn)總體流程

實(shí)驗(yàn)結(jié)果如表3所示,在第1組特征基礎(chǔ)上,加入本體中對(duì)應(yīng)的葉子節(jié)點(diǎn)特征F0,總的準(zhǔn)確率P和召回率R上升;加入本體中上層概念特征F1,總體召回率大幅度地上升;同時(shí)使用F0和F1特征,準(zhǔn)確率P高的同時(shí)也保證了召回率R高,總體F值達(dá)到92.32%,其中類(lèi)別標(biāo)記為化肥類(lèi)的F值最高96.00%,園林業(yè)類(lèi)的F值最低87.50%,表明基于本體與CRF相結(jié)合進(jìn)行涉農(nóng)商品名稱(chēng)的抽取與類(lèi)別標(biāo)注的方法是有效的。

表3 基于CRF實(shí)驗(yàn)結(jié)果 %

第1組實(shí)驗(yàn)錯(cuò)誤主要有:名詞組合“廣西/ns產(chǎn)地亞/nz熱帶/n”“天山/ns牌/n”“上海/ns強(qiáng)力/n”“荷蘭/ns 十五/nz”等提取為術(shù)語(yǔ);“花卉/n”“磷肥/n”“滴灌管/n”“鮑魚(yú)汁/nz”等未被正確識(shí)別;“玉米/nf./nz小麥/n”“現(xiàn)貨/n鴕鳥(niǎo)蛋/nf”“爆款/nz低價(jià)/n香蕉/nf”“高產(chǎn)量/nz玉米/nf收割機(jī)/n”等作為一個(gè)整體抽取出來(lái);養(yǎng)殖業(yè)、農(nóng)業(yè)機(jī)械類(lèi)的涉農(nóng)商品名稱(chēng)如“比利時(shí)野兔”“山東開(kāi)溝機(jī)”等錯(cuò)誤抽取為種植業(yè)類(lèi)。在大量新的涉農(nóng)商品名稱(chēng)未被有效抽取與分類(lèi)的前提下,保證準(zhǔn)確率高,但召回率低,總體F值為68.30%。

第2組實(shí)驗(yàn)中,加入詞在農(nóng)業(yè)本體概念層次樹(shù)中對(duì)應(yīng)的葉子節(jié)點(diǎn)概念特征F0,減少了錯(cuò)誤分類(lèi)的概率,可將第1組實(shí)驗(yàn)中錯(cuò)誤分類(lèi)的部分名稱(chēng)正確抽取分類(lèi);同時(shí)削弱詞Word、詞性POS特征的權(quán)重,降低了將非涉農(nóng)商品名稱(chēng)的名詞組合錯(cuò)誤識(shí)別為涉農(nóng)商品名稱(chēng)的比率,但泛化能力較弱,對(duì)于新的涉農(nóng)商品名稱(chēng)抽取與分類(lèi)能力很差,準(zhǔn)確率和召回率得到提升,總體F值為72.71%。

第3組直接使用農(nóng)業(yè)本體中的上層概念特征F1,賦予詞以概念知識(shí),大大增強(qiáng)泛化程度,抽取出“菠蘿”“澆花噴壺”“芝麻香油機(jī)”“魷魚(yú)干”等新詞。通過(guò)學(xué)習(xí)樣本,CRF模型表現(xiàn)出一定的“推理”能力,如將概念為生鮮水果的單獨(dú)實(shí)例詞抽取為種植業(yè)類(lèi)的涉農(nóng)商品名稱(chēng),概念為糧油作物和種植機(jī)械的相鄰實(shí)例詞抽取為農(nóng)業(yè)機(jī)械類(lèi)的涉農(nóng)商品名稱(chēng)等。最終召回率大幅度提升,總體F值達(dá)到90.64%。

第4組綜合第2,3組實(shí)驗(yàn)的特征,使用更詳細(xì)的特征和特征模板,準(zhǔn)確率和召回率有所提升,總體F值為92.32%。其中園林業(yè)、養(yǎng)殖業(yè)類(lèi)的F值與其他5類(lèi)相比較低,主要是由于分詞錯(cuò)誤影響較大以及地理屬性未被有效抽取,如將“樟子松木”分詞為“樟子/n松木/n”,“河北小豬”抽取出“小豬”。表4列出了抽取的部分涉農(nóng)商品名稱(chēng)以及標(biāo)注的類(lèi)別。

3.3 CRF與HMM、MEMM算法的比較

利用相同的數(shù)據(jù)集,選取上述第1組實(shí)驗(yàn)中詞、詞性、地理屬性作為特征,分別利用CRF和HMM、MEMM完成開(kāi)放測(cè)試,其中后兩種算法采用機(jī)器學(xué)習(xí)語(yǔ)言工具包(MAchine Learning for LanguagE Toolkit, MALLET)[24]實(shí)現(xiàn),MALLET是用于文本分類(lèi)、主題建模和序列標(biāo)注等的Java工具包,實(shí)驗(yàn)結(jié)果如表5。

表4 抽取的部分涉農(nóng)商品名稱(chēng)及類(lèi)別標(biāo)注

表5 CRF與HMM、MEMM(詞+詞性+地理特征)的比較 %

Tab.5 Comparative results of CRF, HMM and MEMM based on word, part of speech and geographical attributes %

類(lèi)別HMMPRFMEMMPRFCRFPRF種植業(yè)類(lèi)48.5349.8249.1770.3264.9567.5378.4471.8575.00園林業(yè)類(lèi)56.6525.3034.9887.5332.8747.7992.3636.5252.34養(yǎng)殖業(yè)類(lèi)71.4120.7932.2088.2230.8445.7094.7434.5050.58化肥類(lèi)78.5643.4256.0792.7047.2162.5696.1252.6668.04農(nóng)業(yè)用具類(lèi)64.5853.1258.2976.1160.5867.4683.6870.3776.45農(nóng)業(yè)機(jī)械類(lèi)44.0531.6036.8069.4542.7952.9583.3768.6575.30鮮活水產(chǎn)品加工制品類(lèi)72.3631.2343.6381.5737.9451.7986.9646.5160.61總體值62.3032.5942.7979.4143.0155.8084.4057.3668.30

實(shí)驗(yàn)顯示,CRF的性能優(yōu)于HMM、MEMM。主要由于HMM為產(chǎn)生式模型,具有嚴(yán)格的輸出獨(dú)立性假設(shè),不能充分利用上下文多特征信息,對(duì)于由3個(gè)及以上的詞組成的涉農(nóng)商品名稱(chēng)抽取效率差,如將“玉米小麥?zhǔn)崭顧C(jī)”抽取為兩個(gè)涉農(nóng)商品名稱(chēng)“玉米”“小麥?zhǔn)崭顧C(jī)”,容易出現(xiàn)類(lèi)別識(shí)別錯(cuò)誤;MEMM克服了HMM的缺點(diǎn),但使用每一個(gè)狀態(tài)的指數(shù)模型來(lái)計(jì)算給定前一個(gè)狀態(tài)下當(dāng)前狀態(tài)的條件概率,容易陷入局部最優(yōu),存在標(biāo)注偏置的問(wèn)題;而CRF在所有特征上進(jìn)行全局歸一化,能得到全局最優(yōu)解,避免了MEMM缺點(diǎn)。因此文中選取CRF抽取涉農(nóng)商品名稱(chēng)與類(lèi)別標(biāo)注是有效的。

3.4 基于本體與CRF的農(nóng)產(chǎn)品供求趨勢(shì)分析

涉農(nóng)商品名稱(chēng)及類(lèi)別標(biāo)注的有效抽取,不僅有助于促進(jìn)農(nóng)業(yè)供求交易的智能對(duì)接,而且可用于農(nóng)業(yè)供求趨勢(shì)分析,了解市場(chǎng)動(dòng)態(tài)。利用中國(guó)搜農(nóng)網(wǎng)供求搜索欄目抓取的網(wǎng)站數(shù)據(jù)作為原始數(shù)據(jù),通過(guò)第4組實(shí)驗(yàn)的方法,抽取涉農(nóng)商品名稱(chēng)及分類(lèi),圖5(a)~5(d)表示2016年5月3日到6月6日連續(xù)5周內(nèi)的供應(yīng)求購(gòu)趨勢(shì)。由圖5可知,四川省種植業(yè)類(lèi)的商品求購(gòu)量高于湖北省,兩省在第5周都有大幅度的上升;河北省農(nóng)業(yè)機(jī)械類(lèi)的農(nóng)產(chǎn)品周供應(yīng)量較為平穩(wěn),而山東省在第5周時(shí)上升幅度大,達(dá)到591;山東省養(yǎng)殖業(yè)類(lèi)的供應(yīng)量遠(yuǎn)高于江蘇省,而園林業(yè)的供應(yīng)量則低于江蘇省,反映出各地區(qū)農(nóng)產(chǎn)品供應(yīng)的差異性。根據(jù)這些供應(yīng)求購(gòu)趨勢(shì)信息,買(mǎi)賣(mài)雙方可依據(jù)地理位置,來(lái)選擇適合的產(chǎn)品,更好地促成實(shí)時(shí)交易,如山東省的客戶(hù)想購(gòu)買(mǎi)玉米剝殼機(jī),通過(guò)供應(yīng)趨勢(shì)圖,則可就近選擇較好的相關(guān)產(chǎn)品,給購(gòu)買(mǎi)者提供方便。

圖5 各類(lèi)供應(yīng)求購(gòu)趨勢(shì)

4 結(jié)語(yǔ)

本文基于農(nóng)業(yè)本體與條件隨機(jī)場(chǎng)CRF相結(jié)合抽取涉農(nóng)商品名稱(chēng)實(shí)現(xiàn)類(lèi)別標(biāo)記,在詞、詞性和地理屬性特征基礎(chǔ)上,自動(dòng)添加詞所對(duì)應(yīng)的農(nóng)業(yè)本體概念特征,對(duì)實(shí)例名稱(chēng)進(jìn)行不同程度的泛化,賦予詞以語(yǔ)義和概念知識(shí)。通過(guò)實(shí)驗(yàn),在一定范圍內(nèi),泛化程度越高,CRF模型表現(xiàn)出的“推理”能力越強(qiáng),可有效地抽取測(cè)試語(yǔ)料中首次出現(xiàn)的涉農(nóng)商品名稱(chēng)并分類(lèi),在準(zhǔn)確率高的前提下,也保證了召回率,大量減少訓(xùn)練語(yǔ)料,降低人工工作量,與HMM、MEMM比較,體現(xiàn)出CRF的性能更優(yōu),并將此方法用于農(nóng)產(chǎn)品供求趨勢(shì)分析,可了解市場(chǎng)動(dòng)態(tài)。原始語(yǔ)料以及分詞工具的選取直接關(guān)系到CRF模型的性能,在今后的研究工作中,一方面將進(jìn)行分詞方法改進(jìn),選取不同的訓(xùn)練語(yǔ)料,進(jìn)行CRF涉農(nóng)商品名稱(chēng)抽取研究,進(jìn)一步提升準(zhǔn)確率和召回率,另一方面嘗試從降低算法的復(fù)雜度入手,提高效率。

References)

[1] 于連軍.基于互聯(lián)網(wǎng)+的農(nóng)業(yè)電子商務(wù)發(fā)展模式的研究[J].農(nóng)業(yè)網(wǎng)絡(luò)信息,2015(11):19-21.(YU L J.Research on the development model of agricultural E-commerce based on Internet+ [J].Agriculture Network Information, 2015(11): 19-21.)

[2] LI L S, DAND Y Z, ZHANG J, et al.Domain term extraction based on conditional random fields combined with active learning strategy [J].Journal of Information & Computational Science, 2012, 9(7): 1931-1940.

[3] GUAN A Q, WANG Y B, YANG L F.Automatic term extraction for Chinese opera domain ontology [C]// Proceedings of the 12th International Conference on Fuzzy Systems and Knowledge Discovery.Piscataway, NJ: IEEE, 2015: 1372-1376.

[4] 宗成慶.統(tǒng)計(jì)自然語(yǔ)言處理[M].2版.北京:清華大學(xué)出版社,2013:110-128.(ZONG C Q.Statistical Natural Language Processing [M].2nd ed.Beijing: Tsinghua University Press, 2013: 110-128.)

[5] WALLACH H M.Conditional random fields: an introduction, technical report MS-CIS-04-21 [R].Philadelphia, PA: University of Pennsylvania, 2004: 262-272.

[6] FU W J, LI L.A method and application of automatic term extraction using conditional random fields [C]// Proceedings of the 2009 International Conference on Natural Language Processing and Knowledge Engineering.Piscataway, NJ: IEEE, 2009: 1-5.

[7] ZHANG C Z, WANG H L, LIU Y, et al.Automatic keyword extraction from documents using conditional random fields [J].Journal of Computational Information System, 2008, 4(3): 1169-1180.

[8] 孟洪宇.基于條件隨機(jī)場(chǎng)的《傷寒論》中醫(yī)術(shù)語(yǔ)自動(dòng)識(shí)別[D].北京:北京中醫(yī)藥大學(xué),2014:41-48.(MENG H Y.Automatic identification of TCM terminology in Shanghan Lun based on conditional random field [D].Beijing: Beijing University of Chinese Medicine, 2014:41-48.)

[9] ZHAN Q, WANG C H.A Hybrid strategy for Chinese domain-specific terminology extraction [C]// Proceedings of the 11th International Conference on Semantics, Knowledge and Grids.Piscataway, NJ: IEEE, 2015: 217-221.

[10] 王春雨.基于CRF的農(nóng)業(yè)命名實(shí)體識(shí)別研究[D].保定:河北農(nóng)業(yè)大學(xué),2014:19-23.(WANG C Y.Study on recognition of Chinese agricultural named entity with CRF [D].Baoding: Agricultural University of Hebei, 2014: 19-23.)

[11] CAO Y S, WANG J, LI L.Word-level information extraction from science and technology announcements corpus based on CRF [C]// Proceedings of the 2nd IEEE International Conference on Cloud Computing and Intelligence Systems.Piscataway, NJ: IEEE, 2012: 1529-1533.

[12] IZUMI M, MIURA T, SHIOYA I.Estimating the date of blog authors by CRF [C]// Proceedings of the 2007 IEEE Pacific Rim Conference on Communications, Computers and Signal Processing.Piscataway, NJ: IEEE, 2007: 249-252.

[13] GRUBER T R.A translation approach to portable ontology specifications [J].Knowledge Acquisition, 1993, 5(2): 199-220.

[14] 李傳席.基于本體的自適應(yīng)Web信息抽取方法研究[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2012:15-17.(LI C X.Adaptive Web information extraction method research based on ontology [D].Hefei: University of Science and Technology of China, 2012: 15-17.)

[15] LIU X G, DUAN X H, ZHANG H Y.Application of ontology in classification of agricultural information [C]// Proceedings of the 2012 IEEE Symposium on Robotics and Applications.Piscataway, NJ: IEEE, 2012: 451-454.

[16] 周晶,吳軍華,陳佳,等.基于條件隨機(jī)域CRF模型的文本信息抽取[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,29(23):6094-6097.(ZHOU J, WU J H, CHEN J, et al.Using conditional random fields model for text information extraction [J].Computer Engineering and Design, 2008, 29(23):6094-6097.)

[17] LAFFERTY J, MCCALLUM A, PEREIRA F.Conditional random fields: probabilistic models for segmenting and labeling sequence data [C]// Proceedings of the 18th International Conference on Machine Learning.San Francisco, CA: Morgan Kaufmann, 2001: 282-289.

[18] Sunfox66.條件隨機(jī)場(chǎng)詳解[EB/OL].(2015-10-25)[2016-01-17].http://wenku.baidu.com/view/bbd57f82fc4ffe473268ab59.html.(Sunfox66.Conditional random field introduction [EB/OL].(2015-10-25)[2016-01-17].http://wenku.baidu.com/view/bbd57f82fc4ffe473268ab59.html.)

[19] LIU D, NOCEDAL J.On the limited memory BFGS method for large scale optimization [J].Mathematical Programming, 1989, 45(45): 503-528.

[20] TAKU K.CRF++ toolkit [EB/OL].(2014-10-15)[2016-01-15].http://download.csdn.net/detail/linson3344/8039087.

[21] HANKCS.Han language processing [EB/OL].(2015-03-27)[2016-01-28].http://www.hankcs.com/nlp/hanlp.html.

[22] 施水才,王鍇,韓艷鏵,等.基于條件隨機(jī)場(chǎng)的領(lǐng)域術(shù)語(yǔ)識(shí)別研究[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(10):147-149.(SHI S C, WANG K, HAN Y H, et al.Terminology recognition based on conditional random fields [J].Computer Engineering and Applications, 2013, 49(10): 147-149.)

[23] 賈美英,楊炳儒,鄭德權(quán),等.采用CRF技術(shù)的軍事情報(bào)術(shù)語(yǔ)自動(dòng)抽取研究[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(32):126-129.(JIA M Y, YANG B R, ZHENG D Q, et al.Research on automatic military intelligence term extraction using CRF model [J].Computer Engineering and Applications, 2009, 45(32): 126-129.)

[24] MCCALLUM A K.MALLET: a machine learning for language toolkit [EB/OL].(2002-02-28)[2016-02-25].http://mallet.cs.umass.edu.

This work is partially supported by the National Science and Technology Support Program (2013BAD15B03), Chinese Academy of Sciences Key Deployment Project (Y622A21291), the Scientific and Technological Project of Anhui Province (1401032010).

HUANG Nian’e, born in 1991, M.S.candidate.Her research interests include information extraction, vertical search engine.

HUANG He, born in 1980, Ph.D., associate professor.His research interests include agriculture big data, agricultural intelligent system.

WANG Rujing, born in 1964, Ph.D., professor.His research interests include knowledge representation and visualization, knowledge acquisition.

Agriculture-related product name extraction and category labeling based on ontology and conditional random field

HUANG Nian’e1,2, HUANG He1*, WANG Rujing1

(1.InstituteofIntelligentMachines,ChineseAcademyofSciences,HefeiAnhui230031,China;2.HefeiInstituteofPhysicalScience,UniversityofScienceandTechnologyofChina,HefeiAnhui230027,China)

Traditional information extraction method based on Conditional Random Field (CRF) requires large-scale labeled corpus, it is expensive to label corpus manually and the extraction precision is low in processing agriculture-related product name extraction and category labeling.In order to solve this problem, a method of agriculture-related product name extraction and category labeling based on agricultural ontology and CRF was proposed, automatic extraction and classification of agriculture-related product names was regarded as sequence labeling.Firstly, original data was processed, word, part of speech, geographical attributes and ontology concept features were selected.Then, parameters of the CRF model were trained by the improved quasi-Newton algorithm and decoding was implemented by Viterbi algorithm.A total of four groups of comparative experiments were completed and seven categories were identified.CRF, Hidden Markov Model (HMM) and Maximum Entropy Markov Model (MEMM) were compared through experiments.Finally, the supply and demand trend analysis of agriculture produce was accomplished.The experimental results show that the overall precision, recall andF-score of the open test were increased by 10.20%, 59.78% and 37.17% respectively by adding ontology concepts with appropriate CRF features; it also proves the feasibility, effectiveness and practical significance of the method in promoting automatic supply and demand docking of agricultural products.

Conditional Random Field (CRF); agricultural ontology; agriculture-related product name; supply and demand trend;sequence labeling

2016-08-02;

2016-09-19。

國(guó)家科技支撐計(jì)劃項(xiàng)目(2013BAD15B03);中國(guó)科學(xué)院重點(diǎn)部署項(xiàng)目(Y622A21291);安徽省科技攻關(guān)項(xiàng)目(1401032010)。

黃念娥(1991—),女,安徽安慶人,碩士研究生,主要研究方向:信息抽取、垂直搜索引擎; 黃河(1980—),男,安徽合肥人,副研究員,博士,主要研究方向:農(nóng)業(yè)大數(shù)據(jù)、農(nóng)業(yè)智能系統(tǒng); 王儒敬(1964—),男,安徽亳州人,研究員,博士,主要研究方向:知識(shí)表示與可視化、知識(shí)獲取。

1001-9081(2017)01-0233-06

10.11772/j.issn.1001-9081.2017.01.0233

TP391.1; TP18

A

猜你喜歡
類(lèi)別本體概念
Birdie Cup Coffee豐盛里概念店
論陶瓷刻劃花藝術(shù)類(lèi)別與特征
眼睛是“本體”
一起去圖書(shū)館吧
幾樣概念店
一種基于社會(huì)選擇的本體聚類(lèi)與合并機(jī)制
深入概念,活學(xué)活用
專(zhuān)題
Care about the virtue moral education
選相紙 打照片