国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中文分詞系統(tǒng)在中醫(yī)藥科研中的應(yīng)用

2014-11-17 17:16謝松
科技創(chuàng)新與應(yīng)用 2014年33期

謝松

摘 要:中文分詞與數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥領(lǐng)域應(yīng)用越來越廣泛,文章分析比較了目前的常用的幾種中文分詞算法,采用其中逆向最長匹配算法,以《中醫(yī)藥大詞典》為輔助詞典,設(shè)計開發(fā)了適用于中醫(yī)藥科研的中文分詞系統(tǒng),在多項中醫(yī)藥數(shù)據(jù)挖掘科研工作中得到了廣泛的應(yīng)用。

關(guān)鍵詞:中文分詞;逆向最長匹配算法;中藥方劑

1 概述

中醫(yī)藥是中華民族的傳統(tǒng)瑰寶,經(jīng)過幾千年的傳承和發(fā)展,積累了豐富的臨床經(jīng)驗和浩瀚的文獻(xiàn)資料,為實現(xiàn)中醫(yī)藥現(xiàn)代化,需要將古今中醫(yī)藥信息資源和現(xiàn)代先進(jìn)的信息技術(shù)相結(jié)合。通過應(yīng)用現(xiàn)代計算機(jī)技術(shù)對浩如煙海的中醫(yī)藥文獻(xiàn)資料進(jìn)行信息資源處理,可以促進(jìn)中醫(yī)藥知識的利用轉(zhuǎn)化及傳播推廣。

分詞是中文信息處理的基礎(chǔ),對于輸入的一段中文,成功的進(jìn)行中文分詞,可以達(dá)到計算機(jī)自動識別語句含義的效果。中文分詞是自動翻譯、數(shù)據(jù)挖掘技術(shù)、自然語言處理等信息處理領(lǐng)域的基礎(chǔ)環(huán)節(jié),長期以來一直是研究的重點。近年來數(shù)據(jù)挖掘技術(shù)越來越受到中醫(yī)藥學(xué)者的重視,中文分詞在中醫(yī)藥領(lǐng)域也得到越來越廣泛地應(yīng)用。

2 中文分詞技術(shù)的算法

現(xiàn)有的分詞算法可分為三大類: 基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法[1]。

2.1 基于字符串匹配的分詞方法

基于字符串匹配的分詞方法又叫做機(jī)械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優(yōu)先匹配的情況,可以分為最大(最長)匹配和最?。ㄗ疃蹋┢ヅ洹;谧址ヅ涞姆衷~方法優(yōu)點是分詞速度快,算法簡單且易于實現(xiàn),但是不具備歧義處理能力。

2.2 基于理解的分詞方法

基于理解的分詞方法是通過讓計算機(jī)模擬人對句子的理解,達(dá)到識別詞的效果。其基本思想就是在分詞的同時進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。由于漢語語言知識的籠統(tǒng)、復(fù)雜性,難以將各種語言信息組織成機(jī)器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗階段。

2.3 基于統(tǒng)計的分詞方法

基于統(tǒng)計的分詞方法對語料中的字組頻度進(jìn)行統(tǒng)計分詞,不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計取詞方法。其理論依據(jù)是在上下文中,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度。

但這種方法也有一定的局限性,會經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組,例如“這一”、“之一”、“有的”等,并且對常用詞的識別精度差。

到底哪種分詞算法的準(zhǔn)確度更高,目前并無定論。對于任何一個成熟的分詞系統(tǒng)來說,不可能單獨依靠某一種算法來實現(xiàn),都需要綜合不同的算法。

3 運用中文分詞系統(tǒng)分析中藥用藥規(guī)律

3.1 系統(tǒng)分析與設(shè)計

數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)領(lǐng)域亦具有廣闊的應(yīng)用前景,可用于預(yù)測推斷手術(shù)、臨床試驗以及藥物治療的效果,在分析中藥方劑或古今醫(yī)案中的用藥規(guī)律時,也經(jīng)常運用數(shù)據(jù)挖掘的方法,而前提之一就是對數(shù)以萬計的浩瀚文獻(xiàn)資料進(jìn)行預(yù)處理,在這個過程中,中文分詞系統(tǒng)可以發(fā)揮重要的作用。

由于中醫(yī)方劑的基本組成單位為藥材,而關(guān)于的藥材名稱在藥典里已經(jīng)做了記載,中藥藥材的名稱相對已經(jīng)固定,新出現(xiàn)的中藥材不多,因此在數(shù)據(jù)挖掘時根據(jù)標(biāo)準(zhǔn)藥典作為詞典,運用基于字符串匹配的分詞方法處理中藥方劑用藥規(guī)律具有天然的優(yōu)勢。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。統(tǒng)計結(jié)果表明,單純使用正向最大匹配的錯誤率為1/169,單純使用逆向最大匹配的錯誤率為1/245。由于漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很少使用。綜合以上幾點考慮,該研究在設(shè)計中文分詞系統(tǒng)時,采取基于詞典的逆向最長匹配算法,系統(tǒng)的流程圖如圖1。

3.2 中藥詞典的構(gòu)造

由于基于字符串匹配的分詞方法是從一個“充分大的”機(jī)器詞典中進(jìn)行詞條匹配,詞典的構(gòu)造是切詞的基礎(chǔ)。設(shè)計的詞典機(jī)制和詞條的完備率對分詞結(jié)果的準(zhǔn)確性將產(chǎn)生重要影響,詞典的性能在一定程度上決定著整個系統(tǒng)的性能[2]。目前構(gòu)造分詞詞典主要有三種設(shè)計方法:第一種方法,以機(jī)器做輔助,主要靠人工輸入信息的方式構(gòu)造詞典。第二種方法,從印刷版的詞典里獲取信息來構(gòu)造分詞詞典。第三種方法,通過對語料庫的加工處理和分析,抽取相關(guān)信息來實現(xiàn)分詞詞典的設(shè)計。

該項研究采取的是第二種方法。南京中醫(yī)藥大學(xué)編著的《中藥大辭典》,全書分上、下、附編三冊,上、下冊為正文,收載6008味藥物及其有關(guān)栽培(飼養(yǎng))技術(shù)、藥材鑒定、化學(xué)成分、藥理作用、炮制、現(xiàn)代臨床研究等方面的中藥研究成果,反映了當(dāng)代中藥學(xué)的研究水平。該項研究以《中藥大辭典》為依據(jù),將其收錄的藥材名稱編成電子版詞典,編好之后存入SQL Server數(shù)據(jù)庫作為分詞基礎(chǔ)。

3.3 逆向最長匹配算法

逆向最大匹配法通常簡稱為RMM法,取詞典中單詞長度最大值作為第一次取字?jǐn)?shù)量,從文章或者句子(字串)的末尾開始切分,然后到詞典中進(jìn)行掃描。其流程圖如圖2。

偽代碼如下:

maxcibiao=詞表最大長度

While Not EOF(1)

Line Input #1,Line1

subsen1=Line1

Do While Len(subsen1)>0/*要切分的句子長度大于0*/

jiequ_now=Right(subsen1,maxcibiao)

/*從句子最右面截取詞表最大長度的字符串*/

If vIsFound=1 Then

subsen1=Left(subsen1,Len(subsen1)-Len(jiequ_now))

/*判斷是否詞表中是否匹配,如果匹配則將這個詞記錄下來,然后從原字符串中去除當(dāng)前截取,作為新的子串*/

Else

For k=1 To maxcibiao-1

LenJiequ=maxcibiao-k

tempWord=Right(jiequ_now,LenJiequ)

/*從詞表最大長度減少1開始循環(huán)處理,直到一個字符,到詞表中判斷是否匹配*/

/*如果匹配則將這個詞記錄下來,再重新截取子串,否則將原字符串長度減1之后重復(fù)上述過程*/

Next k

subsen1=Left(subsen1,Len(subsen1)-Len(temp Word))

End If

Loop

Wend

3.4 應(yīng)用舉例

文章設(shè)計的中文分詞系統(tǒng),既可以單獨使用,也可以作為數(shù)據(jù)挖掘的前期步驟,在中醫(yī)藥方劑挖掘分析的多項課題中得到了廣泛的應(yīng)用,以針對糖尿病的某項課題為例,通過在數(shù)據(jù)庫中以“糖尿病”為主題檢索,經(jīng)過篩選整理得到2369篇相關(guān)文獻(xiàn),每篇文獻(xiàn)使用不同的方劑與中藥藥材,以其中的五篇文獻(xiàn)為例,用到了下列藥材:

(1)“黃芪、生地黃、地骨皮、黃柏、黃連、水蛭等”。(2)“生黃芪30g、山藥30g、生地30g、茯苓15g、天花粉15g、麥冬12g、白術(shù)12g”。(3)“川穹12g、郁金12g、丹參12g、生黃芪30g、草決明10g、知母12g、生地黃12g”。(4)“熟地20g,枸杞子12g,山茱萸12g,黃芪30g,黃連10g,地龍12g,丹參20g,川芎12g,水蛭8g,石菖蒲8g”。(5)“熟地黃20 g,枸杞子12g,山茱萸12g,黃芪30g,黃連l0g,地龍12g,丹參20g,川芎12g,水蛭8g,石菖蒲8g”。

系統(tǒng)在處理第一條記錄時,可以準(zhǔn)確地依次切分出水蛭、黃連、黃柏、地骨皮、生地黃、黃芪,其他的記錄也都準(zhǔn)確地一一切分出來。當(dāng)文獻(xiàn)量很大時,手工摘出這些藥材并進(jìn)行統(tǒng)計分析是項勞動量巨大的工作,通過分詞系統(tǒng)可以很快的得到統(tǒng)計結(jié)果,并且準(zhǔn)確率非常高。按照頻次統(tǒng)計的前20味藥材如表1。

表1 糖尿病方劑研究中藥材統(tǒng)計

3.5 存在的問題與后續(xù)研究

中藥名稱由于因時代不同、地域有別而產(chǎn)生差異,出現(xiàn)同藥異名現(xiàn)象,如龍腦又稱冰片何首烏又稱首烏。而醫(yī)生在開處方時,也會因為個人習(xí)慣對同一味藥材使用不同的名稱,例如將生地黃、熟地黃簡稱為生地、熟地、生熟地,貝母分為為川貝、浙貝,這些異名如在詞表中未收錄,分詞時則切分不出。有時因為實際需要,同一味藥材炮制前后當(dāng)作不同的藥材,在分詞完成后,根據(jù)需要對這些藥材進(jìn)行單獨處理或是合并處理。在后續(xù)的研究中,以此中文分詞系統(tǒng)為子系統(tǒng),開發(fā)出中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng),為科研工作提供了有力的工具。

4 結(jié)束語

中醫(yī)藥是我國獨具特色和優(yōu)勢的傳統(tǒng)醫(yī)學(xué),積淀了數(shù)千年的理論知識和臨床經(jīng)驗。我們需要繼承珍貴的傳統(tǒng)經(jīng)驗,而發(fā)展更是首要任務(wù)。在信息技術(shù)高速發(fā)展的今天,中醫(yī)藥信息化建設(shè)是使中醫(yī)藥走向現(xiàn)代化的必然選擇,是中醫(yī)藥事業(yè)發(fā)展的重要保障。充分利用信息技術(shù),促進(jìn)中醫(yī)藥信息資源的開發(fā)、利用和共享,對于促進(jìn)中醫(yī)藥事業(yè)加速發(fā)展水平和創(chuàng)新能力,實現(xiàn)中醫(yī)藥現(xiàn)代化具有十分重要的意義。利用中文分詞系統(tǒng)和數(shù)據(jù)挖掘技術(shù)可以對積累的臨床經(jīng)驗挖掘出更多的價值,因此具有廣闊的應(yīng)用前景。目前在自然語言處理技術(shù)中,中文處理技術(shù)比西文處理技術(shù)要落后很多,就是因為中文必需有分詞這道工序。如何提高中文分詞技術(shù)的準(zhǔn)確性、更好地服務(wù)于中醫(yī)藥領(lǐng)域,還需要付出更多的努力。

參考文獻(xiàn)

[1]付年鈞,彭昌水,王慰.中文分詞技術(shù)及其實現(xiàn)[J].軟件導(dǎo)刊,2011,10(1):18-20.

[2]宗中.中文信息檢索中詞典機(jī)制分詞算法的研究[J].計算機(jī)技術(shù)與發(fā)展,2014,24(4):118-121.

If vIsFound=1 Then

subsen1=Left(subsen1,Len(subsen1)-Len(jiequ_now))

/*判斷是否詞表中是否匹配,如果匹配則將這個詞記錄下來,然后從原字符串中去除當(dāng)前截取,作為新的子串*/

Else

For k=1 To maxcibiao-1

LenJiequ=maxcibiao-k

tempWord=Right(jiequ_now,LenJiequ)

/*從詞表最大長度減少1開始循環(huán)處理,直到一個字符,到詞表中判斷是否匹配*/

/*如果匹配則將這個詞記錄下來,再重新截取子串,否則將原字符串長度減1之后重復(fù)上述過程*/

Next k

subsen1=Left(subsen1,Len(subsen1)-Len(temp Word))

End If

Loop

Wend

3.4 應(yīng)用舉例

文章設(shè)計的中文分詞系統(tǒng),既可以單獨使用,也可以作為數(shù)據(jù)挖掘的前期步驟,在中醫(yī)藥方劑挖掘分析的多項課題中得到了廣泛的應(yīng)用,以針對糖尿病的某項課題為例,通過在數(shù)據(jù)庫中以“糖尿病”為主題檢索,經(jīng)過篩選整理得到2369篇相關(guān)文獻(xiàn),每篇文獻(xiàn)使用不同的方劑與中藥藥材,以其中的五篇文獻(xiàn)為例,用到了下列藥材:

(1)“黃芪、生地黃、地骨皮、黃柏、黃連、水蛭等”。(2)“生黃芪30g、山藥30g、生地30g、茯苓15g、天花粉15g、麥冬12g、白術(shù)12g”。(3)“川穹12g、郁金12g、丹參12g、生黃芪30g、草決明10g、知母12g、生地黃12g”。(4)“熟地20g,枸杞子12g,山茱萸12g,黃芪30g,黃連10g,地龍12g,丹參20g,川芎12g,水蛭8g,石菖蒲8g”。(5)“熟地黃20 g,枸杞子12g,山茱萸12g,黃芪30g,黃連l0g,地龍12g,丹參20g,川芎12g,水蛭8g,石菖蒲8g”。

系統(tǒng)在處理第一條記錄時,可以準(zhǔn)確地依次切分出水蛭、黃連、黃柏、地骨皮、生地黃、黃芪,其他的記錄也都準(zhǔn)確地一一切分出來。當(dāng)文獻(xiàn)量很大時,手工摘出這些藥材并進(jìn)行統(tǒng)計分析是項勞動量巨大的工作,通過分詞系統(tǒng)可以很快的得到統(tǒng)計結(jié)果,并且準(zhǔn)確率非常高。按照頻次統(tǒng)計的前20味藥材如表1。

表1 糖尿病方劑研究中藥材統(tǒng)計

3.5 存在的問題與后續(xù)研究

中藥名稱由于因時代不同、地域有別而產(chǎn)生差異,出現(xiàn)同藥異名現(xiàn)象,如龍腦又稱冰片何首烏又稱首烏。而醫(yī)生在開處方時,也會因為個人習(xí)慣對同一味藥材使用不同的名稱,例如將生地黃、熟地黃簡稱為生地、熟地、生熟地,貝母分為為川貝、浙貝,這些異名如在詞表中未收錄,分詞時則切分不出。有時因為實際需要,同一味藥材炮制前后當(dāng)作不同的藥材,在分詞完成后,根據(jù)需要對這些藥材進(jìn)行單獨處理或是合并處理。在后續(xù)的研究中,以此中文分詞系統(tǒng)為子系統(tǒng),開發(fā)出中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng),為科研工作提供了有力的工具。

4 結(jié)束語

中醫(yī)藥是我國獨具特色和優(yōu)勢的傳統(tǒng)醫(yī)學(xué),積淀了數(shù)千年的理論知識和臨床經(jīng)驗。我們需要繼承珍貴的傳統(tǒng)經(jīng)驗,而發(fā)展更是首要任務(wù)。在信息技術(shù)高速發(fā)展的今天,中醫(yī)藥信息化建設(shè)是使中醫(yī)藥走向現(xiàn)代化的必然選擇,是中醫(yī)藥事業(yè)發(fā)展的重要保障。充分利用信息技術(shù),促進(jìn)中醫(yī)藥信息資源的開發(fā)、利用和共享,對于促進(jìn)中醫(yī)藥事業(yè)加速發(fā)展水平和創(chuàng)新能力,實現(xiàn)中醫(yī)藥現(xiàn)代化具有十分重要的意義。利用中文分詞系統(tǒng)和數(shù)據(jù)挖掘技術(shù)可以對積累的臨床經(jīng)驗挖掘出更多的價值,因此具有廣闊的應(yīng)用前景。目前在自然語言處理技術(shù)中,中文處理技術(shù)比西文處理技術(shù)要落后很多,就是因為中文必需有分詞這道工序。如何提高中文分詞技術(shù)的準(zhǔn)確性、更好地服務(wù)于中醫(yī)藥領(lǐng)域,還需要付出更多的努力。

參考文獻(xiàn)

[1]付年鈞,彭昌水,王慰.中文分詞技術(shù)及其實現(xiàn)[J].軟件導(dǎo)刊,2011,10(1):18-20.

[2]宗中.中文信息檢索中詞典機(jī)制分詞算法的研究[J].計算機(jī)技術(shù)與發(fā)展,2014,24(4):118-121.

If vIsFound=1 Then

subsen1=Left(subsen1,Len(subsen1)-Len(jiequ_now))

/*判斷是否詞表中是否匹配,如果匹配則將這個詞記錄下來,然后從原字符串中去除當(dāng)前截取,作為新的子串*/

Else

For k=1 To maxcibiao-1

LenJiequ=maxcibiao-k

tempWord=Right(jiequ_now,LenJiequ)

/*從詞表最大長度減少1開始循環(huán)處理,直到一個字符,到詞表中判斷是否匹配*/

/*如果匹配則將這個詞記錄下來,再重新截取子串,否則將原字符串長度減1之后重復(fù)上述過程*/

Next k

subsen1=Left(subsen1,Len(subsen1)-Len(temp Word))

End If

Loop

Wend

3.4 應(yīng)用舉例

文章設(shè)計的中文分詞系統(tǒng),既可以單獨使用,也可以作為數(shù)據(jù)挖掘的前期步驟,在中醫(yī)藥方劑挖掘分析的多項課題中得到了廣泛的應(yīng)用,以針對糖尿病的某項課題為例,通過在數(shù)據(jù)庫中以“糖尿病”為主題檢索,經(jīng)過篩選整理得到2369篇相關(guān)文獻(xiàn),每篇文獻(xiàn)使用不同的方劑與中藥藥材,以其中的五篇文獻(xiàn)為例,用到了下列藥材:

(1)“黃芪、生地黃、地骨皮、黃柏、黃連、水蛭等”。(2)“生黃芪30g、山藥30g、生地30g、茯苓15g、天花粉15g、麥冬12g、白術(shù)12g”。(3)“川穹12g、郁金12g、丹參12g、生黃芪30g、草決明10g、知母12g、生地黃12g”。(4)“熟地20g,枸杞子12g,山茱萸12g,黃芪30g,黃連10g,地龍12g,丹參20g,川芎12g,水蛭8g,石菖蒲8g”。(5)“熟地黃20 g,枸杞子12g,山茱萸12g,黃芪30g,黃連l0g,地龍12g,丹參20g,川芎12g,水蛭8g,石菖蒲8g”。

系統(tǒng)在處理第一條記錄時,可以準(zhǔn)確地依次切分出水蛭、黃連、黃柏、地骨皮、生地黃、黃芪,其他的記錄也都準(zhǔn)確地一一切分出來。當(dāng)文獻(xiàn)量很大時,手工摘出這些藥材并進(jìn)行統(tǒng)計分析是項勞動量巨大的工作,通過分詞系統(tǒng)可以很快的得到統(tǒng)計結(jié)果,并且準(zhǔn)確率非常高。按照頻次統(tǒng)計的前20味藥材如表1。

表1 糖尿病方劑研究中藥材統(tǒng)計

3.5 存在的問題與后續(xù)研究

中藥名稱由于因時代不同、地域有別而產(chǎn)生差異,出現(xiàn)同藥異名現(xiàn)象,如龍腦又稱冰片何首烏又稱首烏。而醫(yī)生在開處方時,也會因為個人習(xí)慣對同一味藥材使用不同的名稱,例如將生地黃、熟地黃簡稱為生地、熟地、生熟地,貝母分為為川貝、浙貝,這些異名如在詞表中未收錄,分詞時則切分不出。有時因為實際需要,同一味藥材炮制前后當(dāng)作不同的藥材,在分詞完成后,根據(jù)需要對這些藥材進(jìn)行單獨處理或是合并處理。在后續(xù)的研究中,以此中文分詞系統(tǒng)為子系統(tǒng),開發(fā)出中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng),為科研工作提供了有力的工具。

4 結(jié)束語

中醫(yī)藥是我國獨具特色和優(yōu)勢的傳統(tǒng)醫(yī)學(xué),積淀了數(shù)千年的理論知識和臨床經(jīng)驗。我們需要繼承珍貴的傳統(tǒng)經(jīng)驗,而發(fā)展更是首要任務(wù)。在信息技術(shù)高速發(fā)展的今天,中醫(yī)藥信息化建設(shè)是使中醫(yī)藥走向現(xiàn)代化的必然選擇,是中醫(yī)藥事業(yè)發(fā)展的重要保障。充分利用信息技術(shù),促進(jìn)中醫(yī)藥信息資源的開發(fā)、利用和共享,對于促進(jìn)中醫(yī)藥事業(yè)加速發(fā)展水平和創(chuàng)新能力,實現(xiàn)中醫(yī)藥現(xiàn)代化具有十分重要的意義。利用中文分詞系統(tǒng)和數(shù)據(jù)挖掘技術(shù)可以對積累的臨床經(jīng)驗挖掘出更多的價值,因此具有廣闊的應(yīng)用前景。目前在自然語言處理技術(shù)中,中文處理技術(shù)比西文處理技術(shù)要落后很多,就是因為中文必需有分詞這道工序。如何提高中文分詞技術(shù)的準(zhǔn)確性、更好地服務(wù)于中醫(yī)藥領(lǐng)域,還需要付出更多的努力。

參考文獻(xiàn)

[1]付年鈞,彭昌水,王慰.中文分詞技術(shù)及其實現(xiàn)[J].軟件導(dǎo)刊,2011,10(1):18-20.

[2]宗中.中文信息檢索中詞典機(jī)制分詞算法的研究[J].計算機(jī)技術(shù)與發(fā)展,2014,24(4):118-121.