国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中醫(yī)藥術(shù)語同義詞查詢數(shù)據(jù)庫建設(shè)初探

2019-02-22 07:48王正山朱建平
中國科技術(shù)語 2019年1期
關(guān)鍵詞:工具書詞條術(shù)語

王正山 朱建平

(中國中醫(yī)科學(xué)院中國醫(yī)史文獻(xiàn)研究所,北京 100700)

中醫(yī)藥術(shù)語的規(guī)范化,是中醫(yī)藥學(xué)一項(xiàng)重要的基礎(chǔ)性的系統(tǒng)工程。它對(duì)于中醫(yī)藥知識(shí)的傳播,國內(nèi)外醫(yī)藥交流,中醫(yī)藥科技成果的推廣,中醫(yī)藥書刊和教材的編輯出版,乃至中醫(yī)藥現(xiàn)代化、國際化都具有十分重要而深遠(yuǎn)的意義。由于中醫(yī)藥術(shù)語形成的歷史性和特殊性,中醫(yī)術(shù)語規(guī)范成為中醫(yī)現(xiàn)代化、國際化的關(guān)鍵問題之一[1]。

在3部《中醫(yī)藥學(xué)名詞》審定發(fā)布之后,用戶反饋積極,同時(shí)也有一種困惑,即淘汰了一些不規(guī)范術(shù)語,一時(shí)又不知道該用哪個(gè)規(guī)范術(shù)語。為此,2012年國家科技基礎(chǔ)性工作專項(xiàng)重點(diǎn)項(xiàng)目“中醫(yī)藥基礎(chǔ)學(xué)科名詞術(shù)語規(guī)范研究”啟動(dòng)了中醫(yī)藥術(shù)語同義詞查詢數(shù)據(jù)庫建設(shè),以解決這一問題,促進(jìn)規(guī)范術(shù)語的推廣。

一 問題的提出

2000年,全國科學(xué)技術(shù)名詞審定委員會(huì)中醫(yī)藥學(xué)名詞審定委員會(huì)成立,開展中醫(yī)藥名詞規(guī)范化工作,先后審定、發(fā)布了《中醫(yī)藥學(xué)名詞》之基本名詞、內(nèi)科婦科兒科、外科皮膚科肛腸科眼科耳鼻喉科骨傷科等3部國家規(guī)范名詞,推動(dòng)了中醫(yī)藥的標(biāo)準(zhǔn)化、現(xiàn)代化、國際化。規(guī)范內(nèi)容之一是根據(jù)“單義性原則”[2],在遇到“多詞一義”時(shí),只選取一個(gè)為規(guī)范詞,其他為淘汰詞。例如,“大頭瘟”為規(guī)范詞,而“大頭風(fēng)、大頭痛、時(shí)毒、大頭傷寒、蝦蟆瘟、捻頭瘟、大頭天行、疫毒、瘟毒喉痹、瘟疫紅喉、蝦蟆瘟”等為同義詞,規(guī)范后被廢棄,在規(guī)范術(shù)語數(shù)據(jù)庫里不再出現(xiàn)。

從2003年以來發(fā)布的《中醫(yī)藥學(xué)名詞》3部國家規(guī)范名詞使用反饋情況來看,一些已經(jīng)廢棄的術(shù)語仍在被使用。比如:“肺痿”為規(guī)范術(shù)語,“肺萎”則是應(yīng)該被廢棄的同義術(shù)語,但一些期刊中仍然使用“肺萎”。如楊淦等《特發(fā)性肺纖維化與肺痹、肺萎關(guān)系淺析》[3]一文中就使用非規(guī)范術(shù)語“肺萎”。又如“下消”為規(guī)范術(shù)語,“腎消”則是應(yīng)該被廢棄的同義術(shù)語,而期刊中仍然出現(xiàn)“腎消”。如張嬋娟《〈外臺(tái)秘要〉論消渴》”[4]一文中就使用非規(guī)范術(shù)語“腎消”。又如“肺癆”為規(guī)范術(shù)語,“肺勞”則是應(yīng)該被廢棄的同義術(shù)語,而期刊中仍然出現(xiàn)“肺勞”。如劉繼民等《王檀教授應(yīng)用中醫(yī)康復(fù)療法治療咳嗽、肺勞經(jīng)驗(yàn)總結(jié)》[5]一文中就使用的是非規(guī)范術(shù)語“肺勞”。

總之,非規(guī)范術(shù)語仍在中醫(yī)藥期刊、書籍中使用。進(jìn)一步的研究表明,其原因主要有以下兩個(gè)方面:(1)不少從業(yè)者、研究人員對(duì)中醫(yī)藥術(shù)語規(guī)范工作了解甚少,不知道哪些術(shù)語已被廢棄;(2)部分從業(yè)人員,雖然對(duì)中醫(yī)藥術(shù)語規(guī)范工作有所了解,也愿意使用規(guī)范術(shù)語,但缺乏相關(guān)的檢索平臺(tái),檢索相關(guān)規(guī)范術(shù)語的過程有些麻煩,或者不知道當(dāng)前使用的是被淘汰的術(shù)語,或者雖然知道是淘汰詞,卻一時(shí)找不到對(duì)應(yīng)的同義規(guī)范術(shù)語。

二 建庫的意義

針對(duì)上述存在的問題,國家科技基礎(chǔ)性工作專項(xiàng)重點(diǎn)項(xiàng)目“中醫(yī)藥基礎(chǔ)學(xué)科名詞術(shù)語規(guī)范研究”的任務(wù)之一就是建設(shè)中醫(yī)藥術(shù)語同義詞查詢數(shù)據(jù)庫。中醫(yī)藥術(shù)語同義詞查詢數(shù)據(jù)庫的建設(shè)內(nèi)容是:(1)確立中醫(yī)藥的規(guī)范術(shù)語,及其對(duì)應(yīng)的同義詞(淘汰詞)。計(jì)劃收錄全國科技名詞委公布的規(guī)范詞約1.3萬條,以及基于《中醫(yī)大辭典》等辭書的同義詞數(shù)萬條[6]。(2)提供檢索平臺(tái),方便用戶查詢,以便推廣應(yīng)用規(guī)范詞,廢棄淘汰詞。其意義在于使用者即使查詢的是已被廢棄的術(shù)語(提示“不是規(guī)范術(shù)語”),也可通過該數(shù)據(jù)庫關(guān)聯(lián)到已經(jīng)公布的同義規(guī)范術(shù)語,從而為推廣中醫(yī)藥規(guī)范術(shù)語提供技術(shù)支持;將來還可以廣泛應(yīng)用于各種中醫(yī)藥數(shù)據(jù)庫中,實(shí)現(xiàn)按同義詞的擴(kuò)展檢索等。

三 同義詞的獲取

在構(gòu)建中醫(yī)藥術(shù)語同義詞查詢數(shù)據(jù)庫之前,需要先獲取所有中醫(yī)藥規(guī)范術(shù)語的同義詞集。其中包括幾個(gè)關(guān)鍵的環(huán)節(jié):

1. 工具書抓取。提取同義詞,需要依賴比較權(quán)威的工具書,如《中醫(yī)大辭典》《中醫(yī)辭?!贰吨兴幋筠o典》等,其中的部分書籍可以從一些網(wǎng)站上獲取。因此針對(duì)不同的網(wǎng)站,需要編寫不同的抓取程序,保證抓取結(jié)果的正確性。這一步是準(zhǔn)備工作。如果能夠從其他渠道獲取工具書文本,則此步可以省略。

2.同義詞提取。這是整個(gè)工作中核心的一步。傳統(tǒng)上,一般只能依靠人工進(jìn)行,耗時(shí)耗力,且容易出錯(cuò)。為此,項(xiàng)目組創(chuàng)建并使用了基于模式識(shí)別的中醫(yī)藥術(shù)語同義詞自動(dòng)提取方法,利用計(jì)算機(jī)技術(shù)自動(dòng)提取同義詞。該方法包括準(zhǔn)備辭典、編寫提取程序、提取抽取和過濾規(guī)則、按規(guī)則提取同義詞、結(jié)果審核、有效性評(píng)價(jià)等步驟。統(tǒng)計(jì)數(shù)據(jù)表明,該方法提取同義詞,準(zhǔn)確率約為94%,召回率約為94.5%。作為一種輔助方法,基于模式識(shí)別的中醫(yī)藥術(shù)語同義詞自動(dòng)提取可以大大提高同義詞提取工作的效率。

3. 人工審核同義詞。這是整個(gè)過程中非常關(guān)鍵的一步,并最終決定同義詞提取的質(zhì)量。人工審核主要有三個(gè)方面的作用:

(1)同義詞審核。機(jī)器提取同義詞,無論其算法如何可靠,都有可能產(chǎn)生錯(cuò)誤(誤提或者漏提),因此需要人工對(duì)提取的同義詞進(jìn)行審核。

(2)文本校對(duì)。網(wǎng)上抓取到的文本,其文本質(zhì)量也會(huì)存在問題。文本質(zhì)量問題也是制約同義詞提取效果的一個(gè)關(guān)鍵因素。這也需要在人工審核時(shí)予以發(fā)現(xiàn)和校正。

(3)模式發(fā)現(xiàn)。同義詞提取的模式和規(guī)則,并非提前設(shè)定的,這些規(guī)則需要在審核同義詞的過程中發(fā)現(xiàn)并完善。

4. 人工審核的工具支持。由上可見,人工審核同義詞的工作非常煩瑣而容易出錯(cuò)。為了提高效率,保證工作質(zhì)量,項(xiàng)目組開發(fā)了輔助工具。

5. 同義詞歸并。在《中醫(yī)大辭典》《中醫(yī)辭?!返裙ぞ邥?,對(duì)一組同義詞,一般選擇其中之一進(jìn)行詳細(xì)解釋,其他同義詞詞條則通過關(guān)聯(lián)專用詞指向該詞條。如果用人工的方式,要找到詞條A的所有同義詞,理論上講,就至少需要把辭典中所有的詞條都查閱一遍,看看是否與A同義。這是費(fèi)時(shí)費(fèi)力又很難完成的一項(xiàng)工作。在本項(xiàng)目中,因?yàn)橛杏?jì)算機(jī)的輔助,只需要制定規(guī)則,把所有詞條的同義詞利用程序自動(dòng)提取出來,再人工審核一遍,之后就可以利用計(jì)算機(jī)自動(dòng)進(jìn)行歸并,把所有與A同義的詞條加入A的同義詞集即可。

在中醫(yī)藥名詞審定工作中,對(duì)于“一詞多義”的處理,采取了分化不同義項(xiàng)、保留不同學(xué)科之間的一詞多義現(xiàn)象等措施[2]。因此本項(xiàng)目在歸并同義詞后,需要人工審核,避免將不同義項(xiàng)的同義詞歸并到同一個(gè)術(shù)語的同義詞集中。

6.專家評(píng)估。由于本項(xiàng)目的目標(biāo),是制定中醫(yī)藥術(shù)語的同義詞規(guī)范,建立同義詞查詢數(shù)據(jù)庫,因此所產(chǎn)出的所有結(jié)果,最終都需要提供給領(lǐng)域?qū)<疫M(jìn)行人工審核,審核通過后方能入庫,向社會(huì)開放,供業(yè)界查詢。

四 數(shù)據(jù)庫構(gòu)建

對(duì)中醫(yī)藥術(shù)語的同義詞考證完成后,就可以在此基礎(chǔ)上構(gòu)建中醫(yī)藥同義詞數(shù)據(jù)庫。

1.選擇數(shù)據(jù)庫管理系統(tǒng)(DBMS)

數(shù)據(jù)庫管理系統(tǒng)的選擇,主要考慮其性能、安全性、易用性等。本研究中所涉及的問題比較簡(jiǎn)單,數(shù)據(jù)量比較小,大約5萬~10萬條記錄,50~100M級(jí)存儲(chǔ)量,因此可以利用Access這樣簡(jiǎn)單易用的數(shù)據(jù)庫管理系統(tǒng)進(jìn)行存儲(chǔ)。

目前市場(chǎng)上存在的各種關(guān)系數(shù)據(jù)庫,相互之間可以比較方便地進(jìn)行數(shù)據(jù)遷移,因此,在研究階段,數(shù)據(jù)庫的選擇應(yīng)以簡(jiǎn)單易用為原則,不需要耗費(fèi)過多的精力。

2.設(shè)計(jì)數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)

數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),主要包括邏輯存儲(chǔ)結(jié)構(gòu)和物理存儲(chǔ)結(jié)構(gòu)。在此簡(jiǎn)單介紹一下邏輯存儲(chǔ)結(jié)構(gòu)。中醫(yī)藥術(shù)語同義詞查詢數(shù)據(jù)庫主要包括圖1的3個(gè)數(shù)據(jù)表。

圖1 主要數(shù)據(jù)表結(jié)構(gòu)

(1)中醫(yī)藥工具書表,存放需要抓取和分析的工具書基本信息。

(2)中醫(yī)藥術(shù)語同義詞表,用于存儲(chǔ)從各工具書中提取的所有詞條及其解釋,也包括該詞條在工具書中的具體頁碼,便于人工核對(duì)?!罢弊侄斡糜诖鎯?chǔ)該詞條所在工具書中對(duì)應(yīng)的正名?!巴x詞列表”字段用于存儲(chǔ)計(jì)算機(jī)自動(dòng)提取的同義詞列表。“同義詞匯總”字段用于存儲(chǔ)每個(gè)詞條的歸并后的同義詞列表。

(3)中醫(yī)藥術(shù)語規(guī)范表,用于存儲(chǔ)本項(xiàng)目組擬定的所有中醫(yī)藥學(xué)規(guī)范名詞術(shù)語,約13 000條。這里需要注意的是,一個(gè)規(guī)范名,有可能分屬多個(gè)學(xué)科,因此對(duì)應(yīng)不同的術(shù)語編碼和規(guī)范解釋。“同義詞”字段用于存儲(chǔ)該術(shù)語最終審定后的同義詞列表。

3. 開發(fā)前端檢索工具

到上一步為止,數(shù)據(jù)庫構(gòu)建的主體工作就完成了。但是,如果沒有相應(yīng)的接口,用戶就不能查看數(shù)據(jù)庫,也無法查詢到規(guī)范術(shù)語、翻譯及其同義詞。為此需要開發(fā)一個(gè)Web檢索平臺(tái),作為最終用戶的使用接口,一方面可以方便使用,另一方面也能屏蔽底層數(shù)據(jù),防止數(shù)據(jù)資料泄露。

Web檢索平臺(tái)后臺(tái)的主要邏輯如下:

第1步:?jiǎn)?dòng)后臺(tái)程序,初始化數(shù)據(jù),啟動(dòng)監(jiān)聽程序。

第2步:監(jiān)測(cè)客戶端發(fā)來的查詢請(qǐng)求,直到收到客戶端請(qǐng)求,然后轉(zhuǎn)第3步。

第3步:處理客戶端請(qǐng)求。

當(dāng)收到客戶端發(fā)來的查詢后,首先檢索“中醫(yī)藥術(shù)語規(guī)范表”。

a)如果找到對(duì)應(yīng)的詞條,則說明該詞條為已經(jīng)定義過的規(guī)范術(shù)語,返回該術(shù)語的標(biāo)準(zhǔn)英譯、同義詞列表、定義、版本信息等。

b)如果沒有找到對(duì)應(yīng)的詞條,則說明該詞條不是已經(jīng)定義過的規(guī)范術(shù)語,需要進(jìn)一步查詢同義詞列表,看是不是某個(gè)規(guī)范術(shù)語的同義詞,如果是,則返回提示信息,說明該詞條不是規(guī)范術(shù)語,對(duì)應(yīng)的規(guī)范術(shù)語為×××;如果不是,則說明該詞條不是規(guī)范術(shù)語,也不是淘汰詞,需要進(jìn)一步查找“中醫(yī)藥術(shù)語同義詞表”,看看該詞條是否在某個(gè)工具書中有定義,如果有則返回相關(guān)定義,沒有則提示用戶查詢結(jié)果為空。

第4步:組裝查詢結(jié)果,并發(fā)送給客戶端。

第5步:跳轉(zhuǎn)到第2步,繼續(xù)監(jiān)聽請(qǐng)求。

五 用戶端查詢結(jié)果展示

現(xiàn)在扼要介紹一下中醫(yī)藥術(shù)語同義詞查詢數(shù)據(jù)庫用戶端使用的方法。用戶可以通過手機(jī)或者電腦使用本項(xiàng)目開發(fā)的中醫(yī)藥術(shù)語查詢工具。

當(dāng)用戶查詢“瘟疫”時(shí),因?yàn)檫@是一個(gè)規(guī)范術(shù)語,所以返回的是規(guī)范的定義、英文翻譯、同義詞、版本信息等,如圖2所示。

當(dāng)用戶查詢“溫疫”時(shí),因?yàn)檫@是一個(gè)淘汰詞,所以返回的是相關(guān)提示信息。手機(jī)端界面如圖3所示。

隨著中醫(yī)藥術(shù)語同義語查詢數(shù)據(jù)庫向社會(huì)開放,將會(huì)收到用戶的反饋意見,屆時(shí)再加以改進(jìn),不斷完善,使該數(shù)據(jù)庫在中醫(yī)藥學(xué)規(guī)范術(shù)語的推廣中發(fā)揮更大的作用。

圖2 手機(jī)查詢規(guī)范術(shù)語結(jié)果

圖3 手機(jī)查詢非規(guī)范術(shù)語結(jié)果

[4] 張嬋娟.《外臺(tái)秘要》論消渴[J].河南中醫(yī),2018,38(4):521-523.

[5] 劉繼民, 李萌, 劉通,等.王檀教授應(yīng)用中醫(yī)康復(fù)療法治療咳嗽、肺勞經(jīng)驗(yàn)總結(jié)[J].世界最新醫(yī)學(xué)信息文摘,2018,18(91):11-12.

[6] 朱建平.中醫(yī)藥名詞術(shù)語規(guī)范的實(shí)踐與思考.中國科技術(shù)語, 2017,19(6):11-14.

猜你喜歡
工具書詞條術(shù)語
詩詞工具書二種
詩詞工具書二種
好風(fēng)憑借力伴我泛書海
——小學(xué)語文閱讀教學(xué)中使用工具書的指導(dǎo)
2016年4月中國直銷網(wǎng)絡(luò)熱門詞條榜
2016年3月中國直銷網(wǎng)絡(luò)熱門詞條榜
2016年9月中國直銷網(wǎng)絡(luò)熱門詞條榜
大數(shù)據(jù)相關(guān)詞條
網(wǎng)絡(luò)時(shí)代工具書閱覽室的建設(shè)
高淳县| 任丘市| 丰城市| 醴陵市| 邹城市| 邢台市| 简阳市| 浑源县| 年辖:市辖区| 蕲春县| 玛多县| 沙雅县| 关岭| 迭部县| 交城县| 玉环县| 蚌埠市| 五大连池市| 余庆县| 广东省| 莱阳市| 枞阳县| 太和县| 泽州县| 志丹县| 西华县| 霸州市| 凤庆县| 淅川县| 凤山市| 茌平县| 师宗县| 济南市| 沁源县| 绍兴市| 洪湖市| 张掖市| 阜新市| 乌审旗| 贵德县| 绥阳县|