劉華 李曉源
[關(guān)鍵詞] 語(yǔ)料庫(kù);詞語(yǔ)聚類(lèi);主題詞;中醫(yī)漢語(yǔ)詞表
[摘? 要] 分類(lèi)詞表研制是促進(jìn)中醫(yī)漢語(yǔ)教學(xué)發(fā)展的重要前提?;诂F(xiàn)有中醫(yī)漢語(yǔ)類(lèi)教材、中醫(yī)專(zhuān)業(yè)類(lèi)教材、中醫(yī)網(wǎng)站三大語(yǔ)料來(lái)源,建設(shè)中醫(yī)漢語(yǔ)語(yǔ)料庫(kù);利用詞語(yǔ)聚類(lèi)算法和圖式語(yǔ)義場(chǎng)理論,形成中醫(yī)漢語(yǔ)內(nèi)部主題分類(lèi)詞簇,有助于構(gòu)建中醫(yī)漢語(yǔ)主題分類(lèi)詞表體系。該研究方法可為其他專(zhuān)門(mén)用途漢語(yǔ)的詞表建設(shè)提供參考。
[中圖分類(lèi)號(hào)]H08? [文獻(xiàn)標(biāo)識(shí)碼]A? [文章編號(hào)]1674-8174(2022)02-0077-09
近年來(lái),伴隨漢語(yǔ)國(guó)際化的傳播發(fā)展,專(zhuān)業(yè)領(lǐng)域漢語(yǔ)人才的需求在不斷擴(kuò)大,專(zhuān)門(mén)用途漢語(yǔ)(Chinese for specific purposes)正成為國(guó)際中文教育發(fā)展的新方向。中醫(yī)漢語(yǔ),作為專(zhuān)門(mén)用途漢語(yǔ)的重要組成門(mén)類(lèi),其教學(xué)體系也在實(shí)踐中得到完善發(fā)展。中醫(yī)漢語(yǔ)詞表是開(kāi)展中醫(yī)漢語(yǔ)教學(xué)的重要基礎(chǔ),詞表的構(gòu)建離不開(kāi)真實(shí)的素材來(lái)源與科學(xué)的構(gòu)建方法?;诟黝?lèi)中醫(yī)語(yǔ)料素材所形成的中醫(yī)漢語(yǔ)語(yǔ)料庫(kù),能為中醫(yī)漢語(yǔ)的詞表構(gòu)建提供強(qiáng)大的語(yǔ)料支撐和數(shù)據(jù)基礎(chǔ),結(jié)合計(jì)算語(yǔ)言學(xué)中的詞語(yǔ)聚類(lèi)方法,所獲得的分類(lèi)主題詞語(yǔ)集合,可進(jìn)一步提升詞表構(gòu)建的系統(tǒng)性和科學(xué)性。
詞表的篩選創(chuàng)建需以真實(shí)語(yǔ)料作為底層依據(jù)。伴隨互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)平臺(tái)已成為語(yǔ)言傳播交流的重要媒介,是呈現(xiàn)當(dāng)今漢語(yǔ)使用情況的開(kāi)放窗口。因此,在中醫(yī)漢語(yǔ)語(yǔ)料的收集中,注重對(duì)網(wǎng)絡(luò)語(yǔ)料的獲取分析,通過(guò)爬蟲(chóng)軟件工具,有針對(duì)性地抓取中醫(yī)官方網(wǎng)站的語(yǔ)料素材,可確保底層語(yǔ)料來(lái)源的真實(shí)。
中醫(yī)漢語(yǔ)詞語(yǔ)不僅包含傳統(tǒng)醫(yī)學(xué)知識(shí),而且體現(xiàn)豐富的中華文化理念。學(xué)習(xí)中醫(yī)漢語(yǔ)的對(duì)象大致可分為兩類(lèi):一是高等本科院校中醫(yī)專(zhuān)業(yè)類(lèi)留學(xué)生,該類(lèi)型學(xué)生已接受過(guò)較高程度的漢語(yǔ)教育,對(duì)中醫(yī)漢語(yǔ)的文化詞義具備一定理解能力;另一類(lèi)是對(duì)中醫(yī)文化感興趣的中文學(xué)習(xí)者,該類(lèi)型學(xué)習(xí)者漢語(yǔ)水平參差不齊,在理解中醫(yī)文化內(nèi)涵時(shí)有一定難度。因此,中醫(yī)漢語(yǔ)詞表的創(chuàng)建應(yīng)關(guān)注上述兩類(lèi)對(duì)象的現(xiàn)狀和需求,注重詞表分類(lèi)的整體系統(tǒng)性。通過(guò)基于語(yǔ)義關(guān)聯(lián)度原理的主題聚類(lèi)方法,將具有文化內(nèi)涵的詞語(yǔ)進(jìn)行合理分類(lèi),依據(jù)詞語(yǔ)語(yǔ)義的相關(guān)性,形成具有主題屬性的體系詞表。
1. 中醫(yī)漢語(yǔ)分類(lèi)詞表構(gòu)建理論與方法
1.1 圖式理論和語(yǔ)義場(chǎng)理論
圖式理論認(rèn)為,人們對(duì)事物的認(rèn)識(shí)是基于某一主題的知識(shí)開(kāi)展形成的。各種事物都有其不同的特征,圖式理論能對(duì)事物的特征進(jìn)行總結(jié)歸類(lèi),尋找事物彼此間的關(guān)聯(lián)屬性,使之形成結(jié)構(gòu)性認(rèn)知儲(chǔ)存于人類(lèi)的頭腦中。具體應(yīng)用到漢語(yǔ)習(xí)得層面,漢語(yǔ)交際的各類(lèi)領(lǐng)域圖式是由對(duì)應(yīng)的詞語(yǔ)群落組成的。
該詞語(yǔ)群落是一個(gè)巨大的語(yǔ)義總場(chǎng),漢語(yǔ)的詞語(yǔ)意義主要是通過(guò)場(chǎng)內(nèi)詞與詞之間的關(guān)系表現(xiàn)而來(lái)。語(yǔ)義場(chǎng)中的詞語(yǔ)都有其概念區(qū)間,并在內(nèi)部形成系統(tǒng)的場(chǎng)級(jí)分類(lèi)。每個(gè)語(yǔ)義場(chǎng)會(huì)在一個(gè)共同語(yǔ)義要素的支配下組建系統(tǒng)的詞語(yǔ)語(yǔ)義群落,上一層級(jí)詞語(yǔ)的義素會(huì)為下一層級(jí)各詞語(yǔ)所共有。詞表創(chuàng)建可充分結(jié)合圖式理論和語(yǔ)義場(chǎng)理念,形成以主題為導(dǎo)向的詞表庫(kù),有利于幫助學(xué)習(xí)者在頭腦中形成語(yǔ)義聯(lián)想網(wǎng)絡(luò),促進(jìn)語(yǔ)言的習(xí)得記憶。
1.2 主題詞簇界定與分級(jí)
主題是交際的出發(fā)點(diǎn)或?qū)ο?,亦是思想和語(yǔ)言交際的中心。主題具有群集特性,在文本內(nèi)容中起到聚攏作用,是語(yǔ)料信息的集中體現(xiàn)。主題詞簇是指與某一主題緊密關(guān)聯(lián)的詞語(yǔ)群(劉華,2008)。借鑒“領(lǐng)域詞語(yǔ)”的分類(lèi)原理,根據(jù)主題詞簇在語(yǔ)料中出現(xiàn)的頻率和權(quán)重,可將其分為兩類(lèi):主題通用詞和主題專(zhuān)類(lèi)詞。
主題通用詞是指在兩個(gè)或兩個(gè)以上關(guān)聯(lián)度高的主題中可以共用,且使用頻率高,具有一定區(qū)別作用的詞語(yǔ);主題專(zhuān)類(lèi)詞則是區(qū)別話(huà)題度高,且細(xì)微特征明顯,領(lǐng)域個(gè)性強(qiáng)的詞語(yǔ)。基于該分類(lèi)原理,可以把中醫(yī)漢語(yǔ)理解為一個(gè)大的主題范疇,每個(gè)主題內(nèi)部可進(jìn)行分級(jí)分類(lèi)。一級(jí)主題包含主題通用詞,主題內(nèi)容更廣泛,領(lǐng)域涉及面更大。二級(jí)主題包含主題專(zhuān)類(lèi)詞,主題內(nèi)容更具體,主題描述更細(xì)致。如中醫(yī)漢語(yǔ)中“中醫(yī)治療”主題一級(jí)詞表多包含有關(guān)治療的通用詞語(yǔ):內(nèi)治、外治、調(diào)養(yǎng)、病癥、精神、療法等;而其下一級(jí)分類(lèi)的“針灸”“推拿”“刮痧”等主題類(lèi)別則體現(xiàn)各自對(duì)應(yīng)的治療手法,其分別包含的詞簇是更具區(qū)別特征的專(zhuān)類(lèi)詞語(yǔ)。
1.3 基于語(yǔ)域主題的詞語(yǔ)聚類(lèi)方法
語(yǔ)域題材是指不同場(chǎng)合、情景、領(lǐng)域、交際背景下所使用的語(yǔ)言素材。語(yǔ)言并非獨(dú)立于語(yǔ)境或情景產(chǎn)生,而是由多種情境特征構(gòu)成的。領(lǐng)域詞聚類(lèi)原理可利用詞語(yǔ)在不同類(lèi)別(即語(yǔ)域)語(yǔ)料中分布的差異性(即不均勻性)來(lái)計(jì)算詞語(yǔ)對(duì)于該類(lèi)別的貢獻(xiàn)度(劉華,2010)。中醫(yī)漢語(yǔ)包含大量中醫(yī)領(lǐng)域性專(zhuān)業(yè)詞語(yǔ),這些領(lǐng)域性詞語(yǔ)具有鮮明的分類(lèi)區(qū)別特征,代表專(zhuān)屬于中醫(yī)領(lǐng)域內(nèi)的特色內(nèi)容。
詞語(yǔ)聚類(lèi)的核心原理是利用詞語(yǔ)在不同類(lèi)別語(yǔ)料中分布的差異性來(lái)計(jì)算詞語(yǔ)對(duì)于該類(lèi)別的貢獻(xiàn)度。比如,虛詞(如“的、和、在”)在不同類(lèi)別語(yǔ)料中的頻率幾乎一樣,散布均勻;而某些詞語(yǔ)(如“經(jīng)絡(luò)、氣血、寒熱、陰虛……”)在“中醫(yī)”類(lèi)的語(yǔ)料中出現(xiàn)的頻率會(huì)遠(yuǎn)高于它們?cè)谄渌?lèi)別(如體育、政治、娛樂(lè)等)語(yǔ)料的頻率,它們是中醫(yī)類(lèi)別的領(lǐng)域詞語(yǔ)。
TF-IDF(term frequency-inverse document frequency)是常用的文本分類(lèi)的特征提取算法,其中,TF是詞頻,IDF是逆文本頻率指數(shù),其原理是某類(lèi)詞在一篇文本語(yǔ)料中出現(xiàn)的頻率高,并且在其他文本語(yǔ)料中出現(xiàn)少,則認(rèn)為該類(lèi)詞類(lèi)別區(qū)分能力強(qiáng),語(yǔ)義聚合程度高,適合提取作為分類(lèi)特征。TFIDF公式本質(zhì)上反映了詞語(yǔ)區(qū)分文檔主題類(lèi)別的能力,計(jì)算詞語(yǔ)在某一話(huà)題中的TFIDF值之后,將特征向量倒序排列,那些具有強(qiáng)主題區(qū)別能力的詞語(yǔ)會(huì)排在最前面。
主題詞聚類(lèi)的計(jì)算公式(劉華,2010)如下:
其中,[pij=TijLj],Lj是類(lèi)cj含有的所有詞的次數(shù)之和,Tij是詞i在類(lèi)cj出現(xiàn)的次數(shù); [pi]-[kpijm],其中m為類(lèi)別數(shù);N(Wi)表示訓(xùn)練語(yǔ)料中出現(xiàn)詞wi的次數(shù),N是訓(xùn)練語(yǔ)料中所有詞出現(xiàn)次數(shù)之和;n>=1。
主題分類(lèi)完成后,按照上述公式計(jì)算出語(yǔ)料文本中詞語(yǔ)的權(quán)重,運(yùn)用n(n>=1)參數(shù)主要用來(lái)調(diào)節(jié)詞頻在選詞過(guò)程中的影響。當(dāng)n取值較小時(shí),詞頻的影響作用變大,傾向選擇詞頻大的詞;當(dāng)n取值較大時(shí),詞頻的影響作用變小,傾向選擇詞頻小的詞。當(dāng)n=1時(shí),可獲取中醫(yī)領(lǐng)域的通用詞語(yǔ);當(dāng)n等于2和3時(shí),則中醫(yī)領(lǐng)域的通用詞語(yǔ)變少,而內(nèi)部類(lèi)別區(qū)別度高的專(zhuān)業(yè)詞語(yǔ)變多。為了更全面地獲取通用詞和領(lǐng)域?qū)S迷~,將詞頻的影響作用調(diào)適到一個(gè)較適中的程度,將n設(shè)定取值為1.5。
2. 中醫(yī)漢語(yǔ)聚類(lèi)詞語(yǔ)表構(gòu)建與詞表分析
2.1 中醫(yī)漢語(yǔ)詞表研制流程
中醫(yī)漢語(yǔ)詞表研制主要包含以下步驟:(1)結(jié)合中醫(yī)漢語(yǔ)類(lèi)教材、中醫(yī)類(lèi)教材、中醫(yī)網(wǎng)站三大語(yǔ)料來(lái)源,建設(shè)中醫(yī)漢語(yǔ)語(yǔ)料庫(kù)。(2)借鑒中醫(yī)漢語(yǔ)教材和中醫(yī)網(wǎng)站的知識(shí)分類(lèi)體系,構(gòu)建中醫(yī)漢語(yǔ)主題庫(kù)。(3)將語(yǔ)料庫(kù)按主題分類(lèi),通過(guò)詞語(yǔ)聚類(lèi),獲得分類(lèi)領(lǐng)域特征明顯的主題詞語(yǔ)。(4)通過(guò)人工校對(duì)和專(zhuān)家審核,形成具有實(shí)用價(jià)值的中醫(yī)漢語(yǔ)詞表。
2.2 中醫(yī)漢語(yǔ)語(yǔ)料庫(kù)建設(shè)
為更有效采集歸整中醫(yī)漢語(yǔ)類(lèi)語(yǔ)料資源,形成科學(xué)合理的主題分類(lèi)詞語(yǔ)庫(kù),本研究結(jié)合中醫(yī)漢語(yǔ)類(lèi)教材和中醫(yī)類(lèi)門(mén)戶(hù)網(wǎng)站資源,通過(guò)語(yǔ)料采集技術(shù)爬取相關(guān)語(yǔ)料文本,創(chuàng)建中醫(yī)漢語(yǔ)語(yǔ)料庫(kù)。
中醫(yī)類(lèi)網(wǎng)站主要以“中醫(yī)中藥網(wǎng)”(https://www.zhzyw.com/)為主,該網(wǎng)站行業(yè)知名度、訪問(wèn)量高,內(nèi)容豐富,分類(lèi)明晰,主題涵蓋廣,適用群體廣泛,對(duì)后期詞表創(chuàng)建具有較高適用參考價(jià)值。
中醫(yī)漢語(yǔ)類(lèi)教材以《中醫(yī)漢語(yǔ)綜合教程》(北京語(yǔ)言大學(xué)出版社,2013年)、《實(shí)用中醫(yī)漢語(yǔ)》(外語(yǔ)教學(xué)與研究出版社,2010年)、《中醫(yī)漢語(yǔ)口語(yǔ)入門(mén)》(高等教育出版社,2008年)三套教材為主,該類(lèi)教材主要以留學(xué)生和海外學(xué)習(xí)者為使用對(duì)象,內(nèi)容分類(lèi)編排合理全面,采用功能—文化相結(jié)合的編寫(xiě)理念,整體設(shè)計(jì)注重漢語(yǔ)交際實(shí)用性。
同時(shí)為確保后期詞表建設(shè)分類(lèi)的合理專(zhuān)業(yè)性,語(yǔ)料庫(kù)建設(shè)還收納了中醫(yī)專(zhuān)業(yè)類(lèi)教材的部分內(nèi)容,參考《中醫(yī)基礎(chǔ)理論》(中國(guó)中醫(yī)藥出版社,2019年)、《中醫(yī)基礎(chǔ)入門(mén)》(軍事醫(yī)學(xué)科學(xué)出版社,2008年)兩本教材部分章節(jié)。
2.3 中醫(yī)漢語(yǔ)主題庫(kù)構(gòu)建
由于目前有關(guān)中醫(yī)漢語(yǔ)詞語(yǔ)大綱的研究較少,缺乏成熟的詞語(yǔ)大綱分類(lèi)項(xiàng)目作依據(jù)支撐,本研究整理歸納了三大語(yǔ)料來(lái)源的主題分類(lèi)體系,以此作為中醫(yī)漢語(yǔ)詞表的創(chuàng)建參考。依照?qǐng)D式理論的詞語(yǔ)習(xí)得認(rèn)知理念,漢語(yǔ)詞匯的習(xí)得記憶通過(guò)相互作用的知識(shí)結(jié)構(gòu)共同完成。中醫(yī)知識(shí),凝結(jié)我國(guó)數(shù)千年傳統(tǒng)文化智慧結(jié)晶,包含大量中國(guó)哲學(xué)思想和倫理文化,如“陰陽(yáng)”“五行”“上火”“氣”“開(kāi)竅”等。知識(shí)結(jié)構(gòu)中的各模塊內(nèi)容,并非孤立地存在于內(nèi)部結(jié)構(gòu)中,而是彼此關(guān)聯(lián),相互影響,形成了獨(dú)特的中醫(yī)文化體系。本研究借助中醫(yī)內(nèi)部知識(shí)的圖式結(jié)構(gòu),從中醫(yī)文化和醫(yī)學(xué)問(wèn)診的角度出發(fā),重點(diǎn)結(jié)合現(xiàn)有中醫(yī)漢語(yǔ)教材和中醫(yī)網(wǎng)站的主題編排思路,對(duì)中醫(yī)漢語(yǔ)的詞表創(chuàng)建進(jìn)行主題分類(lèi)。
通過(guò)以上三類(lèi)語(yǔ)料來(lái)源的主題分類(lèi)可知,中醫(yī)漢語(yǔ)教材類(lèi)語(yǔ)料共有主題包含中醫(yī)基礎(chǔ)知識(shí)、中醫(yī)治療、中醫(yī)養(yǎng)生三個(gè)主題,該主題均包含了中醫(yī)漢語(yǔ)教學(xué)的核心內(nèi)容,是詞表建設(shè)分類(lèi)的重要依據(jù)。同時(shí),在中醫(yī)網(wǎng)站和中醫(yī)教材語(yǔ)料中還存在其他分類(lèi)的交叉內(nèi)容,可適當(dāng)進(jìn)行合并歸類(lèi)。如中醫(yī)診斷,是中醫(yī)體系中診察病情、辨別病證的基本理論,在中醫(yī)漢語(yǔ)類(lèi)教材前兩套教材中均有出現(xiàn),應(yīng)當(dāng)添加作為一個(gè)主題分類(lèi)。中藥知識(shí),在教材主題分類(lèi)中較為零散,但其作為中醫(yī)系統(tǒng)知識(shí)的重要組成部分,對(duì)于今后進(jìn)入專(zhuān)業(yè)學(xué)習(xí)的學(xué)生而言十分重要,且在中醫(yī)診治的漢語(yǔ)交際場(chǎng)景中常涉及中藥類(lèi)專(zhuān)業(yè)詞語(yǔ),因此中藥知識(shí)可納入詞表主題分類(lèi)中。中醫(yī)藥歷史、文化典故、文化習(xí)俗幾個(gè)分類(lèi)屬于中醫(yī)文化傳播的內(nèi)容,可合并歸屬于中醫(yī)文化一個(gè)類(lèi)別中。
綜上合并歸類(lèi),中醫(yī)漢語(yǔ)詞表的一級(jí)主題大類(lèi)包含:中醫(yī)基礎(chǔ)知識(shí)、中醫(yī)診斷、中醫(yī)治療、中藥知識(shí)、中醫(yī)養(yǎng)生、中醫(yī)文化六大類(lèi)(圖2)。一級(jí)大類(lèi)建立好后,參照中醫(yī)網(wǎng)站和中醫(yī)類(lèi)教材的分類(lèi)內(nèi)容,通過(guò)去重篩選將下一級(jí)內(nèi)容歸并到每個(gè)一級(jí)大類(lèi)中(表2)。
2.4 語(yǔ)料主題分類(lèi)
主題編排分類(lèi)完成后,將所搜集的文本教材和網(wǎng)站語(yǔ)料按照主題內(nèi)容分別放進(jìn)每個(gè)文件夾中。為方便軟件對(duì)語(yǔ)料數(shù)據(jù)進(jìn)行提取、統(tǒng)計(jì)、關(guān)鍵詞聚類(lèi),語(yǔ)料格式全部采用TXT 文本形式。示例文本中 H (Head)是課文對(duì)話(huà)標(biāo)題,T (Text)是課文對(duì)話(huà)內(nèi)容,W (Word)是本篇對(duì)話(huà)中與主題相關(guān)生詞表。每篇文本語(yǔ)料均以<>開(kāi)始,以</>結(jié)尾。由于各TXT文本已歸入到細(xì)致的小類(lèi)中,因此在人工進(jìn)行詞表的篩選處理時(shí),需注重把握小類(lèi)主題的領(lǐng)域特征,把不能顯著展現(xiàn)該領(lǐng)域特征的詞語(yǔ)進(jìn)行刪除。
2.5 中醫(yī)漢語(yǔ)語(yǔ)料的文本降噪、分詞處理、詞頻統(tǒng)計(jì)
語(yǔ)料收集和歸類(lèi)完成后,接下來(lái)利用劉華研發(fā)的“漢語(yǔ)助研”軟件(語(yǔ)料庫(kù)建設(shè)統(tǒng)計(jì)一體化工具),對(duì)語(yǔ)料文本進(jìn)行降噪處理和分詞統(tǒng)計(jì)工作。由于語(yǔ)料是通過(guò)網(wǎng)絡(luò)爬取和軟件掃描識(shí)別獲取,在文本中會(huì)出現(xiàn)各種不規(guī)范的格式符號(hào),如垃圾廣告鏈接、網(wǎng)絡(luò)用語(yǔ)字符、亂碼符號(hào)等。這些無(wú)關(guān)的符號(hào)信息會(huì)影響詞頻統(tǒng)計(jì)的準(zhǔn)確度,因此需要對(duì)其進(jìn)行降噪處理,并結(jié)合人工檢查校對(duì),最終形成可使用的純文本,同時(shí)進(jìn)行分詞處理。
詞頻的統(tǒng)計(jì)結(jié)果可為下一步詞語(yǔ)聚類(lèi)的權(quán)重計(jì)算提供依據(jù)。語(yǔ)料中含有大量實(shí)體意義不明顯的功能詞,如“的、了、是、在、和、很”等語(yǔ)氣助詞、副詞、介詞、連詞。這類(lèi)詞本身并無(wú)明顯區(qū)別意義,但出現(xiàn)頻率很高,在其他主題語(yǔ)料庫(kù)中亦是出現(xiàn)頻率最高的日常用詞,散布較均勻,不具有主題意義的區(qū)別性。為避免受到該類(lèi)詞語(yǔ)的干擾影響,達(dá)到突顯中醫(yī)漢語(yǔ)專(zhuān)門(mén)領(lǐng)域詞語(yǔ)特性的目的,我們需要對(duì)該類(lèi)詞進(jìn)行篩選去除,從而確保專(zhuān)業(yè)領(lǐng)域詞語(yǔ)的純凈度。
2.6 中醫(yī)漢語(yǔ)來(lái)源的主題聚類(lèi)與詞頻統(tǒng)計(jì)
詞頻能直觀明晰地展現(xiàn)某個(gè)詞語(yǔ)在中醫(yī)語(yǔ)料中的使用情況,一定意義上表明該詞語(yǔ)在中醫(yī)教材編排中的重要程度。但主題詞語(yǔ)的提取與詞義的主題聚合度密切相關(guān),詞頻統(tǒng)計(jì)并不能完全解決詞語(yǔ)主題特性的篩選問(wèn)題。解決此問(wèn)題需通過(guò)詞語(yǔ)聚類(lèi)的算法,對(duì)中醫(yī)語(yǔ)料的關(guān)鍵詞特征進(jìn)行提取,從而獲得中醫(yī)特征領(lǐng)域詞。
參照劉華《詞語(yǔ)計(jì)算和應(yīng)用》中關(guān)鍵詞特征提取方法,通過(guò)對(duì)詞語(yǔ)進(jìn)行切分、詞頻統(tǒng)計(jì)、加權(quán)計(jì)算和特征選擇,最終生成文本類(lèi)別核心向量,向量中的特征詞可作為該分類(lèi)文本的特征領(lǐng)域詞,權(quán)重越大,詞語(yǔ)的領(lǐng)域?qū)傩栽綇?qiáng)。(參見(jiàn)上文2.3計(jì)算方法與公式)
中醫(yī)網(wǎng)站語(yǔ)料主題詞聚類(lèi)(排名前30):
中醫(yī)藥、中醫(yī)、經(jīng)絡(luò)、辨治、臨床、津液、脾胃、氣血、臟腑、針灸、養(yǎng)生、血瘀、病機(jī)、舌質(zhì)、方劑、配伍、健脾、情志、傳承、外治、臨床、病證、督脈、黃芪、茯苓、艾灸、白芍、診療、解毒、舌苔
中醫(yī)專(zhuān)業(yè)類(lèi)教材語(yǔ)料主題詞聚類(lèi)(排名前30):
氣血、藥典、中醫(yī)、臟腑、經(jīng)絡(luò)、清熱、證候、中藥、水煎、脾胃、情志、養(yǎng)生、本草、血瘀、健脾、功效、血虛、寒邪、配伍、陽(yáng)虛、化痰、虧虛、氣滯、燥濕、陽(yáng)氣、陰虛、胃經(jīng)、味甘、活血、穴位
將上述兩類(lèi)來(lái)源語(yǔ)料詞聚類(lèi)排名與基本頻次排名進(jìn)行對(duì)比,可發(fā)現(xiàn)部分詞語(yǔ)在基本頻次表中排名較后,出現(xiàn)頻次低,但在其對(duì)應(yīng)的主題詞聚類(lèi)表中排名靠前,權(quán)重較高。
表3展示了詞頻位序和聚類(lèi)位序的排名升降對(duì)比情況,如詞語(yǔ)“中醫(yī)”“臟腑”“中藥”在教材語(yǔ)料的詞頻中排名分別為19、68、76,在主題詞聚類(lèi)中大幅上升,位居3、4、8;詞語(yǔ)“中醫(yī)”“臨床”“氣血”在網(wǎng)站語(yǔ)料的詞頻中排名29、35、44,在主題詞聚類(lèi)中大幅上升,位居2、5、8。由此可知,僅依靠詞語(yǔ)出現(xiàn)頻率作為詞表篩選的方法是不可取的,該方法并不能確保提取詞語(yǔ)的專(zhuān)業(yè)特性。結(jié)合詞頻和聚類(lèi)特征提取方法,能更便捷地篩選出具有強(qiáng)中醫(yī)領(lǐng)域特性的主題詞。
六個(gè)大主題類(lèi)別按照上述聚類(lèi)權(quán)重計(jì)算后,都可獲得一個(gè)基于權(quán)重大小排列的詞序列表,該列表可作為主題詞表的初級(jí)參考。如“中醫(yī)診斷”大類(lèi)中前15位詞語(yǔ)的聚類(lèi)計(jì)算結(jié)果樣例,見(jiàn)表4。
2.7 中醫(yī)漢語(yǔ)主題通用詞表與主題專(zhuān)類(lèi)詞表構(gòu)建
根據(jù)語(yǔ)義場(chǎng)理論,中醫(yī)專(zhuān)業(yè)領(lǐng)域本身具有明晰的內(nèi)容類(lèi)別體系。我們基于中醫(yī)知識(shí)體系和漢語(yǔ)詞語(yǔ)語(yǔ)義場(chǎng)理論,對(duì)整體中醫(yī)語(yǔ)料進(jìn)行逐級(jí)分類(lèi)。分類(lèi)級(jí)別越細(xì)致,主題專(zhuān)類(lèi)詞語(yǔ)出現(xiàn)越多。以“中醫(yī)診斷”一級(jí)大類(lèi)為例,其二級(jí)大類(lèi)包含“四診”“八綱”“辨證”,其中“四診”的下一級(jí)又包含“望診”“聞診”“問(wèn)診”“切診”的三級(jí)分類(lèi)。即“中醫(yī)診斷”聚類(lèi)詞語(yǔ)視為一級(jí)詞語(yǔ),“四診”視為二級(jí)詞語(yǔ),“望診”視為三級(jí)詞語(yǔ)。
如上文提及,主題通用詞一般是指行業(yè)領(lǐng)域內(nèi)使用頻率較高、使用范圍最廣的基礎(chǔ)詞語(yǔ),主題專(zhuān)類(lèi)詞則是專(zhuān)業(yè)特點(diǎn)更突出、分類(lèi)屬性更強(qiáng),能區(qū)別主題細(xì)微特征的詞語(yǔ)。表5顯示的是二級(jí)主題庫(kù)“四診”主題詞聚類(lèi),表6顯示的是“四診”主題庫(kù)分支下的三級(jí)主題庫(kù)“望診”的主題詞聚類(lèi)。結(jié)合表5與表6的詞語(yǔ)聚類(lèi)情況進(jìn)行統(tǒng)計(jì),兩表共有詞語(yǔ)可劃定為二級(jí)主題通用詞,即“四診”的主題通用詞,剩下的詞語(yǔ)通過(guò)核對(duì)篩選,可劃定為三級(jí)主題專(zhuān)類(lèi)詞,即“望診”的主題專(zhuān)類(lèi)詞。如表5和表6中,“氣血”“臟腑”“診斷”“外感”四個(gè)詞語(yǔ)在兩個(gè)等級(jí)表中都共同出現(xiàn),因此可將其視為二級(jí)主題通用詞。以此類(lèi)推,將二級(jí)主題中共有的詞語(yǔ)劃定為一級(jí)主題通用詞。
通過(guò)聚類(lèi)計(jì)算可以獲取類(lèi)別中與主題語(yǔ)義關(guān)聯(lián)度高的詞語(yǔ),但在上下級(jí)分類(lèi)中,會(huì)出現(xiàn)彼此重合的情況,上一級(jí)詞語(yǔ)的通用概括性更強(qiáng),下一級(jí)詞語(yǔ)的專(zhuān)業(yè)區(qū)別度更高。為避免分類(lèi)詞語(yǔ)出現(xiàn)雜糅混亂的問(wèn)題,需要借助“主題通用詞”和“主題專(zhuān)類(lèi)詞”的概念界定,對(duì)上下級(jí)詞語(yǔ)進(jìn)行篩選校對(duì)。使之達(dá)成上下級(jí)詞語(yǔ)分類(lèi)的功效:最高層級(jí)分類(lèi)體現(xiàn)中醫(yī)領(lǐng)域的宏觀概貌,底層分類(lèi)體現(xiàn)中醫(yī)各系統(tǒng)的細(xì)化專(zhuān)業(yè)屬性。
2.8 中醫(yī)漢語(yǔ)主題詞語(yǔ)補(bǔ)充擴(kuò)展
語(yǔ)言具有不斷變化發(fā)展的動(dòng)態(tài)屬性,縱使聚類(lèi)算法可提取語(yǔ)義聚合程度高的詞語(yǔ),但隨著語(yǔ)料信息的不斷豐富,依舊存在部分還未涉及但關(guān)聯(lián)度高的詞語(yǔ),這些詞語(yǔ)也應(yīng)納入中醫(yī)主題詞表中。
具體操作可運(yùn)用劉華研發(fā)的“詞語(yǔ)聚類(lèi)、詞語(yǔ)聯(lián)想、詞語(yǔ)擴(kuò)展在線(xiàn)檢索”(http://www.languagetech.cn/nlp/word/word_demo.aspx)軟件對(duì)詞表進(jìn)行補(bǔ)充完善。該軟件基于超大規(guī)模分類(lèi)語(yǔ)料庫(kù)建立而成,可在線(xiàn)實(shí)現(xiàn)相關(guān)主題詞語(yǔ)的聚類(lèi)擴(kuò)展功能。利用該軟件能實(shí)時(shí)獲取網(wǎng)絡(luò)平臺(tái)的相關(guān)主題新詞,有助于實(shí)現(xiàn)類(lèi)別詞語(yǔ)的擴(kuò)展補(bǔ)充。如中醫(yī)漢語(yǔ)詞表創(chuàng)建中,將“中醫(yī)治療”下的二級(jí)分類(lèi)“針灸”輸入該軟件中,出現(xiàn)可作為本研究詞表的補(bǔ)充詞語(yǔ):奇穴、腧穴、經(jīng)穴、耳針、刺法等。
此外,還可借助自然語(yǔ)言處理與信息檢索共享平臺(tái)(http://www.nlpir.org)的word2vec工具繼續(xù)補(bǔ)充完善詞表。該工具原理是將詞轉(zhuǎn)換成對(duì)應(yīng)向量的形式,在向量空間中詞語(yǔ)之間可通過(guò)定量的方式進(jìn)行彼此關(guān)系的度量。在詞表分類(lèi)中,詞語(yǔ)向量空間的相似度,主要是指語(yǔ)義聯(lián)想的相似度,即通過(guò)語(yǔ)義相似度的計(jì)算得出聯(lián)想度高的詞語(yǔ)。如將一級(jí)大類(lèi)“中醫(yī)診斷”的語(yǔ)料放入軟件中進(jìn)行計(jì)算,橙色是主題詞“人體”在文本中的特征聚類(lèi)詞,藍(lán)色部分為語(yǔ)義聯(lián)想詞(圖4)。上述“中醫(yī)診斷”的下一級(jí)分類(lèi)是以“四診”“八綱”“辨證”為主,而通過(guò)詞語(yǔ)語(yǔ)義網(wǎng)擴(kuò)充,我們可知在“中醫(yī)診斷”的下一級(jí)分類(lèi)中還可補(bǔ)充有關(guān)“機(jī)體”的關(guān)聯(lián)詞語(yǔ)。通過(guò)詞語(yǔ)語(yǔ)義的聯(lián)想關(guān)系,將具有相似性的詞語(yǔ)補(bǔ)充進(jìn)詞表中,可彌補(bǔ)因人工分類(lèi)帶來(lái)的詞語(yǔ)提取不平衡性的問(wèn)題。
3. 結(jié)語(yǔ)
詞表的語(yǔ)料來(lái)源對(duì)詞表創(chuàng)建具有先決判定作用,以往詞表多基于現(xiàn)有文本素材收集,結(jié)合人工審核篩選創(chuàng)建形成。本研究充分考慮當(dāng)今語(yǔ)言信息的傳播方式和流通特性,鎖定具有動(dòng)態(tài)更新功能的“中醫(yī)網(wǎng)站”作為詞表重要來(lái)源之一。通過(guò)網(wǎng)絡(luò)爬蟲(chóng)獲取大量候選的詞語(yǔ)集合,不僅能較全面獲取分類(lèi)齊全的中醫(yī)素材,且能確保所選語(yǔ)料具有流通性和真實(shí)性。
詞表的編寫(xiě)需講究體系與層次,中醫(yī)漢語(yǔ)由于領(lǐng)域特點(diǎn)較突出,詞語(yǔ)文化內(nèi)涵豐富,若不進(jìn)行合理分類(lèi)編排,易造成詞表體系的繁雜。本研究基于中醫(yī)漢語(yǔ)語(yǔ)料庫(kù)資源,通過(guò)聚類(lèi)算法形成的主題關(guān)鍵詞詞簇,能更好地突顯主題領(lǐng)域特征,為各主題內(nèi)部的詞語(yǔ)主題分類(lèi)提供依據(jù),便于詞表創(chuàng)建中主題場(chǎng)景應(yīng)用的提取與調(diào)度,幫助學(xué)習(xí)者樹(shù)立中醫(yī)詞語(yǔ)整體系統(tǒng)觀。在詞表后期構(gòu)建中,我們也發(fā)現(xiàn)縱使擴(kuò)大了語(yǔ)料搜集的來(lái)源范圍,但依舊無(wú)法避免在選詞抽樣過(guò)程中出現(xiàn)隨機(jī)性。因此借助詞語(yǔ)擴(kuò)展工具生成語(yǔ)義相似的關(guān)聯(lián)詞語(yǔ),能有助詞表的完善和優(yōu)化。
本文以語(yǔ)料庫(kù)與計(jì)算語(yǔ)言學(xué)方法作為研究手段,對(duì)中醫(yī)漢語(yǔ)詞表的創(chuàng)建路徑進(jìn)行初步嘗試。但由于人力物力有限,詞表依舊有不少需要完善的空間,如擴(kuò)充詞表語(yǔ)料來(lái)源的收錄采集量、研制中醫(yī)漢語(yǔ)詞表分級(jí)大綱、總結(jié)中醫(yī)漢語(yǔ)詞語(yǔ)構(gòu)詞方式等。后期將以本研究作為延伸依據(jù),針對(duì)現(xiàn)有不足進(jìn)行修補(bǔ)完善,以期為中醫(yī)漢語(yǔ)的詞典編纂、教材編寫(xiě)、主題教學(xué)提供價(jià)值參考,推動(dòng)中醫(yī)漢語(yǔ)的研究發(fā)展和應(yīng)用實(shí)踐。
[參考文獻(xiàn)]
劉 華 2007a 基于文本分類(lèi)中特征提取的領(lǐng)域詞語(yǔ)聚類(lèi)[J]. 語(yǔ)言文字應(yīng)用(1).
——— 2007b 基于關(guān)鍵短語(yǔ)的文本分類(lèi)研究[J]. 中文信息學(xué)報(bào)(4).
——— 2010 詞語(yǔ)計(jì)算與應(yīng)用[M]. 廣州:暨南大學(xué)出版社.
劉長(zhǎng)征,張 普 2008 對(duì)外漢語(yǔ)教學(xué)用詞表的多元化與動(dòng)態(tài)更新[J]. 語(yǔ)言文字應(yīng)用(2).
李 強(qiáng),袁毓林 2019 生成詞庫(kù)理論和名詞語(yǔ)義的結(jié)構(gòu)描述與概念解釋[J].語(yǔ)言學(xué)論叢(1).
李 泉 2011 論專(zhuān)門(mén)用途漢語(yǔ)教學(xué)[J]. 語(yǔ)言文字應(yīng)用(8).
李 泉, 宮 雪 2015 通用型、區(qū)域型、語(yǔ)別型、國(guó)別型——談國(guó)際漢語(yǔ)教材的多元化[J].漢語(yǔ)學(xué)習(xí)(1).
梁紅梅,何安平 2010 語(yǔ)料庫(kù)的“教學(xué)加工”與教材編寫(xiě)[J].當(dāng)代外語(yǔ)研究(10).
蘇新春 2013 詞典與詞匯的計(jì)量研究[M].上海:上海辭書(shū)出版社.
王硯農(nóng) 1992 談?wù)劇爸嗅t(yī)漢語(yǔ)”系列教材[J]. 世界漢語(yǔ)教學(xué)(4).
夏志明,劉 新 2015 一種基于語(yǔ)義的中文文本相似度算法[J]. 計(jì)算機(jī)與現(xiàn)代化(4).
楊開(kāi)平 2018 基于語(yǔ)義相似度的中文文本聚類(lèi)算法研究[D].電子科技大學(xué)碩士學(xué)位論文.
喻雪玲 2013 基于語(yǔ)料庫(kù)的商務(wù)漢語(yǔ)話(huà)題庫(kù)及話(huà)題詞表構(gòu)建[D].暨南大學(xué)碩士畢業(yè)論文.
袁毓林,盧達(dá)威 2018 怎樣利用語(yǔ)言知識(shí)資源進(jìn)行語(yǔ)義理解和常識(shí)推理[J]. 中文信息學(xué)報(bào)(12).
張雷平 2019 中醫(yī)語(yǔ)言研究的百年回顧與思考[J].江淮論壇(3).
鐘心怡 2019 中醫(yī)漢語(yǔ)教材的詞匯編排與中醫(yī)專(zhuān)業(yè)課程的契合度研究[D].南京大學(xué)碩士畢業(yè)論文.
周小兵,干紅梅 2008 商務(wù)漢語(yǔ)教材選詞考察與商務(wù)詞匯大綱編寫(xiě)[J]. 世界漢語(yǔ)教學(xué)(1).
A corpus-based approach to constructing a vocabulary of subject terms of TCM Chinese
LIU Hua, LI Xiaoyuan
(College of Chinese Language and Culture, Jinan University, Guangzhou, Guangdong 510610, China)
Key words: corpus; Chinese for specific purposes; word clustering; Chinese vocabulary of TCM
Abstract: The vocabulary in specific field is the basis for compiling textbooks of Chinese for Specific Purposes and guiding Chinese teaching. Based on TCM Chinese textbooks and TCM websites, a TCM Chinese corpus was constructed. A hierarchical topic clustering vocabulary system in TCM Chinese teaching is constructed by? applying? theories of Chinese for Specific Purposes, and using the methods of word clustering, word association and semantic web construction in computational linguistics. This method can provide a reference for the construction of vocabularies for Chinese teaching in other fields.
【責(zé)任編輯 匡小榮】
[收稿日期] 2021-07-13
[作者簡(jiǎn)介] 劉華,男,暨南大學(xué)華文學(xué)院教授,博士生導(dǎo)師。主攻方向:計(jì)算語(yǔ)言學(xué)、海外華語(yǔ)及華文教
學(xué)、智能漢語(yǔ)教學(xué)。李曉源,女,暨南大學(xué)華文學(xué)院博士生。主攻方向:國(guó)際中文教育、海外華語(yǔ)及華文教學(xué)、計(jì)算語(yǔ)言學(xué)。