国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于文本挖掘技術(shù)的《易經(jīng)》可視化初探

2021-03-21 10:12:56岑蕭萍高日陽(yáng)劉秀峰
關(guān)鍵詞:爻辭易經(jīng)詞頻

岑蕭萍,高日陽(yáng),劉秀峰

1.廣州中醫(yī)藥大學(xué)醫(yī)學(xué)信息工程學(xué)院,廣東 廣州 510006;2.廣州中醫(yī)藥大學(xué)基礎(chǔ)醫(yī)學(xué)院,廣東 廣州 510006

中醫(yī)古籍蘊(yùn)含著寶貴的古代名醫(yī)經(jīng)驗(yàn),但由于其文本具有深?yuàn)W難懂的特點(diǎn),價(jià)值難以得到充分發(fā)揮。大數(shù)據(jù)時(shí)代的到來(lái)為中醫(yī)古籍研究開(kāi)辟了新思路,如基于關(guān)聯(lián)規(guī)則算法對(duì)《診方輯要》中中藥配伍的研究[1],基于文本挖掘技術(shù)對(duì)《本草集要》中語(yǔ)義內(nèi)容特征的分析[2]。然而,已有研究對(duì)中醫(yī)古籍文本信息未充分利用,難以發(fā)揮其中潛在價(jià)值[3]。

《易經(jīng)》作為十三經(jīng)之一,是一部蘊(yùn)含中醫(yī)智慧的經(jīng)典古籍,對(duì)于中醫(yī)的發(fā)展起到了指導(dǎo)作用。由于其中蘊(yùn)含象數(shù)的原理,結(jié)合現(xiàn)代數(shù)學(xué)與計(jì)算機(jī)技術(shù)能夠發(fā)掘《易經(jīng)》的科學(xué)性。2017 年,唐毅[4]采用計(jì)算機(jī)技術(shù)中的蒙特卡洛方法模擬蓍草起卦過(guò)程,計(jì)算《易經(jīng)》六十四卦中各爻出現(xiàn)概率、變爻出現(xiàn)概率、卦間轉(zhuǎn)化概率。然而對(duì)于《易經(jīng)》文本的研究,目前限于文言文的理解角度,如張瑞芳[5]、任曉彤[6]對(duì)于《易經(jīng)》動(dòng)詞配價(jià)與虛詞的研究,缺乏對(duì)《易經(jīng)》所體現(xiàn)核心價(jià)值的直觀展現(xiàn)。文本挖掘技術(shù)作為一門從非結(jié)構(gòu)或半結(jié)構(gòu)的文字中發(fā)掘出先前未知、隱含而有用的信息的計(jì)算機(jī)技術(shù),對(duì)文本內(nèi)容的潛在價(jià)值挖掘有效。但目前對(duì)于文言文尤其經(jīng)典古籍的文本挖掘研究較稀缺,且鮮見(jiàn)《易經(jīng)》文本的挖掘研究。

《易經(jīng)》與中醫(yī)學(xué)有著密切聯(lián)系,目前國(guó)內(nèi)外已有一些關(guān)于二者聯(lián)系的研究[7-9],但缺乏結(jié)合現(xiàn)代技術(shù)進(jìn)行客觀反映與驗(yàn)證。在大數(shù)據(jù)背景下,對(duì)中醫(yī)古籍進(jìn)行挖掘,將使其中關(guān)鍵知識(shí)與規(guī)律能被更好地抽取,輔助人們理解篇目龐大、晦澀難懂的中醫(yī)古籍文本。本研究運(yùn)用文本挖掘技術(shù)對(duì)《易經(jīng)》中六十四卦爻辭進(jìn)行探索,通過(guò)對(duì)各卦的關(guān)鍵詞提取、聚類分析等得到卦爻辭間的聯(lián)系與特點(diǎn),運(yùn)用可視化技術(shù)進(jìn)行展現(xiàn),并結(jié)合中醫(yī)學(xué)理論進(jìn)行闡釋。

1 資料與方法

1.1 數(shù)據(jù)來(lái)源

本文基于《周易正義》中六十四卦爻辭[10],構(gòu)建64 行8 列的數(shù)據(jù)集,每一行代表一支卦,第一、二列依次為卦名與卦辭,其后六列分別為初爻、二爻、三爻、四爻、五爻、六爻爻辭。

1.2 分詞

分詞是文本挖掘的關(guān)鍵步驟,其效果對(duì)挖掘結(jié)果可產(chǎn)生直接影響。目前已有的分詞方法主要有盤(pán)古分詞、jieba 分詞等。有研究表明,在中醫(yī)文獻(xiàn)分詞中,jieba 分詞有較高的準(zhǔn)確率,且結(jié)合自定義詞庫(kù)能夠提升分詞準(zhǔn)確性[11]。本研究運(yùn)用python 中的jieba 分詞模塊對(duì)數(shù)據(jù)進(jìn)行分詞,得到分詞結(jié)果。依據(jù)文言文分詞規(guī)律及《易經(jīng)》注釋文本,發(fā)現(xiàn)部分詞劃分不夠準(zhǔn)確。如“利見(jiàn)大人”應(yīng)分為“利”“見(jiàn)大人”,但jieba將其分為“利見(jiàn)”“大人”。因此,導(dǎo)入自定義詞庫(kù),添加“見(jiàn)大人”等詞,提升了分詞準(zhǔn)確性。

1.3 去停用詞

文言文中一些虛詞大多無(wú)實(shí)際意義,需去除。常見(jiàn)的停用詞表主要針對(duì)現(xiàn)代文,因此需自定義停用詞表。18 個(gè)文言虛詞包括:而、何、乎、乃、其、且、若、所、為、焉、也、以、因、于、與、則、者、之,將常見(jiàn)的18 個(gè)文言虛詞以及所有文中出現(xiàn)的標(biāo)點(diǎn)符號(hào)載入,在分詞基礎(chǔ)上剔除上述停用詞。

1.4 Word2Vec 詞向量表示

Word2Vec 是基于神經(jīng)網(wǎng)絡(luò)將文檔中的詞匯映射為詞向量的一種詞向量表示模型,由Mikolov 等[12-13]提出,可用來(lái)快速有效地訓(xùn)練詞向量。Word2Vec 分為2 種模型,CBow 模型通過(guò)上下文來(lái)預(yù)測(cè)當(dāng)前詞,Skip-gram 模型則通過(guò)當(dāng)前詞來(lái)預(yù)測(cè)其上下文。由于本研究的數(shù)據(jù)量較小,選擇運(yùn)用Skip-gram 模型進(jìn)行詞向量訓(xùn)練[14]。

1.5 詞頻-逆文檔頻率文檔表示法

詞頻-逆文檔頻率(TF-IDF)是用以評(píng)估一個(gè)詞語(yǔ)對(duì)于一個(gè)文檔集中某一文檔的重要程度的統(tǒng)計(jì)方法。字詞的重要性與其在文檔中出現(xiàn)次數(shù)成正比并同時(shí)與其在文檔集中出現(xiàn)頻率成反比,即一個(gè)詞語(yǔ)在一個(gè)文檔中出現(xiàn)次數(shù)越多,同時(shí)在所有文檔中出現(xiàn)次數(shù)越少,就越能夠代表該文檔。運(yùn)用TF-IDF 文檔表示法可將分詞、去停用詞后文本數(shù)據(jù)映射為文檔-詞頻矩陣,將文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化、易于計(jì)算的數(shù)據(jù)。

1.6 層次聚類

聚類分析指將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類別的分析過(guò)程。層次聚類是聚類分析算法之一,其基本思想是通過(guò)某種相似性度量計(jì)算節(jié)點(diǎn)間的相似性,并按相似度由高到低排序,逐步重新連接各節(jié)點(diǎn)。為更好地挖掘六十四卦間的聯(lián)系,本研究采用層次聚類方法基于TF-IDF 文檔-詞頻矩陣對(duì)六十四卦進(jìn)行聚類。

2 結(jié)果

2.1 詞頻統(tǒng)計(jì)

為探索《易經(jīng)》中出現(xiàn)頻次較多的詞語(yǔ),去停用詞后進(jìn)行詞頻統(tǒng)計(jì),并通過(guò)python 的wordcloud 模塊制作詞云圖進(jìn)行可視化,見(jiàn)圖1。在詞云圖中,詞頻越高的詞對(duì)應(yīng)的字體越大,越突出顯示。由詞云圖可以看出,“無(wú)咎”是《易經(jīng)》文本中出現(xiàn)頻率最高的詞,其次為“有孚”“貞吉”“君子”“有攸往”“不利”“悔亡”“元吉”“利貞”等。

圖1 《易經(jīng)》卦爻辭詞云圖(100詞)

2.2 共現(xiàn)詞挖掘

為進(jìn)一步探索圖1 中得到的關(guān)鍵詞間出現(xiàn)頻率的相關(guān)性,選擇詞頻較高的5個(gè)重要詞語(yǔ),利用Word2Vec模型計(jì)算得到其最相似的6個(gè)詞,見(jiàn)表1。Word2Vec模型構(gòu)建參數(shù)如下:上下文窗口設(shè)置為5,詞向量維度設(shè)置為500維,使用夾角余弦計(jì)算詞語(yǔ)相似度,設(shè)置迭代次數(shù)為10。結(jié)果顯示,《易經(jīng)》中常見(jiàn)的詞語(yǔ)無(wú)咎、吉、兇、君子、有孚等有著很強(qiáng)的相關(guān)性。

表1 5個(gè)重要關(guān)鍵詞的主要共現(xiàn)詞及其相似度

2.3 六十四卦聯(lián)系探索

《易經(jīng)》六十四卦相互聯(lián)系而各有特點(diǎn)。通過(guò)對(duì)各卦進(jìn)行詞頻統(tǒng)計(jì)發(fā)現(xiàn),《易經(jīng)》全文中出現(xiàn)較多的詞語(yǔ)如“無(wú)咎”“貞吉”“兇”等也在各?卦的卦爻辭中頻繁出現(xiàn),詞頻統(tǒng)計(jì)難以顯示各卦特點(diǎn)。因此,本研究采用TF-IDF詞頻計(jì)算方法將六十四卦分別映射為向量,進(jìn)而通過(guò)聚類分析、相似性網(wǎng)絡(luò)分析探索六十四卦的聯(lián)系。

2.3.1 層次聚類

將每支卦對(duì)應(yīng)的所有卦爻辭分別作為一個(gè)文檔,通過(guò)TF-IDF計(jì)算映射為向量,基于參數(shù)設(shè)置降低矩陣稀疏度,得到64*122維的文檔-詞頻矩陣。對(duì)所得文檔-詞頻矩陣進(jìn)行層次聚類,詳見(jiàn)圖2、表2,其中六十四卦編號(hào)為0~63。六十四卦首先被聚成2個(gè)大類,一類包含2個(gè)模塊,另一類包含3個(gè)模塊。其中能夠反映出《易經(jīng)》各卦的一些性質(zhì)與聯(lián)系,如既濟(jì)和未濟(jì)卦爻排列顛倒,字面含義相反,且互為綜卦,被聚到不同模塊(2、4),且分屬于2個(gè)不同大類。大過(guò)和小過(guò)字面含義相近,僅表意程度不同,被聚到相同大類的2個(gè)不同模塊(3、5)。但也出現(xiàn)了一些特殊情況,如大有和大過(guò)、損和益雖然字面含義相反,卻被聚在同一個(gè)模塊(3、5),且屬于同一最小簇,具有很強(qiáng)聯(lián)系。否和泰互為綜卦,被聚到2個(gè)模塊(1、2),但無(wú)法被明顯區(qū)分為2個(gè)大類。

圖2 《易經(jīng)》六十四卦層次聚類樹(shù)狀圖

表2 六十四卦聚為5類對(duì)應(yīng)卦名

2.3.2 相似性網(wǎng)絡(luò)圖

為深入探索六十四卦的聯(lián)系,計(jì)算各卦爻辭向量間余弦相似度,可視化成為網(wǎng)絡(luò)圖(見(jiàn)圖3)。圖中顯示六十四卦相似網(wǎng)絡(luò)圖較復(fù)雜,每一卦都有與其相似的卦。為深入探索相似度較高的卦爻對(duì),選擇0.45作為相似度閾值,篩選出大于閾值的卦爻對(duì),見(jiàn)表3。

圖3 六十四卦相似網(wǎng)絡(luò)圖

表3 六十四卦高相似度卦爻對(duì)(>0.45)

小畜和小過(guò)、師和臨、損和益、坎和困、噬嗑和萃、比和未濟(jì)、未濟(jì)和既濟(jì)、乾和蹇、蒙和無(wú)妄、臨和無(wú)妄等有較強(qiáng)文本相似性。為探索其文本相似性,依據(jù)TF-IDF文檔-詞頻矩陣提取上述10對(duì)相似卦的關(guān)鍵詞,其中強(qiáng)相似的4對(duì)卦的TF-IDF詞頻最高的前4個(gè)關(guān)鍵詞(坎卦僅有3個(gè)關(guān)鍵詞),4對(duì)相似卦的關(guān)鍵詞均有重復(fù),詳見(jiàn)表4。這些關(guān)鍵詞來(lái)源于某一句或多句卦爻辭。其中2對(duì)卦包含相同的單卦,如坎(下坎上坎)和困(下坎上兌)均包含坎卦單卦,師卦(下坎上坤)和臨卦(下兌上坤)均包含坤卦單卦。

表4 強(qiáng)相似卦爻對(duì)的重要關(guān)鍵詞

3 討論

3.1 《易經(jīng)》的無(wú)咎思想與中醫(yī)的中庸之道

《易經(jīng)》被普遍認(rèn)為用于預(yù)測(cè)吉兇,由圖1可見(jiàn),與吉兇相關(guān)的詞語(yǔ)出現(xiàn)頻次較多,而《易經(jīng)》中出現(xiàn)頻次最高的詞語(yǔ)不是吉兇,而是“無(wú)咎”。由表1中Word2Vec詞語(yǔ)相似性度量結(jié)果可知,“無(wú)咎”與“吉”有0.833的相似度,高于其與“兇”的相似度(0.746)。由于Word2Vec詞語(yǔ)相似度主要與文檔中詞語(yǔ)間以一定距離內(nèi)間隔的頻率相關(guān),該結(jié)果說(shuō)明“無(wú)咎”和“吉”在文檔中相近出現(xiàn)的頻率高于其與“兇”同時(shí)出現(xiàn)的頻率,反映“無(wú)咎”更趨于吉。而“吉”和“兇”有較大的相似性(0.734),如訟卦“有孚窒惕,中吉,終兇”,屯卦“屯其膏,小,貞吉;大,貞兇”,體現(xiàn)吉轉(zhuǎn)化為兇、吉中有兇的現(xiàn)象,可見(jiàn)《易經(jīng)》強(qiáng)調(diào)居安思危、防患于未然?!凹杏袃础痹谥嗅t(yī)體現(xiàn)為疾病治愈后可能有未病或復(fù)發(fā),即“瘥后防復(fù)”。因此,無(wú)吉無(wú)兇即無(wú)咎,是《易經(jīng)》中所提倡的處事道理。從儒家角度,無(wú)咎可理解為中庸之道。中庸之道認(rèn)為“中”即平衡是事物的最佳狀態(tài),《黃帝內(nèi)經(jīng)》也十分注重通過(guò)調(diào)節(jié)取得平衡,主要體現(xiàn)在治病行調(diào)和陰陽(yáng)以取得平衡[15]。

本研究通過(guò)文本分詞、詞頻統(tǒng)計(jì)與詞語(yǔ)相似度分析得到《易經(jīng)》中出現(xiàn)頻次較多的關(guān)鍵詞語(yǔ)以及詞語(yǔ)之間的聯(lián)系,從統(tǒng)計(jì)角度解讀《易經(jīng)》文本的核心,該方法可用于文本內(nèi)容更豐富的其他中醫(yī)古籍如《靈樞》《傷寒論》等研究中,通過(guò)抽取其關(guān)鍵詞語(yǔ),幫助人們把握中醫(yī)古籍的主題。

3.2 《易經(jīng)》的物極必反、損中有益與中醫(yī)的陰陽(yáng)制化、損益配伍

本研究通過(guò)對(duì)《易經(jīng)》六十四卦的層次聚類挖掘出卦爻語(yǔ)義間的聯(lián)系。既濟(jì)和未濟(jì)互為綜卦,兩者字面含義相反,在聚類時(shí)分屬于2 個(gè)模塊,但兩者的相似度(0.478)卻不低,觀察發(fā)現(xiàn)兩者卦爻辭內(nèi)容相近,多處出現(xiàn)重復(fù)詞語(yǔ),而聚類能夠區(qū)分兩者,說(shuō)明該聚類方法的有效性。泰和否互為綜卦,且字面上含義相反,分屬于2 個(gè)不同模塊。本研究發(fā)現(xiàn)多對(duì)綜卦能夠聚在不同模塊,意味著綜卦具有互補(bǔ)或相反的性質(zhì)。但泰和否在聚類時(shí)沒(méi)有明顯地區(qū)分成為兩大類,兩者共同關(guān)鍵詞為“拔茅茹”,分別對(duì)應(yīng)于泰卦的初九爻“拔茅茹,以其匯,征吉”與否卦的初六爻“拔茅茹,以其匯;貞吉,亨”,二者初始相同,但其后的爻辭不同,一定程度上說(shuō)明泰轉(zhuǎn)化為否的道理。大有和大過(guò)字面上看含義相反,卻被聚在同一模塊,兩者共同關(guān)鍵詞為“不利”,分別體現(xiàn)在大有卦的上九爻與大過(guò)卦的九二爻,反映出物極必反、大有至極為大過(guò)的道理。這種物極必反的思想在《易經(jīng)》中多次體現(xiàn)。中醫(yī)強(qiáng)調(diào)陰陽(yáng)對(duì)立制約、相互轉(zhuǎn)化,陰陽(yáng)的相互轉(zhuǎn)化發(fā)生在事物發(fā)展變化的“物極”階段,即“物極必反”。《素問(wèn)》“重陰必陽(yáng),重陽(yáng)必陰”“寒極生熱,熱極生寒”體現(xiàn)了物極必反的道理。

由圖2、表3 可見(jiàn),損和益雖互為綜卦,但其不僅在聚類時(shí)聚在同一模塊,文本相似度也較高(0.548),說(shuō)明損卦和益卦具有緊密聯(lián)系。分析損卦和益卦的共同關(guān)鍵詞,發(fā)現(xiàn)“十朋之龜”“弗克違”“益之”分別來(lái)自損卦的六五爻“或益之,十朋之龜。弗克違,元吉”和益卦的六二爻“或益之,十朋之龜。弗克違,永貞吉。王用享于帝,吉”,兩句爻辭內(nèi)容基本相似,且在損卦中2 次出現(xiàn)“弗損益之”的語(yǔ)句??梢?jiàn),損中有益,損和益配合需要根據(jù)實(shí)際情況進(jìn)行,符合中醫(yī)“損有余而補(bǔ)不足”的治療理念。中醫(yī)治療總則為以平為期,平即均也,均者,合道也。中醫(yī)按損益原則組方遣藥,既有大承氣湯的“瀉其有余”,也有四君子湯的“補(bǔ)其不足”,更多的是按虛實(shí)比例不同的補(bǔ)中有瀉、瀉中有補(bǔ),如六味地黃湯的三補(bǔ)三瀉、白虎加人參湯的瀉中有補(bǔ),都體現(xiàn)了以損益為立論礎(chǔ)的配伍原則。

通過(guò)層次聚類、相關(guān)性分析可發(fā)現(xiàn)《易經(jīng)》文本中一些隱藏規(guī)律,該方法可用于分析挖掘其他中醫(yī)古籍的潛在規(guī)律,如藥物之間的相關(guān)性、古籍文本之間的相關(guān)性等。

3.3 中醫(yī)古籍挖掘及可視化的價(jià)值與意義

中醫(yī)古籍內(nèi)容豐富,蘊(yùn)含大量中醫(yī)理論與古代名醫(yī)積累的寶貴知識(shí)經(jīng)驗(yàn),是學(xué)習(xí)中醫(yī)和運(yùn)用中醫(yī)的優(yōu)秀知識(shí)來(lái)源。中醫(yī)古籍內(nèi)容深澀難懂,對(duì)于學(xué)習(xí)、研究和應(yīng)用中醫(yī)造成很大阻礙。隨著人工智能的發(fā)展,大數(shù)據(jù)挖掘?qū)τ谥嗅t(yī)古籍核心內(nèi)容的抽取與中醫(yī)古籍的潛在規(guī)律的探索具有重要意義,而可視化技術(shù)可對(duì)中醫(yī)古籍中潛在規(guī)律進(jìn)行直觀展現(xiàn),幫助人們更好地理解中醫(yī)。本研究的文本挖掘流程可擴(kuò)展用于中醫(yī)古籍內(nèi)容的初步挖掘與可視化,結(jié)合一些新興人工智能技術(shù)將有助于深入挖掘中醫(yī)古籍中的潛在規(guī)律價(jià)值,以期為中醫(yī)的理論與實(shí)踐提供指導(dǎo)。

4 結(jié)語(yǔ)

本研究運(yùn)用文本挖掘?qū)Α兑捉?jīng)》中六十四卦卦爻辭進(jìn)行探索,基于TF-IDF 關(guān)鍵詞抽取、聚類分析、相似性網(wǎng)絡(luò)分析等挖掘方法,得到的結(jié)果驗(yàn)證了已有研究《易經(jīng)》與中醫(yī)在損益理論方面的聯(lián)系[16]、《易經(jīng)》中的“物極必反”思想[17],且通過(guò)詞頻統(tǒng)計(jì)、詞語(yǔ)相似度計(jì)算體現(xiàn)了《易經(jīng)》的“無(wú)咎”思想,采用了可視化技術(shù)對(duì)所挖掘結(jié)果進(jìn)行展現(xiàn),直觀量化地反映了《易經(jīng)》的核心價(jià)值。本文體現(xiàn)了文本挖掘技術(shù)在中醫(yī)古籍研究中的潛在價(jià)值,后續(xù)將進(jìn)一步結(jié)合深度學(xué)習(xí)、知識(shí)圖譜、文檔推理等技術(shù)擴(kuò)展用于其他中醫(yī)古籍的挖掘與可視化研究。

猜你喜歡
爻辭易經(jīng)詞頻
基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
園林科技(2021年3期)2022-01-19 03:17:48
《周易》卦爻辭的空間性言說(shuō)
《易經(jīng)·序卦》探微
原道(2020年2期)2020-12-21 05:46:36
臨卦的文化意涵與生命關(guān)懷
簡(jiǎn)析《易經(jīng)》文化與太極拳
《易經(jīng)》不是用來(lái)算命的
福建人(2016年7期)2016-09-13 08:22:09
詞頻,一部隱秘的歷史
云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
《易經(jīng)》里的《天演論》
如何領(lǐng)悟《周易》卦象的奧妙
考試周刊(2014年71期)2014-10-20 23:46:47
和平区| 抚顺市| 高尔夫| 阿克苏市| 鄂伦春自治旗| 桐柏县| 南安市| 肥东县| 奉节县| 景德镇市| 肃宁县| 开封县| 施秉县| 任丘市| 炎陵县| 洛浦县| 连江县| 崇义县| 北安市| 包头市| 翁牛特旗| 安徽省| 明星| 潮安县| 西峡县| 如皋市| 克拉玛依市| 新竹县| 泸溪县| 长治县| 普格县| 福鼎市| 图木舒克市| 宜章县| 柳林县| 漳平市| 铜陵市| 西丰县| 永济市| 中宁县| 绥阳县|