国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于社區(qū)發(fā)現算法的消渴六經證候研究*

2022-09-29 15:21瞿溢謙虞紅蕾劉雨佳曹靈勇林樹元
關鍵詞:主癥古籍證候

劉 暢,瞿溢謙,虞紅蕾,劉雨佳,楊 帆,王 平,李 煜,曹靈勇**,林樹元**

(1. 浙江中醫(yī)藥大學基礎醫(yī)學院 杭州 310053;2. 廣東省中醫(yī)院 廣州 510120;3. 杭州甘之草科技有限公司杭州 310000;4. 澳門科技大學中醫(yī)藥學院 澳門 999078)

1 前言

消渴病以多飲、多食、多尿、口渴、乏力、消瘦,或尿有甜味為主要臨床表現,可見于現代醫(yī)學的糖尿病等[1]。經方是以張仲景六經辨證為理論核心的漢唐方脈醫(yī)學理論體系[2]。經方在改善胰島素低抗、保護胰島功能等方面具有明確優(yōu)勢。然而六經證候的復雜性、高維性[3],為其研究和挖掘帶來困難,也限制了證候的標準化、規(guī)范化。消渴的六經證候相關知識散見于多部經方醫(yī)學古籍[4-6],加大了證候研究的難度。

數據挖掘技術可以從大量數據中挖掘隱藏的知識或模式,在模糊、非線性數據的分析中獨具優(yōu)勢。目前,中醫(yī)證候研究中應用較為廣泛的數據挖掘技術是頻數統(tǒng)計、聚類分析和因子分析等[7]。因子分析在運算中對數據進行了降維處理,導致信息減損;其得到的“公因子”還需結合聚類分析[8]或人工整合,才能得到專業(yè)上可解釋的證候類別,這一過程增加了證候的主觀性。近年來,有研究將復雜網絡分析技術應用于中醫(yī)證候研究,在病歷數據的挖掘中取得了有意義的結果[9-11]。然而古籍知識以醫(yī)理論述、方藥為主,較病歷數據更為稀疏,以上述方法分析難以獲得滿意的結果。

知識圖譜與復雜網絡相融合的研究方法,為古籍證候知識的挖掘提供了可能。目前知識圖譜技術在中醫(yī)藥領域主要用于本體構建和數據庫構建[12],基于圖譜進行知識挖掘尚未見報導。從連接屬性來看,知識圖譜也屬于復雜網絡的一種[13]。復雜網絡的社區(qū)結構,能發(fā)現網絡中節(jié)點緊密的連接和相似的屬性,并基于此挖掘節(jié)點的潛在類別[14],這與中醫(yī)證候的數據結構特點和挖掘需求較為契合[3]。借助知識圖譜技術,古籍中的信息可經過抽取、融合,存儲為圖結構的數據,再通過復雜網絡分析技術中的社區(qū)發(fā)現算法對圖譜進行分析,得到證候和主癥等隱藏信息。這一方法可處理稀疏數據,無需對低頻次的癥狀進行刪減或合并,減少了信息減損和人工干預。

因此,本研究在消渴病經方古籍知識圖譜的基礎上,采用社區(qū)發(fā)現算法進行消渴病六經證候分布規(guī)律挖掘,對結果進行可視化展示。

2 資料與方法

2.1 數據來源

課題組在前期研究中已完成消渴病經方古籍知識圖譜的構建工作[15]。該圖譜包含9 部經方代表典籍中和消渴病相關的內容,采用Neo4j圖數據庫構建,包含1432 個節(jié)點、3067 個關系,其模式層包含24 個節(jié)點,24 個標簽,54 條關系和24 種關系類型。該圖譜可通過節(jié)點的多個屬性值和標簽,兼容古籍中一詞多義的語言現象。例如允許病名“消渴”和癥狀“消渴”同時存在,且檢索時可以通過屬性值進行區(qū)分(圖1)。

圖1 “消渴”病名與癥狀節(jié)點圖譜展示(部分)

2.2 知識挖掘

2.2.1 方法簡介

本文主要采用Louvain 社區(qū)發(fā)現算法挖掘圖譜中的證候分布規(guī)律,采用PageRank 算法明確各證候的主癥,并與因子分析結果進行對比。

(1) Louvain算法

社區(qū)發(fā)現算法從原理上可分為分離和聚合兩類。分離法基于移除社區(qū)的邊達到劃分社區(qū)的效果,而聚合法則基于節(jié)點鏈接的緊密度聚合為一個社區(qū)。Louvain 算法屬于聚合法,是使用優(yōu)化模塊度(Modularity,通常以Q表示)的方法以提高社區(qū)劃分效率的方法。模塊度是社區(qū)內節(jié)點的連邊數與隨機情況下的邊數之差。該算法計算過程中對節(jié)點進行逐層壓縮,計算效率高,是目前最為高效且被廣泛應用的社區(qū)發(fā)現算法之一[16]。其流程如下:

①將圖中的每個節(jié)點看成一個獨立的社區(qū),社區(qū)的數目與節(jié)點個數相同;

②對每個節(jié)點i,依次嘗試把i 分配到其每個鄰居節(jié)點所在的社區(qū),計算分配前與分配后的模塊度增益(以ΔQ表示),并記錄ΔQ最大的鄰居節(jié)點;如果maxΔQ>0,則把節(jié)點i 分配到ΔQ最大的鄰居節(jié)點所在的社區(qū),否則保持不變;

③重復②,直到所有節(jié)點的所屬社區(qū)不再變化;

④對圖進行壓縮,將所有在同一個社區(qū)的節(jié)點壓縮成一個新節(jié)點,原社區(qū)內節(jié)點之間的邊的權重轉化為新節(jié)點的權重,原社區(qū)間的邊權重轉化為新節(jié)點間的邊權重。如圖2 所示,0、1、2、4、5 這5 個節(jié)點在第一輪社區(qū)劃分中屬于同一個社區(qū),則在下一輪計算時,將5 個節(jié)點折疊成一個新節(jié)點(以節(jié)點14 代表),再進行社區(qū)劃分。

圖2 Louvain算法中的節(jié)點壓縮示意圖[16]

⑤重復上述步驟,直到整個圖的模塊度不再發(fā)生變化。

Q的計算公式為:

其中,Aij表示節(jié)點i和節(jié)點j之間邊的權重,kj表示所有和節(jié)點j連接的邊的權重之和,ki表示所有和節(jié)點i連接的邊的權重之和,kj/2m表示節(jié)點j和整個實體圖上任意一個節(jié)點連接的概率。m=1/2∑ijAij表示整個圖中所有邊的權重,即圖中邊的總數量。ci表示節(jié)點i所屬的社區(qū);當節(jié)點i和節(jié)點j在同一個社區(qū)時,δ(ci,cj)的函數值為0,否則為1。隨機情況下,節(jié)點i和節(jié)點j的期望連接權重為ki×kj/2m,Aij-ki×kj/2m即為節(jié)點i和j實際連接權重與期望連接權重之差。

于是模塊度增益ΔQ的計算公式為:

公式2 前半部分表示將節(jié)點i加入到社區(qū)c后的模塊度;后半部分表示加入節(jié)點i之前,社區(qū)c和節(jié)點i作為一個獨立社區(qū)時,二者的模塊度之和。兩者相減即為模塊度的增益。

由于Louvain 算法只能獲得癥狀的社區(qū)分布情況,而要進行專業(yè)分析得到證候,還需要知道社區(qū)內癥狀之間的主次關系。在一個社區(qū)中,某個節(jié)點與其他節(jié)點存在的連邊越多、權重越大,說明其在社區(qū)內的影響力越大。由此,可以通過計算各癥狀節(jié)點的影響力并排序,得到主癥。

(2) PageRank算法

PageRank 算法[17]源于網頁鏈接結構的算法,它將互聯(lián)網中眾多網頁看做圖的節(jié)點,網頁之間的鏈接看做邊,通過計算某個網頁被訪問的概率(即PR 值),體現該網頁的影響力。要得到這個概率,需要累加指向網頁的所有鏈接的重要性分值。

對于一個頁面A,它的PR值為:

其中PR(A)是頁面A的PR值,PR(Tn)是頁面Tn的PR值。頁面Tn是指向A的所有頁面中的某個頁面。C(Tn)是頁面Tn的出度,也就是Tn指向其他頁面的邊的個數。d為阻尼系數,表示在任意時刻,用戶到達某頁面后并繼續(xù)向后瀏覽的概率,該數值是根據上網者使用瀏覽器書簽的平均頻率估算而得,通常d=0.85。

該公式適用于節(jié)點之間連邊不帶權重的情況,本研究中癥狀節(jié)點之間的連邊帶有權重信息,故需要在計算PR(Tn)和C(Tn)時累加權重。例如,癥狀A、B、C、D在社區(qū)中的連接關系如圖3 所示,其中A、B之間的連邊表示兩個癥狀在實體圖中共現,邊上的數字3 表示共現次數為3。

圖3 癥狀連邊權重示意圖

假設各節(jié)點PR初始值為1,則:

以同樣的方式,計算其他節(jié)點的PR值,并帶入公式,計算第二輪PR(A),直至兩次相鄰迭代結果的差值小于收斂閾值(本研究設為0.00001),導出各癥狀節(jié)點在其所屬社區(qū)中的PR值。PR值越大,說明該癥狀出現的概率越大,越有可能是主癥。

2.2.2 挖掘過程

(1) 圖映射

知識圖譜中包含了不同類別的節(jié)點和關系,與證候研究相關的信息混雜其中,需要先將實體圖映射為癥狀關聯(lián)子圖再進行社區(qū)發(fā)現。使用Cypher 語句抽取所有癥狀節(jié)點作為子圖的節(jié)點,統(tǒng)計癥狀在圖譜中“共現”的次數作為子圖中邊的權重。“共現”定義為兩個癥狀在實體圖中通過同一中間節(jié)點相連,該中間節(jié)點的類別不限(包括條文編號、方劑、病機、藥物等)。為避免重復計算權重,若兩個癥狀的中間節(jié)點類別為條文編號,限制其關系的權重最高為1。

(2) 社區(qū)劃分

添加Apoc 算法插件包,調用Louvain 算法得到癥狀的社區(qū)發(fā)現結果。算法輸入為上一步抽取的癥狀關聯(lián)子圖,輸出為社區(qū)數量、模塊度、節(jié)點數量、每個社區(qū)包含的具體節(jié)點(癥狀)。將輸出導入Gephi0.9.2軟件進行可視化(圖4)。

(3) 主癥挖掘

運行PageRank 算法,導出各癥狀節(jié)點在所屬社區(qū)中PR 值的大小和排序。排在前10%的認為是該證候的主要癥狀,其余為次要癥狀。

2.2.3 因子分析

抽取圖譜中的癥狀和條文編號信息,以條文為單位進行癥狀頻數統(tǒng)計,運用Excel2007 軟件建立數據庫。采用SPSS26.0 統(tǒng)計軟件進行PCA 分析和因子分析。

對數據進行KMO檢驗和巴特利特檢驗,以判斷是否適合因子分析。根據PCA 分析結果確定主成分數,對初始因子使用最大方差法進行因子旋轉,迭代收斂,得到旋轉后的因子載荷矩陣。因子中變量的載荷值越大,則該變量對因子的影響越大。提取載荷系數大于0.4 的癥狀變量作為主癥,將荷載系數在0.15~0.4 之間的癥狀變量作為兼證。

2.2.4 六經證候分析

本研究參考《中醫(yī)診斷學》[18]六經辨證診斷標準和《經方探源》[19]中的六經證候二級分類方法,對挖掘結果進行病位、病性分析和六經辨證分析。

3 結果

3.1 社區(qū)分布

得到4 個核心社區(qū),占實體圖癥狀節(jié)點比例的95.82%(圖4)。其中社區(qū)1 為最大的社區(qū),占全部癥狀節(jié)點的35.60%。圖中節(jié)點的面積大小代表其連邊的數量。

圖4 消渴病癥狀社區(qū)分布圖

3.2 社區(qū)發(fā)現證候分布

由社區(qū)發(fā)現得到4 個社區(qū),其六經證候分別為陽明病、陽明太陰合病、太陰?。ㄋC)、太陰?。ㄑC)(表1)。

表1 社區(qū)發(fā)現挖掘結果及證候分析表

社區(qū)1 證候為陽明病,以火熱燔灼為病機核心。主證中,火熱傷津導致口渴而多飲、發(fā)熱頭痛等癥,如“渴者,屬陽明”(《傷寒論》97 條),以及“陽明病,發(fā)熱汗出者,此為熱越”(《傷寒論·辨可下病脈證并治》);火熱上擾心神,故見煩躁、驚悸等癥。伴隨癥狀(四肢拘急不利、反張、爪甲枯槁、面青等)提示津血被火熱耗傷后筋脈不榮,而津傷之后可出現白虎湯“背微惡寒”之癥。該證候屬于消渴病初期,中焦、上焦邪熱為主,以多飲、多食為典型癥狀。

社區(qū)2 證候為陽明太陰合病,以水火夾雜為病機核心。陽明里熱與水飲相搏,因此主證既會見到口渴而多飲,又會見到小便頻數而不欲飲。正如《金匱要略·消渴小便不利淋病》所言:“小便不利者,有水氣”?;鹦匝咨希敾馃釆A雜水飲向上攻沖,會導致三焦不利、表里互兼、虛實夾雜的證候群,則病屬厥陰。例如同時出現上焦的口干多飲、胸悶、眩暈、目赤,中焦的多食,下焦的小便不利、小便混濁或有甜味、陽痿;因為虛實夾雜,所以脫形、羸瘦與口渴、多食、瘡瘍并見。該證候屬于消渴典型期,?!叭嘁簧佟辈⒁?。

社區(qū)3 證候為太陰病(水證),以水濕停聚為病機核心。短氣、胸滿、浮腫、小便不通為太陰脾失健運、水濕停聚之表現,見于《金匱要略·痰飲咳嗽》篇:“短氣不得臥,其形如腫”、“短氣有微飲,當從小便去之”。見于經方中“小便不利,微熱消渴”的五苓散證,以及“吐而渴欲飲水”的茯苓澤瀉湯證。該證候屬于消渴典型期,常見“下消”為主的多尿癥狀。

社區(qū)4 證候為太陰?。ㄑC),以津血虧虛為病機核心[20]。如消瘦、乏力、肢體痿廢、健忘、抑郁、咽干唇裂等,為津血虧虛不能充養(yǎng)肌肉、頭面腦竅之癥;而納差、臍腹痛、少尿等,為津血不能濡潤腸道、尿液化源不足之證。其癥狀與虛勞典型方證小建中湯證相類似:“虛勞里急,悸,衄,腹中痛,夢失精,四肢酸疼,手足煩熱,咽干口燥”。此時火熱并非實證,而是津血虧虛日久、陰不斂陽之虛火,故以建中法補益津血而潤降。該證候屬于消渴后期,以虛損為典型表現。

3.3 因子分析證候分布

圖譜中的癥狀變量過于分散,KMO 檢驗和巴特利特球形檢驗提示不適合直接進行因子分析。對相似癥狀進行合并,剔除頻率<4%的癥狀,再進行檢驗,KMO 檢驗系數為0.559>0.5,巴特利特球形檢驗<0.001,表示該數據可以進行因子分析。由主成分分析選取特征值小于1 的10 個公因子,累計貢獻量為73.858%。對初始因子進行因子旋轉,收斂得到旋轉后的因子載荷矩陣。

續(xù)表

公因子中六經證候以陽明?。╔2、X4、X5、X8)最為集中,其中因子X8 具備消渴病典型的“三多一少”癥狀;其次為太陰?。╔1、X9、X10)、陽明太陰合病(X3)。因子X7癥狀寒熱雜錯,經過討論認為其主癥見于《備急千金要方》巴郡三黃丸中:“治男子五勞七傷,消渴,不生肌肉,婦人帶下,手足寒熱者”。本方由黃連、黃芩、大黃組成,屬于苦寒直折火熱的治法,故推測X7 的手足涼為氣火內郁所致,歸入陽明。因子X6信息較少,未能判斷具體六經證候(表2)。

表2 因子分析挖掘結果及證候分析表

4 討論

4.1 消渴病六經證候分布規(guī)律探討

以往對消渴病的六經證候研究多采用經驗總結的方法,不同學者對其六經證候分類認識存在較大差異:有認為本病辨治應以少陽為主者[21],有運用“火熱論”辨治者[22],有從“三陰病”論治者[23],亦有認為本病

除了太陰證其余五經證均可見者[24]?;诮涷灴偨Y的六經證候分類,受個人對經典理解差異的影響,難以進行標準化和推廣應用。近年來,有研究采用因子分析等數據挖掘技術分析2 型糖尿病的證候特征,認為本病常見證型為肺熱津傷證、胃熱熾盛證、氣陰兩虛證、腎陽氣虛證、氣虛證、痰濕證、血瘀證、腎陰虧虛證和陰陽兩虛證[25]。然而上述研究針對文獻報道或臨床數據進行挖掘,側重于臨床現象的總結;本研究針對經方古籍進行挖掘,側重于經典古籍中消渴病相關的知識發(fā)現。此外,目前尚未見采用知識圖譜相關技術進行證候挖掘的報道。

本研究從六經辨證角度對消渴病相關經方古籍進行證候挖掘,發(fā)現本病六經證候分布符合郁熱虛損的整體病程規(guī)律[26],但虛證的證候與以往研究結論存在差異。社區(qū)3以水飲泛溢為主,治療需淡滲利水,以茯苓類方為代表;社區(qū)4以津虛血弱為核心,治療需酸甘化陰,以芍藥配飴糖等甘藥的建中法為代表。以往研究中并未涉及相應證候和治法,上述證候的挖掘可為經方臨床辨證立法提供參考。

4.2 采用社區(qū)發(fā)現算法進行證候挖掘的優(yōu)勢

因子分析是目前應用最廣泛的證候挖掘方法之一,然而該方法不適合過于分散的數據,中醫(yī)古籍等知識載體恰恰具有信息分散的特點。以往的研究中,多采用合并癥狀的方法,使數據滿足因子分析條件檢驗,這也導致了信息的減損。此外,因子分析將因子載荷較大的癥狀作為主癥,而這些癥狀本質上是讓公因子之間具備明顯差異的癥狀,這導致公因子中的“主癥”往往不包含不同證候的共有癥狀,其專業(yè)上的可解釋性較差,容易導致結果失真[24]。

采用社區(qū)發(fā)現算法進行證候挖掘,可充分利用節(jié)點之間的關聯(lián)信息,無需對癥狀進行合并;通過可視化工具,可直觀展示癥狀的聚集情況,各證候之間的交叉癥狀既為圖中社區(qū)共用的節(jié)點。該方法減少了證候挖掘中的信息減損和人工干預。佟旭[27]等認為社區(qū)發(fā)現算法將每個癥狀對證型的貢獻度都考慮在內,且不會遺漏癥狀間的相互作用。本文在社區(qū)發(fā)現算法基礎上引入知識圖譜技術,不僅能保留更豐富、更全面的古籍語義,還便于整合多種數據源的知識;得益于圖存儲結構,知識圖譜不僅能存儲大量多維關聯(lián)信息,而且能實現快速的查詢[28]。這些特點讓知識圖譜在中醫(yī)證候挖掘等復雜知識發(fā)現任務中獨具優(yōu)勢。

本研究的局限性:為保證圖譜內容的準確性,在圖譜構建中采取了手工標注方法,不利于大量古籍數據的研究,后續(xù)將利用已有的標注數據探索人機結合標注和半自動圖譜構建。中醫(yī)證候數據挖掘目前尚無客觀量化的評價方法,本研究現階段僅采用分析對照的方法進行比較。研究對于圖譜中的圖結構信息利用尚存在不足,如癥狀節(jié)點之間的上下位關系、最短路徑等信息,將在后續(xù)研究中嘗試通過圖表示學習等方法加以利用,比較證候挖掘效果。

5 總結

綜上,本文創(chuàng)新將知識圖譜與社區(qū)發(fā)現算法結合,從六經辨證角度對經方古籍中的消渴病證候進行挖掘和可視化展示;與因子分析比較,該方法避免了證候挖掘過程中的信息減損和人工干預,提高了挖掘結果在專業(yè)上的可解釋性,為中醫(yī)古籍知識挖掘提供了新的方法學參考。本研究發(fā)現,消渴病虛證存在典型的太陰證,而太陰水證、血證的偏盛又有不同的證候特點,這為本病的經方辨治提供了理論支持。

猜你喜歡
主癥古籍證候
蕭山地區(qū)帕金森病睡眠障礙患者中醫(yī)證候要素、復合證候及其危險因素研究
廣泛性焦慮障礙中醫(yī)證候、體質及其關系的研究進展
慢性阻塞性肺疾病中醫(yī)證候研究綜述
補肝湯治療肝腎陰虛型慢性乙型肝炎效果分析及對患者中醫(yī)證候積分的影響
尋常型銀屑病主癥量表反應度測評研究
中醫(yī)古籍“疒”部俗字考辨舉隅
不寐常見方證與藥證輯要
中醫(yī)分型辨治脂肪肝
西藏大批珍貴藏文古籍實現“云閱讀”
治幽螺,中醫(yī)分三型