徐佳君 ,雷黃偉 ,高新皓 ,羅志明 ,李紹滋 ,翁慧 ,李燦東 ,4
(1.福建中醫(yī)藥大學(xué)中醫(yī)學(xué)院,福州 350122;2.福建省中醫(yī)健康狀態(tài)辨識(shí)重點(diǎn)實(shí)驗(yàn)室,福州 350122;3.廈門大學(xué)信息學(xué)院人工智能系,廈門 361005;4.福建中醫(yī)藥大學(xué)李燦東岐黃學(xué)者工作室,福州 350122)
中醫(yī)診斷學(xué)是中醫(yī)學(xué)的基礎(chǔ)學(xué)科,它的發(fā)展影響著中醫(yī)各臨床學(xué)科的診療,尤受臨床及科研學(xué)者的重視,因此也是現(xiàn)代中醫(yī)學(xué)發(fā)展的前沿學(xué)科。目前,制約中醫(yī)診斷學(xué)發(fā)展的瓶頸主要有四診信息規(guī)范化客觀化采集、中醫(yī)診斷術(shù)語規(guī)范化等方面[1]。中醫(yī)四診信息采集過程具相對(duì)主觀性的問題由來已久,在許多中醫(yī)學(xué)者堅(jiān)持不懈的努力下,取得了一定進(jìn)展,但仍存在采集過程不規(guī)范、標(biāo)準(zhǔn)不統(tǒng)一等問題。中醫(yī)診斷術(shù)語規(guī)范化工作近幾十年來亦受到高度重視,制定了相應(yīng)的標(biāo)準(zhǔn),但所制定標(biāo)準(zhǔn)與歷版教材又有一定出入;中醫(yī)工作者受教育時(shí)養(yǎng)成的既定習(xí)慣更改不易,推廣較難;且在歷代中醫(yī)典籍醫(yī)案中,術(shù)語普遍存在一詞多義、多詞一義等情況,以上種種情況造成了中醫(yī)診斷術(shù)語仍較難統(tǒng)一,不利于傳承和發(fā)展。
人工智能(AI)是當(dāng)前全球研究熱點(diǎn),AI不僅能替代有邏輯性、規(guī)律性的人工,提高工作效率,還能在某些極精細(xì)領(lǐng)域中完成人類無法完成的任務(wù),中國已將AI與醫(yī)學(xué)的結(jié)合上升到國家戰(zhàn)略的高度。而早在20世紀(jì)六七十年代,許多學(xué)者已經(jīng)開始了中醫(yī)診斷的AI化研究,主要方法是建立基于專家知識(shí)庫的邏輯推理系統(tǒng),取得了一定成績,在特定的條件下有較好的應(yīng)用效果。但基于象思維的中醫(yī)診斷學(xué)強(qiáng)調(diào)整體性與運(yùn)動(dòng)性,因而,單純的邏輯規(guī)則并不完全適用中醫(yī)診斷的推理過程[2]。2016年,Google公司的AlphaGo橫空出世,擊敗了多名圍棋世界冠軍,這一歷史性事件標(biāo)記著以大數(shù)據(jù)與深度學(xué)習(xí)算法為代表的新一代AI的興起。與傳統(tǒng)相比,新一代AI基于大數(shù)據(jù)的特性顯然更適合中醫(yī)學(xué)的整體性,其經(jīng)深度學(xué)習(xí)而產(chǎn)生的預(yù)判也更適合中醫(yī)學(xué)的運(yùn)動(dòng)性。因此,將新一代AI技術(shù)運(yùn)用于中醫(yī)診斷學(xué),應(yīng)有助于其突破前述發(fā)展瓶頸。
1.1 AI與望診 AI望診,目前研究較多地集中在望面及望舌兩個(gè)領(lǐng)域,其主要數(shù)據(jù)來源為圖像,需要通過圖像分割、圖像識(shí)別兩個(gè)步驟進(jìn)行。近年來AI望診的研究取得了一定的突破,如基于力場(chǎng)的輪廓變形算法,使舌象分割不易受初始輪廓影響,提升分割準(zhǔn)度[3];再如偏最小二乘法在Lab顏色空間對(duì)面部光澤的判別準(zhǔn)確率可達(dá)89.06%[4];又如聯(lián)合運(yùn)用最大類間方差算法及分水嶺算法能夠?qū)崿F(xiàn)對(duì)舌紫斑的自動(dòng)識(shí)別[5]。然而,AI望診離真正的臨床要求尚存在較大差距,目前亟待解決的是光源問題,AI望診的圖像數(shù)據(jù)幾乎均基于固定角度、固定強(qiáng)度光源,真實(shí)世界光源多變,如何使AI算法適應(yīng)復(fù)雜的光源環(huán)境仍需進(jìn)一步探索。
1.2 AI與聞診 在聽聲音的研究中,目前主要研究方法有空氣動(dòng)力學(xué)法、頻譜分析法等。AI聲診不但能夠分辨出諸如咳嗽、聲嘶、聲低等病理性聲音[6],研究者們還運(yùn)用樣本熵、小波包變換的近似熵等算法,通過聲音得出病位、病性證素等診斷信息[7]。然則,目前中醫(yī)AI聲診研究仍存在采集儀器規(guī)格不統(tǒng)一、采樣環(huán)境要求較高等問題,從科研到落地仍有一段距離。
氣味是氣體所含分子作用于受體所產(chǎn)生的刺激過程,氣味特征可以通過紅外光譜、直接頂空分析、氣相-液相色譜分析等方法直接判別氣體所含的刺激性分子。目前中醫(yī)電子鼻技術(shù)已具有較高的穩(wěn)定性和靈敏度,不僅能較準(zhǔn)確地識(shí)別2型糖尿病患者口腔氣味判斷其虛實(shí)病性[8],在胃病及外感疾病中也得到較好的應(yīng)用[9-10],未來有望參與各個(gè)系統(tǒng)疾病的診斷。但相較于聲診,嗅診更難以量化,暫無太多臨床運(yùn)用的研究報(bào)導(dǎo),尚存在氣味特征圖譜知識(shí)庫不夠全面等問題,有待進(jìn)一步研究[11]。
1.3 AI與問診 問診AI化的研究起步較早,早期多是基于專家經(jīng)驗(yàn)、文獻(xiàn)梳理的量表研究,隨著新一代AI的發(fā)展,越來越多學(xué)者開始關(guān)注問診模型的研究。如基于極值隨機(jī)森林算法、極限學(xué)習(xí)機(jī)算法的慢性胃炎中醫(yī)問診模型[12];基于隱結(jié)構(gòu)法的啟發(fā)式雙重爬山算法中醫(yī)脾系病問診模型[13]等。然而筆者認(rèn)為,制約AI問診的瓶頸或許不在于算法模型,傳統(tǒng)的貝葉斯網(wǎng)絡(luò)已能較好地揭示證候之間復(fù)雜的聯(lián)系[14],中醫(yī)診斷術(shù)語不能統(tǒng)一規(guī)范應(yīng)才是當(dāng)前AI問診的研究難點(diǎn)[15]。
1.4 AI與切診 切診的AI化研究主要集中在脈診,研究方向有脈象波形采集(傳感器)、特征提取分類(脈象識(shí)別)兩方面。傳感器有壓力脈搏型、多普勒超聲脈搏型、光電脈搏型等類型[16];在脈象識(shí)別模塊,采用線性插值算法對(duì)三維脈沖圖進(jìn)行處理,可辨別出平脈、滑脈及弦脈[17];基于BP神經(jīng)網(wǎng)絡(luò)的脈診則可直接得出體質(zhì)等診斷信息[18]。而目前各類傳感器研究雖然取得一定突破,但仍未成熟,尚不能真實(shí)、完整、客觀地提前脈搏信息[19];此外,由于脈象信息量巨大的特性,如何有效篩選有用信息的降噪處理,也是研究的難點(diǎn)之一。
在中醫(yī)四診AI化的研究中,除了各診存在上述問題外,也存在“通病”,主要是:1)原始資料采集人員中醫(yī)臨床水平參差不齊,歸納、標(biāo)注不統(tǒng)一、不規(guī)范,信息數(shù)據(jù)可信度未能達(dá)到最佳。2)除問診外的其余三診,其信息采集皆需檢測(cè)設(shè)備,然而,基于不同工作原理設(shè)計(jì)的設(shè)備,其采集的信息參數(shù)和表達(dá)方法均不相同,沒有統(tǒng)一的規(guī)范標(biāo)準(zhǔn),測(cè)量結(jié)果表達(dá)也不同。3)雖然四診AI化研究在各自領(lǐng)域取得了一定進(jìn)展,但呈現(xiàn)“各自為戰(zhàn)”的特點(diǎn),未發(fā)揮中醫(yī)“四診合參”的特色和優(yōu)勢(shì)。
1.5 AI與四診合參 目前關(guān)于四診合參AI化的文獻(xiàn)報(bào)導(dǎo)較為少見,說明該研究仍處于初步階段[20]。AI四診合參可通過兩個(gè)途徑實(shí)現(xiàn):1)規(guī)范統(tǒng)一四診采集標(biāo)準(zhǔn),分別辨識(shí)四診所采集信息后再進(jìn)行歸納分析,但如前所述,目前各家研究原理和采集標(biāo)準(zhǔn)不同,因此較難實(shí)現(xiàn)。2)直接采用多格式、多來源(文字、數(shù)字、圖片、聲音等)的原始數(shù)據(jù)直接進(jìn)行分析,其優(yōu)點(diǎn)是數(shù)據(jù)丟失率低,因而相應(yīng)準(zhǔn)確率高,缺點(diǎn)是對(duì)深度學(xué)習(xí)的算法要求更高,目前尚處于探索狀態(tài)。由于各診設(shè)備尚未成熟,故而直接分析具有異構(gòu)性的原始四診信息是現(xiàn)階段較為可行的辦法,這就需要多模態(tài)的機(jī)器學(xué)習(xí)。值得一提的是多核學(xué)習(xí)方法,各子特征空間組合成多個(gè)核函數(shù)的高維空間,因此高維組合空間也具備各子空間的映射能力,異構(gòu)數(shù)據(jù)中不同的特征分量也由此得以分別經(jīng)最優(yōu)單函數(shù)映射到知識(shí)層,使之更準(zhǔn)確地表達(dá)。在此基礎(chǔ)上,采用協(xié)同訓(xùn)練方法迭代出最佳分類器,對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)測(cè),設(shè)計(jì)基于知識(shí)層和決策層的最優(yōu)化算法[20-21]。
對(duì)于AI而言,規(guī)范化的中醫(yī)診斷術(shù)語是極為重要的,其意義在于“使中醫(yī)數(shù)據(jù)說普通話”,統(tǒng)一的術(shù)語才便于結(jié)構(gòu)化中醫(yī)數(shù)據(jù),從而轉(zhuǎn)化為計(jì)算機(jī)能夠理解的語言。進(jìn)入21世紀(jì)以來,中醫(yī)術(shù)語規(guī)范化取得了令人矚目的成果,但仍存在諸如標(biāo)準(zhǔn)不統(tǒng)一、各科研組織機(jī)構(gòu)未協(xié)調(diào)統(tǒng)一等問題。因此,有學(xué)者提出在協(xié)調(diào)各機(jī)構(gòu)的基礎(chǔ)上,采用術(shù)語學(xué)方法并構(gòu)建同義詞庫是針對(duì)目前問題的解決對(duì)策[22]。中國中醫(yī)科學(xué)院信息所從2002年開始,借鑒統(tǒng)一醫(yī)學(xué)語言系統(tǒng)(UMLS)的結(jié)構(gòu)應(yīng)用于中醫(yī)藥領(lǐng)域,構(gòu)建了基于本體論的、建立了多層次語義關(guān)聯(lián)的中醫(yī)藥學(xué)語言系統(tǒng)(TCMLS),即包含了大型同義詞庫,然而即使是如此耗時(shí)十?dāng)?shù)年、人力物力投入巨大的工程,仍不能說已完全涵蓋歷史長河中浩瀚如煙的中醫(yī)典籍中出現(xiàn)的術(shù)語[23]。因此,進(jìn)行基于基準(zhǔn)術(shù)語庫的AI自然語言處理(NLP),以便實(shí)現(xiàn)對(duì)各時(shí)代的醫(yī)案、文獻(xiàn)進(jìn)行智能讀取,是目前中醫(yī)診斷術(shù)語范疇內(nèi)較為可行的方法之一。
目前中醫(yī)診斷進(jìn)行NLP的對(duì)象主要是醫(yī)案及文獻(xiàn),其中包含了許多臨床診斷基礎(chǔ)數(shù)據(jù)。為通過NLP實(shí)現(xiàn)中醫(yī)診斷術(shù)語規(guī)范化,那么對(duì)信息的充分利用是非常必要的,故而要對(duì)醫(yī)案進(jìn)行信息抽取和中文分詞。目前對(duì)中醫(yī)文本數(shù)據(jù)進(jìn)行智能分析的NLP方法主要有隱馬爾科夫模型(HMM)、條件隨機(jī)場(chǎng)模型(CRF)等,然而經(jīng)常面臨數(shù)據(jù)標(biāo)注缺失、訓(xùn)練數(shù)據(jù)集少造成的準(zhǔn)確率不足的情況[24]。
如今人工神經(jīng)網(wǎng)絡(luò)已經(jīng)被廣泛使用,其中循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在處理自然語言任務(wù)上有著極大的優(yōu)勢(shì),RNN是一種特殊的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),它是根據(jù)“人的認(rèn)知是基于過往的經(jīng)驗(yàn)和記憶”這一觀點(diǎn)提出的。不僅考慮前一時(shí)刻的輸入,同時(shí)具有對(duì)前面的內(nèi)容的一種“記憶”功能。長短期記憶(LSTM)[25]是一種特殊的RNN,更是解決了長期依賴問題。LSTM主要設(shè)置了門結(jié)構(gòu)來實(shí)現(xiàn)重要“記憶”的保留與取舍,內(nèi)部主要有3個(gè)門,遺忘門即忘記階段,這個(gè)階段主要是對(duì)上一個(gè)節(jié)點(diǎn)傳進(jìn)來的輸入進(jìn)行選擇性忘記,簡單來說就是會(huì)“忘記不重要的,記住重要的”。輸入門即選擇記憶階段,這個(gè)階段將這個(gè)階段的輸入有選擇性地進(jìn)行“記憶”。輸出門即輸出階段,這個(gè)階段將決定哪些將會(huì)被當(dāng)成當(dāng)前狀態(tài)的輸出。而為了對(duì)語句的分析更加準(zhǔn)確,使用兩個(gè)LSTM模型,其語句的輸入方向相反,由此可結(jié)合成為雙向長短期記憶(BI-LSTM)[26]?;诖嗽偈褂肅RF則可以用于構(gòu)造在給定一組輸入隨機(jī)變量的條件下,另一組輸出隨機(jī)變量的條件概率分布模型。例如在詞性標(biāo)注任務(wù)中,輸入序列為一串單詞,輸出序列就是相應(yīng)的詞性。
因此,本團(tuán)隊(duì)也利用BI-LSTM-CRF模型對(duì)中醫(yī)醫(yī)案進(jìn)行自然語言處理。初期的訓(xùn)練數(shù)據(jù)集是由團(tuán)隊(duì)帶頭人李燦東教授十余年的臨床醫(yī)案構(gòu)成,并由中醫(yī)專家博士團(tuán)隊(duì)進(jìn)行了醫(yī)案分詞標(biāo)注。通過訓(xùn)練相應(yīng)的分詞模型,得到分詞準(zhǔn)確率可達(dá)到97%以上,遠(yuǎn)高于例如Jieba、PKUseg等開源分詞工具,為后續(xù)的醫(yī)案信息的自動(dòng)抽取與理解奠定堅(jiān)實(shí)基礎(chǔ)。
分詞后可得到包括部位、性質(zhì)、程度等最小粒度的中醫(yī)診斷術(shù)語,基于此的同義詞匹配可使計(jì)算機(jī)更好地理解醫(yī)案信息,以此完成中醫(yī)診斷術(shù)語的NLP工作,而非陷入近似無窮盡的同義詞庫構(gòu)建。該部分可以通過中文相似度計(jì)算來實(shí)現(xiàn),中文相似度技術(shù)是自然語言處理中的一個(gè)重要研究方向,其技術(shù)有基于統(tǒng)計(jì)的相似度計(jì)算方法、基于詞向量的相似度計(jì)算方法等?;诮y(tǒng)計(jì)的相似度計(jì)算方法最常用的方法為詞頻-逆文件頻率(TF-IDF)計(jì)算方法,將文本轉(zhuǎn)化為向量。TF(Term Frequency)是詞頻,即一個(gè)詞在文中出現(xiàn)的次數(shù)。IDF(Inverse Document Frequency)是逆向文件頻率,可以由總文件數(shù)目除以包含該詞語的文件的數(shù)目,再將得到的商取對(duì)數(shù)得到。基于詞向量的相似度計(jì)算方法最常見的就是使用Word2Vec詞向量,通過網(wǎng)絡(luò)模型獲得詞向量。由此將文本向量化后,再通過余弦相似度測(cè)量兩個(gè)向量之間的夾角的余弦值,度量兩詞語之間的相似度。基于統(tǒng)計(jì)的相似度計(jì)算方法是字淺層面的方法,而基于詞向量的相似度計(jì)算方法考慮詞語語義的深層面方法。因此對(duì)兩種方法進(jìn)行加權(quán),結(jié)合起來進(jìn)行對(duì)詞語進(jìn)行相似度計(jì)算,綜合考慮詞語的深淺層面,由此完成相似度計(jì)算,實(shí)現(xiàn)同義詞匹配。
綜上所述,基于大數(shù)據(jù)的新一代AI技術(shù)很好地契合了中醫(yī)的整體性與動(dòng)態(tài)性,運(yùn)用于中醫(yī)診斷領(lǐng)域,將有望助推中醫(yī)診斷技術(shù)實(shí)現(xiàn)新的跨越與發(fā)展。雖然諸多研究者從不同角度進(jìn)行了許多研究,并取得進(jìn)展與成就,但仍存在種種問題。首先,原始信息客觀、準(zhǔn)確、全面、規(guī)范的采集標(biāo)準(zhǔn)缺失,造成臨床數(shù)據(jù)雖大,但卻不能發(fā)揮大數(shù)據(jù)應(yīng)該有的作用,形不成數(shù)據(jù)驅(qū)動(dòng)的效力。其次,中醫(yī)四診信息采集過分依靠醫(yī)者,或者采集設(shè)備不成熟,試圖建立采集設(shè)備標(biāo)準(zhǔn),反而造成了新的標(biāo)準(zhǔn)不統(tǒng)一,制造了新的瓶頸問題。最后,AI重點(diǎn)在于算法的優(yōu)勢(shì)上,四診的AI化雖然取得了進(jìn)展,但仍處于“各自為戰(zhàn)”階段,真正體現(xiàn)中醫(yī)思維的四診合參算法仍需要很長時(shí)間進(jìn)行優(yōu)化與完善。