人工智能與中醫(yī)診斷技術(shù)*

2021-12-05 07:54徐佳君雷黃偉高新皓羅志明李紹滋翁慧李燦東

天津中醫(yī)藥 2021年5期

徐佳君，雷黃偉，高新皓，羅志明，李紹滋，翁慧，李燦東，4

（1.福建中醫(yī)藥大學(xué)中醫(yī)學(xué)院，福州 350122；2.福建省中醫(yī)健康狀態(tài)辨識(shí)重點(diǎn)實(shí)驗(yàn)室，福州 350122；3.廈門大學(xué)信息學(xué)院人工智能系，廈門 361005；4.福建中醫(yī)藥大學(xué)李燦東岐黃學(xué)者工作室，福州 350122）

中醫(yī)診斷學(xué)是中醫(yī)學(xué)的基礎(chǔ)學(xué)科，它的發(fā)展影響著中醫(yī)各臨床學(xué)科的診療，尤受臨床及科研學(xué)者的重視，因此也是現(xiàn)代中醫(yī)學(xué)發(fā)展的前沿學(xué)科。目前，制約中醫(yī)診斷學(xué)發(fā)展的瓶頸主要有四診信息規(guī)范化客觀化采集、中醫(yī)診斷術(shù)語規(guī)范化等方面[1]。中醫(yī)四診信息采集過程具相對(duì)主觀性的問題由來已久，在許多中醫(yī)學(xué)者堅(jiān)持不懈的努力下，取得了一定進(jìn)展，但仍存在采集過程不規(guī)范、標(biāo)準(zhǔn)不統(tǒng)一等問題。中醫(yī)診斷術(shù)語規(guī)范化工作近幾十年來亦受到高度重視，制定了相應(yīng)的標(biāo)準(zhǔn)，但所制定標(biāo)準(zhǔn)與歷版教材又有一定出入；中醫(yī)工作者受教育時(shí)養(yǎng)成的既定習(xí)慣更改不易，推廣較難；且在歷代中醫(yī)典籍醫(yī)案中，術(shù)語普遍存在一詞多義、多詞一義等情況，以上種種情況造成了中醫(yī)診斷術(shù)語仍較難統(tǒng)一，不利于傳承和發(fā)展。

人工智能（AI）是當(dāng)前全球研究熱點(diǎn)，AI不僅能替代有邏輯性、規(guī)律性的人工，提高工作效率，還能在某些極精細(xì)領(lǐng)域中完成人類無法完成的任務(wù)，中國已將AI與醫(yī)學(xué)的結(jié)合上升到國家戰(zhàn)略的高度。而早在20世紀(jì)六七十年代，許多學(xué)者已經(jīng)開始了中醫(yī)診斷的AI化研究，主要方法是建立基于專家知識(shí)庫的邏輯推理系統(tǒng)，取得了一定成績，在特定的條件下有較好的應(yīng)用效果。但基于象思維的中醫(yī)診斷學(xué)強(qiáng)調(diào)整體性與運(yùn)動(dòng)性，因而，單純的邏輯規(guī)則并不完全適用中醫(yī)診斷的推理過程[2]。2016年，Google公司的AlphaGo橫空出世，擊敗了多名圍棋世界冠軍，這一歷史性事件標(biāo)記著以大數(shù)據(jù)與深度學(xué)習(xí)算法為代表的新一代AI的興起。與傳統(tǒng)相比，新一代AI基于大數(shù)據(jù)的特性顯然更適合中醫(yī)學(xué)的整體性，其經(jīng)深度學(xué)習(xí)而產(chǎn)生的預(yù)判也更適合中醫(yī)學(xué)的運(yùn)動(dòng)性。因此，將新一代AI技術(shù)運(yùn)用于中醫(yī)診斷學(xué)，應(yīng)有助于其突破前述發(fā)展瓶頸。

1 AI與四診信息規(guī)范化客觀化采集

1.1 AI與望診 AI望診，目前研究較多地集中在望面及望舌兩個(gè)領(lǐng)域，其主要數(shù)據(jù)來源為圖像，需要通過圖像分割、圖像識(shí)別兩個(gè)步驟進(jìn)行。近年來AI望診的研究取得了一定的突破，如基于力場(chǎng)的輪廓變形算法，使舌象分割不易受初始輪廓影響，提升分割準(zhǔn)度[3]；再如偏最小二乘法在Lab顏色空間對(duì)面部光澤的判別準(zhǔn)確率可達(dá)89.06%[4]；又如聯(lián)合運(yùn)用最大類間方差算法及分水嶺算法能夠?qū)崿F(xiàn)對(duì)舌紫斑的自動(dòng)識(shí)別[5]。然而，AI望診離真正的臨床要求尚存在較大差距，目前亟待解決的是光源問題，AI望診的圖像數(shù)據(jù)幾乎均基于固定角度、固定強(qiáng)度光源，真實(shí)世界光源多變，如何使AI算法適應(yīng)復(fù)雜的光源環(huán)境仍需進(jìn)一步探索。

1.2 AI與聞診在聽聲音的研究中，目前主要研究方法有空氣動(dòng)力學(xué)法、頻譜分析法等。AI聲診不但能夠分辨出諸如咳嗽、聲嘶、聲低等病理性聲音[6]，研究者們還運(yùn)用樣本熵、小波包變換的近似熵等算法，通過聲音得出病位、病性證素等診斷信息[7]。然則，目前中醫(yī)AI聲診研究仍存在采集儀器規(guī)格不統(tǒng)一、采樣環(huán)境要求較高等問題，從科研到落地仍有一段距離。

氣味是氣體所含分子作用于受體所產(chǎn)生的刺激過程，氣味特征可以通過紅外光譜、直接頂空分析、氣相-液相色譜分析等方法直接判別氣體所含的刺激性分子。目前中醫(yī)電子鼻技術(shù)已具有較高的穩(wěn)定性和靈敏度，不僅能較準(zhǔn)確地識(shí)別2型糖尿病患者口腔氣味判斷其虛實(shí)病性[8]，在胃病及外感疾病中也得到較好的應(yīng)用[9-10]，未來有望參與各個(gè)系統(tǒng)疾病的診斷。但相較于聲診，嗅診更難以量化，暫無太多臨床運(yùn)用的研究報(bào)導(dǎo)，尚存在氣味特征圖譜知識(shí)庫不夠全面等問題，有待進(jìn)一步研究[11]。

1.3 AI與問診問診AI化的研究起步較早，早期多是基于專家經(jīng)驗(yàn)、文獻(xiàn)梳理的量表研究，隨著新一代AI的發(fā)展，越來越多學(xué)者開始關(guān)注問診模型的研究。如基于極值隨機(jī)森林算法、極限學(xué)習(xí)機(jī)算法的慢性胃炎中醫(yī)問診模型[12]；基于隱結(jié)構(gòu)法的啟發(fā)式雙重爬山算法中醫(yī)脾系病問診模型[13]等。然而筆者認(rèn)為，制約AI問診的瓶頸或許不在于算法模型，傳統(tǒng)的貝葉斯網(wǎng)絡(luò)已能較好地揭示證候之間復(fù)雜的聯(lián)系[14]，中醫(yī)診斷術(shù)語不能統(tǒng)一規(guī)范應(yīng)才是當(dāng)前AI問診的研究難點(diǎn)[15]。

1.4 AI與切診切診的AI化研究主要集中在脈診，研究方向有脈象波形采集（傳感器）、特征提取分類（脈象識(shí)別）兩方面。傳感器有壓力脈搏型、多普勒超聲脈搏型、光電脈搏型等類型[16]；在脈象識(shí)別模塊，采用線性插值算法對(duì)三維脈沖圖進(jìn)行處理，可辨別出平脈、滑脈及弦脈[17]；基于BP神經(jīng)網(wǎng)絡(luò)的脈診則可直接得出體質(zhì)等診斷信息[18]。而目前各類傳感器研究雖然取得一定突破，但仍未成熟，尚不能真實(shí)、完整、客觀地提前脈搏信息[19]；此外，由于脈象信息量巨大的特性，如何有效篩選有用信息的降噪處理，也是研究的難點(diǎn)之一。

在中醫(yī)四診AI化的研究中，除了各診存在上述問題外，也存在“通病”，主要是：1）原始資料采集人員中醫(yī)臨床水平參差不齊，歸納、標(biāo)注不統(tǒng)一、不規(guī)范，信息數(shù)據(jù)可信度未能達(dá)到最佳。2）除問診外的其余三診，其信息采集皆需檢測(cè)設(shè)備，然而，基于不同工作原理設(shè)計(jì)的設(shè)備，其采集的信息參數(shù)和表達(dá)方法均不相同，沒有統(tǒng)一的規(guī)范標(biāo)準(zhǔn)，測(cè)量結(jié)果表達(dá)也不同。3）雖然四診AI化研究在各自領(lǐng)域取得了一定進(jìn)展，但呈現(xiàn)“各自為戰(zhàn)”的特點(diǎn)，未發(fā)揮中醫(yī)“四診合參”的特色和優(yōu)勢(shì)。

1.5 AI與四診合參目前關(guān)于四診合參AI化的文獻(xiàn)報(bào)導(dǎo)較為少見，說明該研究仍處于初步階段[20]。AI四診合參可通過兩個(gè)途徑實(shí)現(xiàn)：1）規(guī)范統(tǒng)一四診采集標(biāo)準(zhǔn)，分別辨識(shí)四診所采集信息后再進(jìn)行歸納分析，但如前所述，目前各家研究原理和采集標(biāo)準(zhǔn)不同，因此較難實(shí)現(xiàn)。2）直接采用多格式、多來源（文字、數(shù)字、圖片、聲音等）的原始數(shù)據(jù)直接進(jìn)行分析，其優(yōu)點(diǎn)是數(shù)據(jù)丟失率低，因而相應(yīng)準(zhǔn)確率高，缺點(diǎn)是對(duì)深度學(xué)習(xí)的算法要求更高，目前尚處于探索狀態(tài)。由于各診設(shè)備尚未成熟，故而直接分析具有異構(gòu)性的原始四診信息是現(xiàn)階段較為可行的辦法，這就需要多模態(tài)的機(jī)器學(xué)習(xí)。值得一提的是多核學(xué)習(xí)方法，各子特征空間組合成多個(gè)核函數(shù)的高維空間，因此高維組合空間也具備各子空間的映射能力，異構(gòu)數(shù)據(jù)中不同的特征分量也由此得以分別經(jīng)最優(yōu)單函數(shù)映射到知識(shí)層，使之更準(zhǔn)確地表達(dá)。在此基礎(chǔ)上，采用協(xié)同訓(xùn)練方法迭代出最佳分類器，對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)測(cè)，設(shè)計(jì)基于知識(shí)層和決策層的最優(yōu)化算法[20-21]。

2 AI與中醫(yī)診斷術(shù)語規(guī)范化

對(duì)于AI而言，規(guī)范化的中醫(yī)診斷術(shù)語是極為重要的，其意義在于“使中醫(yī)數(shù)據(jù)說普通話”，統(tǒng)一的術(shù)語才便于結(jié)構(gòu)化中醫(yī)數(shù)據(jù)，從而轉(zhuǎn)化為計(jì)算機(jī)能夠理解的語言。進(jìn)入21世紀(jì)以來，中醫(yī)術(shù)語規(guī)范化取得了令人矚目的成果，但仍存在諸如標(biāo)準(zhǔn)不統(tǒng)一、各科研組織機(jī)構(gòu)未協(xié)調(diào)統(tǒng)一等問題。因此，有學(xué)者提出在協(xié)調(diào)各機(jī)構(gòu)的基礎(chǔ)上，采用術(shù)語學(xué)方法并構(gòu)建同義詞庫是針對(duì)目前問題的解決對(duì)策[22]。中國中醫(yī)科學(xué)院信息所從2002年開始，借鑒統(tǒng)一醫(yī)學(xué)語言系統(tǒng)（UMLS）的結(jié)構(gòu)應(yīng)用于中醫(yī)藥領(lǐng)域，構(gòu)建了基于本體論的、建立了多層次語義關(guān)聯(lián)的中醫(yī)藥學(xué)語言系統(tǒng)（TCMLS），即包含了大型同義詞庫，然而即使是如此耗時(shí)十?dāng)?shù)年、人力物力投入巨大的工程，仍不能說已完全涵蓋歷史長河中浩瀚如煙的中醫(yī)典籍中出現(xiàn)的術(shù)語[23]。因此，進(jìn)行基于基準(zhǔn)術(shù)語庫的AI自然語言處理（NLP），以便實(shí)現(xiàn)對(duì)各時(shí)代的醫(yī)案、文獻(xiàn)進(jìn)行智能讀取，是目前中醫(yī)診斷術(shù)語范疇內(nèi)較為可行的方法之一。

目前中醫(yī)診斷進(jìn)行NLP的對(duì)象主要是醫(yī)案及文獻(xiàn)，其中包含了許多臨床診斷基礎(chǔ)數(shù)據(jù)。為通過NLP實(shí)現(xiàn)中醫(yī)診斷術(shù)語規(guī)范化，那么對(duì)信息的充分利用是非常必要的，故而要對(duì)醫(yī)案進(jìn)行信息抽取和中文分詞。目前對(duì)中醫(yī)文本數(shù)據(jù)進(jìn)行智能分析的NLP方法主要有隱馬爾科夫模型（HMM）、條件隨機(jī)場(chǎng)模型（CRF）等，然而經(jīng)常面臨數(shù)據(jù)標(biāo)注缺失、訓(xùn)練數(shù)據(jù)集少造成的準(zhǔn)確率不足的情況[24]。

如今人工神經(jīng)網(wǎng)絡(luò)已經(jīng)被廣泛使用，其中循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）在處理自然語言任務(wù)上有著極大的優(yōu)勢(shì)，RNN是一種特殊的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，它是根據(jù)“人的認(rèn)知是基于過往的經(jīng)驗(yàn)和記憶”這一觀點(diǎn)提出的。不僅考慮前一時(shí)刻的輸入，同時(shí)具有對(duì)前面的內(nèi)容的一種“記憶”功能。長短期記憶（LSTM）[25]是一種特殊的RNN，更是解決了長期依賴問題。LSTM主要設(shè)置了門結(jié)構(gòu)來實(shí)現(xiàn)重要“記憶”的保留與取舍，內(nèi)部主要有3個(gè)門，遺忘門即忘記階段，這個(gè)階段主要是對(duì)上一個(gè)節(jié)點(diǎn)傳進(jìn)來的輸入進(jìn)行選擇性忘記，簡單來說就是會(huì)“忘記不重要的，記住重要的”。輸入門即選擇記憶階段，這個(gè)階段將這個(gè)階段的輸入有選擇性地進(jìn)行“記憶”。輸出門即輸出階段，這個(gè)階段將決定哪些將會(huì)被當(dāng)成當(dāng)前狀態(tài)的輸出。而為了對(duì)語句的分析更加準(zhǔn)確，使用兩個(gè)LSTM模型，其語句的輸入方向相反，由此可結(jié)合成為雙向長短期記憶（BI-LSTM）[26]?；诖嗽偈褂肅RF則可以用于構(gòu)造在給定一組輸入隨機(jī)變量的條件下，另一組輸出隨機(jī)變量的條件概率分布模型。例如在詞性標(biāo)注任務(wù)中，輸入序列為一串單詞，輸出序列就是相應(yīng)的詞性。

因此，本團(tuán)隊(duì)也利用BI-LSTM-CRF模型對(duì)中醫(yī)醫(yī)案進(jìn)行自然語言處理。初期的訓(xùn)練數(shù)據(jù)集是由團(tuán)隊(duì)帶頭人李燦東教授十余年的臨床醫(yī)案構(gòu)成，并由中醫(yī)專家博士團(tuán)隊(duì)進(jìn)行了醫(yī)案分詞標(biāo)注。通過訓(xùn)練相應(yīng)的分詞模型，得到分詞準(zhǔn)確率可達(dá)到97%以上，遠(yuǎn)高于例如Jieba、PKUseg等開源分詞工具，為后續(xù)的醫(yī)案信息的自動(dòng)抽取與理解奠定堅(jiān)實(shí)基礎(chǔ)。

分詞后可得到包括部位、性質(zhì)、程度等最小粒度的中醫(yī)診斷術(shù)語，基于此的同義詞匹配可使計(jì)算機(jī)更好地理解醫(yī)案信息，以此完成中醫(yī)診斷術(shù)語的NLP工作，而非陷入近似無窮盡的同義詞庫構(gòu)建。該部分可以通過中文相似度計(jì)算來實(shí)現(xiàn)，中文相似度技術(shù)是自然語言處理中的一個(gè)重要研究方向，其技術(shù)有基于統(tǒng)計(jì)的相似度計(jì)算方法、基于詞向量的相似度計(jì)算方法等?；诮y(tǒng)計(jì)的相似度計(jì)算方法最常用的方法為詞頻-逆文件頻率（TF-IDF）計(jì)算方法，將文本轉(zhuǎn)化為向量。TF（Term Frequency）是詞頻，即一個(gè)詞在文中出現(xiàn)的次數(shù)。IDF（Inverse Document Frequency）是逆向文件頻率，可以由總文件數(shù)目除以包含該詞語的文件的數(shù)目，再將得到的商取對(duì)數(shù)得到。基于詞向量的相似度計(jì)算方法最常見的就是使用Word2Vec詞向量，通過網(wǎng)絡(luò)模型獲得詞向量。由此將文本向量化后，再通過余弦相似度測(cè)量兩個(gè)向量之間的夾角的余弦值，度量兩詞語之間的相似度。基于統(tǒng)計(jì)的相似度計(jì)算方法是字淺層面的方法，而基于詞向量的相似度計(jì)算方法考慮詞語語義的深層面方法。因此對(duì)兩種方法進(jìn)行加權(quán)，結(jié)合起來進(jìn)行對(duì)詞語進(jìn)行相似度計(jì)算，綜合考慮詞語的深淺層面，由此完成相似度計(jì)算，實(shí)現(xiàn)同義詞匹配。

3 小結(jié)

綜上所述，基于大數(shù)據(jù)的新一代AI技術(shù)很好地契合了中醫(yī)的整體性與動(dòng)態(tài)性，運(yùn)用于中醫(yī)診斷領(lǐng)域，將有望助推中醫(yī)診斷技術(shù)實(shí)現(xiàn)新的跨越與發(fā)展。雖然諸多研究者從不同角度進(jìn)行了許多研究，并取得進(jìn)展與成就，但仍存在種種問題。首先，原始信息客觀、準(zhǔn)確、全面、規(guī)范的采集標(biāo)準(zhǔn)缺失，造成臨床數(shù)據(jù)雖大，但卻不能發(fā)揮大數(shù)據(jù)應(yīng)該有的作用，形不成數(shù)據(jù)驅(qū)動(dòng)的效力。其次，中醫(yī)四診信息采集過分依靠醫(yī)者，或者采集設(shè)備不成熟，試圖建立采集設(shè)備標(biāo)準(zhǔn)，反而造成了新的標(biāo)準(zhǔn)不統(tǒng)一，制造了新的瓶頸問題。最后，AI重點(diǎn)在于算法的優(yōu)勢(shì)上，四診的AI化雖然取得了進(jìn)展，但仍處于“各自為戰(zhàn)”階段，真正體現(xiàn)中醫(yī)思維的四診合參算法仍需要很長時(shí)間進(jìn)行優(yōu)化與完善。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

人工智能與中醫(yī)診斷技術(shù)*

1 AI與四診信息規(guī)范化客觀化采集

2 AI與中醫(yī)診斷術(shù)語規(guī)范化

3 小結(jié)