劉禎
摘 要:中醫(yī)藥學(xué)已經(jīng)有三千多年的歷史了,在當(dāng)代科技突飛猛進(jìn)的過(guò)程中,中醫(yī)藥又煥發(fā)出了新的生機(jī),在科研投入與成果、臨床研究與效益、國(guó)內(nèi)人才培養(yǎng)與國(guó)際化等方面都取得了不菲的成績(jī)。而機(jī)器學(xué)習(xí)作為21世紀(jì)的新興科技,在數(shù)據(jù)挖掘、大量數(shù)據(jù)處理等方向具有得天獨(dú)厚的優(yōu)越性。本文將機(jī)器學(xué)習(xí)與現(xiàn)代中醫(yī)藥理論結(jié)合,從中醫(yī)文化精髓進(jìn)行分析,介紹了中藥指紋圖譜數(shù)據(jù)處理技術(shù),結(jié)合機(jī)器學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò),設(shè)計(jì)了一種利用機(jī)器學(xué)習(xí)進(jìn)行中醫(yī)藥成分分析的方法,最后,對(duì)于人工智能與中醫(yī)藥的結(jié)合進(jìn)行了總結(jié)與展望。
關(guān)鍵詞:中醫(yī)藥;機(jī)器學(xué)習(xí);人工神經(jīng)網(wǎng)絡(luò);數(shù)據(jù)挖掘
中圖分類號(hào):TP301 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-2064(2018)01-0196-02
1 引言
中醫(yī)藥是一門(mén)發(fā)源于中國(guó)黃河流域的經(jīng)驗(yàn)學(xué)科,很早之前就形成了一門(mén)具有特色的學(xué)術(shù)體系。而在當(dāng)時(shí)的條件下,還沒(méi)有進(jìn)行農(nóng)業(yè)生產(chǎn),當(dāng)時(shí)的主要情況就是“饑則求食,飽既棄余”,人們?cè)诓烧煌氖澄飼r(shí)候,會(huì)發(fā)現(xiàn)有些食物好吃,有些不好吃,有些甚至有毒,有些卻可以解毒。例如,吃了大量的大黃,會(huì)引起腹瀉;吃了瓜蒂,可導(dǎo)致嘔吐;而吃了,或者涂抹了薄荷,卻可以去除蚊蟲(chóng)之患。這樣,人們就漸漸懂得了應(yīng)該吃什么樣的東西,什么樣的東西卻不能碰,甚至,可以有意識(shí)地尋找某些能治病的植物。這樣,經(jīng)過(guò)一個(gè)人的長(zhǎng)時(shí)間的實(shí)踐,甚至經(jīng)過(guò)一個(gè)部落長(zhǎng)時(shí)間的總結(jié),藥物也就漸漸被發(fā)現(xiàn)了。這樣看來(lái),藥知識(shí)的累積就是一個(gè)十分長(zhǎng)久,長(zhǎng)達(dá)幾千年,并且自主應(yīng)用“機(jī)器學(xué)習(xí)”的方法的過(guò)程。在漫長(zhǎng)的歷史過(guò)程中,人們對(duì)藥物的應(yīng)用越來(lái)越成熟,逐漸出現(xiàn)了許多中醫(yī)藥領(lǐng)域的名醫(yī),并且出現(xiàn)了不同的學(xué)派,各個(gè)朝代和中醫(yī)從業(yè)者編著了大量相關(guān)的名著,并流傳下了不斷被后人研究的基礎(chǔ)中醫(yī)配方。中國(guó)歷史上有人人皆知的“神農(nóng)嘗百草”的傳說(shuō),這反映了歷史中各個(gè)時(shí)期的人民群眾在與病痛、與大自然的不斷反抗過(guò)程中發(fā)現(xiàn)中醫(yī)藥物、累積經(jīng)驗(yàn)的漫長(zhǎng)歷程,也真實(shí)描寫(xiě)了中醫(yī)藥的起源。由此可看出,中醫(yī)藥是幾千年中國(guó)勞動(dòng)人民的智慧結(jié)晶。大量的經(jīng)典書(shū)籍、歷代積累的方劑及現(xiàn)代人們?cè)趯?shí)踐中產(chǎn)生的中醫(yī)藥數(shù)據(jù)很難依靠人工處理的方法進(jìn)行中醫(yī)藥理論基礎(chǔ)的研究。中醫(yī)藥的積累是我們?nèi)祟愡M(jìn)行機(jī)器學(xué)習(xí)的過(guò)程,當(dāng)機(jī)器出現(xiàn)之后,我們讓機(jī)器人完成這個(gè)過(guò)程,進(jìn)行機(jī)器學(xué)習(xí),大大縮短了這個(gè)學(xué)習(xí)過(guò)程。
認(rèn)識(shí)中藥及方劑的藥效物質(zhì)及其作用機(jī)制在20年前是一件很難實(shí)現(xiàn)的事情,但是隨著HPLC、質(zhì)譜、光譜、核磁等先進(jìn)儀器和分析技術(shù)不斷進(jìn)步,給中藥化學(xué)成分的認(rèn)識(shí)、藥效/毒性物質(zhì)的分析、作用機(jī)制的探究、體內(nèi)過(guò)程的解讀、質(zhì)量標(biāo)準(zhǔn)的建立等提供了技術(shù)保障,今天的科學(xué)家已經(jīng)可以在較短的時(shí)間內(nèi)基本解析復(fù)方的藥效物質(zhì)及作用機(jī)制,許多研究成果轉(zhuǎn)化為藥典標(biāo)準(zhǔn)和行業(yè)標(biāo)準(zhǔn)?,F(xiàn)在,我們就可以利用機(jī)器學(xué)習(xí),來(lái)進(jìn)行更細(xì)致的成分藥理的分析,甚至逆向推斷病癥所需要的藥方。
2 中藥指紋圖譜數(shù)據(jù)處理技術(shù)簡(jiǎn)介
在進(jìn)行中藥的分析過(guò)程中,我們一般采用模式識(shí)別的方法,因?yàn)橹兴幍闹讣y圖譜數(shù)據(jù)是非常復(fù)雜的。利用指紋圖譜技術(shù),我們可以獲得一味中藥其中所含的復(fù)雜化學(xué)成分的情況,而根據(jù)相關(guān)的文獻(xiàn)來(lái)看,在相似度的評(píng)價(jià)過(guò)程中,有很多種數(shù)學(xué)算法可以利用,例如峰重疊率法也叫,Nei系數(shù)法;共有峰強(qiáng)度結(jié)合法,也名改進(jìn)的Nei系數(shù)法;相關(guān)系數(shù)法也是一種比較常用的計(jì)算方法,其通過(guò)圖譜間的相似性評(píng)價(jià)相似度;另外還可以使用差異評(píng)價(jià)的距離系數(shù)法和向量夾角余弦法等方法。根據(jù)文獻(xiàn)報(bào)道,相似度的評(píng)價(jià)主要這些方法都有各自的特點(diǎn)和應(yīng)用范圍。
各種的計(jì)算方法都有其優(yōu)缺點(diǎn),在實(shí)際的計(jì)算中,最重要的任務(wù)是如何在不同的情況下使用不同的相似度評(píng)價(jià)方法。由于在在中藥品種的使用過(guò)程中,很多都是非線性相關(guān)的,并且很多和藥物的量關(guān)系不大,這時(shí)候在鑒定中常用的方法有Nei系數(shù)、夾角余弦與相關(guān)系數(shù)法,但是如果碰到藥物的量與質(zhì)量會(huì)對(duì)結(jié)果產(chǎn)生較大影響的時(shí)候,使用改進(jìn)的Nei系數(shù)法和距離系數(shù)法可以解決這樣的問(wèn)題。
另外,很多方式還可以對(duì)于其中的指紋圖譜還可以進(jìn)行相似度的評(píng)價(jià)改進(jìn),例如Nei系數(shù)法、距離系數(shù)法、相關(guān)系數(shù)法,在這幾種方法中,容易探測(cè)出大峰的差別的為相關(guān)系數(shù)和夾角余弦法,而小峰探測(cè)Nei系數(shù)有很大的優(yōu)勢(shì)。距離系數(shù)一直對(duì)于各種峰都能達(dá)到波動(dòng)的探測(cè)。除此之外,在進(jìn)行這些圖譜分析與相關(guān)性分析時(shí)候,也要進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化處理。
3 機(jī)器學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)
機(jī)器學(xué)習(xí),也叫machine learning,是伴隨著計(jì)算機(jī)的出現(xiàn)而出現(xiàn)的人工智能化的新概念,機(jī)器學(xué)習(xí)有很多的定義,我們選取其中的一種:“機(jī)器學(xué)習(xí)是用已有的數(shù)據(jù)或以往的對(duì)應(yīng)關(guān)系,以此自動(dòng)改進(jìn)計(jì)算機(jī)程序的性能標(biāo)準(zhǔn)?!睓C(jī)器學(xué)習(xí)已經(jīng)有了十分廣泛的應(yīng)用,例如:安防,醫(yī)療健康,教育,電商零售,金融,智能汽車,機(jī)器人等領(lǐng)域。
機(jī)器學(xué)習(xí)有很多種分類方法,我們?cè)谶@里進(jìn)行了基于學(xué)習(xí)策略的分類,也就是通過(guò)學(xué)習(xí)過(guò)程中的推理策略的不同來(lái)進(jìn)行的分類。不同的學(xué)習(xí)策略有不同的難易程度,我們主要分為以下幾個(gè)基本類型,其難易程度是遞增的。首先是機(jī)械學(xué)習(xí),然后是示教學(xué)習(xí)進(jìn)而是演繹學(xué)習(xí),難度更高的是類比學(xué)習(xí)緊跟其后為基于解釋的學(xué)習(xí),最后,難度最大的機(jī)器學(xué)習(xí)方式為歸納學(xué)習(xí)。
另外,在機(jī)器學(xué)習(xí)的領(lǐng)域,經(jīng)常會(huì)用到人工神經(jīng)網(wǎng)絡(luò)這個(gè)工具。人工神經(jīng)網(wǎng)絡(luò),英文名為Artificial Neural Network,簡(jiǎn)寫(xiě)為ANN,是在現(xiàn)代神經(jīng)學(xué)研究的成果的基礎(chǔ)上發(fā)展起來(lái)的可以完成學(xué)習(xí)、記憶、識(shí)別和推理等功能,來(lái)模仿人腦進(jìn)行信息處理的網(wǎng)絡(luò)系統(tǒng)。目前,神經(jīng)網(wǎng)絡(luò)的理論研究已經(jīng)非常深入了,但是還是有很大的發(fā)展空間,向量機(jī)等新的概念也不斷出現(xiàn),我們?cè)谶M(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練后,可以得到輸入與輸出之間中間層的權(quán)重矩陣,從而進(jìn)行很多非線性對(duì)應(yīng)關(guān)系的分析計(jì)算。
4 利用機(jī)器學(xué)習(xí)進(jìn)行中醫(yī)藥成分分析的設(shè)計(jì)
在中醫(yī)藥數(shù)據(jù)挖掘的研究上,可以建立BP神經(jīng)網(wǎng)絡(luò)來(lái)反應(yīng)各個(gè)藥物之間以及藥物和病癥之間的關(guān)系。BP神經(jīng)網(wǎng)絡(luò)是采用誤差反向傳播算法進(jìn)行誤差校正的多層前饋網(wǎng)絡(luò)。這種神經(jīng)網(wǎng)絡(luò)所采用的誤差反向傳播算法(Error Back Propagation Training),也叫做BP算法,它的優(yōu)點(diǎn)在于可以系統(tǒng)解決多層神經(jīng)網(wǎng)絡(luò)隱含層鏈接權(quán)學(xué)習(xí)問(wèn)題,并給出完整的數(shù)學(xué)推導(dǎo)。用這種算法校正的神經(jīng)網(wǎng)絡(luò),可以解決簡(jiǎn)單感知器所不能解決的異或(Exclusive OR,XOR)和一些其他問(wèn)題。endprint
BP算法的計(jì)算方式是以網(wǎng)絡(luò)誤差平方為目標(biāo)函數(shù)、采用梯度下降法來(lái)計(jì)算目標(biāo)函數(shù)的最小值。應(yīng)用到中醫(yī)數(shù)據(jù)挖掘的研究中時(shí),先通過(guò)現(xiàn)代化學(xué)手段建立藥品成分指紋庫(kù),再通過(guò)臨床建立癥狀解決庫(kù),然后與中藥藥品庫(kù)相聯(lián)系,通過(guò)BP神經(jīng)網(wǎng)絡(luò),使用模糊算法可以得到藥方與中間層,也就是反應(yīng)方劑的矢量關(guān)系,另外也可以通過(guò)中間層與癥狀庫(kù)之間的矢量矩陣得到反應(yīng)方劑與病癥的關(guān)系,從而可以得到藥物中哪些成分可以解決哪些病癥,從而實(shí)現(xiàn)中藥的“化學(xué)化”,另外,我們還可以對(duì)已有的矢量進(jìn)行逆推,從而得到藥劑的配置和獲得新的可能的藥方。但因?yàn)樾滤幏绞峭ㄟ^(guò)模糊算法得到的理論上成立的藥方,并不能代表此藥方在實(shí)際情況下適用,因此要經(jīng)過(guò)多次試驗(yàn)以后,才能投入臨床治療,如圖1。
5 結(jié)語(yǔ)和展望
我們?cè)谶M(jìn)行現(xiàn)代中醫(yī)藥成分分析時(shí),需要進(jìn)行大量的計(jì)算來(lái)完成分析,這些中醫(yī)藥數(shù)據(jù)在計(jì)算時(shí),需要處理模糊、不完整及非線性特征,而數(shù)據(jù)挖掘技術(shù)在這方面有著巨大的優(yōu)勢(shì),可以準(zhǔn)確,完善,且快捷的處理這些數(shù)據(jù)。因此,數(shù)據(jù)挖掘與人工神經(jīng)網(wǎng)絡(luò)在現(xiàn)代中醫(yī)藥成分的分析過(guò)程中起著積極有效的作用,我們就是前文中提出的模型期望獲得中醫(yī)藥成分的藥理結(jié)果和可能藥方的調(diào)配。但是,此項(xiàng)技術(shù)目前仍處于初步發(fā)展的階段,并不完善,不能適用于大部分領(lǐng)域,我們?nèi)孕枰M(jìn)一步的探索,去投入更多此領(lǐng)域的研究。
參考文獻(xiàn)
[1]李紅.基于機(jī)器學(xué)習(xí)的中醫(yī)藥配方評(píng)估研究[D].南京大學(xué),2016.
[2]岳振宇.基于機(jī)器學(xué)習(xí)的天然產(chǎn)物抗腫瘤和免疫調(diào)節(jié)活性研究[D].安徽大學(xué),2016.
[3]秦延斌.基于中醫(yī)核心思維的機(jī)器學(xué)習(xí)醫(yī)用診療系統(tǒng)設(shè)計(jì)[J].中華中醫(yī)藥學(xué)刊,2015,(09):2188-2191.
[4]張伯禮,張俊華.中醫(yī)藥現(xiàn)代化研究20年回顧與展望[J].中國(guó)中藥雜志,2015,(17):3331-3334.
[5]鄧宏勇,許吉,張洋,袁敏,施毅.中醫(yī)藥數(shù)據(jù)挖掘研究現(xiàn)狀分析[J].中國(guó)中醫(yī)藥信息雜志,2012,(10):21-23.
[6]任廷革,劉曉峰,張帆,孫燕,湯爾群.計(jì)算技術(shù)對(duì)中醫(yī)方劑知識(shí)的挖掘[J].科技導(dǎo)報(bào),2010,(15):31-35.
[7]馬麗偉.關(guān)聯(lián)規(guī)則算法研究及其在中醫(yī)藥數(shù)據(jù)挖掘中的應(yīng)用[D].南京理工大學(xué),2009.
[8]麥喬智.數(shù)據(jù)挖掘模型的創(chuàng)建及其在中醫(yī)藥文獻(xiàn)中的應(yīng)用研究[D].南京中醫(yī)藥大學(xué),2009.
[9]劉建平,張柯欣,楊鈞.數(shù)據(jù)挖掘技術(shù)及其在中醫(yī)藥領(lǐng)域中的應(yīng)用[J].遼寧中醫(yī)藥大學(xué)學(xué)報(bào),2007,(06):203-204.
[10]孫燕.基于機(jī)器學(xué)習(xí)技術(shù)的《傷寒論》方證分析方法研究[D].北京中醫(yī)藥大學(xué),2007.
[11]尹耀慧,金益強(qiáng),易振佳.人工神經(jīng)網(wǎng)絡(luò)在中醫(yī)藥現(xiàn)代化研究中的應(yīng)用[J].中醫(yī)藥導(dǎo)報(bào),2006,(09):83-85.
[12]李運(yùn)賢,杜瑞卿.生物信息學(xué)中機(jī)器學(xué)習(xí)方法對(duì)中醫(yī)藥復(fù)雜系統(tǒng)的研究[J].中醫(yī)藥學(xué)刊,2006,(07):1296-1297.
[13]蔡越君.數(shù)據(jù)挖掘技術(shù)及其在中藥配伍系統(tǒng)中的應(yīng)用研究[D].浙江大學(xué),2003.endprint