譚超群 解達帥 程小恩 趙姝婷 吳純潔 溫川飆
摘 要 目的:探討大數(shù)據(jù)技術在中藥飲片外觀性狀與內(nèi)在成分數(shù)據(jù)結(jié)合分析(“內(nèi)外結(jié)合”)中的應用。方法:總結(jié)現(xiàn)有中藥飲片鑒別中外觀性狀與內(nèi)在成分檢測技術的不足,就中藥飲片“內(nèi)外結(jié)合”大數(shù)據(jù)庫的研究現(xiàn)狀與應用前景進行綜述。結(jié)果與結(jié)論:現(xiàn)有的智能感觀技術存在數(shù)據(jù)不完整、不準確和對多維數(shù)據(jù)缺乏整合的不足,內(nèi)在成分檢測方法也存在諸多不足。大數(shù)據(jù)分析流程包括前期數(shù)據(jù)采集、數(shù)據(jù)預處理、數(shù)據(jù)分析與處理、數(shù)據(jù)可視化處理以及數(shù)據(jù)應用幾個階段。收集中藥飲片形、色、氣、味外在性狀與內(nèi)在成分數(shù)據(jù)以及文獻知識庫信息,構建中藥飲片“內(nèi)外結(jié)合”大數(shù)據(jù)庫,再根據(jù)大數(shù)據(jù)處理流程與算法,可實現(xiàn)人工智能輔助中藥飲片真?zhèn)蝺?yōu)劣鑒別,實現(xiàn)對中藥產(chǎn)地的辨別區(qū)分,挖掘影響中藥飲片質(zhì)量的因素,為其質(zhì)量控制提供規(guī)范化標準。大數(shù)據(jù)技術的應用能準確、高效地處理中藥飲片“內(nèi)外”多維數(shù)據(jù),可為傳統(tǒng)中藥行業(yè)研究提供新思路,為中藥飲片客觀化發(fā)展提供新動力。
關鍵詞 大數(shù)據(jù)技術;中藥飲片;外觀性狀;內(nèi)在成分
中圖分類號 R282.5 文獻標志碼 A 文章編號 1001-0408(2018)16-2287-04
傳統(tǒng)中藥鑒別包括基源鑒定、顯微鑒定、性狀鑒定與理化鑒定4種方法。針對中藥的形(形狀)、色(顏色)、氣(氣味)、味(味道)的外觀性狀鑒定是對中藥質(zhì)量進行評價的重要指標,從其外觀性狀可以判斷其原生植物(動物等)品種、生長年限、品質(zhì)等。然而,目前對于中藥外觀性狀的評價仍通過肉眼觀察、口嘗、鼻聞等方法來進行,不可避免地會因一些主觀因素對鑒定結(jié)果的客觀性與可靠性產(chǎn)生影響。基于這種情況,很多學者提出通過機器視覺、電子鼻、電子舌等現(xiàn)代技術對中藥飲片的形、色、氣、味等性狀信息進行量化,客觀化表達人工鑒別的主觀經(jīng)驗,用以鑒別中藥飲片[1]。當下大數(shù)據(jù)技術發(fā)展迅速,且已廣泛應用于農(nóng)業(yè)、醫(yī)療、教育、能源、國防、金融等諸多領域。引入大數(shù)據(jù)技術對中藥飲片數(shù)據(jù)采集過程中積累形成的大量外觀性狀數(shù)據(jù)與內(nèi)在成分數(shù)據(jù)結(jié)合(以下簡稱為“內(nèi)外結(jié)合”)起來進行分析,建立其品質(zhì)與外在信息間的耦合關系,可對中藥飲片智能識別分類、產(chǎn)地智能分析推斷的實現(xiàn)及中藥質(zhì)量標準的建立提供理論依據(jù)。
1 現(xiàn)有技術方法存在的不足
1.1 智能感官技術的不足
1.1.1 數(shù)據(jù)缺乏完整性與準確性 已有研究證明,中藥材的形、色、氣、味與其內(nèi)在成分含量具有一定關聯(lián)度,但是對其形、色、氣、味對應的物質(zhì)基礎研究較少[1],因此采用智能感官技術進行鑒定缺乏與中藥材或飲片內(nèi)在成分的關聯(lián),影響數(shù)據(jù)采集的完整性。智能感官技術,例如電子鼻、電子舌等,由于儀器自身限制或傳感器限制,對中藥材的敏感度有限,尤其對辨識度不高的中藥材檢測正確率較低[2],導致人們對其品質(zhì)評判結(jié)果不能完全相信,從而極大地影響了人們的決策。
1.1.2 對多維數(shù)據(jù)缺乏整合 目前,智能感官技術在中藥性狀鑒別中的應用也越來越廣泛,但大多數(shù)研究人員往往只依靠一兩種技術對中藥飲片的性狀進行判定,多種分析技術的綜合應用較少[3-6],因此分析結(jié)果缺乏普適性,且各項技術得到的數(shù)據(jù)比較孤立,導致鑒別數(shù)據(jù)“各自為政”的現(xiàn)狀,積累的大量數(shù)據(jù)分布在各自的“信息孤島”中,未能得到整合與全面分析。而使用薄層色譜、液相色譜、質(zhì)譜等多種方法用于內(nèi)在成分的測定,獲取的數(shù)據(jù)具有一定的復雜度,與外觀性狀數(shù)據(jù)的相關性研究較少,因此對多維數(shù)據(jù)的集群整合及數(shù)據(jù)分析存在一定的難度。
1.2 內(nèi)在成分檢測方法的不足
理化鑒別中一般采用光譜、色譜、差熱分析等技術,即利用中藥分子內(nèi)部一些含氫基團振動的倍頻和合頻吸收來實現(xiàn)對中藥的快速鑒別,但其檢測結(jié)果多為定性判定,準確度有所欠缺;且在實際操作過程中,針對樣本的測量需要大量有代表性且化學值已知的樣品建立模型,在這樣的情況下采用上述技術對小批量樣品進行分析就顯得不太實際。此外,由于儀器狀態(tài)改變或標準樣品發(fā)生變化,所建模型也需要不斷更新,其穩(wěn)定性與適用性均難以估值,加之在試驗過程中所用模型并不是通用的,每臺儀器的模型都不相同,又增加了使用的局限性。
2 中藥飲片“內(nèi)外結(jié)合”大數(shù)據(jù)庫的構建
2.1 大數(shù)據(jù)處理流程簡介
大數(shù)據(jù)處理流程包括前期數(shù)據(jù)采集、數(shù)據(jù)預處理、數(shù)據(jù)處理與分析、數(shù)據(jù)可視化處理以及數(shù)據(jù)應用幾個階段,即通過對多來源數(shù)據(jù)進行整合,結(jié)合計算機學習算法對數(shù)據(jù)進行分析預測,可得出用于展示交流的可視化圖像或圖形[7-8],進而進行應用,詳見圖1。
2.2 中藥飲片“內(nèi)外”數(shù)據(jù)采集
中藥飲片“內(nèi)外”數(shù)據(jù)是指外中藥飲片外觀性狀數(shù)據(jù)與內(nèi)在成分數(shù)據(jù),可利用多個數(shù)據(jù)來源渠道進行采集,例如,使用電子鼻、電子舌等設備可對中藥材及飲片的形、色、氣、味等外觀性狀數(shù)據(jù)進行實時采集;使用色譜(氣相色譜、薄層色譜、柱色譜、高效液相色譜等)、光譜(紫外、紅外等)、電泳、差熱分析等技術可確定中藥材及飲片的內(nèi)在成分數(shù)據(jù);還可檢索現(xiàn)有文獻知識庫中涉及到的相應中藥飲片的數(shù)據(jù)記錄等。分析各類數(shù)據(jù)集合的關聯(lián)度,可構建中藥飲片“內(nèi)外結(jié)合”大數(shù)據(jù)庫(如圖2所示),對所有結(jié)構化與非結(jié)構化的數(shù)據(jù)進行存儲與管理,以便后續(xù)數(shù)據(jù)的查詢與處理。
2.3 數(shù)據(jù)預處理、處理與分析
由于不同來源的數(shù)據(jù)相互間易受到數(shù)據(jù)干擾產(chǎn)生噪聲,存在數(shù)據(jù)值缺失、數(shù)據(jù)錯誤等問題[9],因此需要對采集到的大量數(shù)據(jù)集合進行預處理工作,以便為后續(xù)數(shù)據(jù)處理與分析階段提供準確、無誤、真實、有效的數(shù)據(jù),提高數(shù)據(jù)的整體質(zhì)量,保證結(jié)果預測的準確性與可行性。具體操作包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約等。數(shù)據(jù)清理是指對于中藥飲片的外觀形、色、氣、味數(shù)據(jù)與內(nèi)在成分含量數(shù)據(jù)及文獻庫提及的所有數(shù)據(jù)進行數(shù)據(jù)清理操作,包括數(shù)據(jù)過濾與修正[10-12](如:對文獻中記載的重復性數(shù)據(jù)加以過濾)和數(shù)據(jù)的不一致性檢測(如:當試驗與文獻所得數(shù)據(jù)不完全一致時,應多方求證,確保數(shù)據(jù)的準確性、真實性)等。數(shù)據(jù)集成則是將不同來源的數(shù)據(jù)進行集成(如:對內(nèi)在成分數(shù)據(jù)進行統(tǒng)一編碼,統(tǒng)一存儲格式,進行歸一化操作等),形成統(tǒng)一的數(shù)據(jù)庫,以提高數(shù)據(jù)的完整性和可用性[13-15]。數(shù)據(jù)規(guī)約用在中藥飲片外觀形、色、氣、味數(shù)據(jù)與內(nèi)在成分含量數(shù)據(jù)處理中[如:使用主成分分析法(PCA)進行數(shù)據(jù)降維,提取數(shù)據(jù)主要特征向量,旨在使用少數(shù)向量反映原始數(shù)據(jù)的特征,提高數(shù)據(jù)的價值密度],以降低數(shù)據(jù)集規(guī)模。
數(shù)據(jù)分析是大數(shù)據(jù)處理與應用的關鍵環(huán)節(jié),決定了大數(shù)據(jù)集合的價值性和可用性,以及分析預測結(jié)果的準確性。在數(shù)據(jù)分析環(huán)節(jié),根據(jù)大數(shù)據(jù)應用情境與決策需求選擇合適的數(shù)據(jù)分析技術,可提高大數(shù)據(jù)分析結(jié)果的可用性。
2.4 數(shù)據(jù)應用
2.4.1 人工智能輔助中藥飲片真?zhèn)蝺?yōu)劣鑒別 中藥飲片的質(zhì)量鑒定是對中藥飲片真?zhèn)蝺?yōu)劣的檢驗,而通過數(shù)據(jù)挖掘技術對中藥飲片“內(nèi)外結(jié)合”大數(shù)據(jù)庫進行處理分析,結(jié)合神經(jīng)網(wǎng)絡深度學習算法,即可實現(xiàn)對其“真?zhèn)蝺?yōu)劣”的鑒別。如熏硫、炒制等傳統(tǒng)中藥炮制工藝[16-17],對一些含糖量高但不易貯存的中藥飲片的使用和貯存均有一定的積極作用。而以炒制為例,不同炒制程度的中藥飲片具有不同的臨床療效,炒制溫度過低或過高都會影響有效成分的活性[18],因此判斷適宜的炒制程度就顯得至關重要。有研究獲取不同炒制程度下的山楂“L*a*b*”顏色空間三維數(shù)值,其中L表示照度,a表示顏色從深綠色(低亮度值)到灰色(中亮度值)再到亮粉紅色(高亮度值),b表示顏色從亮藍色(低亮度值)到灰色(中亮度值)再到黃色(高亮度值)。將顏色數(shù)值與內(nèi)在含量變化數(shù)據(jù)進行歸一化整合,應用PCA法降維,根據(jù)人工神經(jīng)網(wǎng)絡(ANN)要求預設模型參數(shù)與反饋函數(shù),確定最優(yōu)權值與輸出,建立外在性狀-內(nèi)在成分-炒制溫度的算法模型。以“性狀”數(shù)據(jù)作為ANN輸入自變量(X),不同炒制程度(生、炒、焦山楂)下內(nèi)在成分(有機酸、總黃酮、檸檬酸、金絲桃苷和5-羥甲基糠醛)的變化設為因變量(Y),結(jié)果該模型對3種不同炒制程度山楂的預測準確度分別為98.9%、92.5%、98.3%,得出山楂最合適的炒制溫度為(150±5)℃;采用PCA法對上述預測結(jié)果進行驗證,結(jié)果得PC1=94.237%,PC2=4.533%,PC3=0.693%[19-20]??梢?,該算法模型對不同炒制程度下的山楂具有很好的預測性能,可實現(xiàn)對炮制火候的控制檢測[30],具體預測流程見圖3。
2.4.2 對中藥材產(chǎn)地進行分析推斷 道地藥材是指在特定的自然條件和生態(tài)環(huán)境的區(qū)域內(nèi)所產(chǎn)的中藥材,其生產(chǎn)較為集中,具有特定的栽培技術和采收加工方法,質(zhì)優(yōu)效佳。鑒于不同產(chǎn)地的中藥材其功效可能有所差別,因此采用合理的檢測技術,并結(jié)合有效的分析方法來分辨中藥材產(chǎn)地顯得尤為重要。
基于大數(shù)據(jù)的中藥材產(chǎn)地判別,指在現(xiàn)有中藥材產(chǎn)地數(shù)據(jù)之上進行各種算法的計算[21],如機器學習算法K均值(Kmeans)、支持向量機(SVM)算法、深度學習算法等[22-25],形成不同算法模型,挖掘大數(shù)據(jù)集合中的數(shù)據(jù)關聯(lián)性,從而得到中藥材產(chǎn)地預測結(jié)果。陶夢琳等[26]收集多產(chǎn)地黃連樣本,采集“內(nèi)外”數(shù)據(jù),建立了基于SVM算法的黃連飲片產(chǎn)地區(qū)別模型,實現(xiàn)了產(chǎn)地的區(qū)分,可用于分析同種藥材不同產(chǎn)地的差異。Yang SL等[27]采用實驗室自助研發(fā)的機器視覺系統(tǒng)和AlphaMos公司研發(fā)的電子鼻、電子舌,分別獲取貝母樣品的“L*a*b*”顏色數(shù)值、18維氣味特征值與7維味道特征值;采用PCA法對多維數(shù)據(jù)進行降維處理,采用SVM算法將不同產(chǎn)地貝母作為輸出變量,建立多層數(shù)學分析模型,用于判斷貝母飲片的不同產(chǎn)地。該算法通過強化學習不斷改變權值實現(xiàn)了對貝母“道地性”的鑒別,隨著訓練數(shù)據(jù)的積累,預測的結(jié)果值不斷優(yōu)化,最終該模型的識別率達到了92.6%。試驗中并分別用電子鼻與電子舌數(shù)據(jù)構建PCA鑒別模型對上述結(jié)果進行驗證,表明該模型的鑒別效果較好[27]。整個數(shù)據(jù)處理環(huán)節(jié)以Matlab R2012a軟件進行操作,具體識別流程見圖4。
此外,針對混合藥材如不同品種、不同年份或辨識度低的藥材飲片,也可通過訓練海量數(shù)據(jù)與構建機器學習模型來提升數(shù)據(jù)分析與預測的準確性。
2.4.3 提高中藥飲片質(zhì)量控制標準 運用數(shù)據(jù)挖掘工具對中藥飲片“內(nèi)外結(jié)合”大數(shù)據(jù)庫進行分析,建立算法預測模型來分析其各部分數(shù)據(jù)間的關系,有助于挖掘影響中藥飲片質(zhì)量的關鍵因素,進而有助于中藥飲片質(zhì)量標準的規(guī)范化,從而提高對中藥飲片質(zhì)量的監(jiān)控與管理水平。
3 結(jié)語
隨著大數(shù)據(jù)技術在多個領域的廣泛應用,數(shù)據(jù)挖掘在中藥中的應用也越來越多。建立中藥飲片“內(nèi)外結(jié)合”大數(shù)據(jù)庫,可在整合海量數(shù)據(jù)的同時,結(jié)合機器學習算法挖掘數(shù)據(jù)潛力,并進行廣泛應用。例如,其可用于中藥真?zhèn)蝺?yōu)劣品質(zhì)的鑒別,實現(xiàn)人工智能識藥;對中藥產(chǎn)地進行辨別區(qū)分,分析同種藥材不同產(chǎn)地的差異性,為道地藥材的鑒定提供借鑒;挖掘影響中藥飲片質(zhì)量的因素,為其質(zhì)量控制提供規(guī)范化標準,也為中藥飲片質(zhì)量監(jiān)控與管理提供依據(jù)。大數(shù)據(jù)技術能有效整合多維、多變的數(shù)據(jù),減少因信息單一而引致的錯誤判斷,從而可為中藥行業(yè)的現(xiàn)代化發(fā)展提供有力支撐。
中藥飲片外觀性狀與內(nèi)在成分數(shù)據(jù)是對其客觀化評價的重要衡量標準,然而在其大數(shù)據(jù)技術研究過程中仍然存在一定問題,例如,數(shù)據(jù)來源的真實性與完整性難以得到保證,或不同中藥飲片的外觀性狀數(shù)據(jù)未能全部獲得;在飲片多方數(shù)據(jù)缺失嚴重的情況下,容易造成數(shù)據(jù)轉(zhuǎn)換率折損、利用率較低等情況。隨著當前人工智能技術的普及,引入深度學習方法對海量數(shù)據(jù)進行處理與分析,構建數(shù)學模型,有助于提高分析精準度及可靠性。應用大數(shù)據(jù)技術準確、高效地對中藥飲片“內(nèi)外”數(shù)據(jù)進行挖掘,可為傳統(tǒng)中藥行業(yè)研究提供新思路,為中藥飲片客觀化發(fā)展提供新動力。
參考文獻
[ 1 ] 趙雷蕾,周洋,黎茂. 基于數(shù)據(jù)化表達的中藥“形色氣味”研究進展及思考[J]. 廣東藥學院學報,2015,31(5):692-694.
[ 2 ] 黎江華,吳純潔,孫靈根,等. 基于機器視覺技術實現(xiàn)中藥性狀“形色”客觀化表達的展望[J]. 中成藥,2011,33(10):1781-1784.
[ 3 ] 吳繼華,劉燕德,歐陽愛國. 基于機器視覺的種子品種實時檢測系統(tǒng)研究[J]. 傳感技術學報,2005,18(4):742-744.
[ 4 ] 張俊雄,陳濤,于振東,等. 基于計算機視覺的新疆棉種顏色分選系統(tǒng)設計[J]. 農(nóng)業(yè)機械學報,2009,40(10):161-164.
[ 5 ] 常若葵,張偉玉,崔晶,等. 基于機器視覺的大米外特性評價[J].農(nóng)機化研究,2009,31(12):149-151.
[ 6 ] 夏于芬,梁光平. 大數(shù)據(jù)背景下的中藥現(xiàn)代化[J].亞太傳統(tǒng)醫(yī)藥,2012,11(21):1-3.
[ 7 ] CUI M, LI HY, HU XQ. Similarities between “big data” and traditional Chinese medicine information[J]. J Tradit Chin Med,2014, 34(4):518-522.
[ 8 ] YEA SJ, SEONG B, JANG YJ, et al. A data mining approach to selecting herbs with similar efficacy:targeted selection methods based on medical subject headings[J]. J Ethnopharmacol,2016,8:27-34.
[ 9 ] 龍偉,邳馨,向劍,等. 中藥方劑網(wǎng)絡與中藥化學空間的構建與分析[J]. 北京中醫(yī)藥大學學報,2011,34(11):729-731.
[10] 陸愛軍,劉冰,劉海波,等. 中藥化學數(shù)據(jù)庫關聯(lián)規(guī)則的挖掘[J]. 計算機與應用化學,2005,22(2):108-112.
[11] GUO J, SHANG E,ZHAO J,et al. Data mining and frequency analysis for licorice as a “Two-Face” herbin Chinese formulae based on Chinese formulae database[J]. Phytomedicine,2014,21(11):1281-1286.
[12] 向楊峰. 基于數(shù)據(jù)挖掘的新藥研發(fā)系統(tǒng)[D]. 北京:北京交通大學,2010.
[13] 付先軍. 基于數(shù)據(jù)挖掘技術探討治療肺系疾病方劑中藥物化學成分類別構成及其配伍關系[J]. 中醫(yī)藥信息學,2013,20(1):28-30.
[14] 李振皓,錢忠直,程翼宇. 基于大數(shù)據(jù)科技的中藥質(zhì)量控制技術創(chuàng)新戰(zhàn)略[J]. 中國中藥雜志,2015,40(17):3374-3378.
[15] 龔蓓,蘇勵,董亮,等. 基于大數(shù)據(jù)的風濕科常用中藥飲片腎毒性初探[J]. 上海中醫(yī)藥雜志,2015,49(3):7-9.
[16] 曹婷婷, 孫志蓉, 楊春寧,等. 硫黃熏蒸中藥材的研究現(xiàn)狀分析[J]. 中國現(xiàn)代中藥,2016,18(5):678-681.
[17] 李鐸. 硫熏中藥材快速檢測裝置設計研究[D]. 保定:河北大學,2016.
[18] 伍敏生. 硫熏對中藥飲片質(zhì)量的影響研究[J].中國中醫(yī)藥現(xiàn)代遠程教育,2014,12(19):158-159.
[19] 王洪建. 基于HSV顏色空間的一種車牌定位和分割方法[J]. 儀器儀表學報,2005,26(2):371-373.
[20] XIE DS, PENG W, CHEN JC, et al. A novel method for the discrimination of hawthorn and its processed products using an intelligent sensory system and artificial neural networks[J]. Food Sci Biotechnol,2016,25(6):1-6.
[21] 曾星翔. 通江銀耳志[M]. 北京:方志出版社,2010:8-15.
[22] 施學麗,鄧家剛,蔣筱,等. 195 首治療乳腺增生中藥專利復方的用藥規(guī)律分析[J]. 世界科學技術(中醫(yī)藥現(xiàn)代化),2013,15(7):1544-1550.
[23] YANG M, JIAO LJ, CHEN PQ, et al. Complex systems entropy network and its application in data mining for Chinese medicine tumor clinics[J]. World Science Technology,2012,14(2):1376-1384.
[24] CHU H, SUN P, YIN J,et al. Integrated network analysis reveals potentially novel molecular mechanisms and therapeutic targets of refractory epilepsies[J]. PloS One,2017,12(4):e0174964.
[25] TAN C, XIE D, LIU Y, et al. Identification of different bile species and fermentation times of bile arisaema based on an intelligent electronic nose and least squares support vector machine[J]. Anal Chem,2018, 90(5):3460-3466.
[26] 陶夢琳,顧文濤,侯珂惠,等. 基于支持向量機的“內(nèi)外結(jié)合”中藥質(zhì)量控制新模式探索[J]. 中國藥房,2016,27(1):118-121.
[27] YANG SL, XIE SP, XU M, et al. A novel method for rapid discrimination of bulbus of Fritillaria by using electronic nose and electronic tongue technology[J]. Anal Methods,2015, 7(3):943-952.
(收稿日期:2017-11-05 修回日期:2018-07-05)
(編輯:孫 冰)