楊天歌,倪詩婷,高旭華,潘福璐,陶歐
(北京中醫(yī)藥大學(xué)中藥學(xué)院,北京 102488)
金銀花為忍冬科植物忍冬(Lonicera japonica Thunb)的干燥花蕾或初開的花[1],含精油、酚酸、黃酮類、三萜皂苷類、環(huán)烯醚萜類、揮發(fā)油以及微量元素等成分[2,3],味甘,性寒,具有清熱解毒、疏散風(fēng)熱的功效[1]。
金銀花是一種常用的藥食兩用藥材,被廣泛用于臨床和保健產(chǎn)品的開發(fā),如金銀花茶、飲料等[4]。然而,劉安成、章曉驊等[5,6]在研究中發(fā)現(xiàn)完全開放的金銀花,其綠原酸含量低于花蕾的含量,即花蕾質(zhì)量優(yōu)于完全開放的花朵,而且韓赟、鄭國成等[7,8]研究也發(fā)現(xiàn)不同采收時間、不同花期的金銀花中活性成分含量也存在較大差異,這就容易造成在生產(chǎn)過程中將不同采收時間或者不同花期的金銀花混合后使用,從而影響產(chǎn)品質(zhì)量[9-14],如何能及時控制原料的質(zhì)量,是自動化生產(chǎn)中必須解決的關(guān)鍵問題之一。目前以金銀花為原料的制劑研究主要集中于利用薄層法和高效液相指紋圖譜鑒別粉碎前后成分和功能的變化[15-18],尚不能滿足生產(chǎn)過程中快速、靈活、便捷的檢測要求。隨著信息技術(shù)的快速發(fā)展,仿生設(shè)備電子眼和電子舌被越來越多地應(yīng)用于藥品、食品生產(chǎn)過程中的質(zhì)量控制[19-21],仿生設(shè)備具有分析迅速、操作簡單和結(jié)果量化等特點,因此,研究如何建立一套借助仿生設(shè)備來模擬人感官功能,從外觀、氣和味等直觀、快速、準(zhǔn)確地評價混合后的金銀花質(zhì)量的方法,將是提高生產(chǎn)過程中金銀花原料質(zhì)量控制的有效途徑。
Astree II電子舌是一種新型味覺分析儀器,使用味覺傳感器陣列模擬生物味覺系統(tǒng)中的味蕾實現(xiàn)對不同味道的測量[22]被廣泛用于中藥產(chǎn)地、不同炮制品和中藥粉中摻偽品的鑒別[23-26]中,但多停留在主成分分析后以散點圖的形式展示,沒有探索其他模型或形成量化結(jié)果。機器學(xué)習(xí)是人工智能技術(shù)的一種,利用計算機對數(shù)據(jù)的計算擬合實現(xiàn)對數(shù)據(jù)的分類。為實現(xiàn)對混合金銀花的區(qū)分鑒別,本研究利用掃描儀及電子舌來獲取視覺和味覺感官特征,將人的主觀因素與特征結(jié)果分離,并考察機器學(xué)習(xí)模型對數(shù)據(jù)的區(qū)分效能,嘗試將人工智能技術(shù)與中藥區(qū)分鑒別活動相結(jié)合,使結(jié)果客觀化,同時也為中藥產(chǎn)地、真?zhèn)伪孀R等研究提供新的思路。
金銀花樣品來自山東臨沂,經(jīng)北京中醫(yī)藥大學(xué)劉勇教授鑒定為忍冬科植物忍冬(L.japonica)的干燥未完全開花和干燥完全開花。
儀器:Astree II電子舌(Alpha MOS公司),自動進(jìn)樣器(Alpha MOS公司),HP Scanjet G4050掃描儀(中國惠普有限公司)。
電子舌包括7根傳感器陣列,每根傳感器有不同的專屬敏感味覺,其對應(yīng)關(guān)系,見表1。
表1 電子舌傳感器敏感味覺對應(yīng)表Table 1 Electronic tongue sensors for sensitive tastes
金銀花完全開花與未開花按不同比例混合出11組樣品,粉碎后,過4號篩,各組樣品,見表2。
表2 金銀花待測混合樣品Table 2 Honeysuckle mixed samples to be tested
電子舌供試品制備:參照藥典規(guī)定測量有效成分的方法,稱取粉末樣品各0.5 g,置于具塞錐形瓶中,加入50%的甲醇50 mL,稱定重量,超聲處理(功率250 W,頻率35 kHz)30 min,放冷,再稱定重量,用50%的甲醇補足減失的重量,搖勻,離心,因甲醇濃度較高,為防止電子舌傳感器損壞,取上清液5 mL,置于50 mL棕色容量瓶中,加入超純水至刻度,搖勻,即得電子舌待測液。
2.2.1 混合金銀花的視覺數(shù)據(jù)采集 使用掃描儀獲取每個組別樣品的圖像。掃描分辨率為1 200 dpi,觀察可發(fā)現(xiàn)組0至組10的顏色逐漸加深且具有一定的規(guī)律性,見圖1。將圖像裁剪成400像素400像素大小的正方形。提取每個像素點的紅、綠、藍(lán)三通道數(shù)值,計算平均值作為視覺特征集。
圖1 不同組金銀花粉碎后圖像Fig.1 Pictures with different levels
2.2.2 電子舌數(shù)據(jù)采集 將不同組別樣品的電子舌待測液分別倒入專用燒杯中(25 mL),放入自動進(jìn)樣器,每個樣品之間放置1杯超純水用于清洗傳感器,以免造成交叉污染。每個樣品檢測10次,取后6次的數(shù)據(jù)作為味覺特征集用于后續(xù)分析。電子舌的測量參數(shù),見表3。
表3 電子舌測量參數(shù)Table 3 Parameters of electronic tongue
混合金銀花每11組不同配比為一個批次,采集視覺、味覺特征,實驗重復(fù)3次。進(jìn)行主成分分析,其中視覺特征為(紅,綠,藍(lán))三維特征向量,前3主成分貢獻(xiàn)率為100%,味覺特征為7個傳感器的七維特征向量,前3個主成分貢獻(xiàn)率均>90%;視覺特征與味覺特征合并,組成共10個特征的十維特征向量,并進(jìn)行主成分分析,前3個主成分貢獻(xiàn)率>90%。
味覺特征、視覺特征和視覺-味覺特征的主成分分析結(jié)果,見圖2。
圖2 主成分分析結(jié)果Fig.2 Principal component analysis results
由圖2可知,味覺特征的主成分分析結(jié)果僅可以區(qū)分幾組樣品;視覺特征并不能有效區(qū)分各組樣品,且樣品分布離散;視覺-味覺融合特征保留了味覺特征的區(qū)分能力,同時也繼承了視覺特征的特點,使樣品分布趨于離散,因此味覺特征區(qū)分效果優(yōu)于視覺-味覺融合特征結(jié)果,優(yōu)于視覺特征結(jié)果。電子舌有7根傳感器,因此味覺特征有7個屬性用于區(qū)分混合金銀花,而視覺特征只有紅、綠、藍(lán)3個屬性,因此造成混合金銀花區(qū)分性效果不佳。而視覺-味覺融合特征主成分分析結(jié)果并未優(yōu)于味覺特征,可能是視覺特征干優(yōu)造成,由此可知數(shù)據(jù)本身的可區(qū)分性以及數(shù)據(jù)融合的方式都會對區(qū)分鑒別結(jié)果造成影響。
本研究考察了k-最近鄰分析(k-nearest neighbor analysis,knn)、決策樹(Decision tree,dt)、支持向量機(Support Vector Machine,svm)、隨機森林(Random-Forest,rfc)和梯度提升樹(Gradient Boosting,gbdt)等5種機器學(xué)習(xí)模型對視覺特征、味覺特征和視覺-味覺融合特征的混合金銀花區(qū)分鑒別效能。
為了確定各模型的最佳參數(shù),本研究采用網(wǎng)格搜索的方法進(jìn)行參數(shù)篩選。網(wǎng)格搜索方法可將待訓(xùn)練模型的所有合理候選參數(shù)進(jìn)行逐一測試,以選出其中的最佳參數(shù)。同時,為提高數(shù)據(jù)的利用率并減小隨機性帶來的誤差,采用3折交叉驗證方法對所選參數(shù)的效能進(jìn)行評價,從而最終確定參數(shù)的最優(yōu)取值。
從采集得到的11個組別數(shù)據(jù)中隨機選出4/5作為訓(xùn)練集并平均分成3份,其余1/5作為測試集,見圖3。
圖3 數(shù)據(jù)分割方法Fig.3 Data segmentation methods
對視覺特征、味覺特征和視覺-味覺融合特征的數(shù)據(jù)進(jìn)行歸一化處理,以消除視覺特征值與味覺特征值數(shù)量級不同的影響。5種機器學(xué)習(xí)模型在不同特征集的驗證集數(shù)據(jù)上的正確率均值,見圖4。
圖4 5種機器學(xué)習(xí)模型的正確率Fig.4 The correct rate of five machine learning models
圖4 中ET組為味覺特征集,COLOR組為視覺特征集,ET&COLOR為視覺-味覺融合特征集。由圖4可知,在每個特征集上5個機器學(xué)習(xí)模型的正確率均為svm>dt>=rfc>knn>gbdt。svm模型展現(xiàn)了良好的區(qū)分效能,svm在不同特征集上的正確率分別是味覺特征集>視覺-味覺融合特征集>視覺特征集,最高為88%。視覺特征集的不同機器學(xué)習(xí)模型正確率均處于最低,可能與其屬性數(shù)量較少且各屬性值比較接近,本身缺乏區(qū)分度有關(guān),而融合特征受視覺特征干擾,未能得出比味覺特征更優(yōu)秀的結(jié)果。rfc和gbdt模型為集成學(xué)習(xí)模型,受限于本次實驗數(shù)據(jù)集規(guī)模較小,未能展現(xiàn)出更優(yōu)秀的結(jié)果,且模型區(qū)分效能受參數(shù)影響較大,而調(diào)參是一個十分復(fù)雜且耗時的過程,因此參數(shù)的調(diào)諧也是影響模型正確率的一個原因。
隨著信息技術(shù)的發(fā)展,感官仿生儀器逐漸應(yīng)用于藥品、食品生產(chǎn)過程中的質(zhì)量控制,將人體感官仿真儀器用于中藥的區(qū)分鑒別可以提高結(jié)果的客觀性和準(zhǔn)確性。本研究以不同混合比例的開花與未開花金銀花為例,驗證了基于掃描儀采集的視覺特征、電子舌采集的味覺特征及視覺-味覺融合特征的區(qū)分鑒別可能性。結(jié)果表明,主成分分析不能區(qū)分混合金銀花,效果不佳。采用knn、dt、svm、rfc和gbdt等機器學(xué)習(xí)模型區(qū)分鑒別混合金銀花具有可行性,其中svm方法在3種特征集上正確率最高。本研究未將電子舌傳感器與人口嘗味對應(yīng),而是作為描述樣品特征的屬性值直接使用,構(gòu)成味覺向量,省去了數(shù)值與味道對應(yīng)過程中的人為口嘗過程與潛在的主觀因素的影響。綜上所述,掃描儀和電子舌的使用使得中藥感官特征表述客觀化,機器學(xué)習(xí)模型的應(yīng)用使判斷結(jié)果客觀化,兩者相結(jié)合使鑒別結(jié)果更加客觀、準(zhǔn)確和快速,驗證了機器學(xué)習(xí)模型用于區(qū)分鑒別中藥的可行性,為其他需要分類鑒別的如中藥道地性研究、中藥真?zhèn)蝺?yōu)劣判斷提供了新思路。但本研究存在實驗樣本小,難以形成大數(shù)據(jù)分析和條件有限不能考察更多其他機器學(xué)習(xí)模型鑒別效能的不足,需要在后續(xù)的實驗中改進(jìn)。