国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

機器學習方法鑒別中藥材種類和產(chǎn)地的比較研究*

2024-03-14 08:48:28湯玉榮
甘肅科技 2024年1期
關(guān)鍵詞:產(chǎn)地種類中藥材

湯玉榮

(蘭州現(xiàn)代職業(yè)學院衛(wèi)生健康分院,甘肅 蘭州 730300)

中藥材在預(yù)防和治療感染、寄生蟲病、腫瘤,以及緩解身體疼痛等方面效果顯著。此外,中藥材還可以縮短退熱時間、治愈時間,提高中性粒細胞和淋巴細胞計數(shù)等。中藥材種類和道地性是療效的重要保障。不同種中藥材的成分相差很大,很多長相相似,肉眼無法準確識別。不同產(chǎn)地的同種中藥材成分也存在一定差異,有些還會受到地質(zhì)和環(huán)境污染的影響。從統(tǒng)計學的角度分析,中醫(yī)的平均療效較好,但缺乏可重復(fù)性,故相同方子產(chǎn)生的療效方差較大(參差不齊)[1]。因此,為了確保中藥材療效的可靠性,準確鑒別中藥材的種類和產(chǎn)地對于中醫(yī)藥的發(fā)展具有重要意義。

中藥材種類和產(chǎn)地的鑒別方法有很多[2-7],如氣相色譜法、薄層色譜法、紅外光譜法等。紅外光譜法通過紅外光譜儀采集中藥材的光譜數(shù)據(jù),分析藥材種類和產(chǎn)地的主要特征,具有高效、快速、精準、低廉等特點,但是識別的準確率還需要進一步提高。

近年來,基于藥材的近紅外光譜數(shù)據(jù),使用機器學習方法對未知種類和產(chǎn)地的藥材進行識別受到了越來越多的關(guān)注。機器學習[8]是一門涉及了數(shù)學、計算機、物理等多學科的交叉算法,成功運用到了語音和手寫識別、自然語言處理、圖像識別、生物特征識別、醫(yī)學診斷等領(lǐng)域。隨著機器學習的迅猛發(fā)展,決策樹、支持向量機、最近鄰算法、集成學習等各種機器學習算法被提出。這些算法均可用于中藥材種類和產(chǎn)地識別。

1 數(shù)據(jù)分析

為了分析多種機器學習方法識別中藥材種類和產(chǎn)地的效果,研究選用中藥材的近紅外光譜數(shù)據(jù)集[9]中的數(shù)據(jù)。該數(shù)據(jù)集大部分藥材種類和產(chǎn)地都已知,但也有部分種類或產(chǎn)地未知,主要包括A、B、C 3種藥材,16個產(chǎn)地。從圖1可以看出3種藥材表現(xiàn)的光譜特征相對差異較大。

圖1 三種藥材的波數(shù)與吸光度曲線

圖2 為A 種藥材在1、2、3、4、5 號產(chǎn)地的光譜數(shù)據(jù)圖,可以看出數(shù)據(jù)差異較小。B 種和C 種藥材的光譜數(shù)據(jù)類似A 種。因此,藥材種類的鑒定難度較小,但是藥材產(chǎn)地的鑒定難度較大。

圖2 A 種藥材在不同產(chǎn)地的波數(shù)與吸光度曲線

2 鑒別方法

采用決策樹、支持向量機、最近鄰算法、集成學習四種經(jīng)典的機器學習方法,識別中藥材的種類和產(chǎn)地,具體如下。

2.1 決策樹

決策樹是一種將已知數(shù)據(jù)樣本作為基礎(chǔ)進行歸納學習的方法。利用已知中藥材種類或產(chǎn)地的數(shù)據(jù)特性進行總結(jié)分類,為各特性找到一種確切的刻畫與分類,然后對未知種類或產(chǎn)地的數(shù)據(jù)進行分類。該算法的基本思想是把最高信息增益的描述特性作為近紅外光譜數(shù)據(jù)集的分支特性,創(chuàng)建決策樹中的一個節(jié)點,再利用描述特性的不同取值創(chuàng)建新的分支,最后對新分支中樣本子集重復(fù)調(diào)用構(gòu)建該節(jié)點的子節(jié)點。

2.2 支持向量機

支持向量機是基于監(jiān)督學習方式對近紅外光譜數(shù)據(jù)樣本進行二元分類的一種廣義線性分類器,其決策邊界是對學習樣本求解最大邊距超平面,將分類問題化為一個求解凸二次規(guī)劃的問題。在原空間線性可分時,尋找兩類樣本的最優(yōu)分類超平面。在線性不可分時,加入松弛變量,利用非線性映射將低維度輸入空間的樣本映射到高維度空間,使其變得線性可分,然后在該特征空間尋找實現(xiàn)最優(yōu)分類的超平面。

2.3 最近鄰算法

最近鄰算法(KNN)的想法來源于“近朱者赤,近墨者黑”,該方法是最簡單的機器學習算法之一,也是最基本、最好用的分類算法之一,其基本思想是將距離近的數(shù)據(jù)點劃為同一類。利用已知種類或產(chǎn)地的數(shù)據(jù)集,對新輸入未知種類或產(chǎn)地的數(shù)據(jù)點計算到已知各數(shù)據(jù)點的距離,在已知數(shù)據(jù)集中找到與該數(shù)據(jù)點最鄰近的K 個數(shù)據(jù),這K 個實例的多數(shù)屬于那個類,就把該輸入數(shù)據(jù)點分到這個類。

2.4 集成學習

集成學習的想法源自“三個臭皮匠頂一個諸葛亮”。單個機器學習算法所能解決的問題很有限,推廣應(yīng)用能力也較差,但組合多個機器學習算法完成某個學習任務(wù)往往會產(chǎn)生更好的效果。每個學習器可以看成是一個基本的學習單元,通過他們組合最終集成一個強大的整體,該整體可用于解決更復(fù)雜的問題。集成學習具有增加模型的性能、減少過擬合、降低方差、提供更高的預(yù)測精度、處理線性和非線性數(shù)據(jù)等優(yōu)點。

3 問題求解

為了比較機器學習算法在中藥材種類或產(chǎn)地識別的效果,同時避免復(fù)雜的編程,使用MATLAB R2016a 自帶的機器學習工具箱APP—分類學習器(Classification Learner)。這個工具箱里面集成了一些經(jīng)典的機器學習算法,具有簡單、實用等優(yōu)點,對于處理數(shù)據(jù)量不大的分類問題非常高效。主要分為以下幾個步驟:

(1)將已知種類或產(chǎn)地的中藥材數(shù)據(jù)讀入MATLAB空間,類型為數(shù)值矩陣,命名為data。

(2)打開程序選項中的Classification Learner,然后選擇新任務(wù)(New Session)選項。

(3)從選擇列表或矩陣(Select table or matrix)中選取data變量。由于一組數(shù)據(jù)其變量需要包括每一列數(shù)據(jù),之后使用列作為變量(Use columns as variables),接著選擇第一列為響應(yīng)值(Response)代表輸出的目標,其余列為預(yù)測因子(Predictors),即訓練的輸入中藥材數(shù)據(jù)。驗證一般選擇交叉驗證(Cross-Validation)選項,然后點擊開始任務(wù)(Start Session)。

(4)接著選擇不同的算法進行訓練,使用All 把所有算法訓練一遍,點擊Train開始訓練。

(5)訓練結(jié)束后,可以看到每一種算法的識別準確率。識別率越高,說明算法相對越好。然后在工具箱中點擊輸出模型(Export model),就可以將訓練好的模型導出到MATLAB主界面。

(6)導入未知產(chǎn)地和種類的數(shù)組X,依照命令行中的提示,在命令行窗口輸入命令trainedModel.predictFcn(X)語句,實現(xiàn)產(chǎn)地和種類的預(yù)測。

4 結(jié)果分析

4.1 中藥材的種類鑒別

利用已知藥材種類的近紅外光譜數(shù)據(jù)鑒定未知種類,首先分析已知種類藥材的相關(guān)數(shù)據(jù)信息和特征,然后使用分類學習器得到?jīng)Q策樹、支持向量機、最近鄰算法、集成學習4種機器學習方法的學習模型,再對未知種類的藥材進行識別,比較4種方法的識別效果。

為防止出現(xiàn)過擬合現(xiàn)象,分析中藥材樣本數(shù)據(jù)種類的均衡性。近紅外光譜數(shù)據(jù)集中256個已知種類的藥材分布情況統(tǒng)計見表1,可以看出各種類的樣本數(shù)都相對較多,則不調(diào)整樣本數(shù)。

表1 各種類的藥材數(shù)量

以種類已知的藥材樣本數(shù)據(jù)為標簽,將原始數(shù)據(jù)按照75∶25 的比例分成2組,一組作為訓練集,一組作為驗證集。利用訓練集數(shù)據(jù)訓練分類器,驗證集驗證分類器的效果,并將最后的準確率作為分類器的性能指標。利用窮舉法找出常見機器學習方法模型中的最優(yōu)參數(shù)。最后,對訓練集進行線性擬合得到訓練好的線性分類模型,利用模型識別種類未知的藥材種類。

表2 為4 種常見機器學習方法的識別精度,可以看出除了決策樹方法以外,其余3 種方法的識別精度都達到了100.0%。

表2 常見機器學習方法識別中藥材種類的精度(%)

表3為部分藥材使用這些機器學習方法識別種類的結(jié)果,可以看出這些方法識別結(jié)果基本一致,可以確定編號94、109、140 的藥材屬于A 類,編號278、308、330的藥材屬于C類,編號347的藥材屬于B類。

表3 部分中藥材種類鑒定結(jié)果

4.2 中藥材產(chǎn)地鑒別

用機器學習算法解決藥材產(chǎn)地鑒別問題時,首先將已知產(chǎn)地和未知產(chǎn)地的光譜數(shù)據(jù)分別保存。其次,以已知產(chǎn)地的藥材數(shù)據(jù)為基礎(chǔ),利用決策樹、支持向量機、最近鄰算法、集成學習等4種方法分別得到學習模型,然后導出得到的學習模型。最后,針對未知產(chǎn)地的藥材,利用光譜數(shù)據(jù)信息和學習模型對藥材種類進行鑒定。

假設(shè)未知產(chǎn)地的藥材只在該藥材已出現(xiàn)的產(chǎn)地上種植。利用4.1 節(jié)中的方法,確定所有中藥材的種類。為防止出現(xiàn)過擬合現(xiàn)象,對中藥材樣本數(shù)據(jù)產(chǎn)地的均衡性進行分析。表4可以看出A類藥材共108個樣本,但是分布不均衡,尤其是2號產(chǎn)地明顯偏少。

表4 各產(chǎn)地A 類藥材的數(shù)量

表5可以看出B類藥材共150個樣本,分布比較均衡。

表5 各產(chǎn)地B 類藥材的數(shù)量

表6 可以看出C 類藥材共69 個樣本,但是產(chǎn)地1 的樣本數(shù)量較少。因此,對樣本數(shù)量進行數(shù)據(jù)合成,通過已有真實數(shù)據(jù)集的處理和組合,生成新的數(shù)據(jù)集?;贛ATLAB 中的數(shù)據(jù)擴展算法添加較小的高斯噪聲,擴大現(xiàn)有數(shù)據(jù)集中A類2號產(chǎn)地和C類1號產(chǎn)地的數(shù)據(jù)規(guī)模分別到13和18,使得模型的訓練結(jié)果更加準確和可靠。

表6 各產(chǎn)地C 類藥材的數(shù)量

依次將A、B、C藥材的光譜數(shù)據(jù)挑選出來,以已知產(chǎn)地的數(shù)據(jù)為基礎(chǔ),把光譜數(shù)據(jù)按照75∶25 的比例分為訓練集與測試集,利用窮舉法找出模型最優(yōu)參數(shù),最后將訓練集進行線性擬合分別得到訓練好的分類模型。針對未知產(chǎn)地的藥材,利用得到的模型對藥材產(chǎn)地進行鑒定。

表7 為常見機器學習方法識別產(chǎn)地的精度,對A類和B類藥材的產(chǎn)地識別只有集成學習中的子空間判別法有效,其余方法都識別精度不高。C 類藥材的產(chǎn)地識別中,集成學習和支持向量機2 種方法有效。綜合分析,集成學習中的子空間判別法對于中藥材A類、B類、C類的產(chǎn)地識別都非常有效,可以用于中藥材的產(chǎn)地識別。

表7 常見機器學習方法識別中藥材產(chǎn)地的精度(%)

表8為集成學習中的子空間判別法對部分未知產(chǎn)地藥材的識別結(jié)果。

表8 部分中藥材的產(chǎn)地識別結(jié)果

5 結(jié)論

中藥材的種類和道地性對中藥材的療效有直接影響?;诮t外光譜數(shù)據(jù)分析發(fā)現(xiàn),中藥材的種類識別比較容易,產(chǎn)地鑒別相對困難。機器學習方法是鑒定中藥材種類和產(chǎn)地的有效方法之一,利用近紅外光譜數(shù)據(jù),通過系統(tǒng)比較常用的機器學習方法對中藥材產(chǎn)地和種類鑒別的準確率,結(jié)果表明常用的機器學習方法包括決策樹、支持向量機、最近鄰算法、集成學習等都可以成功識別種類,但是只有集成學習中的子空間判別法對產(chǎn)地識別有效。

猜你喜歡
產(chǎn)地種類中藥材
夏季中藥材田間管理做好這五點
中藥材促農(nóng)增收
宋四清:種植中藥材 托起致富夢
警惕“洗產(chǎn)地”暗礁
中國外匯(2019年22期)2019-05-21 03:14:56
食物離產(chǎn)地越遠越好
種類豐富的酒具
收藏界(2018年1期)2018-10-10 05:23:08
測定不同產(chǎn)地寬筋藤中5種重金屬
中成藥(2018年8期)2018-08-29 01:28:16
消防車種類知多少
鏡頭像差的種類
DNA提取4種中藥材方法的篩選
中成藥(2016年8期)2016-05-17 06:08:28
丰城市| 普定县| 沁阳市| 高青县| 积石山| 湖口县| 黄浦区| 西青区| 珲春市| 灵宝市| 玛纳斯县| 宜宾县| 磴口县| 岐山县| 新宾| 巴青县| 滦平县| 尖扎县| 延安市| 赫章县| 澄城县| 囊谦县| 保山市| 扶风县| 天等县| 永兴县| 嘉善县| 古交市| 衢州市| 隆化县| 兴山县| 义乌市| 丽江市| 四子王旗| 昆明市| 利辛县| 三台县| 苏尼特左旗| 新丰县| 梧州市| 专栏|