郭春麗,吳國華,顧若濤,林嘉穎,陳鵬程
(1.廣東財貿(mào)職業(yè)學院 信息技術學院,廣東 廣州 510445;2.廣東財貿(mào)職業(yè)學院 現(xiàn)代教育技術與實訓中心,廣東 廣州 510445;3.廣東財貿(mào)職業(yè)學院 總務處,廣東 廣州 510445)
中醫(yī)藥作為我國獨特的醫(yī)療資源、潛力巨大的經(jīng)濟資源、具有原創(chuàng)優(yōu)勢的科技資源、優(yōu)秀的文化資源和重要的生態(tài)資源,對社會經(jīng)濟的發(fā)展有重要的作用[1]。在抗擊新型冠狀病毒肺炎疫情中,中醫(yī)藥再一次向世人證實了其顯著的療效。而中藥材作為中醫(yī)藥事業(yè)傳承和發(fā)展的重要物質基礎[2],它的規(guī)范存儲、養(yǎng)護、運輸是促進中藥材產(chǎn)業(yè)健康發(fā)展的重要保障。
2015年1月,商務部印發(fā)了《關于加快推進中藥材現(xiàn)代物流體系建設指導意見》,指出到2020年基本建成中藥材主要產(chǎn)銷區(qū)為流通節(jié)點的物流基礎設施和流通網(wǎng)絡,配套建設規(guī)?;瘋}庫設施,實現(xiàn)中藥材物流的跨區(qū)域、規(guī)模化、集約化經(jīng)營[3]。截至2019年底,11家中藥材物流實驗基地完成現(xiàn)場認證,67個基地正在建設中,規(guī)劃中的藥材倉儲量272萬噸[4]。物流示范基地主要是實現(xiàn)產(chǎn)區(qū)藥材的收儲[5],很少考慮到從產(chǎn)區(qū)到銷區(qū)的成本。而中藥材的下游企業(yè)中藥廠,作為中藥材的主要銷區(qū),它們所處的位置影響著中藥材資源配置的高效。因此,如何結合中藥材的主要產(chǎn)銷區(qū),優(yōu)化資源的配置是具有現(xiàn)實意義的難題。
本文通過梳理“藥廠-中成藥-中藥材”三者的關系,運用大數(shù)據(jù)技術從大量中藥配方入手,挖掘出現(xiàn)次數(shù)最多的單個或組合中藥材,再通過以核心藥材為原材料的藥品,統(tǒng)計出藥廠,從而計算出使用頻率高的中藥材在全國的主銷區(qū),最后結合主要產(chǎn)銷區(qū),為優(yōu)化資源的配置提供一種精準的方法。
大數(shù)據(jù)技術是指對海量、異構、復雜的數(shù)據(jù)通過采集、存儲、清洗、分析與挖掘、展現(xiàn)等方式進行加工和支撐,從而發(fā)現(xiàn)有用的或有意思的規(guī)律和 結論,實現(xiàn)數(shù)據(jù)的增值。
一般處理流程有五個環(huán)節(jié),主要介紹如下:①數(shù)據(jù)采集:常見的采集方式有網(wǎng)絡爬蟲、傳感器、日志記錄等;②數(shù)據(jù)存儲:一般有關系型數(shù)據(jù)庫、Excel、分布式數(shù)據(jù)庫,可根據(jù)數(shù)據(jù)量的大小進行選擇,方便數(shù)據(jù)的讀寫;③數(shù)據(jù)清洗:對缺失、錯誤、重復、異常等 “臟”數(shù)據(jù)進行處理,提高數(shù)據(jù)集的質量;④數(shù)據(jù)分析:常用的分析方法有聚類、分類、關聯(lián)規(guī)則等,運用算法對數(shù)據(jù)進行挖掘和分析;⑤數(shù)據(jù)展現(xiàn):對分析的結果用圖表的形式進行展現(xiàn),更清楚地呈現(xiàn)分析的結論。
目前,中藥材流通節(jié)點通過收集當?shù)貐^(qū)域內(nèi)分散農(nóng)戶手中的中藥材,進行集中儲存規(guī)范入庫、按需配送以及配套安全監(jiān)控,實現(xiàn)中藥材資源的配置。
本文以中藥廠作為中藥材的主要銷區(qū),整體配置業(yè)務如圖1所示。
圖1 中藥材資源配置業(yè)務邏輯
可以看出,流通節(jié)點作為基礎倉儲場所,既可以存儲,也可以根據(jù)賣方需求進行發(fā)貨。這樣極大程度保證資源的合理配置和中藥材的質量安全。中藥廠在國家藥監(jiān)局公開備案,具備GMP生產(chǎn)資質后,從中藥材種植者或中間商采購中藥材,進一步加工生產(chǎn)中成藥,再以渠道或代理的方式進行銷售。現(xiàn)在信息發(fā)達,網(wǎng)上都可以檢索每家中藥廠生產(chǎn)的中成藥種類,每種中成藥的成分信息,即以哪些中藥材作為原材料。
根據(jù)配置業(yè)務邏輯,采用大數(shù)據(jù)技術進行優(yōu)化,技術框架如圖2所示。
圖2 技術框架
2.2.1 數(shù)據(jù)采集 數(shù)據(jù)采集是基礎,中藥材、中成藥、中藥廠信息在網(wǎng)上都能檢索,通過技術手段可以收集起來。
2.2.2 數(shù)據(jù)存儲 主要看數(shù)據(jù)量的大小,這里由于數(shù)據(jù)量最多上百萬條,選擇關系型數(shù)據(jù)Mysql存儲。
2.2.3 數(shù)據(jù)清洗 處理“臟”數(shù)據(jù),包括重復值、缺失值、錯誤值、異常值,比如數(shù)據(jù)中混雜的有西藥,屬于異常值,需要對其進行刪除操作。
2.2.4 數(shù)據(jù)分析 通過分析中成藥的成分信息,統(tǒng)計出現(xiàn)頻數(shù)多的中藥材,再計算使用核心藥材的中成藥,然后檢索生產(chǎn)這些中成藥的藥廠,從而根據(jù)藥廠所在的區(qū)域得出主銷區(qū)。最后結合主要產(chǎn)銷區(qū),給出資源配置優(yōu)化的方案。
2.2.5 數(shù)據(jù)呈現(xiàn) 對分析的結果進行呈現(xiàn),再分析其結果的正確性。
3.1.1 數(shù)據(jù)采集 采集中藥材、中成藥、藥廠的信息,分別見表1、表2、表3。其中藥廠包括生產(chǎn)中藥和西藥的藥廠,藥廠生產(chǎn)的藥品見表4。
表1 中藥材主要信息
表2 藥廠主要信息
表3 藥品主要信息
表4 藥廠生產(chǎn)的藥品
最終,共收集了1 759條中藥材標準信息、10 679條藥品信息(含少量西藥)以及8 289家藥廠信息,存儲到Mysql數(shù)據(jù)庫中。
3.1.2 數(shù)據(jù)清洗 由于中藥材名稱是有限且統(tǒng)一的,藥品的成分是0個或多個中藥材的配伍,這是一個典型的多模式串識別問題,本文采用Aho-Corasick算法進行數(shù)據(jù)清洗,具體步驟如圖3所示。
圖3 清洗步驟
需要注意的是,中藥材名稱有一些是包含關系,比如茯苓、土茯苓,但它們屬于不同的中藥材,清洗時要避免將土茯苓識別成為土茯苓和茯苓兩味藥材以造成數(shù)據(jù)的二次“污染”。
對重復、缺失的數(shù)據(jù),以及不含中藥材的藥品數(shù)據(jù)進行刪除處理后,共有7 038條中成藥數(shù)據(jù),成分信息里中藥材之間用逗號進行分隔。表5列出部分清洗前后的數(shù)據(jù)。
表5 清洗前后的數(shù)據(jù)(部分)
3.1.3 數(shù)據(jù)挖掘 選用關聯(lián)規(guī)則的模式增長算法即FP-growth算法來計算核心藥材,并發(fā)現(xiàn)核心藥材之間的隱含關系與規(guī)律。
首先,計算藥品中每味中藥材出現(xiàn)的頻次,即頻繁項集為1的藥材,結果見表6。這里支持度取0.07,大于支持度的單項集時核心藥材。
表6 單項集(部分)
可以看出甘草、當歸、茯苓、川芎、黃芪、黃芩等是使用頻數(shù)高的中藥材。甘草作為“中藥之王”,具有補氣功效等作用[6],當歸具有補血活血等作用[7],茯苓具有利水滲濕、健脾寧心的作用[8],黃芪素有“東北小人參”之稱,是補中益氣要藥[9]。核心藥材與在感冒類、脾胃類清熱類、肺炎類、增強免疫等細分領域的研究結果是一致的[10-13]。
其次,查詢使用核心藥材的中成藥,也就是檢索出成分含有核心藥材的中成藥,藥名是唯一的。
然后,統(tǒng)計生產(chǎn)這些中成藥的藥廠,再根據(jù)藥廠位置歸屬到所在省份/自治區(qū)/直轄市。由于本文采集的中藥廠分布在全國31個省/自治區(qū)/直轄市,每個區(qū)域對中藥材種類使用數(shù)量的情況如圖4。
注:顏色越深代表使用的中藥材類型數(shù)量越多,圖中可明顯看出內(nèi)蒙古、吉林、河北、黑龍江、江西四個省/自治區(qū)的藥廠是中藥材的主要銷區(qū)。圖4 使用的核心藥材類型數(shù)量、分布地圖
最后,挖掘核心藥材之間的關聯(lián)關系。中成藥一般都是多味中藥材配伍,挖掘出關聯(lián)關系強的潛在中藥材組合。頻繁項集為2,最小支持度和置信度分別為0.05、31%,結果見表7,頻繁項集為3時,最小支持度和置信度分別為0.025、45%,結果見表8。
表7 最大頻繁項集為2時的關聯(lián)關系
表8 最大頻繁項集為3時的關聯(lián)關系
從表7結果可知,核心藥材間的關聯(lián)關系能夠同時滿足最小支持度和置信度的要求,表明核心藥材間存在強關聯(lián)規(guī)則。藥品成分中有川芎、白芍、當歸三味中藥材,則以上藥材同時出現(xiàn)的頻率為2.83%;另外,挖掘結果顯示含有川芎、白芍的所有中成藥中有90.05%的概率會出現(xiàn)當歸,出現(xiàn)桔梗的藥品中有62.8%的概率出現(xiàn)甘草,陳皮的藥品中有45.92%的概率出現(xiàn)甘草,白芍的藥品中有41.89%的概率出現(xiàn)甘草。這種強關聯(lián)關系既表明藥材間存在配伍的規(guī)律,也為流通節(jié)點對中藥材的資源配置提供了一種優(yōu)化方法,即在配置桔梗、陳皮、白芍、茯苓的區(qū)域,可同時配置甘草,同理,在配置川芎、白術、黃芪的區(qū)域,可考慮同時配置當歸。
另外,從圖4可以看出,使用的核心藥材類型數(shù)量多的地區(qū)集中在華北、華東、華中、西南和西北地區(qū),而青藏、新疆、江蘇、海南等地區(qū)相對少一些。這與中藥材的道地產(chǎn)區(qū)氣候、土壤等自然環(huán)境有很大關系??祩髦镜萚14]研究得出不同區(qū)域分布的道地藥材,如表9。
表9 不同區(qū)域分布的常見中藥材
將上表中藥材的道地產(chǎn)區(qū)與本文分析的核心藥材主要銷區(qū)結合起來,江西屬于白芍、白術、茯苓、丹參等核心藥材的中心產(chǎn)區(qū),也是藥材使用類型最多的一個區(qū)域,所以在選擇大規(guī)模倉儲、物流中心節(jié)點時,可考慮在江西地區(qū)作為中藥材的綜合地區(qū)。而內(nèi)蒙古中部地區(qū)是生產(chǎn)甘草的道地產(chǎn)區(qū),也是甘草的主要使用地區(qū),則此區(qū)域的流程節(jié)點以甘草為主,同樣,河北地區(qū)可以以黃芪、黃芩為主。
主產(chǎn)地與主銷區(qū)的結合,既可以發(fā)揮道地產(chǎn)區(qū)的優(yōu)勢,保證中藥材的質量,也可以科學地將道地產(chǎn)區(qū)藥材倉儲到離銷售區(qū)域最近的位置,縮短銷售的時間、物流、經(jīng)濟等成本,為中藥材資源的優(yōu)化配置提供高效的途徑。
本文運用大數(shù)據(jù)技術,采集中成藥、中藥材、藥廠等信息,利用Aho-Corasick算法對中成藥的成分信息進行清洗,再用FP-growth算法挖掘核心藥材之間的關聯(lián)關系,統(tǒng)計出核心藥材的主銷區(qū)。結合核心藥材的道地產(chǎn)區(qū)和主銷區(qū),為中藥材的資源配置提供了一種優(yōu)化的方法。
在研究過程中,核心藥材的類型數(shù)量是主要考慮因素,下一步工作可以加入藥廠對中藥材的使用量這一因素。因為藥廠有自己的主打藥品,成分中的前幾個中藥材一般是藥品的主要原材料,這樣預估使用量可以為優(yōu)化方案提供更全面的依據(jù)。