陳舜讓,董健衛(wèi),陳艷美
(1.廣東省藥品監(jiān)督管理局事務(wù)中心,廣東 廣州 510080;2.廣東藥科大學(xué)醫(yī)藥信息工程學(xué)院,廣東 廣州 510006;3.廣東技術(shù)師范大學(xué)數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院,廣東 廣州 510665)
藥品監(jiān)管涉及面廣,關(guān)系人民健康,涉及百姓切身利益。國家和地方政府近年來出臺了許多藥品監(jiān)管政策,國務(wù)院辦公廳于2017年在《國務(wù)院辦公廳關(guān)于進(jìn)一步改革完善藥品生產(chǎn)流通使用政策的若干意見》中提出了“推進(jìn)分級分類管理,規(guī)范藥品零售企業(yè)經(jīng)營行為”[1],2018年廣東省食品藥品監(jiān)督局出臺了《藥品零售企業(yè)分級分類的管理辦法(試行)》[2],從行政管理方面提出通過對藥品零售企業(yè)的分級分類管理加強(qiáng)對藥品流通監(jiān)管力度。開展藥品監(jiān)管的研究已成為目前研究探討熱點(diǎn),近年來從不同角度提出了許多關(guān)于藥品監(jiān)管的方法,通過對藥品流通現(xiàn)狀、發(fā)展情況的調(diào)查,提出規(guī)范管理藥品流通的對策及方法[3-5]。隨著互聯(lián)網(wǎng)電子商務(wù)的迅猛發(fā)展,網(wǎng)上藥品流通十分活躍,相關(guān)研究[6-8]提出了許多有效的網(wǎng)上藥品相關(guān)流通監(jiān)管方法。從監(jiān)管制度建設(shè)和監(jiān)管隊(duì)伍建設(shè)角度探討加強(qiáng)和完善藥品監(jiān)管的力度和廣度[9-10]。
近年來,信息化已全面深入到藥品研發(fā)、生產(chǎn)和流通各個(gè)領(lǐng)域,特別是藥品流通信息化建設(shè)不斷深入和完善,應(yīng)用信息化技術(shù)構(gòu)建藥品流通業(yè)務(wù)流程的反饋機(jī)制來加強(qiáng)藥品監(jiān)管的方法日趨成熟[11]。藥品流通監(jiān)管是藥品監(jiān)管的重點(diǎn)環(huán)節(jié)之一,藥品流通企業(yè)的監(jiān)管是藥品流通監(jiān)管的主要對象,文獻(xiàn)[12]提出了改善藥品批發(fā)企業(yè)質(zhì)量體系內(nèi)審管理水平的具體實(shí)施建議,以持續(xù)改進(jìn)批發(fā)企業(yè)質(zhì)量管理水平,控制藥品經(jīng)營環(huán)節(jié)風(fēng)險(xiǎn)。雖然對藥品監(jiān)管已經(jīng)提出了許多有效方法,但應(yīng)用大數(shù)據(jù)分析的藥品流通監(jiān)管方法的研究成果目前仍然較少,藥品流通信息化建設(shè)已積累了大量的數(shù)據(jù),為應(yīng)用大數(shù)據(jù)分析技術(shù)對藥品流通監(jiān)管精細(xì)化創(chuàng)造了條件。聚類分析是大數(shù)據(jù)分析主要方法之一,其中K-均值聚類方法是聚類分析的常用方法,是一種無監(jiān)督機(jī)器學(xué)習(xí)方法,由于算法簡單,收斂速度快,在許多領(lǐng)域都有廣泛的應(yīng)用[13-14]。在藥品流通過程,流通企業(yè)的藥品采購數(shù)據(jù)和銷售數(shù)據(jù)精確反映了藥品流通企業(yè)的經(jīng)營情況,通過對企業(yè)的采購數(shù)據(jù)和銷售數(shù)據(jù)的聚類分析把企業(yè)進(jìn)行分類,一般地,企業(yè)的經(jīng)營在一定時(shí)期內(nèi)不可能發(fā)生大變化,若企業(yè)發(fā)生了類屬的變化即:類遷移,說明該企業(yè)經(jīng)營情況發(fā)生了大變化,出現(xiàn)有異常的數(shù)據(jù),應(yīng)對該企業(yè)及時(shí)進(jìn)行重點(diǎn)監(jiān)管,查明異常原因。
本文從廣東省藥品流通電子監(jiān)管系統(tǒng)中抽取廣東省內(nèi)藥品流通企業(yè)的藥品復(fù)方丹參片的流通數(shù)據(jù),從復(fù)方丹參片的采購數(shù)據(jù)和銷售數(shù)據(jù)分析入手,應(yīng)用聚類分析方法對采購量和銷售量兩類流通數(shù)據(jù)進(jìn)行分析,實(shí)現(xiàn)對藥品流通企業(yè)的分類,及時(shí)發(fā)現(xiàn)發(fā)生類遷移的情況,實(shí)現(xiàn)藥品流通企業(yè)經(jīng)營情況的精細(xì)化監(jiān)管。
廣東省藥品流通電子監(jiān)管系統(tǒng)收集了26億條藥品交易信息,抽取2019—2020年復(fù)方丹參片的采購量和銷售量兩類流通數(shù)據(jù),計(jì)有400萬條,用于建立模型及驗(yàn)證,用于分析的數(shù)據(jù)涉及參與購銷活動的藥品流通企業(yè)729家。
K-均值聚類方法是一種無監(jiān)督機(jī)器學(xué)習(xí)方法,按相似度最優(yōu)的原則,通過對數(shù)據(jù)集的反復(fù)學(xué)習(xí),最終各類中心收斂,可以得到類中心以及各樣本的類屬。
設(shè)有n個(gè)待分類的樣本:x1,x2,…,xn,每個(gè)樣本具有s個(gè)特征,每個(gè)特征均用數(shù)字表示,記xk=(xk1,xk2,…,xks)表示樣本xk的特征數(shù)據(jù)。
n個(gè)待分類的樣本的各種特征可以用矩陣表示如下:
兩樣本xi和xj的相似度采用樣本xi與樣本xj的距離:
K-均值聚類方法基本思想:先將樣本進(jìn)行大概分類,再按某種相似度最優(yōu)原則進(jìn)行反復(fù)學(xué)習(xí),不斷修正,直到分類合理為止。具體詳細(xì)的步驟如下:
Step 1:初始化聚類中心(隨機(jī)生成或從樣本數(shù)據(jù)中選取,本文采用從樣本數(shù)據(jù)中選取數(shù)據(jù)初始化聚類中心);
偶爾還是會接到你的來電,偶爾還是會在看到你的留言,我以為青春這把無情刻刀將我們的距離劃得越來越遠(yuǎn),我以為我們的友情會在時(shí)間的摧殘下消失殆盡,我以為你有了新朋友就會把我忘記,但沒想到你依舊記得我們之間的承諾:海依舊藍(lán),我依舊在。我本以為經(jīng)歷了人生的匆匆聚散就應(yīng)該能承擔(dān)起歲月帶來的滄桑,可流年分明安然無恙,南山石草木亦是這樣毫發(fā)無傷,只是曾經(jīng)承諾要做輩子朋友的我們在細(xì)雨中卻愈發(fā)清瘦單薄。
Step 2:每一個(gè)樣本,歸入最近距離的中心代表的類,從而把樣本分類;
Step 3:根據(jù)分類結(jié)果確定各類的新聚類中心。新聚類中心為該類中所有樣本的平均值;
Step 4:修改分類。即以新聚類中心代替舊中心,重復(fù)Step 2、Step 3,直到中心變化小于閥值。
在藥品流通電子監(jiān)管系統(tǒng)中抽取了2019年729家流通企業(yè)的復(fù)方丹參片采購和銷售數(shù)據(jù),匯總整理各家企業(yè)的復(fù)方丹參片的每年采購和銷售數(shù)據(jù)。
以年采購量xi和年銷售量xj為聚類指標(biāo)因子,獲得數(shù)據(jù)集:
其次對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,令
其中:mi表示Cj類中心的均值。SSE隨K值的變化見圖1。
圖1 SSE與K值的關(guān)系Figure 1 Relationship between SSE and K value
當(dāng)K=8時(shí),SSE趨于穩(wěn)定,應(yīng)用K-均值聚類方法對復(fù)方丹參片的年采購數(shù)據(jù)和銷售數(shù)據(jù)進(jìn)行聚類,把流通企業(yè)分成8類,分類圖見圖2。應(yīng)用輪廓系數(shù)評估聚類結(jié)果,輪廓系數(shù)都很接近1(如圖3),說明聚類合理。
圖2 聚類中心及數(shù)據(jù)分類圖Figure 2 Clustering center and data classification diagram
圖3 聚類輪廓系數(shù)Figure 3 Coefficient of clustering silhouette
應(yīng)用聚類分析方法把729家藥品流通企業(yè)分成8類,每一家藥品流通企業(yè)只能屬于其中一類,如果某一醫(yī)藥流通企業(yè)新一輪監(jiān)管周期上報(bào)數(shù)據(jù)發(fā)生了類遷移,即從上一期的類變?yōu)榱硪活悾瑒t說明該企業(yè)流通數(shù)據(jù)發(fā)生了較大的變化,可能存在異常情況,應(yīng)列入重點(diǎn)監(jiān)管對象,及時(shí)查明發(fā)生類遷移的原因。
應(yīng)用監(jiān)管模型對2019年的采購及銷售數(shù)據(jù)進(jìn)行聚類,得到8個(gè)類中心及729家藥品流通企業(yè)的類屬,再應(yīng)用模型對2020年的數(shù)據(jù)進(jìn)行聚類,結(jié)果發(fā)現(xiàn)有2家藥品流通企業(yè)發(fā)生類遷移,見表1??梢?,2家藥品流通企業(yè)2020年的采購量及銷售量比2019年的增長變化很大,可能存在異常情況,可以列入重點(diǎn)監(jiān)管對象。
表1 類遷移醫(yī)藥公司2019年和2020年的數(shù)據(jù)對比Table 1 Comparison of data of class migration pharmaceutical companies in 2019 and 2020 箱
聚類是將數(shù)據(jù)分類到不同的類(或稱簇)的一個(gè)過程,同一個(gè)類中的對象有很大的相似性,而不同類之間的對象有很大的相異性。從機(jī)器學(xué)習(xí)的角度講,類相當(dāng)于隱藏模式,聚類是搜索類的無監(jiān)督學(xué)習(xí)過程。聚類分析是一種探索性的分析,在分類的過程中,不必事先給出一個(gè)分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動進(jìn)行分類。
藥品監(jiān)管部門應(yīng)用監(jiān)管模型時(shí),可根據(jù)實(shí)際情況采用以年、半年或月等時(shí)間段作為監(jiān)管周期,對監(jiān)管周期內(nèi)的數(shù)據(jù)進(jìn)行聚類分類,及時(shí)掌握藥品流通是否出現(xiàn)異常情況。本文應(yīng)用模型以1年作為監(jiān)管周期,對涉及購銷復(fù)方丹參片的729家藥品流通企業(yè)進(jìn)行分析,通過對復(fù)方丹參片的2019年采購和銷售數(shù)據(jù)進(jìn)行聚類,獲得了滿意的分類以及藥品流通企業(yè)的類屬,對2020年的數(shù)據(jù)聚類后,再與2019年的分類進(jìn)行比較,發(fā)現(xiàn)2家流通企業(yè)的類屬發(fā)生了變化,即發(fā)生類遷移,表明2019年和2020年的采購和銷售數(shù)據(jù)發(fā)生了很大變化,出現(xiàn)異常情況。當(dāng)藥品流通企業(yè)發(fā)生類遷移時(shí),表明該企業(yè)的購銷量(規(guī)模)發(fā)生較為明顯的變化,藥品監(jiān)管部門及人員借助監(jiān)管模型,可以實(shí)現(xiàn)對重點(diǎn)監(jiān)管藥品品種的監(jiān)督,從企業(yè)的購銷量(規(guī)模)角度,對藥品流通企業(yè)實(shí)行自動分類管理,列出重點(diǎn)監(jiān)控企業(yè);及時(shí)跟進(jìn)檢查類遷移企業(yè),從中發(fā)現(xiàn)是否存在流通異常情形。
聚類得到的類中心是每一類的代表,同屬于一個(gè)類中心的藥品流通企業(yè)的數(shù)據(jù)與該中心的距離最小,一個(gè)藥品流通企業(yè)只能屬于一個(gè)類中心。類中心個(gè)數(shù)越小,則類之間的距離越大,發(fā)生類遷移越難,發(fā)生類遷移的企業(yè)就越少。反之,類中心越多,發(fā)生類遷移越容易,發(fā)生類遷移的企業(yè)就越多。因此類中心個(gè)數(shù)的大小體現(xiàn)了對藥品流通監(jiān)管力度和廣度,類中心越多監(jiān)管力度越強(qiáng),監(jiān)管廣度越小,類中心越少監(jiān)管力度越弱,監(jiān)管廣度越大,通過類中心個(gè)數(shù)的調(diào)節(jié)實(shí)現(xiàn)對藥品流通領(lǐng)域的監(jiān)管力度和廣度的靈活調(diào)控。因此,本文提出的應(yīng)用聚類方法的監(jiān)管模型在實(shí)際監(jiān)管中不僅達(dá)到數(shù)字化精細(xì)化的監(jiān)管的目標(biāo),而且可以通過調(diào)整聚類中心個(gè)數(shù)來實(shí)現(xiàn)監(jiān)管部門依據(jù)實(shí)際情況靈活調(diào)整監(jiān)管力度和廣度的目標(biāo)。