国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

決策樹方法在藥物選擇模型中的應用

2013-12-06 06:49:54汪衛(wèi)霞
大眾科技 2013年12期
關鍵詞:選項卡字段決策樹

張 燕 汪衛(wèi)霞

(安徽財經(jīng)大學管理科學與工程學院,安徽 蚌埠 233030)

信息技術的發(fā)展推動著數(shù)據(jù)的不斷增加,如何從海量的數(shù)據(jù)中提取所需的信息成為人們關注的焦點,通過人類的長期試驗數(shù)據(jù)挖掘應運而生。數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中提取出有價值的信息的過程。數(shù)據(jù)挖掘工具通過對未來的預測影響人們的決策。其常用方法有人工神經(jīng)網(wǎng)絡、貝葉斯網(wǎng)絡、遺傳算法、QUEST、決策樹方法等。決策樹以樹的形式顯示數(shù)據(jù)挖掘的結果,它具有結構簡單,構造時間短,輸出結果通俗易懂,準確度高的優(yōu)點。因此,它在數(shù)據(jù)挖掘中應用較廣。但決策樹方法也有其固有缺點,即運用決策樹方法時很難發(fā)現(xiàn)規(guī)律。有多種算法可以構建決策樹,ID3和C5.0是決策樹中的典型算法,文章以C5.0算法對藥物選擇過程進行挖掘分析,并給出了挖掘分析的結果。

1 決策樹的概念及其構建過程

決策樹是指采用由上而下的遞歸方式對數(shù)據(jù)進行歸類,使得歸類后的數(shù)據(jù)具有相同屬性并以樹的形式顯示分類結果的過程。決策樹包括分類樹和回歸樹,分類樹用于對離散變量做決策,而回歸樹用于對連續(xù)變量做決策。決策樹的根節(jié)點是整個數(shù)據(jù)的集合,每個分節(jié)點代表某一屬性的測試,該測試將數(shù)據(jù)集合分成眾多子集合。每個葉節(jié)點代表了一個類或類分布。連接根節(jié)點和葉節(jié)點之間的那條線表示一種分類規(guī)則。決策樹的構造步驟是:樹的根部作為數(shù)據(jù)的集合首先數(shù)據(jù)由根部遞歸進行分類,然后對樹進行修剪,去掉那些其干擾作用或者異常的數(shù)據(jù)。當樹的某個分節(jié)點的數(shù)據(jù)具有相同屬性,而沒有其他屬性再分割時就停止該分支的分割,當所有的分支都停止分割時最終的樹就形成了。

2 決策樹方法在藥物選擇中的應用實例

假設一名正在整理數(shù)據(jù)的醫(yī)學研究者收集了一組患有相同疾病的病人的數(shù)據(jù),在病人的治療過程中,由于每個病人自身狀況的不同對藥物的反應也不同?,F(xiàn)在有五種藥物可供選擇,每個人都對5種藥物的一種有反應。病人的血壓、年齡、膽固醇、血液中的鈉和鉀離子的含量都會影響藥物的選擇產(chǎn)生影響。本模型通過200名患者服用5種不同藥物的反應結果和每個病人的血壓、膽固醇、血液中的鈉和鉀離子的含量應用決策樹方法為未來患有此類疾病的病人尋找適合自身狀況的藥物。

2.1 商業(yè)理解

本文以服用可供選擇的5種藥物的200患者為分析對象。

2.2 數(shù)據(jù)理解

從目標數(shù)據(jù)源中提取數(shù)據(jù)挖掘的目標數(shù)據(jù)集進行數(shù)據(jù)預處理評估相關因素包括:血壓、年齡、膽固醇、血液中的鈉和鉀離子的含量。

2.3 建立模型

本節(jié),假設一名正在整理數(shù)據(jù)的醫(yī)學研究者收集了一組患有相同疾病的病人的數(shù)據(jù),在他們的治療過程中,每個人都對5種藥物的一種有反應。研究員工作的一部分是利用數(shù)據(jù)挖掘為未來患有同樣疾病的病人找出適合他們的藥物。這個示例名為druglearn.str流,它引用的數(shù)據(jù)文件名drug1n。這些文件可以從任何客戶端與演示目錄安裝。這可以從桌面Clementine程序組訪問的開始菜單啟動。druglearn.str文件在分類模塊中。

在演示中使用的數(shù)據(jù)域如表1:

表1 演示中使用的數(shù)據(jù)域

2.4 執(zhí)行步驟

第一步:添加一個變量節(jié)點,使用一個可變的文件節(jié)點讀取帶分隔符的文本數(shù)據(jù)。首先添加一個變量文件節(jié)點從從調色板中單擊“源”選項卡上找到的節(jié)點或使用收藏夾選項卡,其中包括這個節(jié)點的默認。其次,雙擊新放置的節(jié)點打開對話框。

第二步:打開可變文件對話框。首先單擊該按鈕在文件中標有省略號(……)文件箱右邊來瀏覽裝在你系統(tǒng)中的數(shù)據(jù)挖掘目錄,打開Demos文件并選擇文件drug1n,然后選擇讀取字段名稱并注意剛剛被加載到對話框的文件的字段和值。

第三步:對打開的對話框進行設置,在類型上選擇值單擊“數(shù)據(jù)”選項卡來重寫和更改字段存儲。注意存儲不同于類型或使用的數(shù)據(jù)字段。通過類型的選項卡可以了解數(shù)據(jù)中更多的字段類型。對每個從數(shù)值表中選擇的字段也可以通過選擇讀值查看每個字段的實際值。這個過程被稱為實例化。

第四步:添加一個表。建立一個包括表節(jié)點的流。將一個表節(jié)點放入流中,可以雙擊圖標調色板或拖放到畫布上來看一些的值記錄。

第五步:將表節(jié)點連接到數(shù)據(jù)源,并從工具欄執(zhí)行流。雙擊節(jié)點從調色板將自動連接到在所選節(jié)點流的畫布。另外,如果節(jié)點不是已連接,可以使用中鼠標按鈕連接源節(jié)點到節(jié)點的表。模擬鼠標中鍵,按住 Alt鍵的同時,用鼠標。單擊綠色箭頭按鈕工具欄執(zhí)行流,或右鍵單擊表節(jié)點并選擇執(zhí)行查看表。

第六步:創(chuàng)建一個分布圖,數(shù)據(jù)挖掘過程中,通過創(chuàng)建可視化的總結來探索數(shù)據(jù)常常是很有用的。Clementine提出了幾種不同類型的圖供選擇,這取決于你要總結的數(shù)據(jù)類型。例如,使用分配節(jié)點找出每種藥物的患者反應比例。添加一個分布節(jié)點的流,并將其連接到源節(jié)點,然后雙擊編輯可顯示的選項。將想要顯示的藥物分布選擇為目標字段。然后,從對話框單擊“執(zhí)行”,并選擇藥物為目標字段。藥物反應的分布圖(圖1),通過結果圖可以看到“成形”的數(shù)據(jù)。結果表明,患者對藥物Y反應最常見,對藥物B和C反應最少見。同時也可以快速瀏覽所有字段的數(shù)據(jù)和直方圖后連接和執(zhí)行審核節(jié)點。

圖1 藥物反應分布圖

第七步:創(chuàng)建一個散點圖找出必然會影響藥物的因素,并將其作為目標變量。醫(yī)學研究者都知道在血液中鈉和鉀的濃度是重要的元素。首先創(chuàng)建一個用藥品的類別作為顏色疊加的鈉和鉀的散點圖,因為這些都是數(shù)字值。使用該藥物的種類作為一種顏色疊加,在工作空間放置一個圖節(jié)點(圖選項上)并把它連接到源節(jié)點,然后雙擊編輯節(jié)點。在選項卡圖上藥物覆蓋領域選擇鈉作為X,鉀作為Y字段。單擊“執(zhí)行”。然后,創(chuàng)建一個散點圖(圖2),從圖2可以清楚地的看出閾值以上藥物Y是最好的選擇,而閾值以下就不是藥物Y了此閾值是一種比例即鈉(Na)比鉀(K)。

圖2 散點圖

第八步:創(chuàng)建一個 web圖,由于許多數(shù)據(jù)域是絕對的,因此可以嘗試繪制網(wǎng)絡圖反應不同類別之間的關聯(lián)。首先在工作空間連接一個網(wǎng)絡節(jié)點(圖形選項上)到源節(jié)點。在Web節(jié)點對話框中,選擇BP(血壓)和藥物。然后,單擊“執(zhí)行”。從圖3上,似乎藥物Y與三個層次的血壓水平都相關。這一點也不奇怪,因為從上面的研究中已經(jīng)知道 Y是最好的藥物。為了專注于其他藥物,可以先把它藏起來。在藥物 Y點右鍵單擊并選擇隱藏并重新規(guī)劃。藥物對血壓的網(wǎng)絡圖如圖3所示:

圖3 藥物對血壓的網(wǎng)絡圖

在簡化的圖上,藥物 Y和其所有的鏈接都是隱藏的。從圖中可以清楚地看到,只有藥物A和B與高血壓有關。只有藥物C和X與低血壓有關。在這一點上正常血壓只與藥物X相關。不過,對于一個給定的病人你還不知道怎樣在藥物 A和B或 C和X之間進行選擇,這時可以運用模擬加以確定。網(wǎng)絡圖與藥物及其鏈接隱藏如圖4所示:

圖4 網(wǎng)絡圖與藥物及其鏈接隱藏圖

第九步:導出一個新的字段,由于用藥物 Y時鈉與鉀比例似乎能預測到,因此可以為每個記錄派生一個包含這一比率的字段。這個字段可能對構建一個模型來預測什么時候使用這五個藥物是有用的。在流中添加一個導出節(jié)點,然后雙擊節(jié)點編輯。編輯導出節(jié)點,命名這個新的導出字段na_to_k。可以將鈉值和鉀值直接輸入公式,也可以通過單擊圖標右邊的字段創(chuàng)建一個公式。這將打開“表達式生成器”,一種以交互方式創(chuàng)建表達式使用內置列表的功能,操作數(shù)和和字段數(shù)及其值。最后,通過附加一個直方圖節(jié)點派生節(jié)點檢查新字段的分布。在直方圖節(jié)點對話框中,指定 na_to_k作為繪制字段和藥物作為覆蓋領域即可得到編輯節(jié)點的直方圖,當執(zhí)行流時,應該得到圖5所示?;谶@一顯示可以得出結論,當na_to_k值是15或以上,選擇藥物Y。

第十步: 建立一個模型,通過探索和操作數(shù)據(jù)已經(jīng)能夠形成一些假設。血液中鉀與鈉似乎會影響藥物的選擇,如血壓。但還仍然不能解釋所有的關系,如血壓。這是建??赡軙峁┮恍┐鸢浮T谶@種情況下,應盡量使用規(guī)則的建筑物模型擬合模型C5.0。由于使用的是導出的字段,na_to_k,可以過濾掉原來的字段,Na和 K,所以在建模算法中他們不止使用一次,可以使用一個過濾節(jié)點做這個。編輯過濾節(jié)點:在“過濾”選項卡,單擊Na和K旁邊的箭頭,出現(xiàn)紅叉表示字段

現(xiàn)在被過濾掉了。然后,將一個類型節(jié)點連接到過濾節(jié)點。允許類型節(jié)點顯示已使用的該類型的字段,以及它們是如何被用來預測結果的。在“類型”選項卡上,設置了藥物字段的方向,表明藥物是要預測的類型。將偏離方向的其他類型設置為預測因子,再將工作區(qū)的C5.0的節(jié)點附加到流的末端顯示以估計模型。然后點擊綠色按鈕執(zhí)行流執(zhí)行,當執(zhí)行 C5.0節(jié)點,生成的模型節(jié)點(GEM圖標)將被添加到窗口右上角的模型選項卡上。右鍵單擊該圖標并選擇菜單的瀏覽來瀏覽模式。規(guī)則的瀏覽器顯示了C5.0節(jié)點在決策樹中生成的規(guī)則。通過抽象的拼圖可以看到 na-to-k比率低于14.642時,高血壓患者應根據(jù)年齡選擇藥物,對于低血壓的人,應根據(jù)膽固醇水平選擇藥物。最初,樹木是塌的,單擊“所有”按鈕來顯示所有的層次以拓展它。點擊“視圖”選項卡可以在一個更復雜的圖形和格式中看到同樣的決策樹。在這里,也可以更容易的看到每個血壓層次的病例數(shù)以及病例重要性百分比。通過圖6可以得出如下結論:當 na-to-k比率高于14.642時藥物Y是唯一選擇。當na-to-k比率低于14.642時,血壓會影響藥物的選擇,當患者血壓正常時,應選擇藥物X;當患者患有高血壓時,年齡也會影響藥物的選擇,對于年齡不超過50歲的人應選擇藥物A,對于年齡超過50歲的人應選擇藥物B;而當患者患有低血壓時,膽固醇會影響藥物的選擇,當患者體內的膽固醇含量正常時應選擇藥物X,而當患者體內的膽固醇含量高時應選擇藥物C。

圖6

3 分析模型的準確性

通過分析節(jié)點可以評估模型的準確性。首先,將C5.0模型添加到流,然后附上分析節(jié)點(從輸出節(jié)點和執(zhí)行節(jié)點調色板)和執(zhí)行流。添加分析節(jié)點后得圖7:

圖7

分析節(jié)點的輸出顯示(圖8所示),通過人工干預,該模型準確預測了數(shù)據(jù)集中幾乎每一個記錄的藥物選擇。一個真正的數(shù)據(jù)集不可能有100%的準確性,但可以使用分析節(jié)點為特定的應用程序來確定模型可接受的準確度。分析節(jié)點輸出的結果如下:即準確率為99.5%,錯誤率為0.5%。

圖8

4 總結

由于決策樹方法可以將事例逐步分類成表示不同屬性的類別,因此,在數(shù)據(jù)挖掘中應用廣泛。決策樹通過數(shù)據(jù)挖掘為決策者帶來了巨大的經(jīng)濟利益。雖然決策樹在不斷的完善,但決策樹也還有很多不足的地方需要改進。這主要是使用決策樹方法時會遇到一些數(shù)據(jù)準備和數(shù)據(jù)表示方面的問題,如:虛假的數(shù)據(jù)、數(shù)據(jù)表示以外的其他數(shù)據(jù)的缺失、對數(shù)據(jù)細節(jié)理解不透等。這些都會影響到?jīng)Q策樹的生成,因此,決策樹算法在實際的應用中還需要進一步的深入研究。

[1] 韓家煒.數(shù)據(jù)挖掘:概念與技術第二版[M].北京:機械工業(yè)出版社,2001.

[2] 張劍飛.數(shù)據(jù)挖掘中決策樹分類方法研究[J].長春師范學院學報,2005(3):96-98.

[3] 湛寧,徐杰.決策樹算法的改進[J].電腦知識與技術,2008(5):1068-1069.

[4] 馬秀紅,宋建社,董晟飛.數(shù)據(jù)挖掘中決策樹的探討[J].計算機工程與應用,2004(1):185,214.

[5] 李楠,段隆振,陳萌.決策樹C4.5算法在數(shù)據(jù)挖掘中的分析及其應用[J].計算機與現(xiàn)代化,2008(12):160-163.

[6] 唐華松,姚耀文.數(shù)據(jù)挖掘中決策樹算法的探討[J].計算機應用研究,2001(8):18-22.

[7] 施蕾,唐艷琴,張欣星.數(shù)據(jù)挖掘中決策樹方法的研究[J].計算機與現(xiàn)代化,2009(10):29-31.

[8] 沈晨鳴.決策樹分類算法研究[J].鹽城工學院學報,2005(12):22-24.

[9] 江效堯,江偉.決策樹在數(shù)據(jù)挖掘中的應用研究[M].安慶師范學院學報,2003(2):83-85.

[10] 王靜紅,李筆.基于決策樹的一種改進算法[J].電訊技術,2004(10):175-177.

[11] 林向陽.數(shù)據(jù)挖掘中的決策樹算法比較研究[J].中國科技信息,2010(1):94-95.

[12] 馮帆,徐俊剛.C4.5決策樹改進算法研究[J].電子技術,2012(6):1-4.

[13] 林靜.基于決策樹的數(shù)據(jù)挖掘算法研究[J].福建電腦,2012(11):60-62.

猜你喜歡
選項卡字段決策樹
圖書館中文圖書編目外包數(shù)據(jù)質量控制分析
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機森林方法在管理決策中的應用
電子制作(2018年16期)2018-09-26 03:27:06
禁用一切 優(yōu)化無限
電腦愛好者(2018年4期)2018-03-02 15:38:00
基于決策樹的出租車乘客出行目的識別
基于肺癌CT的決策樹模型在肺癌診斷中的應用
基于肺癌CT的決策樹模型在肺癌診斷中的應用
CNMARC304字段和314字段責任附注方式解析
無正題名文獻著錄方法評述
關于CNMARC的3--字段改革的必要性與可行性研究
圖書館建設(2014年3期)2014-02-12 15:41:35
平定县| 红桥区| 双辽市| 南宫市| 平远县| 台南市| 大邑县| 平谷区| 万安县| 广河县| 义乌市| 九江县| 台前县| 南漳县| 蕲春县| 江门市| 炉霍县| 长寿区| 县级市| 灵寿县| 杂多县| 景泰县| 达孜县| 吴川市| 桐乡市| 延川县| 南澳县| 辽阳县| 京山县| 新营市| 乡城县| 沧州市| 邵阳县| 图片| 瑞金市| 石屏县| 玛曲县| 延长县| 曲松县| 枣阳市| 梅河口市|