周娜
?
IT系統(tǒng)性能監(jiān)控與優(yōu)化分析
周娜
廣東省電信規(guī)劃設(shè)計(jì)院有限公司,廣東 廣州 510630
伴隨現(xiàn)代信息技術(shù)的不斷提升,IT系統(tǒng)日漸被運(yùn)用到公司業(yè)務(wù)之中,通過系統(tǒng)性能發(fā)揮,輔助公司各部門實(shí)現(xiàn)良好運(yùn)營(yíng)。為有效提升IT系統(tǒng)整體性能,需設(shè)計(jì)監(jiān)控系統(tǒng)軟件,實(shí)現(xiàn)對(duì)系統(tǒng)基礎(chǔ)架構(gòu)的性能監(jiān)控,保證整個(gè)系統(tǒng)安全、高效運(yùn)行。通過分析數(shù)據(jù)庫(kù)與操作系統(tǒng)的參數(shù)構(gòu)成,找到參數(shù)間關(guān)聯(lián)缺陷,依此為突破點(diǎn)實(shí)現(xiàn)性能監(jiān)控的優(yōu)化。
IT系統(tǒng);性能監(jiān)控;數(shù)據(jù)庫(kù);操作系統(tǒng)
IT系統(tǒng)是由諸多基礎(chǔ)設(shè)施構(gòu)成,比如說軟件設(shè)備、存儲(chǔ)設(shè)備、服務(wù)器等,基礎(chǔ)設(shè)施之間借助網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)資源共享,從而促進(jìn)業(yè)務(wù)運(yùn)轉(zhuǎn)。要想保證整個(gè)體性能夠充分發(fā)揮其性能,減少各設(shè)備故障,促進(jìn)各基礎(chǔ)設(shè)備性能正常發(fā)揮是首要條件,為此管理人員會(huì)根據(jù)參數(shù)變化獲得設(shè)備的運(yùn)行與性能狀態(tài)。通過對(duì)參數(shù)的聯(lián)合分析減少故障發(fā)生,促進(jìn)了整個(gè)IT系統(tǒng)的高效運(yùn)行。
1.1 CPU
以Windows操作系統(tǒng)為例,CPU作為系統(tǒng)的最核心構(gòu)造,其性能監(jiān)控水平將決定整個(gè)系統(tǒng)性能的運(yùn)行效率,通過對(duì)CPU的重要參數(shù)的分析,可梳理各參數(shù)之間的關(guān)聯(lián),實(shí)現(xiàn)對(duì)CPU性能的優(yōu)化[1]。由于Windows系統(tǒng)任務(wù)調(diào)度以線程為單位,調(diào)度采用高優(yōu)先級(jí)搶占,可依此分析CPU占用線程。
(1)具體參數(shù)
監(jiān)控CPU性能需要獲得如下幾點(diǎn)參數(shù)數(shù)據(jù),分別有CPU空閑時(shí)間、WIO、隊(duì)列長(zhǎng)度、運(yùn)行狀態(tài)時(shí)間、硬件中斷次數(shù)以及中斷時(shí)間等。其中CPU空閑時(shí)間可以獲知CPU的利用率,能夠直接反映性能發(fā)揮情況;而硬件中斷次數(shù),不能將所有的處理器中斷時(shí)間涵蓋,應(yīng)排除周期性中斷,比如常見的磁盤I/O終端中斷情況。
(2)監(jiān)控分析
依據(jù)以上參數(shù)值可以實(shí)現(xiàn)對(duì)CPU性能的監(jiān)控,依此判斷故障問題,分析問題發(fā)生的根源。若CPU利用率超過85%時(shí),需根據(jù)ready隊(duì)列確定是否發(fā)生運(yùn)行過載,若隊(duì)列長(zhǎng)度=1,則為暫時(shí)忙碌,而隊(duì)列長(zhǎng)度≥2時(shí),則存在較多線程未處理,當(dāng)這種情況持續(xù)發(fā)生可確定為CPU處理能力不足。在確定CPU運(yùn)行過載后,可依據(jù)上下文交換次數(shù)判斷是否存在多線爭(zhēng)用,以內(nèi)存轉(zhuǎn)換頁(yè)多少判斷是否發(fā)生內(nèi)存瓶頸,以硬件中斷參數(shù)具體分析線程問題。
(3)優(yōu)化措施
監(jiān)控優(yōu)化將從兩方面入手,其一是CPU性能參數(shù)的選擇,其二是對(duì)選擇的參數(shù)進(jìn)行報(bào)警配置,確定參數(shù)的報(bào)警標(biāo)準(zhǔn)。主要以確定監(jiān)控參數(shù)以CPU空閑時(shí)間、WIO時(shí)間、就緒隊(duì)列長(zhǎng)度三項(xiàng)為主[2]。由于CPU空閑時(shí)間并不能直接說明性能問題,因此最終的判斷標(biāo)準(zhǔn)為:空閑時(shí)間小于5%且ready隊(duì)列長(zhǎng)度大于2或者WIO大于25%,以上狀態(tài)持續(xù)時(shí)間超過總統(tǒng)計(jì)時(shí)間的10%后,則說明CPU存在性能問題,需報(bào)警提示。
1.2 內(nèi)存
(1)具體參數(shù)
內(nèi)存管理中涉及的參數(shù)指標(biāo)較多,可將其分為三大類,分別是容量參數(shù)(可用量、使用率、被鎖定內(nèi)存等)、換頁(yè)操作參數(shù)、工作集參數(shù)、cache相關(guān)參數(shù)(延遲寫、刷新參數(shù)、cache fault等)等。
(2)優(yōu)化措施
內(nèi)存不足或者失效是常見的性能問題,頁(yè)面錯(cuò)誤、內(nèi)存空間、讀/寫命中率等是重要的影響因素,可將以上參數(shù)指標(biāo)作為監(jiān)控的重點(diǎn),推薦頁(yè)面錯(cuò)誤數(shù)量420、內(nèi)存自由空間需穩(wěn)定在30萬(wàn)KB以上,讀/寫命中率為50%,若以上參數(shù)的實(shí)際值長(zhǎng)時(shí)間低于推薦指標(biāo),可進(jìn)行報(bào)警提示。
1.3 磁盤
(1)具體參數(shù)
磁盤性能監(jiān)控需要分析的具體參數(shù)如下:磁盤利用率、可用空間、服務(wù)與等待時(shí)間、讀/寫次數(shù)、I/O拆分?jǐn)?shù)量。
(2)監(jiān)控分析
磁盤性能的監(jiān)控具體流程必須遵循一定的流程,磁盤性能降低存在兩方面原因,其一是由于自身功能出現(xiàn)障礙,其二則是由于利用率過高出現(xiàn)瓶頸。
(3)優(yōu)化措施
選取WIO、磁盤利用率,以及平均等待與服務(wù)時(shí)間等參數(shù),以80%作為利用率的最高標(biāo)準(zhǔn),若在WIO超過25%的情況下,利用率高達(dá)80%以上,同時(shí)平均服務(wù)時(shí)間還小于等待時(shí)間,說明磁盤性能不足,或者出現(xiàn)故障[3]。
(1)總體性能
吞吐量與用戶響應(yīng)時(shí)間是判斷總體性能的重要參數(shù),兩者之間存在密切關(guān)聯(lián),當(dāng)系統(tǒng)服務(wù)時(shí)間減少時(shí),數(shù)據(jù)庫(kù)可完成更多的SQL語(yǔ)句。因IT系統(tǒng)本身存在差異,因此數(shù)據(jù)庫(kù)的響應(yīng)時(shí)間各系統(tǒng)并不相同,需要依據(jù)實(shí)際情況而定。以EIP系統(tǒng)為例,對(duì)響應(yīng)時(shí)間推薦參數(shù)為,用戶等待時(shí)間不得超過總時(shí)間的10%,該推薦參數(shù)可用于判斷總系統(tǒng)的爭(zhēng)用情況。
(2)數(shù)據(jù)庫(kù)操作系統(tǒng)性能
選用操作系統(tǒng)參數(shù),主要借助CPU相關(guān)參數(shù),比如利用率、WIO時(shí)間、核心態(tài)時(shí)間、用戶態(tài)時(shí)間等,分析操作系統(tǒng)應(yīng)用服務(wù)是否滿足數(shù)據(jù)庫(kù)需求,以及判斷數(shù)據(jù)庫(kù)是否存在緩沖區(qū)不足等問題。其監(jiān)控分析中,在CPU利用率高的情況下,可以判定數(shù)據(jù)庫(kù)磁盤或者是內(nèi)存緩沖區(qū)性能不足。若數(shù)據(jù)庫(kù)類型為DB2,可以80%作為CPU利用率的推薦參數(shù)。
綜上所述,IT系統(tǒng)性能監(jiān)控與優(yōu)化,主要是對(duì)操作系統(tǒng)與數(shù)據(jù)庫(kù)系統(tǒng)性能進(jìn)行監(jiān)控,且由各基礎(chǔ)設(shè)備的參數(shù)指標(biāo)體現(xiàn)。經(jīng)研究總結(jié),CPU性能由空閑時(shí)間小、ready隊(duì)列長(zhǎng)度、WIO值判定。內(nèi)存性能由頁(yè)面錯(cuò)誤、內(nèi)存空間、讀/寫命中率判定,磁盤性能由WIO、磁盤利用率判定,數(shù)據(jù)庫(kù)性能則有其操作系統(tǒng)性能以及吞吐量與用戶響應(yīng)時(shí)間等判定。
[1]呂燕.信息系統(tǒng)的性能監(jiān)控分析與研究[J].有線電視技術(shù),2013(8):58-60.
[2]張勁男,孟炬.數(shù)據(jù)庫(kù)性能監(jiān)控分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].信息技術(shù)與標(biāo)準(zhǔn)化,2013(10):70-74.
[3]黃碧雄.基于Oracle數(shù)據(jù)庫(kù)性能優(yōu)化及監(jiān)控研究[J].中國(guó)新通信,2015(5):126-127.
TP393.0 F832.39
A
1009-6434(2016)02-0031-01