国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

服務(wù)器正常運(yùn)行五步走

2010-02-17 03:00
計(jì)算機(jī)世界 2010年47期
關(guān)鍵詞:數(shù)據(jù)中心集群工具

IT已經(jīng)成為高科技的代名詞,但是歸根結(jié)底,它的背后只是“0”和“1”,因此說(shuō)它容易也容易,說(shuō)它復(fù)雜也復(fù)雜。

如何盡可能延長(zhǎng)服務(wù)器正常運(yùn)行時(shí)間,對(duì)于很多IT經(jīng)理們來(lái)說(shuō)就是一個(gè)令人頭疼的事情。

幾乎所有數(shù)據(jù)中心的管理者都有一個(gè)共同的訴求,就是如何確保服務(wù)器處于良好的工作狀態(tài),所有的設(shè)備時(shí)刻準(zhǔn)備著、一旦有需要,就能立即運(yùn)行起來(lái),但是顯然這個(gè)問(wèn)題“說(shuō)起來(lái)容易做到難”。

絕大多數(shù)數(shù)據(jù)中心的IT經(jīng)理們不敢拍著胸脯說(shuō),自己已經(jīng)能夠力保系統(tǒng)正常運(yùn)行,并且能夠保證正常運(yùn)轉(zhuǎn)時(shí)間最大化。而事實(shí)上,他們中的很多人把時(shí)間和金錢(qián)往往浪費(fèi)在了對(duì)幫助系統(tǒng)正常運(yùn)行基本上沒(méi)有什么積極影響的技術(shù)和措施上。不過(guò)如果能從全面規(guī)劃、合理應(yīng)用管理軟件、加強(qiáng)安全防護(hù)等五方面入手,盡可能延長(zhǎng)服務(wù)器正常運(yùn)轉(zhuǎn)時(shí)間絕對(duì)不是一個(gè)“白日夢(mèng)”。

全面規(guī)劃放首位

美國(guó)康涅狄格州斯坦福市金融數(shù)據(jù)提供商Six Telekurs USA負(fù)責(zé)IT和后勤的副總裁Walter Beddoe表示,實(shí)現(xiàn)服務(wù)器正常運(yùn)行時(shí)間最大化的目標(biāo),既是一門(mén)科學(xué),也是一門(mén)管理藝術(shù)?!斑@要結(jié)合多方面的要素,不但需要你擁有稱(chēng)職的員工,選對(duì)能夠?qū)崿F(xiàn)容錯(cuò)目標(biāo)的硬件,采用動(dòng)態(tài)的安全做法,而且還要能夠積極接受良好的維護(hù)和變更管理做法?!背酥?,Beddoe還認(rèn)為,作為管理者,還需要有盡力做好一切的決心。

大多數(shù)管理著服務(wù)器的IT經(jīng)理都會(huì)認(rèn)為,精心規(guī)劃從采購(gòu)、管理到更換的與服務(wù)器相關(guān)的所有工作,是保障系統(tǒng)可靠性的關(guān)鍵步驟。

喬治?華盛頓大學(xué)的IT運(yùn)營(yíng)和工程經(jīng)理Raoul Gabiam就認(rèn)為,生命周期管理是維持服務(wù)器正常運(yùn)行的一個(gè)必要工作?!爸篮螘r(shí)及如何更換、升級(jí)硬件和軟件很重要,因?yàn)檫@影響著服務(wù)器性能、可持續(xù)性和總體的正常運(yùn)行時(shí)間?!?/p>

Gabiam舉例說(shuō),在升級(jí)軟件的時(shí)候,就需要了解硬件需求和當(dāng)前現(xiàn)有硬件的狀態(tài)。因?yàn)?,為了保證軟件能夠得以順利升級(jí),很有可能需要額外購(gòu)買(mǎi)新的硬件,所以需要確保相應(yīng)的需求得到滿(mǎn)足,從而避免進(jìn)一步停運(yùn),或者是盡量減少變更數(shù)量。

除了強(qiáng)調(diào)軟硬件的生命周期管理外,Gabiam還主張標(biāo)準(zhǔn)化和協(xié)調(diào),他認(rèn)為后者也是確保服務(wù)器可靠運(yùn)行的一個(gè)重要手段?!霸谟腥税惭b硬件或?qū)τ布M(jìn)行改動(dòng)之前,一定要有能夠作為參考的變更管理流程?!?/p>

“變更管理意味著服務(wù)器管理員能夠了解各個(gè)系統(tǒng)是如何搭建和配置的,并且在進(jìn)行變更之前,評(píng)估一下會(huì)帶來(lái)怎樣的影響。”Gabiam說(shuō),“這樣一來(lái),管理員就能知道系統(tǒng)應(yīng)該怎么樣、它們彼此會(huì)如何聯(lián)系。借助變更管理方法,就可以預(yù)測(cè)當(dāng)服務(wù)器以某些方式配置或放置到新環(huán)境后,會(huì)出現(xiàn)怎樣的情況?!?/p>

Online Resources公司的總部設(shè)在弗吉尼亞州尚迪利市,它專(zhuān)門(mén)為金融機(jī)構(gòu)提供交易服務(wù)。公司首席技術(shù)官Paul Franko表示,除了技術(shù)之外,管理者的態(tài)度也起到了重要作用。

“我們部署了一套制衡體系,確保我們的政策得到了遵守?!?Franko說(shuō),他會(huì)讓手下的經(jīng)理們定期檢查員工的管理工作,并反復(fù)核對(duì)。

他認(rèn)為這樣有助于將人為失誤的影響減小到最低限度,“誰(shuí)都會(huì)犯錯(cuò),特別是一旦你沒(méi)有多重核對(duì)機(jī)制,某些方面就更加容易疏忽或遺漏?!?/p>

進(jìn)行預(yù)防性維護(hù)

常規(guī)的預(yù)防性維護(hù)也許是提高服務(wù)器可靠性最容易、最不費(fèi)力的方法,就像有些舊車(chē)維修廣告中提醒的那樣,“不是現(xiàn)在掏錢(qián),就是以后掏錢(qián)”。

“根據(jù)木桶原理,服務(wù)器正常運(yùn)行時(shí)間有多長(zhǎng),完全取決于相關(guān)維護(hù)服務(wù)交付鏈中最薄弱的那個(gè)部分?!盉eddoe說(shuō)。

Beddoe堅(jiān)信,只要定期執(zhí)行一系列必要維護(hù)工作,例如更新系統(tǒng)軟件、提供有保障的電源以及確保足夠的冷卻能力,就能夠打造一個(gè)順暢運(yùn)行的數(shù)據(jù)中心,而且既不會(huì)超出預(yù)算,又不會(huì)增加員工的負(fù)擔(dān)。

Franko表示,為了確保所有必要工作能夠在需要時(shí)得到執(zhí)行,應(yīng)該確認(rèn)服務(wù)器維護(hù)任務(wù)的時(shí)間表?!翱梢愿鶕?jù)任務(wù)的輕重緩急,確定相關(guān)工作的優(yōu)先級(jí)。例如像安全更新這樣的工作,就可以立馬著手開(kāi)展,而例如改進(jìn)非關(guān)鍵功能的軟件更新,就可以分批處理,按固定的間隔時(shí)間來(lái)開(kāi)展?!?/p>

Franko還補(bǔ)充說(shuō),進(jìn)行維護(hù)工作時(shí)不應(yīng)該占用服務(wù)器的正常運(yùn)行時(shí)間。“我們不會(huì)因?yàn)榫S護(hù)工作而讓系統(tǒng)停運(yùn)?!?/p>

在實(shí)際工作中,當(dāng)Franko的團(tuán)隊(duì)非要拆下某臺(tái)服務(wù)器進(jìn)行維護(hù)時(shí),他們會(huì)安排在用戶(hù)需求較低的晚間或周末時(shí)間段來(lái)進(jìn)行。“只有那些涉及到關(guān)鍵更新的工作時(shí),我們才會(huì)在正常工作時(shí)間拆下運(yùn)行中的服務(wù)器,進(jìn)行相關(guān)維護(hù)?!?/p>

合理使用管理工具

不可否認(rèn),服務(wù)器管理在過(guò)去的幾年間變得越來(lái)越復(fù)雜,涌現(xiàn)出了大量旨在提高服務(wù)器效率和利用率的虛擬化及相關(guān)技術(shù)和做法。虛擬化技術(shù)本身有助于保護(hù)數(shù)據(jù)中心免受服務(wù)器停機(jī)的影響,虛擬化技術(shù)通過(guò)合并服務(wù)器,并將它們連接到共享環(huán)境,允許多個(gè)虛擬機(jī)可以在不同的主機(jī)上運(yùn)行。一旦某個(gè)主機(jī)出現(xiàn)故障,它上面的工作負(fù)載就會(huì)重新分配到其余的主機(jī)上。Gabiam說(shuō):“你可能會(huì)遇到服務(wù)器故障,但不是說(shuō)故障就肯定會(huì)影響服務(wù)。”

為了管理這種日益虛擬化的環(huán)境,Xenos Software、Uptime Software、Nimsoft和Nagios Enterprises等廠(chǎng)商提供了各自的工具,旨在幫助數(shù)據(jù)中心的工作人員監(jiān)控服務(wù)器性能、查找出現(xiàn)的問(wèn)題,并且充分利用提升性能的機(jī)會(huì)。

新澤西州普林斯頓市診斷醫(yī)學(xué)成像公司Princeton Radiology的IT主管Alan Howard的實(shí)際工作經(jīng)驗(yàn)告訴他,在服務(wù)器虛擬化時(shí)代,別把時(shí)間和資源浪費(fèi)在不能直接有助于延長(zhǎng)正常運(yùn)行時(shí)間的活動(dòng)和工具上。

“比如說(shuō),投入到集群上的努力可以說(shuō)就是無(wú)用功,而使用提供完全自動(dòng)化的工具能更有效地獲得冗余性?!盚oward表示,“不是自動(dòng)化的集群(即手動(dòng)完成同步工作)帶來(lái)的問(wèn)題遠(yuǎn)多于它能夠帶來(lái)的好處,例如主節(jié)點(diǎn)失效可能會(huì)帶來(lái)嚴(yán)重后果。因此,與其主節(jié)點(diǎn)失效還不如備用節(jié)點(diǎn)失效,因?yàn)榍罢呋謴?fù)起來(lái)更容易?!?/p>

目前,Howard的部門(mén)就管理著Windows Server集群?,F(xiàn)在他們面臨的情況是,一旦進(jìn)行故障切換,這個(gè)集群上的應(yīng)用程序就會(huì)崩潰,因?yàn)閷?duì)應(yīng)用配置文件所作的改變沒(méi)有移植到備用服務(wù)器上。 “排查應(yīng)用程序崩潰的根源往往比排查集群節(jié)點(diǎn)故障的根源要費(fèi)力得多?!?Howard說(shuō)。

針對(duì)這樣的情況,Howard讓手下不再配置傳統(tǒng)意義上的集群服務(wù)器,而是有一個(gè)由多臺(tái)獨(dú)立服務(wù)器組成的“集群”——所有服務(wù)器映射到一個(gè)雙控制器Compellent存儲(chǔ)中心存儲(chǔ)區(qū)域網(wǎng)(SAN)上,“這樣我們就能根據(jù)需要,相當(dāng)順暢地在服務(wù)器之間遷移虛擬機(jī)?!?/p>

因此,如果沒(méi)有適當(dāng)?shù)谋O(jiān)管,服務(wù)器管理者根本也許無(wú)法查明影響正常運(yùn)行時(shí)間的根源,也無(wú)法衡量停機(jī)對(duì)關(guān)鍵業(yè)務(wù)服務(wù)帶來(lái)的影響。

Beddoe覺(jué)得必要的服務(wù)器監(jiān)管工具必不可少,他說(shuō):“你要做到讓人放心,你的所有服務(wù)器在任何時(shí)候都在正常運(yùn)行?!?/p>

Beddoe還在使用Uptime Software公司的正常運(yùn)行時(shí)間管理軟件,他認(rèn)為這類(lèi)工具屬必備的工具,因?yàn)橹灰?wù)器的運(yùn)行條件超過(guò)特定的閥值(比如出現(xiàn)內(nèi)存過(guò)載或處理器使用率過(guò)高時(shí)),這些工具就會(huì)觸發(fā)警報(bào)。

雖然大多數(shù)此類(lèi)工具都附帶內(nèi)置的報(bào)警功能,但Beddoe更看重那些可以對(duì)報(bào)警條件進(jìn)行設(shè)置的產(chǎn)品,“因?yàn)槟阈枰莆沼幸饬x的信息,以便能采取必要的措施進(jìn)行糾正,包括在大屏幕顯示器上向操作人員發(fā)出警報(bào)?!?/p>

Carfax公司位于美國(guó)弗吉尼亞州森特維爾市,專(zhuān)門(mén)制作車(chē)輛歷史報(bào)告。運(yùn)營(yíng)經(jīng)理Jerry Gregg表示,許多性能測(cè)量工具計(jì)算出來(lái)的服務(wù)器正常運(yùn)行時(shí)間只是個(gè)近似值, “這個(gè)值充其量只能用來(lái)參考一下?!?/p>

Gregg說(shuō),一些基本的正常運(yùn)行時(shí)間測(cè)量工具測(cè)得的數(shù)值實(shí)際上可能有欺騙性,因?yàn)檫@些工具不能完全區(qū)別所有故障的不同。這個(gè)時(shí)候,數(shù)據(jù)中心的管理者就需要有一套能夠提供基于時(shí)間和事件的分析功能的測(cè)量工具。

為了讓對(duì)正常運(yùn)行時(shí)間的分析顯得更有意義,Gregg目前使用的是可以顯示服務(wù)器故障對(duì)關(guān)鍵業(yè)務(wù)服務(wù)所產(chǎn)生影響的測(cè)量工具。Gregg使用的是BMC Software公司的ProactiveNet性能管理軟件,這個(gè)軟件能夠直接把服務(wù)器停機(jī)時(shí)間與銷(xiāo)售交易及其他類(lèi)型的面向服務(wù)的業(yè)務(wù)數(shù)據(jù)關(guān)聯(lián)起來(lái)?!斑@樣我不僅可以通過(guò)時(shí)間來(lái)量化停機(jī)帶來(lái)的影響,還可以通過(guò)金錢(qián)來(lái)量化影響。”

Gregg表示,在使用了這款軟件后,他發(fā)現(xiàn),系統(tǒng)生成的信息可以幫助他確定故障模式是否有可能?chē)?yán)重影響到公司的利潤(rùn),從而能證明有無(wú)必要花錢(qián)購(gòu)買(mǎi)新服務(wù)器、更好的網(wǎng)絡(luò)設(shè)備或能夠增強(qiáng)可靠性的其他技術(shù)和服務(wù)。Gregg說(shuō):“要是沒(méi)有這些信息,我可能就要在不知道具體成本的情況下進(jìn)行成本效益決策。”

別讓安全問(wèn)題

成為絆腳石

確保系統(tǒng)的安全性,在保證服務(wù)器正常運(yùn)行方面也起到重要作用,因?yàn)閻阂廛浖虿话踩木W(wǎng)絡(luò)會(huì)危及服務(wù)器的正常運(yùn)轉(zhuǎn)。

Beddoe認(rèn)為,數(shù)據(jù)中心的管理者首先需要從物理安全著手來(lái)保證服務(wù)器能夠正常工作,也就是說(shuō)要從數(shù)據(jù)中心的基礎(chǔ)建設(shè)入手,確保“物理安全性”。接下來(lái),再制定服務(wù)器訪(fǎng)問(wèn)規(guī)則并確保執(zhí)行的力度。至于其他的安全手段,諸如反病毒程序、防火墻和訓(xùn)練有素的管理員,都屬于常規(guī)安全手段。”

Superior Technology Solutions是紐約的一家IT咨詢(xún)公司和定制軟件開(kāi)發(fā)商,公司負(fù)責(zé)監(jiān)管服務(wù)器運(yùn)行的John Luludis表示,他認(rèn)為要真正確保服務(wù)器的正常運(yùn)行時(shí)間最大化,重要的是不能僅僅滿(mǎn)足于基本的安全措施,更需要進(jìn)行定期的獨(dú)立安全審計(jì)。平日,他就常對(duì)自己的網(wǎng)絡(luò)定期進(jìn)行滲透測(cè)試。

雖然Princeton Radiology的Howard也極力主張進(jìn)行常規(guī)的服務(wù)器維護(hù),但他指出,盡管經(jīng)理和員工都盡了最大的努力,有些故障還是在所難免。Howard建議,要建立相應(yīng)的規(guī)范,以避免因?yàn)榉?wù)器故障而引起的任何數(shù)據(jù)丟失,“所以要制定與企業(yè)的綜合業(yè)務(wù)連續(xù)性戰(zhàn)略相互配合的數(shù)據(jù)保護(hù)方案?!盤(pán)rinceton就使用了Compellent Technologies公司的異地存儲(chǔ)解決方案來(lái)復(fù)制所有已存儲(chǔ)的數(shù)據(jù)。

與Princeton Radiology的Howard不一樣,Gabiam喜愛(ài)集群技術(shù),他使用Novell集群服務(wù)來(lái)提供另一層冗余性。他解釋?zhuān)绻褐械哪硞€(gè)節(jié)點(diǎn)失效,或者需要停機(jī)以便維護(hù),那么在該節(jié)點(diǎn)上運(yùn)行的集群應(yīng)用程序或服務(wù)組件就可以在集群中的另一個(gè)節(jié)點(diǎn)上無(wú)縫運(yùn)行。

Gabiam很相信內(nèi)置在數(shù)據(jù)中心網(wǎng)絡(luò)基礎(chǔ)設(shè)施中的負(fù)載均衡技術(shù),以此來(lái)防范突如其來(lái)的服務(wù)器故障?!叭绻撑_(tái)服務(wù)器崩潰,或某個(gè)應(yīng)用程序沒(méi)有響應(yīng),那么其流量就會(huì)重新定向到能處理負(fù)載的其他類(lèi)似服務(wù)器上?!?/p>

Gabiam說(shuō):“萬(wàn)一發(fā)生軟、硬件故障,我通常希望應(yīng)用程序會(huì)自動(dòng)切換到下一個(gè)優(yōu)先節(jié)點(diǎn)上,當(dāng)然管理員也可以手動(dòng)配置這個(gè)遷移過(guò)程?!?/p>

關(guān)注硬件質(zhì)量

“一分錢(qián),一分貨”,性能優(yōu)良的軟硬件設(shè)備,往往價(jià)格不菲。但是采用高質(zhì)量的服務(wù)器而不是質(zhì)量低劣的設(shè)備,顯然能夠保證服務(wù)器更長(zhǎng)時(shí)間地可靠運(yùn)轉(zhuǎn)。

IT服務(wù)提供商E-N Computers的運(yùn)營(yíng)主管Jeffrey Driscoll說(shuō):“改用中檔或高端服務(wù)器后,硬件壽命肯定會(huì)不一樣。”

不過(guò)在實(shí)際情況下,預(yù)算緊張的IT經(jīng)理們常常面臨痛苦的選擇:是用低成本的產(chǎn)品滿(mǎn)足業(yè)務(wù)需求?還是購(gòu)買(mǎi)質(zhì)量更好、更可靠的系統(tǒng)來(lái)滿(mǎn)足既定的性能標(biāo)準(zhǔn)?

Driscoll建議:“購(gòu)買(mǎi)要明智,應(yīng)物色物美價(jià)廉的產(chǎn)品,盡量爭(zhēng)取到滿(mǎn)足實(shí)際運(yùn)營(yíng)需求的預(yù)算,一定要向管理層表明不可靠的服務(wù)器可能造成經(jīng)濟(jì)損失的不爭(zhēng)事實(shí),用簡(jiǎn)單的數(shù)字和預(yù)測(cè)就很容易證明這一點(diǎn)?!?/p>

除此之外,慘痛的經(jīng)驗(yàn)表明,不要試圖從老化的服務(wù)器上榨出最后一點(diǎn)價(jià)值,那樣只會(huì)浪費(fèi)時(shí)間、精力和金錢(qián)。

“硬件畢竟是硬件,總會(huì)壞掉。”Gabiam說(shuō),“重要的是汲取之前的經(jīng)驗(yàn)教訓(xùn),并且準(zhǔn)備好方案,萬(wàn)一問(wèn)題再次發(fā)生,可以從容應(yīng)對(duì)?!?/p>

關(guān)注硬件來(lái)確保正常運(yùn)轉(zhuǎn)時(shí)間,這就意味著IT經(jīng)理們還要精確掌握整個(gè)系統(tǒng)的更新周期,知道該在什么時(shí)候棄用舊設(shè)備,改用新設(shè)備。“如果你的IT人員有25%的工作時(shí)間用于到處救火和維護(hù)過(guò)時(shí)系統(tǒng),這是最嚴(yán)重的浪費(fèi)時(shí)間的行為。“Beddoe說(shuō)。

猜你喜歡
數(shù)據(jù)中心集群工具
酒泉云計(jì)算大數(shù)據(jù)中心
波比的工具
波比的工具
海上小型無(wú)人機(jī)集群的反制裝備需求與應(yīng)對(duì)之策研究
準(zhǔn)備工具:步驟:
一種無(wú)人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
民航綠色云數(shù)據(jù)中心PUE控制
“巧用”工具
Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
勤快又呆萌的集群機(jī)器人