張雨馨
[摘 要] 本文介紹了集群系統(tǒng)的概念、特點和分類,介紹了一種集群管理工具xCAT的安裝部署,通過IBM集群系統(tǒng)描述了xCAT工具在硬件管理、軟件監(jiān)控中的應(yīng)用。在使用了xCAT工具后,提高了系統(tǒng)的檢查效率,縮短了維護時間,大大提高了工作效率,保證了集群系統(tǒng)的高效、穩(wěn)定運行。
[關(guān)鍵詞] 集群系統(tǒng);系統(tǒng)管理;xCAT;IBM集群
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2014 . 21. 025
[中圖分類號] TP393 [文獻標識碼] A [文章編號] 1673 - 0194(2014)21- 0034- 02
1 集群系統(tǒng)介紹
1.1 集群系統(tǒng)基本概念
把多臺同構(gòu)或異構(gòu)的計算機通過網(wǎng)絡(luò)連接起來,用于完成特定的任務(wù)的系統(tǒng)稱為集群系統(tǒng)。集群系統(tǒng)中的計算機稱為“節(jié)點”。因此,也可以說,集群系統(tǒng)是通過高性能網(wǎng)絡(luò)所組成的節(jié)點的集合。
1.2 集群系統(tǒng)的特點
(1)集群都是將普通 PC、工作站或服務(wù)器通過某種方式連接起來構(gòu)成的多機系統(tǒng)。
(2)集群系統(tǒng)都具有良好的可用性。即它們都能夠在集群的某部分資源出故障的情況下繼續(xù)向用戶提供持續(xù)的服務(wù)。幾乎所有的典型集群都擁有災(zāi)難恢復(fù)功能。
(3)集群系統(tǒng)有良好的可擴展性。只需很少的配置工作就可以方便地在集群中加入或刪除工作節(jié)點。
(4)典型的集群系統(tǒng)提供了良好的可管理性。管理人員通過簡單的操作就可以對集群中的工作節(jié)點或控制節(jié)點進行配置工作。
(5)集群系統(tǒng)一般都提供了負載平衡功能。負載平衡包括靜態(tài)負載平衡和動態(tài)負載平衡,為了最大程度地利用集群中的一切資源,集群需要具有動態(tài)負載平衡功能,它能夠通過監(jiān)視集群中的實際節(jié)點的負載情況動態(tài)地進行調(diào)度。
(6)大部分集群系統(tǒng)都有一個主控機,它能夠?qū)褐械臋C器的運行狀態(tài)進行監(jiān)視,而且能夠根據(jù)各機器的負載輕重進行任務(wù)的調(diào)度。
1.3 集群系統(tǒng)的分類
通常情況下,將集群分為兩大類:高可用集群和高性能集群。
2 xCAT工具介紹
2.1 xCAT 簡介
xCAT (Extreme Cluster Administration Toolkit)是一個可伸縮的Linux集群管理和配置工具,xCAT 最先是為IBM xSeries 系列的Linux Cluster做的第三方軟件,但后來它沒有發(fā)展成為一個產(chǎn)品,而是成為包含一系列有用的腳本的軟件包。使用者可以自己修改,但是不能重新發(fā)布。
2.2 xCAT功能及特性
全自動化的安裝:基于網(wǎng)絡(luò)的,無人看管的安裝。遠程管理和監(jiān)視:遠程電源管理和遠程控制系統(tǒng)。軟件管理:并行管理工具和高性能軟件。
xCAT 的特性:硬件管理和監(jiān)控;支持IBM eServer xSerie 系列服務(wù)器遠程電源控制的高級系統(tǒng)管理特性;支持遠程系統(tǒng)狀態(tài)檢測分析(風(fēng)扇速度,溫度,電壓等);遠程詳細檢測系統(tǒng)狀態(tài)設(shè)備型號和BIOS 等;硬件事件日志記錄;SNMP 認證警報;軟件管理;以及并行的Shell 和其他工具同時運行在xCAT 管理范圍內(nèi)的節(jié)點等。
3 xCAT工具部署安裝
xCAT 可以運行其上的系統(tǒng)有Redhat&Fedora Core、SUSE 等Linux 操作系統(tǒng);IA64、PPC64 等硬件架構(gòu)。安 裝 xCAT 需要下載如下文件包: xcat-dist-core-x.x.x.tgz,xcat-dist-ibm-x.x.x.tgz, xcat-dist-doc-x.x.x.tgz 和xcat-dist-oss.x.x.x.tgz。
默認方式下xCAT的安裝目錄為/opt,用下列命令依次安裝:
tar zxvf xcat-dist-core-x.x.x.tgz-C /opt
tar zxvf xcat-dist-ibm-x.x.x.tgz-C /opt
tar zxvf xcat-dist-doc-x.x.x.tgz-C /opt
tar zxvf xcat-dist-oss.x.x.x.tgz -C /opt
安裝前需要做一些準備,包括設(shè)置環(huán)境變量,準備啟動鏡像,啟動NFS服務(wù)器,以及修改$XCATROOT/etc/目錄以下的幾個文件,包括site.tab,nodelist.tab,notetype.tab, noderes.tab,mac.tab,postscripts.tab,postdeps.tab,nodehm.tab 和passwd.tab。
具體的修改說明如下:
site.tab 文件中注意幾個要修改的地方,主要用于描述master 節(jié)點的一些必要屬性和網(wǎng)絡(luò)配置情況,包括domain,dnssearch,nameservers,nets,forwarders,dnsallowq,mailhosts,master,homefs,localfs,snmpd,installdir,dynamicr,usernoders,usermaster,nisdomain,nismaster 和subdhcpd。
nodelist.tab 文件中主要定義node 的名字,組和組id。
nodetype.tab 文件中主要定義每個node 安裝什么體系結(jié)構(gòu)的系統(tǒng)。
noderes.tab 文件用于節(jié)點安裝時資源的描述。
nodehm.tab 文件用于描述節(jié)點的硬件管理。
隨后用 root 用戶登錄:
[root@master1 ~]# export XCATROOT=/opt/xcat
[root@master1 ~]# cd XCATROOT
[root@master1 ~]# ./setupxcat
創(chuàng)建服務(wù):開啟DNS,獲取MAC 地址,開啟DHCP,配置終端服務(wù)。配置所有節(jié)點(自動的或者手工的):升級硬件,配置硬件/COMS/BIOS使它從來不會暫停,配置啟動順序,開啟處理器控制,如果可以的話,重新定義POST/BIOS 的連續(xù)輸出。最后是集群的安裝:準備安裝服務(wù)器,準備自動安裝的腳本,設(shè)置節(jié)點,重新啟動并且開啟無人看管的安裝模式,最終檢查。
4 利用xCAT工具管理集群
利用xCAT工具,系統(tǒng)管理人員可以很好地對集群系統(tǒng)進行管理和維護,其提供的功能主要有以下兩個方面。
4.1 硬件管理與監(jiān)控
系統(tǒng)管理員可以通過rpower、rreset、rboot 3個命令對系統(tǒng)中的節(jié)點進行遠程電源控制。xCAT還提供了遠程資產(chǎn)管理命令,包括對服務(wù)器的序列號、BIOS版本、硬件日志等信息的查詢。
4.2 軟件管理
xCAT提供了Remote Console的命令,分別是rcons和wcons,對遠程系統(tǒng)進行監(jiān)控,這種監(jiān)控是基于字符界面的。
xCAT還提供了大量的并行管理命令,當(dāng)我們需要對多個節(jié)點進行相同操作的時候,就可以領(lǐng)用這些命令來完成,這些命令包括psh、pping、prcp、psync、psysstat等。
5 結(jié) 論
目前,IBM集群系統(tǒng)在生產(chǎn)實踐當(dāng)中已經(jīng)開始使用,在應(yīng)用了xCAT工具后,提高了系統(tǒng)的檢查效率,縮短了維護時間,大大提高了工作效率,保證了集群系統(tǒng)的高效、穩(wěn)定運行。
主要參考文獻
[1]楊小虎.集群監(jiān)控中檢測技術(shù)研究[D].北京:中國科學(xué)院軟件研究所,2004.