主機健康狀態(tài)監(jiān)控方法
作者:佚名 時間:2014-11-28 分享到:
在數(shù)據(jù)庫運行環(huán)境中,須要關注的主機狀態(tài)主要有網(wǎng)絡通信,系統(tǒng)軟硬件錯誤,磁盤空間,內存使用,進程數(shù)量等.
1.網(wǎng)絡通信
網(wǎng)絡通信可以說是最容易檢測的了,基本上只須要通過網(wǎng)絡ping就可以獲知是否正常,如果還不放心,或者所屬網(wǎng)段內禁用了ping,也可以從監(jiān)控主機進行固定商品的telnet嘗試或ssh登錄嘗試.
2.系統(tǒng)軟硬件錯誤
系統(tǒng)軟硬件錯誤一般只能通過檢測各種日志文件信息來實現(xiàn),如主機的系統(tǒng)日志中基本上都會記錄下os能夠檢測到的大部分錯誤信息,如硬件錯誤,io錯誤等,我們一般使用文本監(jiān)控軟件,如sec,logwatch等日志專用軟件,通過配置相應的匹配規(guī)則,從日志文件中捕獲滿足條件的錯誤信息,再發(fā)送給信息分析模塊.
3.磁盤空間
對于磁盤空間的使用狀況監(jiān)控,通過最簡單的shell腳本就可以輕松得到系統(tǒng)中各個分區(qū)的當使用量,剩余可用空間等信息,積累一定時間段的信息之后,就能很容易得出系統(tǒng)數(shù)據(jù)量增長趨勢.
4.內存使用
系統(tǒng)物理內存使用量的信息采集同樣非常簡單,只需要一個基本的系統(tǒng)命令"free",就可以獲得當前系統(tǒng)內存總量,剩余使用量,以及文件系統(tǒng)的buffer和cache兩者使用量的信息,而且,除了物理內存使用情況,還可以得到swap使用量,通過shell腳本對這些輸出信息進行簡單的處理,即可獲得足夠的信息.
5.進程數(shù)量,系統(tǒng)進程總數(shù),或某個用戶下的進程數(shù),都可以通過"ps"命令經(jīng)過簡單的處理來獲得,如獲取mysql用戶下的進程總數(shù).