2011年6月16日 星期四

ASR(HP)

ASR(Automatic Server Recovery)是一個硬件部件,它能檢查一些嚴重的服務器關鍵事件和一些重要零部件是否異常(如內存錯誤、磁盤故障、溫度過高、電源掉電、風扇故障、網卡異常等) ;HP asm驅動與操作系統相關,它負責檢測軟故障(如係統掛起,程序hang等),ASR和ASM時時保持聯繫,缺少任何一方那麼ASR和ASM都失效。 ASR和ASM類似於服務器的維護人員,一個負責硬件層,一個負責軟件層,同時他們之間時時保持聯繫,當出現問題時,共同協商採取某種動作,如重啟機器等。
ASR機制可以通過BIOS設置成開或關,在開啟狀態下,如果ASR沒有檢測到軟件層的ASM驅動,那麼ASR臨時“自殘”(相當於關閉自己)。 ASR是HP公司發明的一個先進的硬件故障檢測部件,目前已經集成在HP DL 380 及以上版本的機器中,HP官方強烈建議用戶開啟該功能並相應裝上ASM驅動(採用smartstart部署系統或安裝PSP包會自動安裝該驅動),否則機器可能在故障存在的情況下繼續跑應用,這時數據安全難以保障。從上圖中還可以看出ASM是“集成”在軟件層的,它在用戶空間安插一個探針hpasmd,hpasmd一個主要功能就是對ASR中計數器週期性地賦一個正數值,ASR則周期性地遞減這個計數器,如果該計數器大於0表明hpasmd還“活著”,hpasmd活著又意味著軟件層還活著,如果該計數器在10分鐘內(默認值)保值非正,那麼ASR就直接給CPU發reset信號,因為此時ASR認為操作系統被掛起了!我們可以做這個實驗:把hpasmd進程直接殺掉,一會兒機器就直接重啟了。
ASM在用戶空間安插hpasmd這個探針的機制,有點類似於我們最近提出的基於應用層面的監控方法,用戶空間的進程全部hang住了,就算操作系統內核還“活著”又有什麼用呢?所以就直接reset系統算了。因此hpasmd進程的穩健性就顯得非常重要,因為它就是整個系統“命懸一線”中的那根“線”。
ASR默認情況下是開啟的,如果用戶沒有在操作系統中安裝相應的ASM驅動,那麼ASR機制就失效。
官方說明如下:
ASR 使用
一、ASR簡介
ASR (Automatic ServerRestart)減少由於系統崩潰或掛起產生的影響。它的實現要求軟件與硬
件的結合。當ASR為允許狀態時,軟件定期的通知硬件系統為正常運行狀態,當系統崩潰後,硬件不再得到信息並且會在達到設置時間自動重新啟動。注意系統必須被設置為無須用戶介入情況下重啟。
不是所有的系統掛起會導致重啟,例如:當所有用戶的要求被禁止(表現為系統好像掛起),然而NOS還在運行,這樣的情況下ASR不會重啟系統。
HP的服務器LC LF LS LH 及其後的機型硬件上都支持ASR。 ASR功能的實現要求硬件支持外還
須安裝ASR軟件。所有安裝了HP遠程助理軟件的系統都支持ASR。 ASR可以捕捉系統掛起時的最後一屏,其中包含重要故障信息,並且記錄系統重啟事件以備後期查看。
二、ASR測試
系統環境:
Winnt操作系統,
安裝Toptools軟件,
控制面板的服務中ASRSrv 是啟動狀態
使用:
1 找到 ASRuser 命令:
如果是自動安裝的操作系統, 路徑為c:\Winnt40\HPserver\ASRuser
如果是手動安裝的操作系統,該文件在Toptools 文件夾內
2 執行ASRuser /t 可以設置時間:
第一項為自動重啟時間
第二項為輪循檢測系統時間
(可以通過ASRuser/o 查看設置)
現象:
當系統鎖死後,ASR會按照設置的輪循時間檢測系統狀態,如果到達設定時間後
系統仍未激活, 則自動關機重新啟動。

沒有留言:

張貼留言