顯示具有 IBM 標籤的文章。 顯示所有文章
顯示具有 IBM 標籤的文章。 顯示所有文章

前言

最近遇到了 VDI 基礎架構中,擔任虛擬化平台的 VMware vSphere ESXi 主機,因為實體伺服器發生「CPU / Memory 」故障事件,導致觸發了 vSphere HA 機制,雖然 vSphere HA 機制能夠因應硬體故障,而將 VM 虛擬主機自動重啟到別台存活的 ESXi 繼續運作。

但是了解 VMware 技術的人都了解,vSphere HA 機制只能「確保」VM 能在其它存活的 ESXi Host 繼續運作,但是「Guest OS」本身是否運作正常就另當別論了 (因為對 Geust OS 來說發生了不當關機事件!!)。此次的狀況就是,Guest OS 在發生 vSphere HA 事件後,雖然自動移轉到別台 ESXi Host 繼續運作,但是相關的「系統服務」雖然有啟動卻無法正常服務。

實作環境

  • VMware vSphere ESXi 5.1 (1065491)
  • Windows Server 2008 R2 SP1

災難情況探討

Alarms 視窗中可以看到,其中一台 ESXi 主機 (esxi02) 發生硬體故障事件。

切換到 Hardware Status 頁籤,一看錯誤訊息不得了。Memory 錯誤雖然常常遇到 (不會導致 vSphere HA 事件),但是 CPU 發生錯誤就不常遇到了,而此次就是因為 CPU 錯誤 才導致「觸發了 vSphere HA」事件 (詳細原理請參考 vSphere HA)。

為了確保不是誤判,到實體伺服器前面確認一下前方面板感知器燈號,明確的顯示 CPU/MEM  有問題,這下可以百分之百的確定硬體損壞了。

當然,將 CPU/Memory 更換完畢後便運作正常。


結論

雖然各家的虛擬化平台,都有相關的機制可以因應硬體伺服器突發性的故障損壞,但此次的硬體事件仍造成營運服務發生「不正常及停止」的情況。由此可知,完整的虛擬化架構仍需要堅實的硬體底層當後盾,就像蓋大樓一樣總不能打一層的地基就想要往上蓋 30 層樓,當災難沒發生時可能覺得一切安好,但若發生災難時可想而知,情況將會非常嚴重,不可不慎。

前言

簡單來說,目前市面上的主流伺服器都會具備有 IPMI (Intelligent Platform Management Interface) 遠端管理功能,它除了可以讓你輕鬆透過瀏覽器隨時得知伺服器相關元件的健康狀態之外,更重要的是具備遠端 KVM 功能,當伺服器即使當機的情況下,也可以透過 IPMI 得知目前的 Console 畫面 (其實也可以省略掉建置 IP-KVM 的費用了)。

在 IBM System x 系列的伺服器,其 IPMI 的功能稱之為 IMM (Integrated Management Module),本次實作的伺服器所具備的 IMM 版本為最新的 IMM2。


實作環境


安裝及設定
IPMI 遠端管理埠 IMM2

此次的實作主機 IBM x3550 M4,其 IPMI 遠端管理 Port 在主機後方,你會看到有個網路 Port 寫 IMM2。此外,你可能會發現旁邊的網路孔也寫 IMM2,若想要達成 IMM2 的容錯機制是可以把網路拿來用的,只是這並非本文的重點。

設定 IMM2 遠端管理 IP 位址

將實作主機 IBM x3550 M4 開機後,於畫面選擇按下 「F1」 鍵進入 BIOS 設定模式。

然後依序選擇「System Settings > Integrated Management Module > Network Configuration」項目,便可以為 IMM2 設定網路資訊。



本次實作環境設定 IMM2 的 IP 位址為「192.168.10.98」,設定完畢後選擇「Save Network Settings」儲存 IMM2  的網路設定。


登入 IMM2 管理介面

設定完畢後,便可以開啟瀏覽器輸入剛才所設定 IMM2 的 IP 位址,可以看到 IMM2 的登入畫面。預設登入的帳號為 「USERID」密碼為 「PASSW0RD」 (請注意!! 是數字 0 不是英文字母 O)。

系統狀態 (System Status)

登入 IMM2 管理介面後,首先是 系統狀態 (System Status) 頁面。

事件 (Events)

您可以切換到 事件 (Events),查看伺服器系統日誌內容。

伺服器管理 (Server Management)

此項目中可以管理如伺服器的 Firmware 版本、遠端控制、相關元件的健康狀態...等。

切換到「Remote Control」項目,如果有購買 License 的話便可以直接看到目前伺服器的 Console 畫面,以及使用 Virtual Device 等功能 (也就是遠端主機模擬為伺服器的本地端光碟機的功能)。
切換到「Server Properties」項目,在 Hardware Information 頁籤項目中,你可以看到伺服器的硬體資訊如 硬體型號(Machine Type)、機器序號 (Serial Number)...等。

切換到 Environmentals 頁籤項目中,你可以看到伺服器的環境資訊如 電壓 (Voltages)、溫度 (Temperatures) ...等。

切換到「Cooling Devices」項目,可以看到目前伺服器的 風扇(Fan) 的運作狀態如 轉速 (Speed)、運作狀態 (Status)... 等資訊。

切換到「Power Modules」項目,可以看到伺服器的 電源模組 (Power Module) 的運作狀態,以及消耗功率 (Watts)。

切換到「Hard Disks」項目,可以看到伺服器上所安裝的 硬碟 (Hard Disks) 以及健康狀態。

切換到「Memory」項目,可以看到伺服器上所安裝的 記憶體(Memory) 及 插槽 (DIMM)、健康狀態 (Status)、類型 (Type)、容量 (GB)...等資訊。

切換到「CPUs」項目,可以看到伺服器上所安裝的 中央處理器 (CPUs) 其 健康狀態 (Status)、時脈 (GHz)...等資訊。

IMM 管理 (IMM Management)

此項目中,便是設定 IMM 的相關管理事項,如管理介面的 登入、網路資訊、回預設值...等。

切換到「Users」項目,可以設定 IMM 遠端管理的使用者帳號及權限。

主機識別燈號 (Enclosure Identify LED)

當在同一座機櫃中,如果同廠牌的伺服器眾多時,有在茫茫機海中尋找你要操作的機器是哪一台時,有時是會有一定的困難程度,如果是安裝 Windows / Linux 作業系統的話,可以使用「退出光碟機 (Eject CD-ROM)」的老招數。

但若是伺服器安裝 VMware vSphere ESXi 虛擬化平台,或是其它不那麼方便退出伺服器光碟機的話,那麼怎麼方便進行辨識? 此時,你可以使用「主機識別燈號 (Enclosure Identify LED)」功能。

切換到「System Status」項目,查看下面「Enclosure Identify LED」項目其狀態為「Off」,欲變更請按下 Change 鈕。

在彈出的 Change Enclosure Identify LED 視窗中,可以看到有三種選項其功能及說明如下:
  • Turn Off: 關閉,主機識別燈號。
  • Turn On: 開啟,主機識別燈號 (恆亮)。
  • Blink: 開啟,主機識別燈號 (閃爍)。


舉例來說,選擇「Turn On」選項之後,此時你會發現伺服器的 前/後 面板中,主機識別燈號便會亮起 (藍燈)。


主機電源控制 (Power Actions)

當你的伺服器所安裝的作業系統,若發生死當的情況時,你可以透過「主機電源控制 (Power Actions)」的功能,遠端幫伺服器「強制」關機 (Power Off)、開機 (Power On)、重新啟動 (Restart)...等動作。

參考

前言

最近虛擬桌面議題開始發酵,相關的伺服器也開始支援安裝 GPU 顯示卡,以搶佔虛擬桌面市場,今天就來個 IBM DX360 M4 伺服器 安裝二片 Nvidia Grid K1 GPU 顯示卡 的不專業開箱文。

實作環境


IBM DX360 M4 開箱

首先整台 IBM DX360 M4 伺服器主機的 面。

接著是主機的 面。

此台主機的硬碟,安裝在前方面板的左前方。

在主機的 左/右 邊推桿的作用是,稍後要把伺服器主體推出時使用 (與一般 Rack Server 的上面蓋板方式不同)。


將 左/右 邊推桿推出後,可以看到伺服器的主體已經可以拉出來了。

將伺服器主體拉出後,剩下的機箱 (風扇及電源供應器)。



伺服器主體推出後,可以看到安裝了二片 Nvidia Grid K1 GPU 顯示卡。


這是將 Nvidia Grid K1 GPU 顯示卡拔下後的 正/反 面照,以整體 GPU 顯示卡的相關近照。






接著來看看伺服器主體的前方面板部份。

一開始拿到此台伺服器時,以為只能安裝二顆硬碟,但把擋板拆開後可以發現共可以安裝「四顆硬碟」。




接著可以看到前方面板中,還有 COM Port、VGA、IMM2 (IPMI)、2 Port (1 Gbps) 網路,其實可以觀察到裝了二片 Nvidia Grid K1 GPU 顯示卡後,可用空間已經不多了。



最後,來看看如果日後要擴充 CPU / Memory 時該如何處理,可以看到在主機上方中將這台二 U 的伺服器主機分開抬起的方式。