網管人雜誌
本文刊載於 網管人雜誌第 236 期 - 2025 年 9 月 1 日出刊,NetAdmin 網管人雜誌 為一本介紹 Trend Learning 趨勢觀念、Solution Learning 解決方案、Technology Learning 技術應用的雜誌,下列筆記為本站投稿網管人雜誌獲得刊登的文章,網管人雜誌於每月份 1 日出刊您可於各大書店中看到它,或透過城邦出版人讀者服務網進行訂閱。本文目錄
前言
在 HCI
超融合運作架構中,由於每台叢集節點主機,通常直接擔任運算和儲存資源的角色,所以當企業和組織在部署時,經常需要直接部署大量的叢集節點主機。因此,Nutanix
官方便提供 Foundation 部署機制(如圖 1 所示),協助管理人員進行部署作業。
圖 1、Nutanix Foundation 運作架構示意圖
部署 Foundation VM
原則上,Foundation VM 支援部署至許多環境,在本文以部署至 VMware
vSphere/vSAN 環境為例,請先至官網下載適用的 Foundation VM 映像檔。
下載完成,連接至 vCenter 管理介面後,依序點選「Cluster > Deploy OVF
Template」,在 Deploy OVF Template 頁面中,點選「Local file > UPLOAD
FILES」,選擇剛才下載的 Foundation VM
印象檔,其它組態設定則依據運作環境選擇即可,最後確認無誤後按下 FINISH
鈕執行匯入動作。
預設情況下,匯入後的 Foundation VM 在虛擬硬體方面配置為「1 vCPU,4GB
vMemory」,管理人員可以依照需求進行調整,例如,調整為 4 vCPU,16GB vMemory
後,將 Foundation VM 開機,請使用預設管理帳號「nutanix」
及密碼「nutanix/4u」,順利登入系統後,可以查看作業系統版本資訊為
Rocky Linux
v8.7 和預設 DHCP 網路組態(如圖 2 所示)。
圖 2、查看 Foundation VM 系統資訊和網路組態
請依序點選「System > Preferences > Internet and Network >
Advances Network Configurations > Wired connection 1」 後,組態設定 IP
address、Netmask、Gateway、DNS servers、Search
domains,完成後使用指令「sudo reboot」 重新啟動主機以便套用生效。
確認 Foundation VM 的網路組態設定完成後,便可以開啟瀏覽器至 Foundation
Web(Port 8000 )準備部署 Nutanix Cluster 環境。
升級 Foundation 版本
隨著時間和版本的演進,部署的 Foundation VM
也需要更新升級相關版本。事實上,部署後的 Foundation
主機,倘若網路環境是可以順利連接至網際網路的話,那麼系統將會自動檢查版本,並且在登入
Foundation GUI 圖形介面後,提醒管理人員是否要進行版本升級的工作任務。
舉例來說,點選 Show Update 鈕後,系統顯示目前的版本為 Nutanix Foundation
v5.7.1,而最新版本為 Nutanix Foundation v5.9.0.2。在本文實作環境中,由於
Foundation 主機可以碰觸網際網路,所以直接按下 Update
即可,系統會提醒下載更新檔大小為 1.5GB(如圖 3 所示)。
圖 3、自動下載並更新 Foundation 版本
倘若,企業和組織的 Foundation 主機無法碰觸網際網路的話,可以預先下載
Foundation 更新檔後,按下 Browse 手動上傳更新檔即可。
一旦更新程序完成後,系統會提示無須重新啟動 Foundation
主機可立即使用,重新整理網頁後,可以看到已經順利將 Nutanix Foundation
v5.7.1 升級為 Nutanix Foundation v5.9.0.2。
刪除錯誤的映像檔
倘若管理人員發現,上傳至 Foundation VM 的 AOS 或 AHV
部署映像檔,不知何故發生毀損,然而在 Foundation GUI
圖形介面中並無法刪除它,即便再次上傳也無法覆蓋掉,並且系統顯示無法掃描部署映像檔,請移除損壞的部署映像檔(如圖
4 所示)。
圖 4、上傳的部署映像檔損壞無法使用
一旦發生這種情況時,請透過 SSH 登入至 Foundation VM 之後,切換至下列 AOS
或 AHV 路徑,將損壞的部署映像檔刪除後,切換回 Foundation GUI
圖形介面再次上傳即可。
- AOS 映像檔儲存路徑: /home/nutanix/foundation/nos
- AHV 映像檔儲存路徑: /home/nutanix/foundation/isos/hypervisor/kvm/
實戰 – 部署最新 AOS 7
事實上,透過 Foundation 部署 Nutanix HCI
超融合環境有兩種方式,第一種方式,管理人員可以在開始進行部署作業之前,先行登入至「install.nutanix.com」
網頁,點選「Add New」 鈕後(如圖 5
所示),依據系統指示進行組態設定後,匯出「Node Configuration」
部署設定檔,待連線至 Foundation GUI
圖形介面時,只要執行匯入組態設定檔的動作即可。
圖 5、先行組態設定並匯出部署設定檔方便後續自動部署
第二種方式,則是直接連線至 Foundation GUI
圖形介面後,一步一步依據系統指示,進行 Nutanix HCI
超融合環境的部署作業,在實戰演練小節中,便是使用這種方式進行部署。
部署前注意事項
在開始執行部署作業之前,管理人員應先再次確認,企業或組織規劃採用的 Nutanix
AHV 和 CVM 的 IP 位址,以及 x86 伺服器的 IPMI 遠端管理 IP
位址,請勿使用「192.168.5.0/24」 網段,因為這是 Nutanix AHV 和 CVM
預設內部溝通的 IP 位址,請避免使用這個網段,雖然可以透過不同的 VLAN
進行邏輯隔離的動作,但仍不建議使用,因為很有可能會造成後續故障排除上的困擾。
全新部署 Nutanix 叢集
在本文實作環境中,已經為 Foundation VM 部署主機,組態設定 IP 位址以及 FQDN
名稱,請開啟瀏覽器後鍵入「http://foundation.lab.weithenn.org:8000/gui/index.html」,即可看到
Nutanix Foundation 部署頁面(如圖 6 所示)。
圖 6、Foundation 部署頁面,請填入新部署組態設定資料
首先,在 Start 頁面中,預設便會顯示全新部署的頁面,在 Create Deployment
區塊中,選項 1
的部份,便是先前提到的第一種部署方式,管理人員先行登入至「install.nutanix.com」
網頁,產生部署設定檔時,只要在此頁面點選「import the configuration file.」
選項,然後匯入預先準備好的部署設定檔,系統便會立即執行全自動的部署工作任務。
在選項 2
硬體平台的部份,管理人員可以在下拉式選單中,選擇採用的硬體伺服器品牌,本文實作環境採用
Dell XC660-12N 硬體伺服器,所以選擇「Dell」
選項,此舉將會影響後續部署時,採用的 IPMI 遠端管理協定,例如,針對 Dell
伺服器採用 iDRAC 進行遠端連接,而針對 HPE 伺服器則採用 iLO
進行遠端連接的工作任務,在 Port 通訊埠方面,則以 TCP Port 443 和 TCP/UDP
Port 623 進行溝通,有關 Foundation 通訊埠的詳細資訊,請參考
Foundation Ports and Protocols | Nutanix Support & Insights
文章內容。
在選項 4 為 CVM 啟用 RDMA Passthrough 功能的部份,必須 x86 伺服器採用
Mellanox 網路卡,例如,CX-4、CX-5、CX-6 才支援啟用 RDMA Passthrough
功能。在選項 5 為叢集節點主機選擇 LACP 或 LAG 的網路設定,選擇採用「None」
選項,則表示使用「Active/Passive」 的網路卡小組設定。
在 Nutanix 叢集架構中,AHV 和 CVM 必須處於同一段網路環境,請在選項 6
中填入為 AHV 和 CVM 規劃的 VLAN ID,並在選項 7 中鍵入 AHV 和 CVM
的子網路遮罩和預設閘道 IP 位址。至於選項 8 則是填入 IPMI
遠端管理的子網路遮罩和預設閘道 IP 位址,這部份便不強硬規定要和 AHV 和 CVM
同網段。
倘若,Nutanix 叢集網路已經規劃完畢,在選項 9
的部份,管理人員只需勾選「Skip this validation」
選項,則無須讓系統在安裝前再次進行網路環境驗證後,才真正執行安裝程序,能夠有效節省不必要的網路環境檢查和驗證時間。
指定 IP 位址和主機名稱
在部署第二階段 Nodes 頁面中,主要為 Dell 伺服器指定 IPMI 遠端管理 IP
位址,以及叢集節點主機的 AHV 和 CVM IP 位址,以及叢集節點 AHV 的主機名稱。
由於,Foundation GUI
可以一次用於部署大量的叢集節點主機,所以有考量到部署的便利性,舉例來說,在右側的
Tools 下拉式選單中,請選擇「Range Autofill」 項目,此時只要在 AHV IP
第一個欄位鍵入 IP 位址,例如,10.10.75.61,那麼系統便會自動填入並遞增 IP
位址(如圖 7
所示),並且此功能也適用於主機名稱,這對於部署大量主機時可以有效節省填寫時間,並減少人為輸入錯誤的情況發生。
圖 7、組態設定叢集節點主機網路資訊
值得注意的是,在 AHV 主機名稱的命名規則方面,最大字元長度支援至「64」
個字元,並且主機名稱只能由「a-z,A-Z,0-9」 以及「-」 和「.」
組成,不支援其它特殊符號,並且主機名稱的開頭和結尾只能是英文字母或數字,否則在部署過程中將會遭遇錯誤而停止部署作業。
選擇 AOS 和 Hypervisor 版本
在部署第三階段 AOS/Hypervisor 頁面中,將會組態設定採用的 AOS 版本、設定
CVM 記憶體大小、Hypervisor 版本。
在 AOS Installer 區塊中,請點選 Upload New AOS Binary 選項,選擇將 AOS
安裝檔案上傳至 Foundation VM 虛擬主機,在本文實作環境中上傳最新釋出的 AOS
7.0.1.6,上傳完畢後系統會自動進行檢查作業,大約需要花費 3-5
分鐘時間,檢查作業完畢後請點選 Refresh Dropdown
選項後,在下拉式選單中,就可以正確看到剛才上傳的 AOS 7.0.1.6 選項(如圖 8
所示)。
圖 8、上傳並使用最新釋出的 AOS 7.0.1.6 版本
在 CVM Memory Allocation 選填欄位,管理人員在此部署階段可以略過,並且在
Nutanix 叢集部署完成後,再依照需求調整 CVM
記憶體空間,或者是在部署階段便一併設定即可。
值得注意的是,如同系統所提示最少應指派 20GB 記憶體空間給予 CVM,主要原因在於
Nutanix 超融合叢集的核心便是 CVM,所以 CVM 資源可用度將會直接影響 Nutanix
超融合叢集的效能表現,舉例來說,倘若叢集使用到 Redundancy Factor 3
的保護機制時,那麼最少應給予 CVM 40GB 記憶體空間,使用到 RDMA
機制時至少應給予 CVM 48GB 記憶體空間,倘若使用到 iSER 至少應給予 CVM 64GB
記憶體空間。詳細資訊請參考
AOS 7 - Controller VM(CVM)Specifications
文章內容,或
Nutanix KB-17871 知識庫文章。
在 Hypervisor Type 部份,選擇企業和組織所要採用的 Hypervisor
類型,在本文實作環境中,選擇 Nutanix 官方支援的
Hypervisor「AHV」,接著點選下方 Hypervisor Installer 區塊中,名稱為 Upload
New AHV Binary 的選項後,選擇和最新 AOS 7.0.1.6 搭配的 AHV 10.0.1.1-15
版本映像檔進行上傳作業,同樣的上傳作業完成後,系統將會自動進行映像檔內容檢查作業,一旦檢查作業完成後,管理人員只要點選
Refresh Dropdown,即可在下拉式選單中看到 AHV 10.0.1.1-15 選項可供選擇(如圖
9 所示)。
圖 9、選擇採用 AHV 並上傳 AHV 10.0.1.1-15 版本映像檔
設定叢集資訊
在部署第四階段 Cluster
頁面中,將會組態設定叢集運作所需的必要資訊,倘若管理人員不希望在此階段組態設定叢集資訊,只要勾選「Skip
Automatic Cluster Formation」
選項,那麼系統便只會部署節點主機的部份,而不會組態設定叢集的部份,後續管理人員必須登入
CVM 控制主機後,以指令的方式建立叢集。
預設情況下,CVM 控制主機的網路流量,會和 AHV Hypervisor 以及客體 VM
虛擬主機的網路流量混合在一起,倘若管理人員希望將網路流量進行切開的話,請勾選「Enable
CVM Network Segmentation」
選項,並搭配實體網路配置和相關網路組態設定即可。
在 Cluster Name
欄位中,請鍵入叢集名稱,本文實作為「ntnx-cluster」,同樣值得注意的是,叢集名稱和先前的
AHV 名稱命名規則相同,只能由「a-z,A-Z,0-9」 以及「-」 和「.」
組成,不支援其它特殊符號。
在 Prism Central Registration
部份,由於此部署作業為建立全新叢集,所以運作環境中並沒有任何 Prism Central
管理主控台存在,請選擇「I don’t want to register this cluster to a Prism
Central」 選項。
請注意,倘若採用預設值「I want to register this cluster to a Prism
Central」 選項,但是卻未填寫任何註冊 Prism Central
管理主控台資訊,雖然在組態設定階段中不會發生任何錯誤,然而後續實際執行部署作業時,將會因為找不到任何可以註冊
Prism Central 管理主控台資訊,導致部署作業失敗。
在 CVM Timezone
的部份,管理人員可以選擇叢集節點主機所處位置的時區,本文實作環境為「(UTC+08:00)Asia/Taipei」(如圖
10 所示)。
或許,有管理人員會困惑,為何只有組態設定 CVM 時區,而沒有設定 AHV
Hypervisor 時區 ? 簡單來說,在 Nutanix 叢集運作架構中,官方預設 AHV
Hypervisor 並沒有額外的主機時區組態設定,而是直接採用「UTC」
時區設定,所以後續若觀看 AHV 日誌內容時,必須記得 AHV 採用的時間為 UTC
世界協調時間。
在下方 Cluster Fault Tolerance
下拉式選單中,選擇企業和組織想要部署的叢集容錯等級,相信管理人員對於過往的
RF=2 和 RF=3 的部份已經熟悉,簡單來說,採用 RF=2 最少需要 3
台叢集節點主機,並且資料總共會有 2 份,因此可以承受 1 台叢集節點主機,或 1
個硬碟發生故障稱為「1N/1D」,採用 RF=3 最少需要 5
台叢集節點主機,資料總共會有 3 份,因此可以承受 2 台叢集節點主機,或 2
個硬碟發生故障稱為「2N/2D」。
然而,從 AOS 7 版本開始,新增一項全新的叢集容錯等級稱為「1N&1D」,採用 RF=3 所以資料總共會有 3 份,但是只需要 3
台叢集節點主機即可建立,同時可以承受 1 台叢集節點主機,以及 1
個硬碟發生故障(如圖 11 所示)。
圖 11、AOS 7 最新叢集容錯等級 1N&1D
簡單來說,採用最新叢集容錯等級 1N&1D 的優點,在於僅僅 3
台叢集節點主機即可建立,並且擁有類似 RF=3
的資料保護效果,然而值得注意的是,這個叢集容錯等級的最大限制,便是最多僅支援
3 台叢集節點主機,無法再為叢集增加更多的叢集節點主機。
了解最新叢集容錯等級 1N&1D
後,管理人員欲選擇採用的話,請在下拉式選單中選擇「rf3_adaptive(minimum 3
nodes,maximum 3 nodes required)」,在 Cluster Virtual IP
的部份,倘若採用的 Hypervisor 為 Hyper-V 時則為必填項目,採用 ESXi 或 AHV
時則為選填,本文實作環境為「10.10.75.50」。
至於 NTP 時間校對伺服器清單,和 DNS
名稱解析伺服器清單,請依照系統指示說明,填入 IP 位址或 FQDN
完整名稱,多筆記錄之間採用不同行進行隔開而非使用逗點(如圖 12
所示)。值得注意的是,這裡的 NTP 和 DNS 伺服器清單,將會直接組態設定給 AHV
和 CVM 使用。
圖 12、組態設定叢集容錯等級、叢集虛擬 IP 位址、NTP 和 DNS 伺服器清單
叢集安全性設定
事實上,在過去舊版本的 AOS
部署流程中,並沒有叢集安全性設定的部份,而是當叢集部署作業完成後,當管理人員登入
Prism Element 管理介面時,系統會提示管理人員應該把預設管理密碼進行變更。
由於本文採用最新 AOS 7.0.1.6 版本,所以在部署流程中,可以針對登入 CVM
管理主機的 nutanix
管理帳號,在部署流程時便組態設定新的管理密碼,以避免管理人員部署叢集後,因為事務繁忙或其它原因忘記變更預設密碼,而導致可能發生的資安風險。
請鍵入新的 nutanix 管理帳號登入密碼(如圖 13
所示),值得注意的是,在密碼的部份必須符合相關原則,例如,最少需要鍵入 8
個字元的密碼,最多支援密碼長度至 199
個字元,並且密碼字元中不可能包含「ntnx」、「nutanix」、「password」
等敏感關鍵字。
圖 13、鍵入新的 nutanix 管理帳號登入密碼
在 Cluster Lockdown 的部份,倘若遵循 Nutanix
安全性最佳建議作法的話,會建議啟用 Cluster Lockdown
機制,也就是系統將會關閉 CVM 和 AHV 的 SSH
連線存取機制,雖然將安全性提升至另一個高度,然而對於不熟悉 Nutanix
運作架構的管理人員來說,可能會造成無法管理叢集的困境。
因此,建議一開始管理 Nutanix 叢集的管理人員,先不要啟用 Cluster Lockdown
機制,而下方允許 SSH 連線存取機制時,則可以選擇採用安全性較高的 SSH
加密金鑰,或是採用傳統密碼的連線方式進行登入(如圖 14 所示)。
圖 14、組態設定叢集是否啟用 Cluster Lockdown 機制和 SSH 連線方式
IPMI 遠端連線
在部署最後階段 IPMI 頁面中,管理人員必須鍵入三項叢集節點主機的 IPMI
遠端連線資訊,包括,IPMI IP 位址、IPMI 管理帳號、IPMI 管理密碼(如圖 15
所示)。
圖 15、填入叢集節點主機的 IPMI 遠端連線資訊
同樣的,當部署的叢集節點主機數量龐大時,可以透過右側的 Tools
下拉選單來幫助自動填寫,不同的是這個頁面是 IPMI 遠端連線資訊,所以在 Tools
下拉選單中,可以讓系統自動填寫主流 x86 伺服器的預設 IPMI
管理帳號及密碼,支援的品牌包括,Dell、Lenovo、Cisco、HPE、Hitachi、Intel、NEC、Fujitsu……等。
填寫完畢後,建議點選「Tools > Test your credentials」,讓系統使用填寫的
IPMI 遠端連線資訊,嘗試進行連線存取的動作,確保 Foundation VM 能夠正確透過
IPMI
遠端連線資訊,連線至每一台叢集節點主機,以便後續部署作業能夠順利進行。
開始部署叢集
一切事宜就緒後,請按下 Start
鈕開始進行部署作業,系統首先會彈出提示訊息,提醒管理人員必須確保部署過程中,執行安裝作業的部署主機不可進入睡眠或待命狀態,請按下「Won’t
Sleep」 鈕繼續。
倘若,管理人員是重新部署叢集時,由於部署作業執行前,系統為了避免發生 IP
位址衝突的情況,所以會事先執行 Ping 相關 IP 位址的動作,此時會發現相關 IP
位址,例如,組態設定的 AHV、CVM 等 IP
位址有回應的情況,為了避免錯誤操作的情況發生,系統會彈出警告訊息,說明相關
IP 位址有回應 Ping
的情況,管理人員是否確認並且忽略這個錯誤且繼續部署作業,請點選「Ignore and
Re-image」 鈕,繼續執行部署作業。
現在,可以在 Foundation 圖形介面中,看到系統開始執行部署作業,總共會有 3
個階段的部署作業(如圖 16 所示),管理人員可以點選 Show
Details,顯示每一台叢集節點主機的部署進度和狀態,以及叢集的部署進度和狀態。
圖 16、開始執行叢集部署作業
第一階段叢集節點主機部署作業完畢後,就會自動進入第二階段叢集部署作業,第三階段註冊叢集至
Prism Central
的部份,因為是全新叢集部署,所以在部署流程中已經組態設定略過,所以第二階段部署完成後,便會自動完成整個部署作業(如圖
17 所示)。
圖 17、順利完成叢集部署作業
事實上,在部署過程中,每個叢集節點主機的最右側會有 Log
選項,管理人員點擊後瀏覽器會自動另開新頁籤,內容便是部署作業的詳細流程,並且網頁內容會依照部署流程而自動更新,建議管理人員可以搭配觀看內容,除了理解部署過程和進度之外,一旦發生錯誤造成部署失敗時,也能夠了解在哪個環節出錯。
在部署叢集時,也可以點選 Log
選項,即時觀看叢集的部署過程和進度。當然,倘若發生部署失敗的情況,並且 Log
內容不易判讀時,管理人員可以下載日誌檔案後,至 Nutanix
支援網頁開啟技術支援,然後將下載的部署失敗日誌進行上傳,交由 Nutanix
支援人員進行判讀幫忙找出問題發生的原因。
結語
透過本文的深入剖析和實戰演練後,管理人員除了理解如何部署 Foundation VM
主機之外,針對大量部署 Nutanix
叢集及節點主機,在本文也都詳細解說每個組態設定的意義,以及需要大量鍵入 IP
位址時,能夠透過系統提供的工具,快速且大量鍵入減少人為錯誤,幫助企業和組織輕鬆完成大量主機部署作業。