︿
Top


網管人雜誌

本文刊載於 網管人雜誌第 233 期 - 2025 年 6 月 1 日出刊,NetAdmin 網管人雜誌 為一本介紹 Trend Learning 趨勢觀念、Solution Learning 解決方案、Technology Learning 技術應用的雜誌,下列筆記為本站投稿網管人雜誌獲得刊登的文章,網管人雜誌於每月份 1 日出刊您可於各大書店中看到它,或透過城邦出版人讀者服務網進行訂閱。





本文目錄






前言

在 Nutanix 超融合基礎架構中,Prism Central(PC)主要擔任集中式主控台的角色,針對 Nutanix 超融合叢集中資源管理和調度的工作任務。此外,當小型企業或組織部署 Nutanix 超融合叢集時,由於運作規模不大,或許可以在不使用 PC 主控台情況下,僅依靠 Nutanix 超融合叢集中預設的 Prism Element(PE),即可完成大部份的維護管理工作任務(如圖 1 所示)。

圖 1、Prism Central(PC)和 Prism Element(PE)運作架構管理示意圖

然而,中大型企業或組織,由於各項營運服務和專案不斷增強,勢必會部署多個 Nutanix 超融合叢集,此時便需要部署 PC 主控台,以便同時管理和調度多個 Nutanix 超融合叢集資源。

因此,在本文中,將說明及實作演練,如何依靠內建的 Prism Central Backup and Restore(PCBR)機制,針對 PC 主控台進行備份和還原的動作。

值得注意的是,在 Nutanix 官方文件中有特別提醒,企業及組織應使用內建的 PCBR 機制,進行 PC 主控台的備份還原作業,不支援使用第三方備份軟體,例如,HYCU、Veeam……等,或是採用 Nutanix Protection Domains 機制,來試圖備份或還原 PC 主控台,若然將會導致 PC 主控台在還原後,出現資料不一致的錯誤或無法正確還原的情況。





PC 主控台災難復原情境

事實上,一旦 PC 主控台遭遇災難或故障損壞情況時,Nutanix 超融合叢集中,VM 虛擬主機或容器及微服務……等營運工作負載,皆不受影響能夠繼續正常運作,然而失去 PC 主控台後,管理人員便會立即面臨,無法即時管理和調度多個 Nutanix 超融合叢集資源的困境。

在災難情境方面,有各式各樣的情況會產生災難,例如,企業或組織遭受惡意攻擊、安全漏洞未即時更新遭遇攻擊、網路環境發生故障、電力供應發生故障、自然災難導致資料中心受損……等,這些災難發生時都有可能導致 PC 主控台故障(如圖 2 所示)。

圖 2、PC 主控台遭受不同層級的災難導致故障的情況示意圖

針對 PC 主控台高可用性方面,支援兩種不同的解決方案,分別是「水平擴充 PC」(Scale-Out Prism Central),以及「PC VM HA 高可用性」(Prism Central VM hosting node High Availability)。在水平擴充 PC 主控台方案中,簡單來說,就是將 PC 主控台的 VM 虛擬主機,由原本單台 VM 虛擬主機運作的方式,水平擴充成「3 台」PC 主控台 VM 虛擬主機規模(如圖 3 所示)。

圖 3、單台 PC 主控台和水平擴充成 3 台 PC 主控台架構示意圖

一旦水平擴充 PC 主控台架構成形後,當其中一台 PC 主控台 VM 虛擬主機,在遭遇災難事件而受損無法運作時,系統將會自動在叢集中,其它仍然存活的 AHV 成員節點中,自動重新產生一台 PC 主控台 VM 虛擬主機。

此外,倘若企業和組織,在一開始部署 PC 主控台時,即便選擇單台 PC 主控台運作規模,管理人員在後續的 PC 主控台操作介面中(如圖 4 所示),也可以很容易進行水平擴充的工作任務,請依序點選「Infrastructure > Settings > Prism Central Management > Scale Out PC」,在彈出的 Scale Out PC 視窗中,填入第二台和第三台 PC 主控台 VM 虛擬主機名稱和 IP 位址後,按下 Expand 鈕,系統便會自動進行 PC 主控台水平擴充工作任務。

圖 4、將單台 PC 主控台運作規模水平擴充成三台 PC 主控台操作示意圖

另一項 PC VM HA 高可用性方案,一旦 PC 主控台所處底層的 AHV 節點主機,發生嚴重災難事件而無法運作時,系統將會把受影響的 PC 主控台,在叢集中自動挑選一台仍然存活的 AHV 成員節點主機,自動將 PC 主控台 VM 虛擬主機重新啟動(如圖 5 所示)。

圖 5、Nutanix VM High Availability 高可用性機制運作架構示意圖

除了上述 PC 主控台高可用性機制之外,企業和組織還可以搭配 PCBR 備份和還原機制,以便遭遇重大災難事件,例如,自然災難導致資料中心停擺時,便能透過 PCBR 備份和還原機制,快速在另一個備援資料中心內,將 PC 主控台快速還原後繼續運作。





PCBR 備份和還原機制

在 Nutanix 內建的 Prism Central Backup and Restore(PCBR)機制中,備份機制支援兩種方式,分別是「持續備份」(Continuous Backup)「時間點備份」(Point-in-Time Backup)

在持續備份機制方面,管理人員可以針對 PC 主控台 VM 虛擬主機,執行持續備份的工作任務,最多指定至 3 個 Nutanix 叢集當成備份目的地,可以達到 RPO 為 30 分鐘而 RTO 為 90 分鐘的目標,這樣的備份等級對於企業和組織來說,能夠在最短時間內快速進行災難回復作業,讓 PC 主控台重新上線服務。

在時間點備份機制方面,管理人員可以為 PC 主控台 VM 虛擬主機,建立多個不同時間點的備份作業,達到 RPO 為 2 小時而 RTO 為 90 分鐘的目標,並且支援將備份資料儲存至公有雲 AWS S3 儲存體當中,並擴充支援至最多 30 天的還原點來回復 PC 主控台。



PCBR 備份複寫機制

在 Nutanix 超融合叢集運作架構中,在 Prism Element(PE)和 Prism Central(PC)中,皆有一個名稱為 Insights Data Fabric(IDF)資料庫,用於儲存組態設定以及基礎架構中,每個系統運作元件和服務的效能和狀態資訊(如圖 6 所示)。

圖 6、在 Nutanix 超融合叢集運作架構中,PC 和 PE 都有 IDF 資料庫

因此,當管理人員為 PC 主控台,組態設定 PCBR 備份機制後,系統便會自動將 PC 主控台的 IDF 資料庫備份資料,每隔 30 分鐘便透過連接埠 Port 9440,定期複寫至指定的 Nutanix 超融合叢集中 PE IDF 資料庫內,並且最多選擇三個 Nutanix 超融合叢集為備份目的地(如圖 7 所示)。

圖 7、PCBR 備份作業啟動後,系統將自動複寫 PC IDF 資料庫至 PE IDF 資料庫

在這樣的運作情境下,由於 PC 主控台 VM 虛擬主機,運作於 Cluster 1 的 Nutanix 超融合叢集中,當 Cluster 1 超融合叢集,因為發生重大災難事件,導致整個 Nutanix 超融合叢集無法運作時,連帶也造成 PC 主控台失效無法正常運作,此時管理人員可以透過 PE 管理介面,在 Cluster 2 或 Cluster 3 超融合叢集中,還原 PC 主控台(如圖 8 所示)。

圖 8、Cluster 1 及 PC 主控台發生災難,還原至 Cluster 3 超融合叢集中

當 PC 主控台順利還原至 Cluster 3 超融合叢集中,一旦 PC 主控台正常運作,並且 PCBR 備份機制開始複寫備份資料時,便會同樣透過連接埠 Port 9440,定期複寫至指定的 Nutanix 超融合叢集中 PE IDF 資料庫內(如圖 9 所示)。

圖 9、還原後的 PC 主控台,繼續定期複寫至其它 PE IDF 資料庫

值得注意的是,倘若後續 Cluster 1 超融合叢集,修復錯誤重新上線後,管理人員應該確保,在 Cluster 1 超融合叢集中的 PC 主控台虛擬主機,保持關機狀態或將其刪除,否則舊有的 PC 主控台再度上線後,可能導致還原後的 PC 主控台資料混亂甚至發生錯誤。





實戰 – PCBR 備份還原

在開始實作 PCBR 備份和還原機制之前,必須先了解相關運作環境需求和限制,以避免執行備份和還原工作任務期間,因運作環境不符合需求而出現未預期的錯誤。請確保 Nutanix 超融合叢集,和 PC 主控台符合下列環境需求和限制:
  • 一旦企業和組織,準備將 PC 主控台備份儲存於公有雲 AWS S3 儲存體時,採用的 PC 主控台版本至少要 2024.1 或更新版本,並且必須組態設定 AWS S3 儲存體生命週期和儲存策略。
  • PC 主控台採用持續備份機制時,支援所有的 PC 主控台版本。
  • 採用持續備份方式備份 PC 主控台時,運作的 Nutanix 超融合叢集,至少要採用 AOS 6.5.3.1 或更新版本。因為,PC 主控台進行還原作業時,只能在 AOS 6.5.3.1 或更新版本的 Nutanix 超融合叢集復原。
  • PC 主控台必須組態設定 NTP 對時機制,以便同步 PC 主控台和已註冊 Nutanix 超融合叢集之間的時間,倘若未組態設定 NTP 對時機制,有可能因為時間不同步,導致備份資料不一致而發生錯誤。
  • 儲存 PC 主控台備份資料的註冊 Nutanix 超融合叢集,必須採用 AOS 6.0 或更新版本。
  • 採用時間點方式備份 PC 主控台時,運作的 Nutanix 超融合叢集,至少要採用 AOS 6.8 或更新版本。因為,PC 主控台進行還原作業時,只能在 AOS 6.8 或更新版本的 Nutanix 超融合叢集復原。



執行 PCBR 持續備份

如同上述運作環境需求和限制,管理人員可以登入 PC 主控台操作介面,點選登入管理者帳號和 About Nutanix 選項後,即可查看目前採用的 PC 主控台版本(如圖 10 所示)。本文實作環境,採用最新釋出的 PC 主控台 2024.3.1 版本

圖 10、查看實作 PCBR 備份還原機制的 PC 主控台版本

確認 PC 主控台版本符合條件後,請依序點選「Cloud Infrastructure > Infrastructure > Prism Central Settings > Prism Central Management」,在此頁面中可以看到有關 PC 主控台各項資訊,並在下方區塊中,可以看到 Prism Central Backup and Restore(如圖 11 所示),準備組態設定 PCBR 備份還原機制,並選擇採用持續備份或時間點備份。

圖 11、準備組態設定 PCBR 備份還原機制

採用持續備份機制時,請在 Continuous Backup 頁籤中,按下 Protect Now 鈕,達成 RPO 為 30 分鐘和 RTO 為 90 分鐘的備份還原策略。值得注意的是,採用持續備份機制時,一旦 PC 主控台發生災難事件必須執行還原作業時,管理人員只能採用距離目前時間最近的一份備份資料進行還原。

採用時間點備份機制的話,請在 Point-in-Time Backup 頁籤中,按下 Protect Now 鈕,達成 RPO 為 2 小時和 RTO 為 90 分鐘的備份還原策略,並且在執行 PC 主控台還原作業時,管理人員可以選擇可用的備份點進行還原作業。

當按下 Protect Now 鈕,在彈出的 Protect Prism Central 視窗中,系統再次提醒管理人員,執行備份工作任務中,哪些項目會執行備份,而哪些項目不會執行備份,例如,VM Template、Catalog……等,確認無誤後,按下 Continue 鈕繼續下個備份流程。

在持續備份流程中,將會出現已經註冊的 Nutanix 超融合叢集清單,屆時這些被勾選的 Nutanix 超融合叢集,將會儲存 PC 主控台的備份資料,管理人員可以視備份需求進行勾選,並且系統提示最多僅能勾選「3 個」Nutanix 超融合叢集,在本文實作環境中,僅備份至單一 Nutanix 超融合叢集,勾選後按下 Proceed 鈕即可(如圖 12 所示)。

圖 12、勾選屆時儲存 PC 主控台備份的目的地 Nutanix 超融合叢集

當按下 Proceed 鈕時,系統將會自動把 PC 主控台中備份標的,立即同步至剛才所勾選的目的地 Nutanix 超融合叢集中,並且運作狀態將顯示為「正在同步」(Sync in Progress)。值得注意的是,建立第一次備份作業,至少需要 30 分鐘時間(如圖 13 所示),倘若採用時間點備份的話,則至少需要 15 分鐘時間。

圖 13、系統開始自動備份並同步至選定的 Nutanix 超融合叢集中

當執行完成第一次 PC 主控台的完整備份後,系統每隔 30 分鐘(如圖 14 所示),會自動與所勾選的目的地 Nutanix 超融合叢集,再次同步並備份這段期間 PC 主控台異動的資料,倘若採用時間點備份機制,則系統會每隔 2 小時,自動同步並備份至公有雲 AWS S3 儲存體。

圖 14、持續備份完整同步後,每隔 30 分鐘再次自動同步備份資料

以本文實作環境來說,一開始僅將 PC 主控台備份至一個目的地 Nutanix 超融合叢集,倘若後續因為專案增加或規模擴大,建立更多 Nutanix 超融合叢集,可以點選 Add Backup,選擇將 PC 主控台備份同步至其它目的地 Nutanix 超融合叢集,當然最多僅能勾選三個目的地 Nutanix 超融合叢集(如圖 15 所示)。

圖 15、持續備份支援最多備份至三個目的地 Nutanix 超融合叢集

又或者企業或組織,因為汰舊換新或其它因素,Nutanix 超融合叢集數量減少時,管理人員也可以隨時點選在目的地 Nutanix 超融合叢集後的 Remove,並在彈出視窗中填入 Remove 文字,確認移除備份目的地 Nutanix 超融合叢集後,按下 Remove 鈕即可中斷備份同步作業(如圖 16 所示)。

圖 16、中斷並移除指定目的地 Nutanix 超融合叢集備份同步作業



一鍵還原 PC 主控台

在還原 PC 主控台方面,一旦使用 PCBR 機制備份 PC 主控台後,還原時能夠將 PC 主控台還原至 AHV 或 ESXi 叢集。此外,採用持續備份機制時,PC 主控台僅能還原至已註冊的 Nutanix 超融合叢集,而採用時間點備份機制的話,PC 主控台可以還原至已註冊和未註冊的 Nutanix 超融合叢集。

值得注意的是,當 PC 主控台還原工作任務完成後,管理人員將會發現,無法立即登入和使用 PC 主控台,原因在於系統在 PC 主控台還原後,必須執行更換憑證、重新啟動 IAM 和 Flow Virtual Networking…… 等基礎架構微服務,建議必須等待 10 分鐘後,待 PC 主控台穩定執行後,才能登入及開始使用 PC 主控台。

在災難復原情境中,模擬 PC 主控台已經無法使用,管理人員必須登入 Prism Element(PE)操作介面中,並且切換至「Settings > VM > Table」,點選 PC 主控台 VM 虛擬主機,在右鍵選單中選擇「Power Off Actions > Power Off > Submit」,直接強制將 PC 主控台 VM 虛擬主機斷電。

由於已經將 PC 主控台 VM 虛擬主機斷電,請切換回 PE 儀表板介面中,查看 PE 與 PC 主控台的連線狀態,確保連線狀態已經從剛才的 Connected,變更為 Disconnected 中斷連線的狀態(如圖 17 所示),否則稍後準備執行還原作業時,將因為與 PC 主控台持續連線中,導致無法選擇持續備份的還原選項。

圖 17、確保 PE 與 PC 主控台中斷連線以便進行還原作業

請依序點選「Settings > Data Resiliency > Restore Prism Central」,在還原選項中,Restore Prism Central from Prism Element 選項,便是適用於持續備份的方式進行還原作業(如圖 18 所示),而 Restore any Prism Central from S3 compatible object storage 選項,則是適用於時間點備份,從公有雲 AWS S3 儲存體進行還原作業,選擇還原方式後按下 Restore Now 鈕。

圖 18、持續備份方式進行 PC 主控台還原作業

在系統彈出的 Restore Prism Central 視窗中,再次提醒管理人員,除了超過 90 天的 Calm、Catalog、VM Templates 和 Metrics 之外,其它 PC 主控台所有相關組態設定將會還原,並且系統會自動部署一台新的 PC 主控台,以便取代舊有已經損壞的 PC 主控台,確認執行還原作業,請按下 Continue 鈕。

首先,在 1. Source 頁面中,在 Select Backup 區塊內,由於執行持續備份,所以系統將會自動採用,距離目前時間點最新的一份備份資料,確認後按下 Next 鈕。在 2. Installation 頁面中,顯示原本 PC 主控台運作在哪個 Nutanix 超融合叢集中,並且顯示即將還原的 PC 主控台版本(如圖 19 所示)。

圖 19、顯示即將還原的 PC 主控台版本

在 3. Configuration 頁面中,將顯示即將還原 PC 主控台的網路組態,包括,使用的網段、遮罩、預設閘道、DNS 名稱解析伺服器、NTP 時間校對伺服器、Container 儲存資源、PC 主控台 IP 位址……等,確認無誤後按下 Next 鈕。

在 4. Microservices 頁面中,顯示 PC 主控台的內部微服務使用的網域名稱,以及虛擬網路組態設定,原則上無須變更採用預設值即可。在 5. Summary 頁面中,再次檢查 PC 主控台還原資訊是否正確無誤,確認後按下 Restore 鈕立即進行還原工作任務(如圖 20 所示)。

圖 20、準備執行 PC 主控台還原工作任務

原則上,PC 主控台還原工作任務,在 PC 主控台執行個體方面,大約在 60 分鐘至 90 分鐘之內還原完成,而 PC 主控台組態設定資料,則大約需要 60 分鐘至 120 分鐘還原完畢,當然具體的還原時間,取決於 PC 主控台運作規模以及組態設定資料量而定,管理人員可以在 Task 視窗中,查看 PC 主控台的還原進度(如圖 21 所示)。此外,PC 主控台還原完成後,需要額外約 30 分鐘到 40 分鐘後,才能正確顯示其它 VM 虛擬主機效能資訊。

圖 21、查看 PC 主控台還原進度

在還原 PC 主控台期間,管理人員應考慮下列相關事項,以避免還原後的 PC 主控台無法順利運作,或還原後發生非預期的錯誤:
  • 一旦執行 PC 主控台還原作業後,倘若舊有的 PC 主控台 VM 虛擬主機,如果還處於可用狀態的話,請確保舊有 PC 主控台處於關機狀態或將其刪除,否刪舊有 PC 主控台一旦重新上線,有可能會導致還原後的 PC 主控台資料發生錯亂或資料損壞。
  • 倘若,還原 PC 主控台的工作任務失敗,請連絡 Nutanix 技術支援,而不要再度開啟已經受損的舊有 PC 主控台,以避免災難事件擴大後更難以處理。
  • 採用時間點備份機制時,在還原 PC 主控台後,建議更改預設憑證,請在 Prism Central Management 頁面中,更改 S3 Bucket 儲存體的預設憑證。
  • 在舊有 PC 主控台中,若有組態設定 HTTP Proxy Server 或 FQDN 時,還原 PC 主控台後應重新組態設定,確保新的 PC 主控台能夠正確使用,並且重新套用 HTTP Proxy Server 或 FQDN 組態設定。
  • 在舊有 PC 主控台中,若有仍在執行的計劃中復原工作任務(RPJ)時,那麼請依照 Nutanix KB-10962 知識庫文章內容 ,將所有卡在運作狀態中的復原工作任務終止,以便進行還原 PC 主控台的工作任務。
  • 倘若,在舊有 PC 主控台中有啟用加密機制,應先執行「data-at-rest-encryption backup-software-encryption-keys」指令,備份加密金鑰的 Secret Keys 並另行存放後,在還原 PC 主控台之後,執行「mantle_recovery_util」指令,還原加密金鑰的 Secret Keys 至新的 PC 主控台。
  • 倘若,在舊有 PC 主控台中使用 LCM Dark Site 更新機制,在還原 PC 主控台之後,請參考 Nutanix KB-17966 知識庫文章內容 。

在本文實作環境中,花費 1 小時 48 分順利重新部署 PC 主控台,並成功還原 PC 主控台組態設定(如圖 22 所示)。值得注意的是,在嘗試登入還原後的 PC 主控台時,管理人員將會發現無法使用密碼登入,請改為採用 PC 主控台預設管理密碼「Nutanix/4u」登入,就像初始部署 PC 主控台一樣,成功登入後便會立即請管理人員變更密碼。

圖 22、成功透過內建 PCBR 機制還原 PC 主控台





結語

透過本文的深入剖析和實戰演練後,管理人員除了理解內建的 PCBR 備份和還原機制外,實際操作 PCBR 持續備份機制,以及模擬 PC 主控台發生災難後立即進行還原,讓企業和組織無須額外的備份軟體,即可輕鬆將 PC 主控台進行備份和還原。
文章標籤: ,