網管人雜誌

本文刊載於 網管人雜誌第 125 期 - 2016 年 6 月 1 日出刊,NetAdmin 網管人雜誌 為一本介紹 Trend Learning 趨勢觀念、Solution Learning 解決方案、Technology Learning 技術應用的雜誌,下列筆記為本站投稿網管人雜誌獲得刊登的文章,網管人雜誌於每月份 1 日出刊您可於各大書店中看到它或透過下列圖示連結至博客來網路書店訂閱它。

文章目錄

前言
Microsoft Azure Stack 概觀
MAS POC 運作架構
部署 MAS 的前置作業
安裝 MAS TP1 混合雲平台
登入 MAS 入口網站
提供 IaaS 服務
建立租用戶使用者帳號
利用 IaaS 服務建立 VM 虛擬主機
結語



前言

拜「雲端運算(Cloud Computing)」技術成熟之賜,各種產業類別不管是傳統產業或科技產業,每家企業或組織當中的商務流程,或多或少都會使用到雲端服務業者建立的服務(例如,OneDrive、Gmail……等),或者由企業或組織在內部資料中心內自行建立私有雲環境。

根據 RightScale 最新的雲端運算發展趨勢調查結果顯示,企業或組織採用雲端運算技術的比例從 2015 年的 93 % 上升至 95 %,在自建「私有雲(Private Cloud)」的部分則是從 63 % 提升為 77 %。此外,因為「公有雲(Public Cloud)」環境的成熟,加上自建私有雲的比例不斷提升,連帶讓「混合雲(Hybrid Cloud)」的佔有比例從 58 % 大幅上升至 71 %,並且佔有比例呈現年年不斷上升的趨勢。

圖1、2016 年雲端運算趨勢 – 混合雲佔有比例明顯上升


Microsoft Azure Stack 概觀

MAS(Microsoft Azure Stack),是微軟專為新世代混合雲運作架構而設計的平台。簡單來說,雖然公有雲運作環境及技術都已經成熟,然而企業或組織對於將內部的機敏資料(例如,營運報表、顧客資料及採購習性……等),存放至公有雲環境時雖然已經將機敏資料加密後才上傳,但仍覺得機敏資料並非放在內部資料中心來得安心,但是審視內部資料中心時又發現缺少公有雲等級的靈活性或擴充性。

現在,企業或組織可以透過 Microsoft Azure Stack 混合雲平台,自行打造出如同 Microsoft Azure 公有雲的靈活性及運作規模,但是這樣的高可用性、高靈活性的平台掌控權,可以完全由企業或組織的 IT 所管控,並且在需要時能夠輕鬆與公有雲介接達成混合雲的運作架構。

圖2、MAS 混合雲平台提供與 Azure 公有雲一致的操作體驗


熟悉 Microsoft Azure 公有雲操作環境的 IT 管理人員,對於 Azure 入口網站(Azure Portal)應該不陌生,早期為採用 Azure Service Management 的管理模式,只要瀏覽 https://manage.windowsazure.com 網址,並於登入畫面鍵入 Azure 訂閱帳戶資訊即可登入。事實上,在 Windows Server 2012 R2 的運作環境中,企業或組織也可以輕鬆自行打造私有雲平台稱之為 Microsoft Azure Pack,其入口網站及管理模式也是採用 Azure Service Management。

圖3、舊有的 Microsoft Azure 入口網站採用 Azure Service Management 管理模式


從 2015 年 12 月 2 日起,微軟宣佈新版的 Azure 入口網站正式啟用,它採用新式的 ARM(Azure Resource Manager)管理模式,只要瀏覽 https://portal.azure.com 網址,並於登入畫面鍵入 Azure 訂閱帳戶資訊即可登入。當然,為了讓習慣使用舊有入口網站的 IT 管理人員,能夠慢慢過渡到新的 Azure 入口網站操作模式,所以目前同一個 Azure 訂閱帳戶能夠同時使用新舊 Azure 入口網站。

圖4、新式的 Microsoft Azure 入口網站採用 Azure Resource Manager 管理模式

同樣的,為了提供給 IT 管理人員一致的管理操作體驗平台,以及開發人員一致的程式碼編寫平台(只要內部編寫一次,上傳至公有雲環境中便可立即使用),屆時企業或組織所自行打造的 MAS 混合雲平台,也同樣採用 Azure Resource Manager 管理模式。

圖5、同樣採用 Azure Resource Manager 管理模式的 Microsoft Azure Stack 入口網站


MAS POC 運作架構

目前,MAS 混合雲平台仍處於「技術預覽(Technical Preview)」階段,並且在 2016 年 1 月時釋出 MAS TP1(Technical Preview 1)版本。由於目前 MAS TP1 仍為 POC 概念性驗證階段,因此可以將所有功能、元件、角色以及運作環境,都部署在「1 台」實體伺服器當中進行運作。

下列為 MAS TP1 運作架構中,相關 VM 虛擬主機所擔任的角色及功能說明:

  • ADVM: 負責整個 MAS 運作環境的基礎架構,例如,Active Directory、DNS、DHCP……等。
  • ACSVM: 負責 ACS(Azure Consistent Storage)儲存資源服務,同時將與 SQLVM 協同運作。
  • MuxVM: 負責 SLB(Software Load Balancer)與 Network Multiplexing Service 等,有關網路流量負載平衡部分的運作機制。
  • NCVM: 透過「網路控制器(Network Controller,NC)」運作元件及機制,負責整個 MAS 運作環境中 SDN 軟體定義網路的部份。
  • NATVM: 負責整個 MAS 運作環境中 NAT(Network Address Translation)機制,以便處理所有 VM 虛擬主機的「流出(Outbound)」網路流量。
  • xRPVM: 負責整個 MAS 運作環境中,所有資源如 Compute / Network / Storage 等核心資源提供者(Core Resource Provider),同時將與 SQLVM 協同運作。
  • SQLVM: 負責承載 ACS / xRP 運作角色中需要資料庫服務的部分。
  • PortalVM: 負責建立 Azure Resource Manager 管理模式,以及運作 Microsoft Azure Stack 入口網站。
  • ClientVM: 提供 PowerShell、Vistual Studio 等相關開發工具,以便 IT 管理人員及開發人員進行測試及除錯作業。
  • Storage Service: 在 MAS TP1 版本中,搭配的 Windows Server 2016 TP4 作業系統,將會提供的儲存資源服務有 CS Blob Service(Microsoft Azure Consistent Storage Blob Service)、SOFS(Scale-Out File Server)、ReFS CSV(Resilient File System Cluster Shared Volume)、Virtual Disk、Storage Space、Storage Spaces Direct。

圖6、Microsoft Azure Stack POC 運作架構


部署 MAS 的前置作業 

由於目前 MAS TP1 技術預覽版本中,採用 One-Node Deployment 運作架構,也就是只要 1 台實體伺服器,便可以安裝 MAS 混合雲平台並且實作所有功能。

原則上,只要採用通過 Windows Server 2012 R2 硬體認證的伺服器即可。那麼,讓我們來看看這台實體伺服器的詳細硬體需求:

  • CPU 處理器: 採用 2 顆 CPU 處理器,總運算核心至少應有 12 Cores,但建議配置 16 Cores 運算核心比較理想。同時,必須支援硬體輔助虛擬化技術,例如,Intel VT-x / EPT 或 AMD AMD-V / NPT。
  • 記憶體空間: 至少應具備 96 GB 記憶體空間,但建議配置 128 GB 記憶體空間較為理想。
  • BIOS: 啟用硬體輔助虛擬化技術,以支援運作 Hyper-V 虛擬化平台。
  • 網路卡: 採用通過 Windows Server 2012 R2 硬體認證的網路卡即可,無須其它特殊功能。
  • 作業系統磁碟: 可採用 「1 顆」SSD 固態硬碟或 SAS / SATA 機械式硬碟,磁碟空間大小至少應有 200 GB。
  • 資料磁碟: 至少要有 「4 顆」SSD 固態硬碟或 SAS / SATA 機械式硬碟,磁碟空間大小至少應有 140 GB 但建議為 250 GB。這些磁碟空間,屆時將存放 Azure Stack POC 運作環境中的所有資料。值得注意的是,若採用混合硬碟類型時硬碟介面的格式必須一致才行,否則屆時安裝過程將會產生錯誤,舉例來說,若採用 SATA SSD 固態硬碟的話,那麼必須搭配 SATA 機械式硬碟才行。此外,目前尚未支援採用 SATADOM 及 NVMe SSD 固態硬碟。
  • 硬碟控制器: 建議採用 Simple HBA 硬碟控制器(例如,LSI 9300-8i),若採用 RAID HBA 硬碟控制器的話,那麼必須支援 「Pass-Through Mode」,或是可以針對「每顆硬碟」建立 「RAID-0」 才行,否則屆時將因為 MAS 的 SDS 軟體定義儲存技術,無法將資料磁碟建立成儲存資源而導致安裝失敗。


當實體伺服器符合上述硬體需求後,便可以進入安裝 MAS 混合雲平台的階段了,但是在開始部署 MAS 運作環境之前還有幾個小細節值得注意。

首先,在作業系統方面當安裝 Windows Server 2016 DataCenter TP4 之後,必須安裝 KB 3124262 更新以進行相關修正作業,並且這台 MAS 實體主機「」需要預先加入網域環境,屆時實體主機將會加入 ADVM 所建立的 「StackAzure.local」 網域環境中。

此外,這台 MAS 實體主機網路環境的部分,請不要使用這些網段 「192.168.100.0/24、192.168.133.0/24、192.168.200.0/24」,因為這些網段必須保留給 MAS 運作環境中,相關運作元件及角色的 VM 虛擬主機使用。同時,這台 MAS 實體主機必須可以透過 Port 80、443,存取 graph.windows.net login.windows.net 網際網路站台。

最後,你必須建立 Microsoft Azure AD 帳戶,以便屆時在 MAS 運作環境中能夠設定,例如,Clouds、租用戶使用者帳號、Tenant Plans、Quota……等。

圖7、建立 Microsoft Azure AD 帳戶


安裝 MAS TP1 混合雲平台

當安裝 MAS 運作環境的前置作業準備完畢後,便可以連結至 Microsoft Azure 官方網站,下載 Microsoft Azure Stack POC TP1 安裝檔案,並存放至已經安裝好 Windows Server 2016 TP4 的 MAS 實體主機中,例如,C:\MAS 資料夾內。

圖8、下載 Microsoft Azure Stack POC TP1 安裝檔案

當你解開剛才所下載的 Microsoft Azure Stack POC.exe 安裝檔案後,便會看到稍後進行部署作業的 Azure Stack POC PowerShell 指令碼檔案,以及其它相關安裝檔案。

圖9、解開 Microsoft Azure Stack POC.exe 安裝檔案

請以「系統管理員身分」開啟 PowerShell 執行環境,切換至部署 Azure Stack POC 的 PowerShell 指令碼路徑,鍵入指令 「.\DeployAzureStack.ps1 -verbose」,開始安裝 Azure Stack POC 運作環境。

首先,在安裝過程中將會跳出 「Please enter the password for the built-in administrator」 訊息。此時,請鍵入 MAS 運作環境的預設管理者密碼,你必須鍵入 2 次相同的管理者密碼以便通過驗證。

接著,將會出現 「Please sign in to your Azure account in the Microsoft Azure sign in windows」 訊息。此時,請鍵入剛才登入 Microsoft Azure 訂閱帳戶,並且建立給 MAS 運作環境使用 Microsoft Azure AD 管理者帳號及密碼,通過使用者身分驗證程序後,將會列出該 Azure 訂閱帳戶中所有的 Azure AD 資訊,請選擇要用於 MAS 運作環境的 Azure AD 即可。

圖10、鍵入 Microsoft Azure AD 管理者帳號及密碼

選擇好用於 MAS 運作環境的 Azure AD 之後,可以看到系統執行 「Show-WapToken.ps1」 指令碼,並且顯示 Microsoft Azure Stack POC Deployment 安裝畫面。此時,你可以開啟 Azure 入口網站並登入 Azure 訂閱帳戶,切換到用於 MAS 運作環境的 Azure AD 後,可以看到在剛才的 MAS 安裝流程當中,已經分別建立 Service AdminTenant Admin 帳戶。

圖11、MAS 安裝流程中自動建立的 Azure AD 帳戶

當 MAS 部署流程順利開始後,首先你會發現實體主機重新啟動,此時便是 MAS 安裝程序為實體伺服器啟用 Hyper-V 角色,並加入 MAS 運作環境中由 ADVM 所建立的 「AzureStack.local」 網域環境。接著,便會依序建立 MAS 運作環境中相關的 VM 虛擬主機,例如,ACSVM、PortalVM、SQLVM……等。

整體 MAS POC 運作環境的部署時間,將依 MAS POC 實體伺服器的硬體資源而定,並且在部署期間將會重新啟動數次,但是每當主機重新啟動並再次登入系統後,將會繼續出現 PowerShell 部署視窗,以便了解目前 MAS 的安裝進度,一旦 MAS 部署作業完畢後,最後便會看到 「Congratulations ! Microsoft Azure Stack POC is successfully deployed」 訊息,並且關閉 PowerShell 部署視窗。

圖12、MAS POC 運作環境即將部署完成

倘若,你在 MAS 部署期間遭遇錯誤而無法繼續安裝程序時,你可以切換至 「C:\ProgramData\Microsoft\AzureStack\Logs」 路徑,查看日誌檔案中詳細的錯誤訊息資訊以進行故障排除作業。

舉例來說,筆者在初次安裝時遭遇到 「POCFabricInstaller failed because the following tasks failed: CreateCSV」 錯誤,並且導致整個 MAS 安裝部署程序停止。此時,切換至日誌檔案存放路徑後,查看以 「CreateCSV」 為開頭的日誌檔案閱讀詳細的錯誤資訊。

在此次的實作環境中,由於 MAS POC 實體伺服器配置 SATADOM 儲存媒體,但目前 MAS POC 運作環境尚未支援,因此造成 MAS 在建立 SDS 軟體定義儲存資源時,無法將 SATADOM 儲存媒體納入管理,進而發生錯誤最後導致 MAS 部署作業停止。因此,開啟裝置管理員後將 SATADOM 裝置「停用」,然後再次執行「.\DeployAzureStack.ps1 -verbose」部署指令,便順利完成 MAS 環境的部署作業。

圖13、遭遇錯誤導致 MAS 安裝部署程序停止


登入 MAS 入口網站

順利安裝 MAS POC 運作環境後,將會在桌面上看到 MAS 安裝程序所建立的 RDP 遠端桌面連線圖示(ClientVM.AzureStack.local.rdp),點選執行後將採用預設「AzureStack\AzureStackUser」使用者帳號登入,在使用者密碼欄位的部分,請鍵入在 MAS 安裝流程中所鍵入的預設管理者密碼。

順利登入 ClientVM 環境中,請點選桌面上的 Microsoft Azure Stack POC Portal 圖示,此時將會開啟 Microsoft Edge 瀏覽器,並連結至 MAS 入口網站(https://portal.azurestack.local)。由於,目前尚未建立任何 MAS 環境中的租用戶使用者帳號,因此請鍵入此 MAS 環境的 Azure AD 管理者帳號及密碼,順利通過使用者身分驗證程序後,便可以看到 Microsoft Azure Stack 入口網站。

圖14、登入 Microsoft Azure Stack 入口網站


提供 IaaS 服務

與 Microsoft Azure 公有雲同樣的租用戶服務概念,MAS 運作環境的管理人員,可以針對企業或組織的內部需求,規劃出各式各樣的 IaaS 服務。在 MAS 運作環境中,可以透過 Subscription、Offer、Plan、Service 等不同項目,提供不同「租用戶(Tenant)」所需的各項 IaaS 服務:

  • Subscription: 定義租用戶可以使用哪些 Offer、Plan、Service。
  • Offer: 可以使用哪些 Plan,例如,Plan-A 為 VM 資源而 Plan-B 為 Storage 資源。
  • Plan: 組態設定 Quota 機制,以便限制租用戶能使用的資源範圍,例如,限制只能建立 2 台 VM 虛擬主機、總共只能使用 10 vCPU 虛擬處理器及 16 GB vRAM 記憶體……等。
  • Service: 定義使用的應用程式及服務資源,例如,VM、SQL Server 資料庫、SharePoint……等。

圖15、Subscription、Offer、Plan、Service 階層關係示意圖

順利以 MAS 管理員身份登入後,依序點選 「New > Tenant Offers and Plans」 項目,即可建立屆時給予租用戶使用的訂閱及相關服務。一般來說提供的 IaaS 服務,都會勾選 「Storage、Compute、Network」 這 3 個 Provider 項目,或者 IT 管理人員可以依內部需求進行資源項目的勾選。

圖16、建立 Plan、Offer、Subscription 項目

值得注意的是,預設情況下建立好的 Plan 及 Offer 項目運作狀態為 「Private」,也就是只有 MAS 管理員才能看到,而租用戶登入後並無法看到 Plan 及 Offer,請點選 「Change State」 圖示將運作狀態調整為 「Public」,那麼租用戶登入後便可以訂閱並使用該 Plan 及 Offer。此外,若將運作狀態調整為 「Decommissioned」 的話,那麼表示已經訂閱的租用戶將不受影響,但是新的租用戶則無法進行訂閱的動作。

圖17、將 Plan 運作狀態從 Private 調整為 Public


建立租用戶使用者帳號

當 MAS 管理人員順利建立好租用戶訂閱方案後,便可以著手建立租用戶使用者帳號,以便驗證租用戶登入後是否能夠順利使用相關資源。請登入 Microsoft Azure 訂閱,切換至 MAS 環境的 Azure AD 當中,在新增使用者類型下拉式選單中,請選擇至「您組織中的新使用者」項目,在使用者設定檔頁面中角色下拉式選單請選擇「使用者」項目即可。在此次實作環境中,我們建立名稱為 「Chris Lee」 的租用戶使用者帳號。

圖18、建立租用戶使用者帳號

接著,便可以使用此租用戶使用者帳號登入 MAS 入口網站,第一次登入時系統將會要求重新設定使用者密碼,順利登入 MAS 入口網站後,租用戶便可以按下 「Get a Subscription」 圖示進行訂閱的動作,在訂閱的內容中按下 「Select an offer」 項目,就可以看到剛才 MAS 管理人員所定義的 Offer 內容,最後便完成租用戶訂閱方案的動作。

圖19、租用戶順利完成訂閱方案的動作

倘若租用戶登入 MAS 入口網站點選 Get a Subscription 後,卻發現看不到任何訂閱方案時,請使用 MAS 管理者帳號登入,確認相關的 Offer / Plan 的運作狀態是否為 Public,若運作狀態為 Private 則租用戶便無法進行訂閱的動作。

利用 IaaS 服務建立 VM 虛擬主機

當租用戶順利完成訂閱方案的動作後,便可以馬上使用 IaaS 服務來建立 VM 虛擬主機。在預設情況下,MAS 運作環境已經建立 Windows Server 2012 R2 DataCenter 範本,你可以直接使用此 VM 虛擬主機範本,或者由 MAS 管理人員自行建立新的 VM 範本。此實作環境中,租用戶登入 MAS 入口網站後,請依序點選 「New > Compute > WindowsServer-2012-R2-Datacenter」 項目即可。

圖20、準備利用 IaaS 服務建立 VM 虛擬主機

接著,只要經過簡單的 4 個操作步驟即可部署 VM 虛擬主機,分別是 「Basics > Size > Settings > Summary」:

  1. Basics: 首先,你必須設定 VM 虛擬主機的電腦名稱,以及 Guest OS 的管理者帳號及密碼,同時選擇採用的訂閱名稱及資源群組名稱。
  2. Size: 預設情況下,MAS 已經建立好 2 種 VM 虛擬主機的運作規模,分別是 A1 Basic(1 Core、1.75 GB vRAM、2 Data Disk)以及 A2 Standard(2 Cores、3.5 GB vRAM、4 Data Disk)。當然,MAS 管理人員也可以自行建立不同大小的運作規模,以便租用戶挑選使用。
  3. Setting: 選擇所要採用的儲存體帳戶,以及這台 VM 虛擬主機所要採用的網路組態設定資訊。
  4. Summary: 最後,檢查這台 VM 虛擬主機的相關組態設定資訊是否正確無誤,確認後即可立即進行部署的動作。


確認 VM 虛擬主機相關資訊無誤後,便可以按下 OK 鈕開始進行部署的動作,此時便可以在 MAS 入口網站中看到正在部署 VM 虛擬主機的訊息,部署作業完成後的 VM 虛擬主機,預設將會採用 192.168.133.x/24 網段的 IP 位址。

圖21、透過 MAS 入口網站的 IaaS 服務部署 VM 虛擬主機


結語

透過本文的說明及實作演練,相信你已經了解 MAS 混合雲平台的強大功能,對於希望在內部資料中心建立私有雲及混合雲平台的企業或組織來說,建構 MAS 平台將能有效幫助 IT 管理人員及開發人員。同時,熟悉 Microsoft Azure 公有雲環境的 IT 管理人員,應該不難發現在 MAS 環境的使用者操作體驗,都跟 Azure 公有雲環境一模一樣,對於已經在使用 Azure 公有雲服務的企業使用者來說,完全不需要適應新的操作介面及方式便可立即使用。

活動簡介

Windows Server 2012(Hyper-V 3.0)已經大幅提升虛擬化平台整合能力。現在,Windows Server 2012 R2(Hyper-V 3.0 R2)功能更上一層樓,舉凡第二世代虛擬主機格式、AVMA 自動化授權啟用、線上擴充及縮小虛擬磁碟、Storage QoS…等功能強大應有盡有。

你知道「」用建立容錯移轉叢集環境(Failover Cluster),也能夠達成VM虛擬主機線上遷移(Live Migration)、儲存即時遷移(Live Storage Migration)、無共用儲存即時遷移(Shared-Nothing Live Migration)…等功能嗎? 本課程除了將實作演練之外,同時深入剖析在企業或組織營運環境當中,該如何從無到有建置並導入Hyper-V虛擬化技術,協助你打造出最佳虛擬化平台。

此外,下一代微軟雲端作業系統 Windows Server 2016 年底前即將推出,在本課程中也將帶領學員了解新的特色功能,例如,SDS 軟體定義儲存技術、SDN 軟體定義網路技術、Storage Replica 儲存複本技術…等。



活動資訊

時間: 每週六 09:00 ~ 17:00
地點: 台中科技大學 (台中市北區三民路 91 號 2 樓)
日期:       


課程大綱

實務班

一、雲端運算模型
          1. x86 虛擬化技術
          2. 雲端運算三種服務類型、四種部署模型、五種服務特徵
          3. 虛擬化環境評估

二、私有雲網路架構
          1. VM 虛擬主機通訊(Traffic)流量規劃及 QoS 流量限制
          2. VM 虛擬主機遷移(Migration)流量規劃
          3. VM 虛擬主機儲存(iSCSI Target、iSCSI Initiator)流量規劃
          4. SDN 網路虛擬化技術

三、私有雲儲存架構
          1. 七種磁碟陣列(RAID)模式
          2. 三種類型的儲存設備 DAS、NAS、SAN(IP-SAN、FC-SAN)
          3. 如何選擇儲存設備、控制器、擴充櫃
          4. 如何計算儲存設備 IOPS 效能
          5. Storage Space Direct 儲存虛擬化技術

四、Hyper-V 虛擬化平台及 VM 虛擬主機
          1. 運作模式切換(GUI / Server Core)
          2. 安裝與設定 Hyper-V 角色
          3. 管理虛擬網路
          4. 第二世代 VM 虛擬主機
          5. 虛擬磁碟種類、線上調整磁碟空間
          6. 客體服務
          7. 加強的工作階段
          8. VM 授權自動啟用
          9. 儲存資源 IOPS 品質控制
          10. 重複資料刪除
          11. 備份及還原(Export / WSB / Azure)

五、計畫性停機解決方案
          1. 即時遷移(Live Migration)
          2. 儲存即時遷移(Live Storage Migration)
          3. 無共用儲存即時遷移(Shared-Nothing Live Migration)
          4. 跨版本即時遷移(Cross version Live Migration)

進階班

一、高可用性及高彈性的虛擬化架構規劃實務
          1. 如何規劃所要採用的 x86 實體伺服器規格
          2. CPU 中央處理器指令集的選擇
          3. Memory 記憶體的選擇
          4. NVNe / SSD / SAS / NL-SAS / SATA 硬碟種類的選擇與 IOPS 規劃
          5. RAID Card 的選擇與 RAID 模式規劃
          6. Network 網路環境的規劃

二、建置容錯移轉叢集環境
          1. 選擇儲存資源(DAS/NAS/SAN)
          2. 建立容錯移轉叢集

三、計畫性及非計畫性停機方案
          1. 即時遷移(Live Migration)
          2. 儲存即時遷移(Live Storage Migration)
          3. 無共用儲存即時遷移(Shared-Nothing Live Migration)
          4. 快速遷移(Quick Migration)

四、VM 虛擬主機
          1. 應用程式監控(VM Monitoring)
          2. 主機反關聯性(Anti-Affinity)
          3. 叢集共用磁碟區快取(CSV Cache)

五、異地備援方案
          1. Hyper-V 複本代理人
          2. 測試容錯移轉
          3. 計畫性容錯移轉
          4. 非計畫性容錯移轉
          5. 延伸複寫

六、叢集感知更新
          1. 叢集節點維護模式(Maintenance Mode)
          2. 叢集感知更新(CAU)
          3. 匯出叢集感知更新報表

書籍簡介

Windows Server 2012 R2Hyper-V Server 2012 R2,都提供最好的 Hyper-V 虛擬化平台功能。在 Hyper-V 當中第 2 世代格式的 VM 虛擬主機,除了安全性增強之外啟動作業系統的時間更短,並且有效縮短 VM 虛擬主機安裝客體作業系統的時間,同時還能自動啟動客體作業系統軟體授權,同時在 2012 R2 版本當中,還有許多新增及增強的特色功能。在本書當中,我們將會教導你在實務應用上,有關 Hyper-V 最佳化組態設定及最佳建議作法,以便充分發揮 Hyper-V 虛擬化平台的高可用性、高擴充性、高效能。


誰適合閱讀此書

本書是針對具有 Hyper-V 基礎管理經驗,以及想深入了解 Hyper-V 細部功能的人而寫。

如果,在你的測試環境中已經有 Hyper-V 虛擬化環境,現在你想要將測試的Hyper-V 虛擬化環境,轉移到正式的線上營運環境時,那麼這本書就是專為你而寫!!

如果,你是 Hyper-V 的初學者那麼本書也值得你參考。但是,同時間你應該找一本 Hyper-V入門的書一同閱讀及實作。


網路購書



你將會從本書中學習到:

  • 透過 PowerShell 自動化機制,部署 Hyper-V 及 VM 虛擬主機。
  • 建立 HA 高可用性容錯移轉叢集解決方案。
  • 建立 Hyper-V 複本異地備援機制,以及 Azure Site Recovery 混合雲異地備援機制。
  • 深入剖析不同的儲存資源應用情境 (SAN、SOFS、Storage Spaces、MPIO、CSV、QoS、NTFS、ReFS......等),並針對 Windows Server 2012 R2 及 Hyper-V 儲存資源進行效能規劃及最佳建議作法。
  • 建立一個高效能且靈活運作的網路基礎架構,包括 vSwitch 虛擬網路交換器、網路卡小組、融合式網路、儲存網路、SMB Direct (RDMA)、IPAM……等。
  • 幫助你了解 Hyper-V 運作架構中,如何進行最佳化效能調校並測試運作效能。
  • 介紹 System Center 家族的各種角色及功能,以及如何透過 System Center 管理 Windows Server 及 Hyper-V 虛擬化環境。
  • 如何從舊版 Hyper-V 或其它 Hypervisors 虛擬化平台,遷移至最新版本的 Hyper-V 虛擬化環境。



本書導讀

  • 《第 1 章、加速 Hyper-V 部署作業》,深入剖析 Hyper-V 主機理想的安裝方式,進而採用全自動化安裝的 VM 模組。
  • 《第 2 章、HA 高可用性解決方案》,深入討論有關 Hyper-V 容錯移轉叢集組態配置及最佳作法 。
  • 《第3章、備份及災難復原》,從備份 Hyper-V 主機及 VM 虛擬主機的方法開始,到 Hyper-V 複本以及如何針對 Hyper-V 進行災難復原。
  • 《第 4 章、Storage 效能規劃最佳作法》,深入剖析不同的儲存資源應用情境,對於Windows Server 2012 R2 及 Hyper-V 的影響。
  • 《第 5 章、Network 效能規劃最佳作法》,深入剖析不同的虛擬網路環境,對於Windows Server 2012 R2 及 Hyper-V 的影響。
  • 《第 6 章、Hyper-V 最佳化效能調校》,幫助你了解 Hyper-V 運作架構中,如何進行最佳化效能調校並測試運作效能。
  • 《第 7 章、透過 System Center 進行管理》,介紹 System Center 家族的各種角色及功能,以及如何透過 System Center 管理 Windows Server 及 Hyper-V 虛擬化環境。
  • 《第 8 章、遷移至 Hyper-V 2012 R2》,討論如何從舊版 Hyper-V 或其它 Hypervisors 虛擬化平台,遷移至最新版本的 Hyper-V 虛擬化環境。

網管人雜誌

本文刊載於 網管人雜誌第 124 期 - 2016 年 5 月 1 日出刊,NetAdmin 網管人雜誌 為一本介紹 Trend Learning 趨勢觀念、Solution Learning 解決方案、Technology Learning 技術應用的雜誌,下列筆記為本站投稿網管人雜誌獲得刊登的文章,網管人雜誌於每月份 1 日出刊您可於各大書店中看到它或透過下列圖示連結至博客來網路書店訂閱它。

文章目錄

1、前言
2、VSAN 運作架構
3、VSAN 6.2 新功能
          重複資料刪除與壓縮
          啟用並觀察儲存空間節省資訊
          EC 編碼技術
          啟用 EC 編碼技術資料容錯機制
          QoS 服務品質管控
          組態設定 IOPS 儲存資源
          IOPS 效能監控服務
          開啟效能服務
          增強健康狀態監控
          安裝健康狀態監控服務
          如何進行故障排除作業
          主動式健康狀態測試
4、結語


1、前言

VMware Virtual SAN(簡稱 VSAN),是 VMware 的「軟體定義儲存(Software-Defined Storage,SDS)」技術。簡單來說,透過 VSAN 技術便能夠將多台 x86 實體伺服器中,配置於實體伺服器的「本機硬碟(Local Hard Disk)」串連起來,進而將叢集當中所有叢集節點主機的儲存資源整合起來,成為一個巨大的儲存資源池並且能夠互相共用。

VMware VSAN 最初版本,是在 2014 年 3 月時隨著 vSphere 5.5 Update 1 版本開始內建,也就是VMware VSAN 1.0 版本。接著在隔年,也就是 2015 年 3 月時隨著 vSphere 6.0 的發佈,直接與vSphere 最新版本對齊成為 VSAN 6.0 版本(原訂新版本為 VSAN 2.0)。

半年後,於 2015 年 9 月時推出 VSAN 6.1 版本,其中最具代表性的功能便是「延伸叢集(Stretched Cluster)」,以及「支援 2 Nodes VSAN」運作架構。現在,第四世代的最新 VSAN 6.2 版本已經在 2016 年 2 月時推出,此版本當中的重要特色功能如下:

  • 重複資料刪除與壓縮: 能夠有效減少重複的資料區塊並進行壓縮的動作,最多可達 7 倍的儲存空間節省效率。
  • EC 編碼技術: 最多能夠讓儲存空間增加 2 倍,並且能夠讓資料靈活度維持不變,同時透過同位元資料保護技術,可以允許 1 或 2 個儲存元件故障損壞,所以也稱為 RAID 5 / RAID 6。
  • QoS 服務品質管控: 監控及管理每一台 VM 虛擬主機的 IOPS 儲存資源,避免部分 VM 虛擬主機暴增的儲存資源需求,影響到其它台 VM 虛擬主機的正常運作。
  • 支援 IPv6 網路環境: 支援 IPv4-Only、IPv6-Only、IPv4/IPv6-Both 的網路環境。
  • IOPS 效能監控: 可以針對不同的對象,例如,叢集、ESXi 主機、VM 虛擬主機…等,即時查看IOPS 儲存效能表現,便於管理人員找出效能瓶頸的元兇。
  • 增強健康狀態監控: 除了方便管理人員隨時監控 VSAN 運作健康狀態之外,同時幫助管理人員進行 VSAN 組態設定上的故障排除作業。

圖 1、VMware Virtual SAN 版本演進及新增功能示意圖


2、VSAN 運作架構

VMware VSAN 軟體定義儲存技術,採用「原則 (Policy)」方式的儲存管理機制稱之為(Storage Policy-Based Management,SPBM)。透過 SPBM 及 vSphere API 機制,能夠將儲存資源抽象化並整合為資源池之後,提供給 vSphere 管理人員佈建 VM 虛擬主機的能力,同時針對不同的 VM 虛擬主機服務等級,採取不同的 VM 虛擬主機儲存原則,針對不同等級的 VM 虛擬主機進行佈建的動作。簡單來說,便是透過 SPBM 儲存管理機制,將 VM 虛擬主機的儲存資源擺放在適合的位置。

圖 2、VMware VSAN 佈建 VM 虛擬主機運作概念示意圖

在儲存空間的運作架構中,支援採用「Hybrid」儲存資源運作架構,也就是在「磁碟群組(Disk Group)」當中,採用 PCIe Flash / SSD / Ultra DIMM / NVMe 當成資料快取用途,在快取空間方面的比例為「30 % 寫入(Write)」以及「70 % 讀取(Read)」,在資料儲存空間方面則採用儲存空間大,但 I/O 效能較為普通的 SAS / NL-SAS / SATA 機械式硬碟即可。

若是採用「All-Flash」儲存資源運作架構時,在資料快取的部份則與 Hybrid 運作架構有很大的差異,其中「100 % 寫入(Write)」資料快取部分,採用 PCIe Flash / SSD / Ultra DIMM / NVMe…等快閃記憶儲存資源負責,而「100 % 讀取(Read)」資料儲存部分,則是由一般的 SSD 固態硬碟負責。

圖 3、VMware VSAN Hybrid / All-Flash 運作架構示意圖


3、VSAN 6.2 新功能

事實上,當企業或組織採用 VMware VSAN 軟體定義儲存技術,並建構 All-Flash 運作架構時,因為儲存空間相較於 Hybrid 運作架構來說更為寶貴。因此從 VSAN 6.2 版本開始,當企業或組織在建構 All-Flash 運作架構時,可以搭配「重複資料刪除與壓縮(Deduplication / Compression)」及「EC 編碼技術(Erasure Coding)」等儲存空間最佳化技術,以節省寶貴的快閃儲存資源空間並提高整體使用率。

重複資料刪除與壓縮

透過重複資料刪除與壓縮技術,最高可以幫 All-Flash 運作架構節省「7 倍」的儲存空間。簡單來說,當重複資料刪除與壓縮技術啟用後,資料區塊不斷寫入 VSAN 的快取層級時,系統便會檢視是否有重複的資料區塊,當發現相同內容的資料區塊時便會進行「重複資料刪除(Deduplication)」與「壓縮(Compress)」處理作業,然後移動到資料層級當中。

在重複資料刪除的部分,VSAN 會以 4 KB Block Size 為單位進行處理,當重複資料區塊經過壓縮作業後,則會縮小成 2 KB Block Size 並儲存至資料層級當中。

當然,儲存空間節省的比例在實務上,必須要視資料區塊重複比例資料類型而定,舉例來說,若是影音檔案(Video)的話,那麼重複資料刪除與壓縮的比例就會偏低,倘若是一般文件檔案(Document)的話,那麼節省空間的比例便會提升許多。

圖 4、VMware VSAN 重複資料刪除與壓縮技術運作示意圖


啟用並觀察儲存空間節省資訊

預設情況下,重複資料刪除與壓縮技術為「停用(Disabled)」狀態,若要進行啟用的話操作步驟非常簡單,只要登入 vSphere Web Client 管理介面,依序點選「Cluster > Manage > Settings > Virtual SAN > General > Edit Settings」,在彈出的編輯 Virtual SAN 設定視窗中,在 Deduplication and compression 欄位下拉式選單中,選擇至「啟用(Enabled)」項目即可(如圖 5 所示)。

值得注意的是,當你為 VSAN Cluster 啟用重複資料刪除與壓縮技術後,在 VSAN Cluster 當中的每台叢集節點主機當中,每個「磁碟群組(Disk Group)」都會重新進行格式化的動作,因此這可能需要花費相當長的一段時間。

但是,在資料區塊重新格式化動作的執行期間,於 VSAN Cluster 當中運作的 VM 虛擬主機,並不會受到任何影響。此外,在目前的 VSAN 6.2 版本當中,「重複資料刪除」與「壓縮」這 2 個儲存空間最佳化機制,並無法單獨啟用只能一同啟用。

圖 5、啟用重複資料刪除與壓縮技術

同時,當 vSphere 管理人員為 VSAN Cluster 啟用重複資料刪除與壓縮技術後,那麼在 VSAN 的「物件空間保留區(Object space reservation)」的儲存原則,只能設定為「0 % 或 100 %」(預設值為 0 %)。

在目前的 VSAN 6.2 版本當中,啟用重複資料刪除與壓縮技術後,便不允許物件空間保留區儲存原則設定為 1 % ~ 99 %

當 VSAN Cluster 順利啟用重複資料刪除與壓縮技術,並且完成重新格式化的動作之後,那麼在 vSphere Web Client 管理介面中,便可以看到目前節省多少儲存空間以及空間節省倍數

圖 6、查看節省多少儲存空間以及空間節省倍數


EC 編碼技術

在 VSAN 6.2 版本中,第 2 種儲存空間最佳化技術就是在 SPBM 儲存原則當中,加入新的「容錯方法(Fault Tolerance Method,FTM)」,讓 vSphere 管理人員可以選擇要採用的資料容錯方式。

VSAN 6.2 版本以前,預設情況下將會採用「鏡像(Mirroring)」也就是 RAID-1 的資料容錯方式。現在,當企業或組織建構 All-Flash 運作架構後,可以選擇採用「EC 編碼技術(Erasure Coding)」,也就是 RAID-5 / RAID-6 的資料容錯方式。

雖然,舊有的 RAID-1 在資料寫入效能方面更為出色,但是消耗的儲存空間更多。採用新式的 EC 編碼技術 RAID-5 / RAID-6 資料容錯機制,除了效能表現接近原有的 RAID-1 之外,在儲存空間方面最多可以「減少 50 %」的消耗,以充份節省寶貴的快閃儲存資源。

在下列表格中,我們可以看到當 VSAN Cluster 採用不同的「容許的故障次數(Number of Failures to Tolerate,FTT)」儲存原則時,舊有的 RAID-1(Mirroring)以及新式的 RAID-5 / RAID-6(Erasure Coding),在儲存空間的消耗比例:


因為 2 種資料可用性及可用空間的不同,因此對於 VSAN Cluster 當中叢集節點主機的數量,也會有最低主機數量要求及建議主機數量。下列表格,便是採用不同的容許故障次數儲存原則時,在 VSAN Cluster 當中分別需要的叢集節點主機數量:


因此,當 vSphere 管理人員建構 All-Flash 運作架構,並且採用 RAID-5 / RAID-6(Erasure Conding)資料容錯機制時,當設定「容許故障次數 FTT = 1」儲存原則時,如圖 7 所示可以看到在 VSAN Cluster 當中,每台叢集節點主機當中都將包含 1 份「同位元(Parity)」,以便達成資料容錯運作架構。

圖 7、FTT = 1 時,RAID-5 / RAID-6(Erasure Conding)資料容錯機制

倘若希望得到更高的資料可用性時,可以設定「容許故障次數 FTT = 2」的儲存原則,如圖 8 所示可以看到在 VSAN Cluster 當中,每台叢集節點主機當中都將包含 1 份「同位元(Parity)」,但叢集節點主機數量必須至少 6 台,以便達成更高可用性的資料容錯運作架構。

圖 8、FTT = 2 時,RAID-5 / RAID-6(Erasure Conding)資料容錯機制


啟用 EC 編碼技術資料容錯機制

同樣的,在 All-Flash 運作架構中,當 vSphere 管理人員在 VSAN Cluster 建立 SPBM 儲存原則時,只要在 Failure tolerance method 下拉式選單中,選擇至「RAID-5/6(Erasure Coding)-Capacity」項目(如圖 9 所示),即可採用新式的 EC 編碼技術達成資料高可用性及空間節省的目的。

此外,在組態設定視窗當中你可以看到,倘若我們在 FTT 儲存原則欄位輸入數值「1」的話(也就是 FTT = 1),那麼當 VM 虛擬主機的虛擬磁碟的儲存空間為 100 GB 時,那麼在資料高可用性的情況下只會使用「133.33 GB」,若設定 FTT = 2 的話,那麼在資料高可用性的情況下則會使用「150 GB」的儲存空間。

圖 9、在 All-Flash 運作架構中啟用新式的 EC 編碼技術


QoS 服務品質管控

在虛擬化平台當中,眾多 VM 虛擬主機將會共享同一個或多個儲存資源。然而,有時可能會發生部分 VM 虛擬主機,因為突然爆增的 IOPS 儲存需求,例如,報表主機平時可能只消耗 300 IOPS 儲存資源,但是在月底進行結算時由於大量的資料需要進行分析運算,可能爆增至消耗 6000 IOPS 的儲存資源。

因此,在企業或組織的資料中心當中,將有可能因為部分 IOPS 儲存需求爆增的 VM 虛擬主機,造成所謂的「吵鬧鄰居(Noisy Neighbor)」現象。簡單來說,就是這幾台 IOPS 爆增的 VM 虛擬主機,因為大量消耗儲存資源進而導致影響其它 VM 虛擬主機的運作。

在 VSAN 6.2 版本中,新增儲存資源 QoS 服務品質管控機制的 SPBM 儲存原則。透過 SPBM 儲存原則針對 VSAN 當中的「物件(Object)」,進行 IOPS 儲存資源的存取限制,以避免在 VSAN Cluster 運作環境當中的 VM 虛擬主機,發生吵鬧鄰居的現象。

因為是針對 VSAN 物件進行 IOPS 儲存資源的限制,所以並非是以整台 VM 虛擬主機為單位,而是以「VMDK 虛擬磁碟」為單位,並且當 vSphere 管理人員設定並套用 SPBM 儲存原則後,並不會影響到線上 VM 虛擬主機的運作。


組態設定 IOPS 儲存資源

當 vSphere 管理人員希望針對 VSAN 物件,設定 IOPS 儲存資源管控機制時,只要在建立 VSAN SPBM 儲存原則時,在 IOPS limit for object 欄位中填入該物件的 IOPS 最大使用數值即可(如圖 10 所示)。

值得注意的是,在 VSAN 6.2 版本當中 IOPS 計算的資料區塊大小基準為「32 KB」,不管是資料的「讀取」或「寫入」都採用同樣大小的資料區塊。倘若,在你的 VSAN Cluster 運作環境中,你將資料區塊大小設定為 64 KB 時,那麼若是設定 IOPS 為 200 IOPS 的話,則實際上該 VSAN 物件將僅會得到 100 IOPS 的儲存資源。

圖 10、組態設定 VSAN 物件 IOPS 儲存資源


IOPS 效能監控服務

雖然,我們可以針對 VSAN 物件進行 IOPS 儲存資源管控,避免運作環境發生吵鬧鄰居的情況。但是,在過去的 VSAN 版本當中並沒有簡單的方式,能夠觀察到 VSAN Cluster 當中各項運作元件的 IOPS 儲存資源使用情況。

現在,在 VSAN 6.2 版本當中,透過啟用「效能服務(Performance Service)」之後,便能夠在 vSphere Web Client 管理介面中,直接看到 VSAN Cluster、ESXi 主機、VM 虛擬主機、磁碟群組…等,各項運作元件的 IOPS 儲存資源使用情況。


開啟效能服務

vSphere 管理人員只要登入 vSphere Web Client 管理介面後,編輯 VSAN Cluster當中的組態設定,便可以「開啟(Turned On)」效能服務,開始收集 VSAN 各項運作元件的 IOPS 使用情況。

值得注意的是,當你為 VSAN Cluster 啟用效能服務之後,所統計的 IOPS 儲存資源使用情況數據,並非儲存在 vCenter Server 資料庫當中,而是儲存在獨立的 VSAN 物件當中,並且根據收集的 IOPS 儲存資源資料量,此 VSAN 物件的儲存空間最大可至 255 GB

圖 11、為 VSAN Cluster 啟用效能服務

當 VSAN Cluster 順利啟用效能服務之後,便可以針對各項運作元件即時或選擇區間,查看 IOPS 儲存資源的使用情況。如圖 12 所示,便是查看 VSAN Cluster 內 ESXi 主機層級中,其上運作的 VM 虛擬主機整體 IOPS 儲存資源使用情況。

圖 12、查看 ESXi 主機層級中 VM 虛擬主機整體 IOPS 儲存資源使用情況


增強健康狀態監控

在前一版 VSAN 6.1 時,便開始內建「健康狀態檢查外掛程式(Health Check Plug-in)」,能夠有效協助管理人員進行硬體、韌體、驅動程式相容性檢查、網路即時診斷機制…等,以便確保整個 VSAN Cluster 內所有進階組態設定的一致性。

在目前最新 VSAN 6.2 版本當中,則是增強整個健康狀態監控機制,舉例來說,在 VSAN HCL 硬體相容性檢查項目中,除了能夠進行 VSAN Cluster 叢集節點的 HCL 硬體組態進行檢測之外,現在還能定期更新 HCL Database 內容,以便因應不斷更新的硬體伺服器規格。


安裝健康狀態監控服務

在 VSAN Cluster 運作環境中,安裝健康狀態監控服務也很簡單。首先,若採用的是 vCSA(vCenter Server Appliance)的話,那麼登入後只要使用「rpm -Uvh」指令搭配相對應版本的 RPM 檔案,然後執行「/usr/lib/vmware-vpx/vsan-health/health-rpm-post-install.sh」指令,即可完成安裝動作。

若是採用 Windows vCenter Server 的話,則需要在安裝 MSI 檔案後,重新啟動「VMware Virtual Center Server」服務即可完成安裝動作。

有關 vCenter Server 安裝健康狀態監控服務的詳細資訊,請參考 VMware KB 2109874

安裝動作完成後,預設情況下 VSAN 健康狀態監控服務為「停用」狀態,此時只要登入 vSphere Web Client 管理介面,依序點選「Cluster > Monitor > Virtual SAN > Health」項目,然後點選「立即啟用(Enable now)」即可。

預設情況下,啟用 VSAN 健康狀態監控服務後,系統將會每隔「60 分鐘」便進行檢查的動作。如果,你希望調整此預設組態的話,請依序點選「Cluster > Manage > Settings > Virtual SAN > Health」後,按下「Edit settings」鈕即可進行調整。
圖 13、啟用 VSAN 健康狀態監控服務

現在,你應該已經看到各種 VSAN 健康狀態監控項目,同時你可以展開每個監控項目,了解整個檢查作業的細項。值得注意的是,倘若是從舊版本的 VSAN 健康狀態監控服務升級上來的話,那麼應該要按下「Retest」鈕,讓 VSAN Cluster 能夠重新套用新的 VSAN 健康狀態監控版本,並且再次進行健康狀態檢查的動作。

圖 14、查看 VSAN 健康狀態監控項目詳細資訊


如何進行故障排除作業

那麼,當 VSAN Cluster 健康狀態發生問題時,該如何進行故障排除作業呢? 首先,我們可以在偵測到健康狀態為「警告或錯誤」的項目,展開子項目後查看是哪個細項發生問題,如圖 15 所示我們可以看到,目前「Advanced Virtual SAN configuration in sync」子項目發生錯誤。

此時,你可以先按下「Ask VMware」鈕,便會出現 VMware KB 資訊了解目前發生警告或錯誤的原因,以及如何進行故障排除作業。在此次實作環境當中,錯誤發生的原因是 VSAN Cluster 當中的 esxi04 叢集節點主機,因為「VSAN.ClomRepairDelay」的組態設定值,與 VSAN Cluster 其它叢集節點主機不同所導致。

圖 15、透過 VSAN 健康狀態監控進行故障排除作業


主動式健康狀態測試

除了預設每隔 60 分鐘進行整體 VSAN Cluster 健康狀態測試之外,vSphere 管理人員也可以隨時進行「主動式健康狀態測試(Proactive health checks)」。在目前的 VSAN 6.2 版本中,支援 3 種主動式健康狀態測試項目:

  • VM 虛擬主機建立作業測試
  • Multicast 效能測試
  • Storage 效能測試


vSphere 管理人員,只要登入 vSphere Web Client 管理介面後,依序點選「Cluster > Monitor > Virtual SAN > Proactive Tests」項目,然後點選希望進行主動式健康狀態測試的項目後,按下「綠色三角形」圖示即可進行主動測試作業。

圖 16、進行主動式健康狀態測試


4、結語

透過本文的說明,相信讀者已經了解到最新的 VSAN 6.2 版本有哪些特色功能,能夠幫助企業或組織建構更高資料可用性,以及儲存資源的高可擴充性及靈活度。同時,我們可以看到針對 All-Flash 高階軟體定義儲存運作架構,也推出相對應的儲存空間最佳化機制,以便節省寶貴的快閃記憶體儲存資源。

此外,增強的 VSAN 健康狀態監測機制,除了能夠有效幫助 vSphere 管理人員,掌管整個 VSAN Cluster 運作架構之外,還能夠幫助進行基礎架構的組態設定故障排除作業,以便管理人員能夠在運作架構發生警告或錯誤時,在最短時間內排除問題讓企業或組織的線上服務,能夠在快速恢復原有的良好運作狀態。

網管人雜誌

本文刊載於 網管人雜誌第 123 期 - 2016 年 4 月 1 日出刊,NetAdmin 網管人雜誌 為一本介紹 Trend Learning 趨勢觀念、Solution Learning 解決方案、Technology Learning 技術應用的雜誌,下列筆記為本站投稿網管人雜誌獲得刊登的文章,網管人雜誌於每月份 1 日出刊您可於各大書店中看到它或透過下列圖示連結至博客來網路書店訂閱它。

文章目錄

1、前言
2、Microsoft OMS 概觀
3、建立 OMS 工作區
          透過 OMS 網站建立 OMS 工作區
          透過 Azure Portal 建立 OMS 工作區
4、開始使用 OMS 工作區
          新增 OMS 解決方案套件
          選擇資料收集連接方式
          指定資料收集類型
5、建立 OMS 監控作業
          為 Azure VM 虛擬主機啟用 OMS 監控機制
          為企業內部實體主機或 VM 啟用 OMS 監控機制
          OMS 儀表板
          新增解決方案套件
          行動監控
6、結語


1、前言

公有雲(Public Cloud)運作環境成熟之賜,讓原本習慣於私有環境的 IT 運作架構發生重大的改變。舉例來說,以往企業或組織習慣將官方網站,擺放於內部自建的資料中心或 IDC 代管中心,然後採購硬體伺服器並租用網際網路頻寬,再聘請開發人員及網站前端後端人員...等,最後打造出精美且多功能的官方網站。

但是,現在有了成熟的公有雲運作環境之後,企業或組織在公有雲環境中建立 PaaS 類型的 Web 網站服務之後,只要操心官方網站內容的維護即可,底層硬體伺服器、網際網路頻寬、網路穩定性...等完全不需要操心。同時,根據 IDC 的統計調查結果顯示,預估在 2016 年時 IT 公有雲服務規模將達到 980 億美元

圖 1、2016 年全球 IT 公有雲服務總收入預估 

當企業或組織開始嘗試在公有雲環境中建立各項服務之後,便會自然而然與企業內部環境(On-Premise)結合,形成混合雲(Hybrid Cloud)的運作環境。舉例來說,以往企業或組織在備份資料時,可能將資料備份於磁帶櫃或儲存陣列設備中,現在可以將資料加密後備份至雲端儲存體當中。同時,根據 IDC 的統計調查結果可以得知,企業或組織的 IT 運作環境將日趨混合雲型態的運作架構。

圖 2、IT 服務預算比例預估(現在、2 年後) 
圖片來源:IDC Cloud Track Survey

然而,以往在企業或組織內部運作環境當中,IT 管理人員所建置的 SCOM(System Center Operation Manager)監控機制,僅針對企業內部環境的各種應用服務及設備的健康情況。對於公有雲及混合雲的各項監控需求便無法精確的進行監控,因此 IT 管理人員需要更靈活的監控機制。

本文將說明及實作,如何透過 Microsoft OMS(Operations Management Suite),達到全面監控公有雲及混合雲運作環境。此外,Microsoft OMS 不只能針對微軟自家公有雲 Azure 進行監控,它也支援異質的公有雲環境如 AWS(Amazon Web Services)進行監控作業。

圖 3、Microsoft OMS(Operations Management Suite)運作架構示意圖 


2、Microsoft OMS 概觀

Microsoft OMS 是專門為了混合式架構的運作環境而設計。它可以監控及管理 Azure 公有雲環境、企業內部的 Windows Server 及 Linux Server,此外對於異質平台例如 AWS 公有雲環境,及企業內部所建立的 VMware、OpenStack 等虛擬化環境,也都能夠進行管理及監控作業。

事實上,Microsoft OMS 並非僅能進行監控作業而已,它還具備下列各項特色功能:

  • 日誌分析(Log Analytics): 為企業或組織的內部資料中心,收集並儲存分析 Windows Server 及 Linux Server 的日誌檔案,或是 Azure 及 AWS 等公有雲環境中相關日誌資料。最後,達到以單一工具全面監控伺服器的工作負載,並提供最佳做法以便協助 IT 管理人員在最短時間內發現並解決問題。
  • IT 自動化(IT Automation): 協助 IT 管理人員,透過 Windows PowerShell 及 Runbook 等工具,達成企業或組織內部資料中心建立 / 監控 / 管理 / 部署等作業。
  • 備份與復原(Backup and Recovery): 整合公有雲儲存資源,為企業或組織提供災難復原機制。當企業或組織遭遇災難事件時,可以快速從雲端環境進行資料復原,或將內部工作負載轉移至雲端環境中繼續運作。
  • 混合雲安全性(Security and Compliance): 透過收集、儲存、分析伺服器的日誌資料,了解伺服器是否需要進行安全性更新,或審查整體安全性稽核事件,以達到身份識別及修復資訊安全風險的目的。


3、建立 OMS 工作區 

建構 Microsoft OMS 運作環境,首先必須要建立「OMS 工作區(OMS WorkSpace)」。目前,IT 管理人員可以有 2 種方式來建立 OMS 工作區:

  • 透過 Microsoft Operations Management Suite 網站建立 OMS 工作區。
  • 透過 Azure Management Portal 建立 Operational Insights 工作區。

目前,Azure Portal 當中有分為 New Azure Portal 採用 ARM(Azure Resource Manager)進行管理,以及 Old Azure Portal 也就是 Azure Management Portal,採用 Azure Service Management 進行管理。此外,在 Azure Management Portal 中的 Operationsl Insights 為 OMS 的舊稱。
建立 OMS 工作區之後,便可以新增各種「解決方案(Solutions)」,接著為伺服器安裝 OMS 代理程式或者與企業內部 SCOM 整合連接,最後便可以透過單一的 OMS 平台進行管理及監控作業。如下圖所示,便是整個 OMS 管理平台的建構流程:

圖 4、Microsoft OMS 管理平台建構流程示意圖 


透過 OMS 網站建立 OMS 工作區

請開啟瀏覽器連結 OMS 網站,按下免費試用連結至 OMS 申請頁面後,以 Microsoft 帳戶或 Office 365 帳戶進行登入。

接著,在建立新工作區頁面中於各項欄位填入相關資訊,例如,工作區名稱(Workspace Name)...等。值得注意的部分是,目前 OMS 工作區支援的資料中心僅「美國東部(East US)」 及「西歐(West Europe)」,相關資訊確認無誤後按下 Create 鈕即可建立 OMS 工作區。

圖 5、透過 OMS 網站建立 OMS 工作區


透過 Azure Portal 建立 OMS 工作區 

若你已經擁有 Azure 訂閱帳戶,也可以登入 Azure Management Portal 入口網站,通過身分驗證程序順利登入後,請依序點選「Operationsl Insights > 建立工作區」,然後在相關欄位中填入建立 OMS 工作區的資訊後,按下建立工作區圖示即可建立 OMS 工作區。

值得注意的部分是,在建立 OMS 工作區時可以指定的收費階層欄位,共有 3 種方案可供選擇分別是「免費(Free)、標準(Standard)、高階(Premium)」,這 3 種收費階層對於每日收集的資料量,以及資料保留期間都有所不同,請依運作環境規模選擇適當的方案。

圖 6、透過 Azure Management Portal 建立 OMS 工作區


4、開始使用 OMS 工作區

當 OMS 工作區建立完成後,便可以登入 Microsoft OMS 網站。順利登入 OMS 網站後,因為我們尚未組態設定 OMS 收集任何資料,所以你可以看到目前的 OMS 儀表板中並沒有任何資料,只有 OMS Twitter 的最新資訊。接下來,只要透過 3 個簡單的設定步驟,即可開始進行伺服器的收集、儲存、分析等作業。

圖 7、登入 OMS 工作區,準備進行初始化作業


新增 OMS 解決方案套件

若 IT 管理人員有使用 SCOM 監控機制的話,對於 SCOM 中提供的「管理套件(Managment Pack,MP)」 應該不陌生,在 SCOM 運作環境中透過各項 MP 管理套件的強大功能,可以輕鬆為 SCOM 強化各項應用服務監控能力。同樣的運作概念,在 OMS 當中稱之為「解決方案套件(Solution Pack,SP)」。

在 OMS 入口網站中,按下「Get Started」 之後便能連結至解決方案套件頁面,進行初始化設定程序的第 1 個步驟,預設情況下會自動載入「日誌搜尋(Log Search)」 解決方案套件。

同時,也將自動勾選 6 項解決方案套件,分別是無須整合 Azure 公有雲環境的惡意軟體評估(Malware Assessment)、系統更新評估(System Update Assessment)、組態變更追蹤(Change Tracking),以及需要整合 Azure 公有雲環境的 Azure 災害復原服務(Azure Site Recovery)、備份(Backup)、自動化(Automation)等。

這些 OMS 解決方案套件,可以立即勾選後馬上新增也可以後續再進行新增的動作,確認目前要載入的 OMS 解決方案套件項目後,便可以按下「Add selected Solutions」 鈕,然後繼續下一個 OMS 初始化程序。

圖 8、新增預設提供的 OMS 解決方案套件


選擇資料收集連接方式

點選「Connect Sources」 頁籤之後,便可以看到目前 OMS 所支援的 3 種資料收集方式,分別是:

  • Servers Connected
  • MGMT Groups Connected
  • Storage Account Connected


Servers Connected」 的資料收集方式,是幫企業或組織當中內部運作的 Windows 或 Linux 伺服器,安裝 OMS 代理程式後進行資料收集作業。倘若是在 Azure 公有雲環境中運作的 VM 虛擬主機,可以透過 Portal 的方式直接為 VM 虛擬主機安裝及啟用 OMS 代理程式。

此資料收集方式,可以針對 Azure VM 虛擬主機,或是企業及組織在內部運作環境中並沒有建置 SCOM 監控機制的情況下,直接為內部運作的 Windows 或 Linux 伺服器進行監控作業。

若企業或組織內部已經建構好 SCOM 監控機制時,便可以透過「MGMT Groups Connected」 的資料收集方式,直接將地端的 SCOM 監控資訊與雲端的 OMS 管理平台進行整合連結,無須為地端的 Windows 或 Linux 伺服器逐台安裝 OMS 代理程式。

最後,企業或組織可以將 Windows 或 Linux 伺服器,各種事件記錄或是網站的 IIS 日誌儲存至 Azure 雲端儲存體當中,然後透過「Storage Accounts Connected」 資料收集方式,讓 OMS 管理平台讀取及分析 Azure 雲端儲存體當中所儲存的各種日誌。
事實上,在 OMS 管理介面中已經可以看到預計將會支援 AWS 儲存體(例如,S3)。
圖 9、目前 OMS 所支援的 3 種資料收集方式


指定資料收集類型

最後,請點選「DATA」 頁籤,便可以指定 OMS 所要收集的日誌資料類型。目前,OMS 支援 6 種日誌資料來源,分別是 Windows 事件日誌、Windows 效能計數器、Linux 效能計數器、IIS 日誌、自訂欄位、Syslog。

舉例來說,IT 管理人員希望監控 Windows 伺服器中,有關硬體事件(Hardware Event),便可以點選 Windows Event Logs 項目後,輸入資料收集關鍵字 Hardware 後,便可以勾選想要收集的事件等級,例如,錯誤(Error)、警告(Warning)、資訊(Information)...等。最後,便可以按下 Save 進行組態設定存檔的動作。

圖 10、指定 OMS 所要收集的事件類型及事件等級


5、建立 OMS 監控作業

順利建立 OMS 工作區,以及新增各項解決方案套件並指定資料收集方式及類型後,便可以為 Azure 公有雲環境的 VM 虛擬主機,或者企業及組織內部的實體主機或 VM 虛擬主機,啟用及安裝 OMS 代理程式(或稱為 Microsoft Monitor Agent),或者是與企業內部的 SCOM 進行整合的動作,便可以在 OMS 管理平台中進行統一監控的動作。


為 Azure VM 虛擬主機啟用 OMS 監控機制

當你建立 OMS 工作區完成後,倘若要監控 Azure 公有雲環境中的 VM 虛擬主機時,只要登入 Azure Management Portal 後,依序點選「Operational Insights > OMS 工作區>伺服器」,便會看到 Azure VM 虛擬主機清單,請點選準備啟用及安裝 OMS 代理程式的 VM 虛擬主機後,點選下方「啟用 Opinsights」 圖示,系統便會自動幫指定的 VM 虛擬主機安裝及啟用 OMS 代理程式。

當 Azure VM 虛擬主機安裝及啟用 OMS 代理程式完成後,在 Azure Management Portal 中便可以看到,該 VM 虛擬主機在 Operational Insights 已啟用欄位從先前的否轉變為「」,而狀態欄位從先前的空值轉變為「作用中」。此時,便表示該台 Azure VM 虛擬主機已經安裝及啟用 OMS 代理程式完成。

圖 11、指定的 Azure VM 虛擬主機已經安裝及啟用 OMS 代理程式完成


為企業內部實體主機或 VM 啟用 OMS 監控機制

倘若在企業內部中並未建置 SCOM 監控機制,那麼也可以直接在實體主機或 VM 虛擬主機當中,安裝 OMS 代理程式後啟用 OMS 監控機制。請登入 OMS 網站後,切換至 Connected Sources 頁籤依主機作業系統類型,下載用於 Windows 或 Linux 作業系統的 OMS 代理程式,並記錄下方所列的 Workspace IDPrimary Key

圖 12、下載 OMS 代理程式並記錄 Workspace ID 及 Primary Key

值得注意的是,在為企業內部的實體主機或 VM 虛擬主機安裝 OMS 代理程式時,必須要填入剛才在 OMS 網站中下方所列的 Workspace ID 及 Primary Key,那麼企業內部主機中的 OMS 代理程式,才能正確將所收集到的資料狀態上傳至正確的 OMS 工作區當中。

圖 13、必須填入正確 Workspace ID 及 Primary Key 才能順利進行監控作業

此外,通常在企業或組織內部運作環境當中,實體主機或 VM 虛擬主機是在企業防火牆的保護中運作。因此,請記得在企業防火牆中開啟允許下列防火牆規則,以便 OMS 代理程式的資料流量能夠順利通過企業防火牆,傳送至位於雲端環境中的 OMS 管理平台當中:

  • *.ods.opinsights.azure.com : 443
  • *.oms.opinsights.azure.com : 443
  • ods.systemcenteradvisor.com : 443
  • *.blob.core.windows.net : 443


若企業內部已經建構 SCOM 監控機制的話,那麼便可以直接為 SCOM 與 OMS 進行整合連接的動作,那麼 OMS 便可以直接取得地端 SCOM 的監控資料,並呈現於 OMS 儀表板當中。

值得注意的是,若是建構的 SCOM 版本為 System Center 2012 SP1 的話,那麼至少必須要 Operations Manager UR7,並且安裝 OMS Connector for Operations Manager,才能順利與 OMS 整合連接。若 SCOM 版本為 System Center 2012 R2 的話,至少必須要 Operations Manager UR3,才能順利與 OMS 整合連接。

當 SCOM 運作環境符合 OMS 整合連接時,開啟 SCOM 主控台後依序點選「Administration > Operations Management Suite > Connection」 項目,便可以進行「Register to Operations Management Suite」 的動作,然後填入 Microsoft 帳戶及 OMS 工作區名稱,即可進行整合連接的動作。

圖 14、企業內部 SCOM 與雲端環境的 OMS 整合連接 


OMS 儀表板

當我們順利為 Azure 雲端環境的 VM 虛擬主機,或企業內部的實體主機及 VM 虛擬主機,安裝及啟用 OMS 代理程之作業之後。接著,便可以在 OMS 入口網站中看到相關的資料統計結果。

圖 15、OMS 儀表板

首先,我們可以點選左下角的「Usage」 項目,查看目前 OMS 資料收集所使用的流量情況。倘若,先前你在建立 OMS 工作區時,採用的是「免費(Free)」 方案的話,那麼一定要注意每日的資料流量限制為 500MB,若當日達到 500MB 資料量時 OMS 將會停止進行資料分析作業,同時所收集到的資料僅會保留 7 天而已。

若是採用標準或高階方案的話,則沒有每日收集資料量的限制,但「標準(Standard)」 方案的話資料收集的保留期間為 1 個月,而採用「高階(Premium)」 方案的資料保留期間則為 12 個月

圖 16、查看 OMS 資料量收集數據及 SLA 服務情況

回到 OMS 儀表板後,你可以點選各項解決方案套件內容,舉例來說,我們點選「組態變更追蹤(Change Tracking)」 項目,進入後可以看到此解決方案套件中有 5 個子項目,分別針對組態設定變更、軟體變更、應用程式變更、Windows 服務變更、組態變更追蹤查詢。

圖 17、查看組態變更追蹤(Change Tracking)解決方案套件內容

舉例來說,我們想再深入查看「軟體變更(Software Changes)」 子項目的內容,便可點選該子項目下方的 See all,便可以查看更詳細的軟體變更資訊,例如,每台被監控伺服器的主機名稱以及軟體變更數量,並且在操作介面中還支援直接將資料收集數據匯出 Excel(.csv)檔案格式,方便 IT 管理人員將相關數據自行客製化成其它報表格式。

圖 18、深入查看軟體變更(Software Changes)子項目的內容


新增解決方案套件

事實上,除了進行 OMS 初始化設定時,可以勾選預設的 6 項解決方案套件之外,OMS 仍持續不斷推出各式各樣的解決方案套件。

請在 OMS 入口網站中點選「Solutions Gallery」 圖示,便可以看到目前可以擴充 OMS 監控能力的各項解決方案套件,若該解決方案套件顯示為「Owned」,則表示該解決方案套件已經新增且正在使用中,若顯示為「Free」 則表示可以新增該解決方案套件,若顯示為「Coming Soon」 則表示該解決方案套件即將推出。

圖 19、新增 OMS 解決方案套件

舉例來說,此實作環境中希望能夠監控 AD 複寫狀態,便可以點選「AD Replication Status」 項目,了解此解決方案套件的功能說明,以及屆時呈現的儀表板範例,若符合你的運作環境監控需求便可以按下「Add」 鈕進行新增。

圖 20、新增 AD Replication Status 解決方案套件


行動監控

除了透過 OMS 入口網站進行監控管理作業之外,OMS 還提供 App 行動應用程式(支援 Windows Phone、iOS、Android),讓 IT 管理人員可以隨時隨地監控企業內部或雲端環境的運作狀態。只要在 App 商店搜尋關鍵字「Microsoft OMS」,即可進行安裝作業。

當 Microsoft OMS App 安裝完成後,首先會請你先登入建立 OMS 工作區的 Microsoft 帳戶,順利通過身分驗證程序後,將會請你選擇要進行查看的 OMS 工作區,你可以發現到與剛才在 OMS 入口網站的儀表板上,有著相同的使用者操作體驗。

圖 21、透過 Microsoft OMS App 隨時隨地查看監控狀態

同樣的,我們也再次深入查看「軟體變更(Software Changes)」 子項目的內容,與剛才在 OMS 入口網站的儀表板中一樣有著相同的使用者操作體驗,讓 IT 管理人員只要擁有智慧型行動裝置及連網能力,便能達到隨時 / 隨地 / 隨處監控的目的。

圖 22、與 OMS 入口網站儀表板擁有相同的使用者操作體驗


6、結語

透過本文的說明及實作演練,相信讀者已經了解到如何為企業或組織,監控 Azure 公有雲環境的 VM 虛擬主機,以及企業內部實體主機或 VM 虛擬主機或與內部 SCOM 整合連結,以便建立 Microsoft OMS 混合雲運作架構監控機制。同時,透過 OMS 不斷擴增的解決方案套件,將能有效幫助 IT 管理人員進行更全面的監控。

此外,透過安裝 Microsoft OMS App 行動應用程式,讓 IT 管理人員即時出門在外,只要有網路通訊便能輕鬆透過智慧型手機,監控企業或組織在雲端環境或企業內部的各項應用服務健康狀態。