從被動監控到主動維運:現代可觀察性驅動的維運轉型

史甫仁 (Jeff Shih)/叡揚資訊股份有限公司 資深系統工程師

2026-04-23 11:10 - 11:50 @ 張榮發基金會國際會議中心 11F

議程

簡報

在 AI 原生開發時代 ,AI 輔助工具雖帶來速度提升,卻也讓開發與維運團隊面臨高達 64% 的「驗證稅」——必須花費大量時間手動驗證 AI 產生的程式碼與排查系統錯誤。

同時,傳統維運多停留在「被動式維運」階段 ,當系統發生異常時,通用大語言模型(LLM)常因缺乏即時的系統脈絡與拓撲數據,給出充滿「幻覺」的除錯建議。

本議程將帶領聽眾重新定義「現代可觀察性」。我們將探討如何超越傳統的三大支柱,透過自動捕獲上下文(Context)與即時拓撲結構 ,將散落的數據轉化為具備「因果關係」的單一資料來源。

有了精確的因果 AI 作為基石 ,我們將進一步分享如何將維運流程從「問題發生後才查修」的被動式維運,推進到「觸發自我治療」的自主維運境界。

聽眾收穫:

破除傳統監控盲區,建立現代可觀察性、洞悉 Agentic SRE 網格的架構藍圖。


1. 現代維運面臨的挑戰

當今世界,所有企業本質上皆已轉型為數位化企業。微服務、無伺服器與多雲架構的普及,導致了極度的工具碎片化與複雜性。

系統的動態變化如今是以「秒」為單位計算,人類的認知極限與手動排查速度,已徹底無法跟上現代基礎設施的複雜度。

傳統維運的痛點

  • 診斷困難:需要整合多個指標、日誌、追蹤資料與事件來源,才能診斷服務問題。
  • 依賴經驗:傳統維運多依賴統計機率、閾值設定或歷史經驗來定位錯誤。
  • 資訊孤島:若各團隊各自使用不同工具,容易形成資訊孤島,導致「各說各話」。

統一平台的監控,比各自分散使用工具更有效率;若能結合 AI,維運團隊才能更理解系統狀態並對症下藥。


2. 傳統監控 vs. 現代可觀察性

傳統監控 (Traditional Monitoring)

  • 防禦性思維:專注於追蹤「已知的未知 (Known unknowns)」。
  • 侷限性:只能回答「系統壞了」。

現代可觀察性 (Modern Observability)

  • 探索性思維:深度整合使用者體驗與業務邏輯,自動理解新出現的問題類型。
  • 核心價值:解答「未知的未知 (Unknown unknowns)」,並明確指出「為什麼壞了」。

單純的海量數據只是雜訊,AI 需要掌握系統上下文與微服務互動關係,才能發揮真正的智慧。現代可觀察性必須將以下維度收斂為單一解答 (Single source of truth)

  • 動態拓譜 (Topology)
  • 日誌與指標 (Logs & Metrics)
  • 安全與合規數據 (Security)
  • 使用者體驗 (User Experience)

3. 技術分水嶺:關聯分析 vs. 因果分析 (Causal AI)

傳統維運與現代 AI 維運的核心差異,在於底層分析邏輯的不同。

關聯分析 (Correlation)

  • 基於統計機率與歷史數據擬合。
  • 依賴時間戳記重合度來推測關聯。
  • 高度需要人工驗證猜測。
  • 易受訓練數據取樣偏見影響。

因果分析 (Causal AI)

  • 基於故障樹分析與確切事實 (Deterministic Facts)。
  • 透過即時動態拓撲圖 (Topology) 與服務關聯,精準定位問題根源。
  • 零訓練偏見,具備完整透明的因果推導路徑。
  • 提供確切的資料來源,使後續 AI 自動化修復成為可能。

Causal AI 的核心機制

  • 事件去重複化 (Event Deduplication):系統透過動態拓譜圖,將因果傳導鏈上的多個獨立警告,歸併為單一具備上下文的根本原因問題,有效收斂告警洪流。
  • 時間偏移懲罰機制 (Time-shift penalty):在比對時間序列偏差時引入精密數學模型。向過去或未來偏移一個時間步長扣除 0.004 分,偏移兩個步長扣除 0.008 分,精準處理時間偏差問題。

4. IT 維運演進的四個階段

維運模式正隨著技術演進發生根本性的改變:

  • Stage 1:被動式 (Passive)

    • 收到告警後才由人工查詢日誌與排查問題(大海撈針)。
    • 高 MTTR,事後補救,主要依賴工程師經驗。
  • Stage 2:主動式 (Proactive)

    • 依賴靜態閾值與基礎規則告警。
    • 系統開始提供提示,但仍需手動執行修復與判斷。
  • Stage 3:預防性 (Preventive)

    • 整合因果 AI 與生成式 AI,在影響用戶前預測源頭。
    • 提供自然語言根因總結,減少人工排查、編碼與測試時間。
  • Stage 4:自主維運 (Autonomous)

    • 代理型 AI (Agentic AI) 驅動,可自動操控、排程與執行維運流程。
    • 無人工或低人工介入的即時、安全自動修復(預計 2026 年成為標竿)。

5. 典範轉移:從生成式走向代理型 AI

生成式 AI

  • 定位:被動生產力工具 (Prompt-driven)。
  • 模式:使用者輸入 Prompt $\rightarrow$ AI 處理 $\rightarrow$ 單一輸出。

代理型 AI (Agentic AI)

  • 定位:能主動執行業務流程的「虛擬同事 (Goal-oriented)」。
  • 模式:理解目標 $\rightarrow$ 計畫 $\rightarrow$ 自主執行 $\rightarrow$ 觀察評估 $\rightarrow$ 自我學習。

未來影響力

  • 預計 2028 年,15% 的日常工作決策將由系統自主完成。
  • 協同工作流程的週期速度將提升 30% 至 50%。
  • AI 的角色正從單純輔助生產力,轉向能主動協作與執行維運流程的核心能力。

6. 軟體工程的新挑戰:隱藏的「驗證稅」

導入 AI 並非毫無代價,其中最大的隱藏成本是 「驗證稅 (Verification Tax)」

  • AI 產出往往「充滿自信,但未必絕對正確 (Confident output, not correct output)」。
  • AI 生成的程式碼、設定或修復方案仍需要大量檢查與驗證。

角色重塑

工程師的角色將從編寫邏輯的「代碼作者 (Code Author)」轉型為專注架構設計、治理與定義 AI 護欄的「系統策展人 (System Curator)」。

驗證重點包含:

  • 程式碼可用性與業務邏輯一致性
  • 架構一致性與安全性
  • 擴展性、壓力測試與回歸測試

工作重心不再只是實作,而是確保 AI 的每項操作符合規範、目標與實際業務情境。


7. 致命鴻溝與關鍵橋樑:MCP

致命鴻溝:AI 的「上下文盲區」

沒有即時的 Production 環境資訊,再強大的 AI 也只會產生嚴重的幻覺。為了解鎖 Agentic AI 的真正價值,必須讓 AI 安全、即時地獲取 100% 準確的可觀察性數據。

關鍵橋樑:Model Context Protocol (MCP)

  • 定義:MCP 是串聯原始 AI 工具與內部環境的關鍵橋梁。
  • 功能:取代碎片化的客製化整合。提供標準化、受全面監管的介面,讓 AI 安全地存取「確切事實」,進行具備上下文的推理。
  • 應用:可連接 Copilot、Claude、Gemini、GitHub、觀測平台與企業內部系統,讓 AI 的判斷建立在真實資料上,大幅降低幻覺。

8. 進階維運應用場景

透過 MCP 結合 Agentic AI,可實現以下進階場景:

  • 場景一:開發者自主除錯 (Dev)

    • IDE 內建 AI 助理透過 MCP 即時獲取 Production 環境例外狀況與拓撲,直接提供精確的修復代碼。
    • 可進一步產生程式碼修補與 Pull Request。
  • 場景二:自動化事件管理 (SecOps / ITOps)

    • AI 自主提取威脅妥協指標 (IOCs),豐富 ITSM 工單。
    • 整合 ServiceNow、Jira、Slack 等,在通訊頻道推送經驗證的修復步驟,協助事件分類與追蹤。
  • 場景三:受監管的擴容 (ITOps)

    • 因果 AI 預測流量瓶頸,自主啟動基礎設施擴增(如調整 Kubernetes CPU/Memory/Replica)。
    • 通過審批 (Approval) 後自動執行,確保權限控管與審計安全。

9. Agentic AI Mesh 架構

不同於單一 AI 系統,Agentic AI Mesh 架構打破了單一模型瓶頸,實施平行推論。

  • 讓每個業務系統或領域(如客服、基礎架構、營運、財務)擁有專責的 AI 代理。
  • 多個專業智能體獨立運作卻又無縫協同,處理跨系統流程與端到端業務情境。
  • 核心優勢:分層解耦,降低系統間相互影響的風險,並避免單一供應商鎖定 (Vendor Lock-in)。

10. 終極藍圖與 AI 驅動的飛輪效應

現代維運的發展路徑可概括為:

現代可觀察性 $\rightarrow$ 因果 AI 引擎 $\rightarrow$ MCP $\rightarrow$ Agentic Mesh

自主系統的飛輪效應

  1. 現代可觀察性:收集系統數據,提供無盲區的即時數據。
  2. 因果 AI 引擎:將海量數據轉化為確切的根因與事實,提供即時問題診斷。
  3. MCP 協議:提供 AI 安全存取事實的標準通道,執行修復或建立工單。
  4. Agentic Mesh:根據事實執行跨系統的自主修復,並將執行結果(延遲、準確率、修復成效)再次回饋給可觀察性平台。

此飛輪能讓系統逐步具備自主修復能力,讓維運人員從瑣碎任務中解放。


11. 可觀測性的商業價值轉型與實際案例

可觀測性不只是 IT 成本,而是降低風險、提升營收與改善客戶體驗的關鍵。它能將底層技術指標轉化為商業分析,讓每個技術投入都與具體商業價值連結。

實際案例

  • 銀行業:過去需人工分析大量日誌。導入 Causal AI 後,每月節省 60 小時分析時間,修復時間縮短 80%,大幅提高客戶信任度。
  • 電子商務零售業:透過觀測平台分析購物流程,發現約 10% 使用者會新開分頁導致交易失敗(未納入原始設計邏輯)。透過 AI 發現並修正問題,成功避免業務損失。
  • 客戶支援團隊:導入前被大量告警淹沒。導入 AI 後,需要人力支援的工單減少 90%,問題分類時間縮短 90%。

12. 實際演示:AI 輔助故障排查

現場演示了結合可觀測性、Causal AI、MCP 與代理式 AI 的實際價值:

  1. 從 PagerDuty 事件頁面複製事件 ID。
  2. 在 VSCode 中詢問 AI 代理。
  3. AI 識別來自 Dynatrace 的問題,並找到受影響的服務實體。
  4. AI 分析相關 Call Tree,連接到路由端點,識別出「除以零」錯誤。
  5. AI 抓取日誌上下文,並在幾秒內生成程式碼修正。
  6. AI 自動建立 Pull Request(包含問題描述、程式碼變更、後續步驟建議)。
  7. 合併並推送後,錯誤率降至 0%。 (整個流程在幾分鐘內完成)

13. 成功關鍵要素與未來轉型方向

成功關鍵要素

  • 建立統一的可觀測性平台,消除資訊孤島。
  • 在動態混合維運環境中,串聯基礎設施、應用效能與使用者體驗。
  • 建立可信任的 AI,讓 AI 基於確切事實與可追溯資料持續學習。
  • 將 AI 從附加工具提升為關鍵基礎設施。
  • 導入權限控管、Approval 流程與審計機制,確保自動化操作安全可控。

未來維運的轉型方向

  • 從事後救火轉向主動預防。
  • 減少人工介入,讓 AI 執行可控的自動化維運流程。
  • 維運與開發團隊可更專注在本業,而不是長時間陷入 Troubleshooting。
  • 重點不是擔心 AI 取代維運工作,而是如何透過 AI 讓維運更穩定、更高效、更具商業價值。

14. 總結:2026 Agentic 時代的元年

從被動監控走向自主維運,並非單純的工具替換,而是營運思維的徹底革命

現代可觀察性的價值不只是「看見系統」,而是讓組織能理解系統、判斷因果、連接工具並主動執行維運流程。真正的轉型是建立一套以可觀察性為基礎、以 Causal AI 為分析核心、以 MCP 串聯環境、並以 Agentic Mesh 推動自主維運的新架構。

擁抱「系統策展人 (System Curator)」的新角色,建立基於「確切事實 (Deterministic Facts)」的自動化護欄,是企業駕馭極端複雜性、實現高韌性自主營運的唯一基石。

AI 與維運團隊應是互利共生的關係:AI 協助處理細節、加速分析與執行;人類則負責策略、治理、驗證與例外判斷。