從被動監控到主動維運:現代可觀察性驅動的維運轉型
史甫仁 (Jeff Shih)/叡揚資訊股份有限公司 資深系統工程師
2026-04-23 11:10 - 11:50 @ 張榮發基金會國際會議中心 11F
在 AI 原生開發時代 ,AI 輔助工具雖帶來速度提升,卻也讓開發與維運團隊面臨高達 64% 的「驗證稅」——必須花費大量時間手動驗證 AI 產生的程式碼與排查系統錯誤。
同時,傳統維運多停留在「被動式維運」階段 ,當系統發生異常時,通用大語言模型(LLM)常因缺乏即時的系統脈絡與拓撲數據,給出充滿「幻覺」的除錯建議。
本議程將帶領聽眾重新定義「現代可觀察性」。我們將探討如何超越傳統的三大支柱,透過自動捕獲上下文(Context)與即時拓撲結構 ,將散落的數據轉化為具備「因果關係」的單一資料來源。
有了精確的因果 AI 作為基石 ,我們將進一步分享如何將維運流程從「問題發生後才查修」的被動式維運,推進到「觸發自我治療」的自主維運境界。
聽眾收穫:
破除傳統監控盲區,建立現代可觀察性、洞悉 Agentic SRE 網格的架構藍圖。
1. 現代維運面臨的挑戰
當今世界,所有企業本質上皆已轉型為數位化企業。微服務、無伺服器與多雲架構的普及,導致了極度的工具碎片化與複雜性。
系統的動態變化如今是以「秒」為單位計算,人類的認知極限與手動排查速度,已徹底無法跟上現代基礎設施的複雜度。
傳統維運的痛點
- 診斷困難:需要整合多個指標、日誌、追蹤資料與事件來源,才能診斷服務問題。
- 依賴經驗:傳統維運多依賴統計機率、閾值設定或歷史經驗來定位錯誤。
- 資訊孤島:若各團隊各自使用不同工具,容易形成資訊孤島,導致「各說各話」。
統一平台的監控,比各自分散使用工具更有效率;若能結合 AI,維運團隊才能更理解系統狀態並對症下藥。
2. 傳統監控 vs. 現代可觀察性
傳統監控 (Traditional Monitoring)
- 防禦性思維:專注於追蹤「已知的未知 (Known unknowns)」。
- 侷限性:只能回答「系統壞了」。
現代可觀察性 (Modern Observability)
- 探索性思維:深度整合使用者體驗與業務邏輯,自動理解新出現的問題類型。
- 核心價值:解答「未知的未知 (Unknown unknowns)」,並明確指出「為什麼壞了」。
單純的海量數據只是雜訊,AI 需要掌握系統上下文與微服務互動關係,才能發揮真正的智慧。現代可觀察性必須將以下維度收斂為單一解答 (Single source of truth):
- 動態拓譜 (Topology)
- 日誌與指標 (Logs & Metrics)
- 安全與合規數據 (Security)
- 使用者體驗 (User Experience)
3. 技術分水嶺:關聯分析 vs. 因果分析 (Causal AI)
傳統維運與現代 AI 維運的核心差異,在於底層分析邏輯的不同。
關聯分析 (Correlation)
- 基於統計機率與歷史數據擬合。
- 依賴時間戳記重合度來推測關聯。
- 高度需要人工驗證猜測。
- 易受訓練數據取樣偏見影響。
因果分析 (Causal AI)
- 基於故障樹分析與確切事實 (Deterministic Facts)。
- 透過即時動態拓撲圖 (Topology) 與服務關聯,精準定位問題根源。
- 零訓練偏見,具備完整透明的因果推導路徑。
- 提供確切的資料來源,使後續 AI 自動化修復成為可能。
Causal AI 的核心機制
- 事件去重複化 (Event Deduplication):系統透過動態拓譜圖,將因果傳導鏈上的多個獨立警告,歸併為單一具備上下文的根本原因問題,有效收斂告警洪流。
- 時間偏移懲罰機制 (Time-shift penalty):在比對時間序列偏差時引入精密數學模型。向過去或未來偏移一個時間步長扣除 0.004 分,偏移兩個步長扣除 0.008 分,精準處理時間偏差問題。
4. IT 維運演進的四個階段
維運模式正隨著技術演進發生根本性的改變:
Stage 1:被動式 (Passive)
- 收到告警後才由人工查詢日誌與排查問題(大海撈針)。
- 高 MTTR,事後補救,主要依賴工程師經驗。
Stage 2:主動式 (Proactive)
- 依賴靜態閾值與基礎規則告警。
- 系統開始提供提示,但仍需手動執行修復與判斷。
Stage 3:預防性 (Preventive)
- 整合因果 AI 與生成式 AI,在影響用戶前預測源頭。
- 提供自然語言根因總結,減少人工排查、編碼與測試時間。
Stage 4:自主維運 (Autonomous)
- 代理型 AI (Agentic AI) 驅動,可自動操控、排程與執行維運流程。
- 無人工或低人工介入的即時、安全自動修復(預計 2026 年成為標竿)。
5. 典範轉移:從生成式走向代理型 AI
生成式 AI
- 定位:被動生產力工具 (Prompt-driven)。
- 模式:使用者輸入 Prompt $\rightarrow$ AI 處理 $\rightarrow$ 單一輸出。
代理型 AI (Agentic AI)
- 定位:能主動執行業務流程的「虛擬同事 (Goal-oriented)」。
- 模式:理解目標 $\rightarrow$ 計畫 $\rightarrow$ 自主執行 $\rightarrow$ 觀察評估 $\rightarrow$ 自我學習。
未來影響力:
- 預計 2028 年,15% 的日常工作決策將由系統自主完成。
- 協同工作流程的週期速度將提升 30% 至 50%。
- AI 的角色正從單純輔助生產力,轉向能主動協作與執行維運流程的核心能力。
6. 軟體工程的新挑戰:隱藏的「驗證稅」
導入 AI 並非毫無代價,其中最大的隱藏成本是 「驗證稅 (Verification Tax)」。
- AI 產出往往「充滿自信,但未必絕對正確 (Confident output, not correct output)」。
- AI 生成的程式碼、設定或修復方案仍需要大量檢查與驗證。
角色重塑
工程師的角色將從編寫邏輯的「代碼作者 (Code Author)」轉型為專注架構設計、治理與定義 AI 護欄的「系統策展人 (System Curator)」。
驗證重點包含:
- 程式碼可用性與業務邏輯一致性
- 架構一致性與安全性
- 擴展性、壓力測試與回歸測試
工作重心不再只是實作,而是確保 AI 的每項操作符合規範、目標與實際業務情境。
7. 致命鴻溝與關鍵橋樑:MCP
致命鴻溝:AI 的「上下文盲區」
沒有即時的 Production 環境資訊,再強大的 AI 也只會產生嚴重的幻覺。為了解鎖 Agentic AI 的真正價值,必須讓 AI 安全、即時地獲取 100% 準確的可觀察性數據。
關鍵橋樑:Model Context Protocol (MCP)
- 定義:MCP 是串聯原始 AI 工具與內部環境的關鍵橋梁。
- 功能:取代碎片化的客製化整合。提供標準化、受全面監管的介面,讓 AI 安全地存取「確切事實」,進行具備上下文的推理。
- 應用:可連接 Copilot、Claude、Gemini、GitHub、觀測平台與企業內部系統,讓 AI 的判斷建立在真實資料上,大幅降低幻覺。
8. 進階維運應用場景
透過 MCP 結合 Agentic AI,可實現以下進階場景:
場景一:開發者自主除錯 (Dev)
- IDE 內建 AI 助理透過 MCP 即時獲取 Production 環境例外狀況與拓撲,直接提供精確的修復代碼。
- 可進一步產生程式碼修補與 Pull Request。
場景二:自動化事件管理 (SecOps / ITOps)
- AI 自主提取威脅妥協指標 (IOCs),豐富 ITSM 工單。
- 整合 ServiceNow、Jira、Slack 等,在通訊頻道推送經驗證的修復步驟,協助事件分類與追蹤。
場景三:受監管的擴容 (ITOps)
- 因果 AI 預測流量瓶頸,自主啟動基礎設施擴增(如調整 Kubernetes CPU/Memory/Replica)。
- 通過審批 (Approval) 後自動執行,確保權限控管與審計安全。
9. Agentic AI Mesh 架構
不同於單一 AI 系統,Agentic AI Mesh 架構打破了單一模型瓶頸,實施平行推論。
- 讓每個業務系統或領域(如客服、基礎架構、營運、財務)擁有專責的 AI 代理。
- 多個專業智能體獨立運作卻又無縫協同,處理跨系統流程與端到端業務情境。
- 核心優勢:分層解耦,降低系統間相互影響的風險,並避免單一供應商鎖定 (Vendor Lock-in)。
10. 終極藍圖與 AI 驅動的飛輪效應
現代維運的發展路徑可概括為:
現代可觀察性 $\rightarrow$ 因果 AI 引擎 $\rightarrow$ MCP $\rightarrow$ Agentic Mesh
自主系統的飛輪效應
- 現代可觀察性:收集系統數據,提供無盲區的即時數據。
- 因果 AI 引擎:將海量數據轉化為確切的根因與事實,提供即時問題診斷。
- MCP 協議:提供 AI 安全存取事實的標準通道,執行修復或建立工單。
- Agentic Mesh:根據事實執行跨系統的自主修復,並將執行結果(延遲、準確率、修復成效)再次回饋給可觀察性平台。
此飛輪能讓系統逐步具備自主修復能力,讓維運人員從瑣碎任務中解放。
11. 可觀測性的商業價值轉型與實際案例
可觀測性不只是 IT 成本,而是降低風險、提升營收與改善客戶體驗的關鍵。它能將底層技術指標轉化為商業分析,讓每個技術投入都與具體商業價值連結。
實際案例
- 銀行業:過去需人工分析大量日誌。導入 Causal AI 後,每月節省 60 小時分析時間,修復時間縮短 80%,大幅提高客戶信任度。
- 電子商務零售業:透過觀測平台分析購物流程,發現約 10% 使用者會新開分頁導致交易失敗(未納入原始設計邏輯)。透過 AI 發現並修正問題,成功避免業務損失。
- 客戶支援團隊:導入前被大量告警淹沒。導入 AI 後,需要人力支援的工單減少 90%,問題分類時間縮短 90%。
12. 實際演示:AI 輔助故障排查
現場演示了結合可觀測性、Causal AI、MCP 與代理式 AI 的實際價值:
- 從 PagerDuty 事件頁面複製事件 ID。
- 在 VSCode 中詢問 AI 代理。
- AI 識別來自 Dynatrace 的問題,並找到受影響的服務實體。
- AI 分析相關 Call Tree,連接到路由端點,識別出「除以零」錯誤。
- AI 抓取日誌上下文,並在幾秒內生成程式碼修正。
- AI 自動建立 Pull Request(包含問題描述、程式碼變更、後續步驟建議)。
- 合併並推送後,錯誤率降至 0%。 (整個流程在幾分鐘內完成)
13. 成功關鍵要素與未來轉型方向
成功關鍵要素
- 建立統一的可觀測性平台,消除資訊孤島。
- 在動態混合維運環境中,串聯基礎設施、應用效能與使用者體驗。
- 建立可信任的 AI,讓 AI 基於確切事實與可追溯資料持續學習。
- 將 AI 從附加工具提升為關鍵基礎設施。
- 導入權限控管、Approval 流程與審計機制,確保自動化操作安全可控。
未來維運的轉型方向
- 從事後救火轉向主動預防。
- 減少人工介入,讓 AI 執行可控的自動化維運流程。
- 維運與開發團隊可更專注在本業,而不是長時間陷入 Troubleshooting。
- 重點不是擔心 AI 取代維運工作,而是如何透過 AI 讓維運更穩定、更高效、更具商業價值。
14. 總結:2026 Agentic 時代的元年
從被動監控走向自主維運,並非單純的工具替換,而是營運思維的徹底革命。
現代可觀察性的價值不只是「看見系統」,而是讓組織能理解系統、判斷因果、連接工具並主動執行維運流程。真正的轉型是建立一套以可觀察性為基礎、以 Causal AI 為分析核心、以 MCP 串聯環境、並以 Agentic Mesh 推動自主維運的新架構。
擁抱「系統策展人 (System Curator)」的新角色,建立基於「確切事實 (Deterministic Facts)」的自動化護欄,是企業駕馭極端複雜性、實現高韌性自主營運的唯一基石。
AI 與維運團隊應是互利共生的關係:AI 協助處理細節、加速分析與執行;人類則負責策略、治理、驗證與例外判斷。