從被動監控到主動維運：現代可觀察性驅動的維運轉型

史甫仁 (Jeff Shih)／叡揚資訊股份有限公司資深系統工程師

2026-04-23 11:10 - 11:50 @ 張榮發基金會國際會議中心 11F

議程

簡報

在 AI 原生開發時代，AI 輔助工具雖帶來速度提升，卻也讓開發與維運團隊面臨高達 64% 的「驗證稅」——必須花費大量時間手動驗證 AI 產生的程式碼與排查系統錯誤。
同時，傳統維運多停留在「被動式維運」階段，當系統發生異常時，通用大語言模型（LLM）常因缺乏即時的系統脈絡與拓撲數據，給出充滿「幻覺」的除錯建議。
本議程將帶領聽眾重新定義「現代可觀察性」。我們將探討如何超越傳統的三大支柱，透過自動捕獲上下文（Context）與即時拓撲結構，將散落的數據轉化為具備「因果關係」的單一資料來源。
有了精確的因果 AI 作為基石，我們將進一步分享如何將維運流程從「問題發生後才查修」的被動式維運，推進到「觸發自我治療」的自主維運境界。

聽眾收穫：
破除傳統監控盲區，建立現代可觀察性、洞悉 Agentic SRE 網格的架構藍圖。

1. 現代維運面臨的挑戰

當今世界，所有企業本質上皆已轉型為數位化企業。微服務、無伺服器與多雲架構的普及，導致了極度的工具碎片化與複雜性。

系統的動態變化如今是以「秒」為單位計算，人類的認知極限與手動排查速度，已徹底無法跟上現代基礎設施的複雜度。

傳統維運的痛點

診斷困難：需要整合多個指標、日誌、追蹤資料與事件來源，才能診斷服務問題。
依賴經驗：傳統維運多依賴統計機率、閾值設定或歷史經驗來定位錯誤。
資訊孤島：若各團隊各自使用不同工具，容易形成資訊孤島，導致「各說各話」。

統一平台的監控，比各自分散使用工具更有效率；若能結合 AI，維運團隊才能更理解系統狀態並對症下藥。

2. 傳統監控 vs. 現代可觀察性

傳統監控 (Traditional Monitoring)

防禦性思維：專注於追蹤「已知的未知 (Known unknowns)」。
侷限性：只能回答「系統壞了」。

現代可觀察性 (Modern Observability)

探索性思維：深度整合使用者體驗與業務邏輯，自動理解新出現的問題類型。
核心價值：解答「未知的未知 (Unknown unknowns)」，並明確指出「為什麼壞了」。

單純的海量數據只是雜訊，AI 需要掌握系統上下文與微服務互動關係，才能發揮真正的智慧。現代可觀察性必須將以下維度收斂為單一解答 (Single source of truth)：

動態拓譜 (Topology)
日誌與指標 (Logs & Metrics)
安全與合規數據 (Security)
使用者體驗 (User Experience)

3. 技術分水嶺：關聯分析 vs. 因果分析 (Causal AI)

傳統維運與現代 AI 維運的核心差異，在於底層分析邏輯的不同。

關聯分析 (Correlation)

基於統計機率與歷史數據擬合。
依賴時間戳記重合度來推測關聯。
高度需要人工驗證猜測。
易受訓練數據取樣偏見影響。

因果分析 (Causal AI)

基於故障樹分析與確切事實 (Deterministic Facts)。
透過即時動態拓撲圖 (Topology) 與服務關聯，精準定位問題根源。
零訓練偏見，具備完整透明的因果推導路徑。
提供確切的資料來源，使後續 AI 自動化修復成為可能。

Causal AI 的核心機制

事件去重複化 (Event Deduplication)：系統透過動態拓譜圖，將因果傳導鏈上的多個獨立警告，歸併為單一具備上下文的根本原因問題，有效收斂告警洪流。
時間偏移懲罰機制 (Time-shift penalty)：在比對時間序列偏差時引入精密數學模型。向過去或未來偏移一個時間步長扣除 0.004 分，偏移兩個步長扣除 0.008 分，精準處理時間偏差問題。

4. IT 維運演進的四個階段

維運模式正隨著技術演進發生根本性的改變：

Stage 1：被動式 (Passive)
- 收到告警後才由人工查詢日誌與排查問題（大海撈針）。
- 高 MTTR，事後補救，主要依賴工程師經驗。
Stage 2：主動式 (Proactive)
- 依賴靜態閾值與基礎規則告警。
- 系統開始提供提示，但仍需手動執行修復與判斷。
Stage 3：預防性 (Preventive)
- 整合因果 AI 與生成式 AI，在影響用戶前預測源頭。
- 提供自然語言根因總結，減少人工排查、編碼與測試時間。
Stage 4：自主維運 (Autonomous)
- 代理型 AI (Agentic AI) 驅動，可自動操控、排程與執行維運流程。
- 無人工或低人工介入的即時、安全自動修復（預計 2026 年成為標竿）。

5. 典範轉移：從生成式走向代理型 AI

生成式 AI

定位：被動生產力工具 (Prompt-driven)。
模式：使用者輸入 Prompt $\rightarrow$ AI 處理 $\rightarrow$ 單一輸出。

代理型 AI (Agentic AI)

定位：能主動執行業務流程的「虛擬同事 (Goal-oriented)」。
模式：理解目標 $\rightarrow$ 計畫 $\rightarrow$ 自主執行 $\rightarrow$ 觀察評估 $\rightarrow$ 自我學習。

未來影響力：

預計 2028 年，15% 的日常工作決策將由系統自主完成。
協同工作流程的週期速度將提升 30% 至 50%。
AI 的角色正從單純輔助生產力，轉向能主動協作與執行維運流程的核心能力。

6. 軟體工程的新挑戰：隱藏的「驗證稅」

導入 AI 並非毫無代價，其中最大的隱藏成本是 「驗證稅 (Verification Tax)」。

AI 產出往往「充滿自信，但未必絕對正確 (Confident output, not correct output)」。
AI 生成的程式碼、設定或修復方案仍需要大量檢查與驗證。

角色重塑

工程師的角色將從編寫邏輯的「代碼作者 (Code Author)」轉型為專注架構設計、治理與定義 AI 護欄的「系統策展人 (System Curator)」。

驗證重點包含：

程式碼可用性與業務邏輯一致性
架構一致性與安全性
擴展性、壓力測試與回歸測試

工作重心不再只是實作，而是確保 AI 的每項操作符合規範、目標與實際業務情境。

7. 致命鴻溝與關鍵橋樑：MCP

致命鴻溝：AI 的「上下文盲區」

沒有即時的 Production 環境資訊，再強大的 AI 也只會產生嚴重的幻覺。為了解鎖 Agentic AI 的真正價值，必須讓 AI 安全、即時地獲取 100% 準確的可觀察性數據。

關鍵橋樑：Model Context Protocol (MCP)

定義：MCP 是串聯原始 AI 工具與內部環境的關鍵橋梁。
功能：取代碎片化的客製化整合。提供標準化、受全面監管的介面，讓 AI 安全地存取「確切事實」，進行具備上下文的推理。
應用：可連接 Copilot、Claude、Gemini、GitHub、觀測平台與企業內部系統，讓 AI 的判斷建立在真實資料上，大幅降低幻覺。

8. 進階維運應用場景

透過 MCP 結合 Agentic AI，可實現以下進階場景：

場景一：開發者自主除錯 (Dev)
- IDE 內建 AI 助理透過 MCP 即時獲取 Production 環境例外狀況與拓撲，直接提供精確的修復代碼。
- 可進一步產生程式碼修補與 Pull Request。
場景二：自動化事件管理 (SecOps / ITOps)
- AI 自主提取威脅妥協指標 (IOCs)，豐富 ITSM 工單。
- 整合 ServiceNow、Jira、Slack 等，在通訊頻道推送經驗證的修復步驟，協助事件分類與追蹤。
場景三：受監管的擴容 (ITOps)
- 因果 AI 預測流量瓶頸，自主啟動基礎設施擴增（如調整 Kubernetes CPU/Memory/Replica）。
- 通過審批 (Approval) 後自動執行，確保權限控管與審計安全。

9. Agentic AI Mesh 架構

不同於單一 AI 系統，Agentic AI Mesh 架構打破了單一模型瓶頸，實施平行推論。

讓每個業務系統或領域（如客服、基礎架構、營運、財務）擁有專責的 AI 代理。
多個專業智能體獨立運作卻又無縫協同，處理跨系統流程與端到端業務情境。
核心優勢：分層解耦，降低系統間相互影響的風險，並避免單一供應商鎖定 (Vendor Lock-in)。

10. 終極藍圖與 AI 驅動的飛輪效應

現代維運的發展路徑可概括為：

現代可觀察性 $\rightarrow$ 因果 AI 引擎 $\rightarrow$ MCP $\rightarrow$ Agentic Mesh

自主系統的飛輪效應

現代可觀察性：收集系統數據，提供無盲區的即時數據。
因果 AI 引擎：將海量數據轉化為確切的根因與事實，提供即時問題診斷。
MCP 協議：提供 AI 安全存取事實的標準通道，執行修復或建立工單。
Agentic Mesh：根據事實執行跨系統的自主修復，並將執行結果（延遲、準確率、修復成效）再次回饋給可觀察性平台。

此飛輪能讓系統逐步具備自主修復能力，讓維運人員從瑣碎任務中解放。

11. 可觀測性的商業價值轉型與實際案例

可觀測性不只是 IT 成本，而是降低風險、提升營收與改善客戶體驗的關鍵。它能將底層技術指標轉化為商業分析，讓每個技術投入都與具體商業價值連結。

實際案例

銀行業：過去需人工分析大量日誌。導入 Causal AI 後，每月節省 60 小時分析時間，修復時間縮短 80%，大幅提高客戶信任度。
電子商務零售業：透過觀測平台分析購物流程，發現約 10% 使用者會新開分頁導致交易失敗（未納入原始設計邏輯）。透過 AI 發現並修正問題，成功避免業務損失。
客戶支援團隊：導入前被大量告警淹沒。導入 AI 後，需要人力支援的工單減少 90%，問題分類時間縮短 90%。

12. 實際演示：AI 輔助故障排查

現場演示了結合可觀測性、Causal AI、MCP 與代理式 AI 的實際價值：

從 PagerDuty 事件頁面複製事件 ID。
在 VSCode 中詢問 AI 代理。
AI 識別來自 Dynatrace 的問題，並找到受影響的服務實體。
AI 分析相關 Call Tree，連接到路由端點，識別出「除以零」錯誤。
AI 抓取日誌上下文，並在幾秒內生成程式碼修正。
AI 自動建立 Pull Request（包含問題描述、程式碼變更、後續步驟建議）。
合併並推送後，錯誤率降至 0%。 (整個流程在幾分鐘內完成)

13. 成功關鍵要素與未來轉型方向

成功關鍵要素

建立統一的可觀測性平台，消除資訊孤島。
在動態混合維運環境中，串聯基礎設施、應用效能與使用者體驗。
建立可信任的 AI，讓 AI 基於確切事實與可追溯資料持續學習。
將 AI 從附加工具提升為關鍵基礎設施。
導入權限控管、Approval 流程與審計機制，確保自動化操作安全可控。

未來維運的轉型方向

從事後救火轉向主動預防。
減少人工介入，讓 AI 執行可控的自動化維運流程。
維運與開發團隊可更專注在本業，而不是長時間陷入 Troubleshooting。
重點不是擔心 AI 取代維運工作，而是如何透過 AI 讓維運更穩定、更高效、更具商業價值。

14. 總結：2026 Agentic 時代的元年

從被動監控走向自主維運，並非單純的工具替換，而是營運思維的徹底革命。

現代可觀察性的價值不只是「看見系統」，而是讓組織能理解系統、判斷因果、連接工具並主動執行維運流程。真正的轉型是建立一套以可觀察性為基礎、以 Causal AI 為分析核心、以 MCP 串聯環境、並以 Agentic Mesh 推動自主維運的新架構。

擁抱「系統策展人 (System Curator)」的新角色，建立基於「確切事實 (Deterministic Facts)」的自動化護欄，是企業駕馭極端複雜性、實現高韌性自主營運的唯一基石。

AI 與維運團隊應是互利共生的關係：AI 協助處理細節、加速分析與執行；人類則負責策略、治理、驗證與例外判斷。