AI Agent 時代的 SRE:讓 Claude 成為你的 On-Call 夥伴
羅聖明 (Barry)/Sr. Engineer, Trend Micro
2026-04-23 13:45 - 14:25 @ 張榮發基金會國際會議中心 11F
本場次將分享一位 SRE 工程師如何將 AI Agent 融入日常 On-Call 工作流程的真實經驗。演講從一個深夜告警的故事開場──同樣的 API 5xx 故障,傳統做法需要 2 小時以上才能完成從查詢、定位、修復到撰寫報告的完整流程,而透過 Claude 搭配 MCP/Skill 整合 OpenSearch、Jira、Confluence 等工具後,僅需 15 至 20 分鐘即可完成。
演講將涵蓋兩大核心主題:
第一,AI 在 SRE 工作中的三層價值──快速查詢與整合、智慧分析與建議、知識沉澱與重用;
第二,如何讓 AI 操作 MCP 串接各種 SRE 工具,包含 OpenSearch 日誌查詢、Jira Incident 搜尋、Confluence Runbook 檢索等實際整合範例;
此外,也會坦誠討論實務上常見的疑問,包含成本考量、資料安全策略、以及如何在沒有完整工具鏈的環境下從小處開始導入 AI。本場次適合所有對 AI 輔助維運有興趣的工程師,無論你是資深 SRE 還是剛入門的維運人員,都能帶走可立即實踐的方法。
聽眾收穫:
實戰經驗與思維轉換:了解一位 SRE 工程師如何從「被動救火」轉變為「AI 協作」的工作模式,以及這個轉變如何將故障調查時間從 2 小時大幅縮短至 15 分鐘。聽眾將理解 AI 在 SRE 場景中不是取代人,而是扮演「永遠不會累的 Junior SRE」與「記憶力完美的資深顧問」角色。
AI 時代的 SRE 職涯視角:重新思考 SRE 工作的核心價值──當重複性查詢與報告撰寫被 AI 大幅加速後,工程師能將更多時間投入「預防」與「改善」,回歸 SRE 的本質。
1. 自我介紹
講者 Barry 是 Trend Micro 的 SRE。
過去經歷包含:
- 銀行業
- 資安業
- 約 5 年 SRE / 維運相關經驗
日常工作型態
Barry 的日常是典型高壓 SRE 工作型態:
- On-call 24/7
- 一年 365 天都可能被叫醒
- 維護 10 個後端服務
- 橫跨 6 個雲端環境
他形容自己帶著筆電去過很多地方,包括:
- 環球影城
- 迪士尼
- 看極光
但即使在旅行或休息時,也可能被 on-call 告警打斷。
Opsgenie 打給我的次數,比我家人還多。
這句話點出了 SRE 日常最真實的痛點:告警不分時間、不分地點,只要系統出事就必須立刻處理。
2. 痛點:你有沒有被 Alert 淹沒過?
凌晨 02:15 的典型場景
凌晨 02:15,手機震動,Opsgenie 大響。
這通常代表:
- 系統炸了
- SLA 掉了
- SLO Burn Rate 衝破閾值
- SRE 必須立刻醒來處理
這不是一次性的偶發事件,而是 SRE 工作中反覆發生的日常。
每次 Incident 都要做的事
當告警發生時,Barry 過去通常需要依序完成以下工作。
| 步驟 | 動作 | 時間 |
|---|---|---|
| 0 | 愣 5 秒 + Teams 回報 | 5 分鐘 |
| 1 | 找電腦 + 連 VPN | 10 分鐘 |
| 2 | Dashboard / Monitor 定位 | 15 分鐘 |
| 3 | Teams 拉 RD 進群組 | 5 分鐘 |
| 4 | 檢查 Kubernetes Pods / Deployment | 10 分鐘 |
| 5 | 到 OpenSearch 找 log | 20 分鐘 |
| 6 | 提出解方並執行 | 30 分鐘 |
| 7 | 到 Confluence 寫報告 | 1 小時 |
全部加起來,通常需要:
2+ 小時
等到事件處理完、報告寫完,大腦也已經燒完,才能回去睡覺。
這不是偶爾,這是每次。
這裡的核心痛點不是單一工具難用,而是 incident response 的整體流程高度碎片化:
- 要查監控
- 要查 log
- 要查文件
- 要拉人
- 要判斷影響範圍
- 要找根因
- 要提出解法
- 要補報告
而這些步驟過去大多必須由人類逐一、序列式完成。
3. Demo:看看我現在怎麼做
真實 Incident 情境
這一段以一個真實 incident 走一遍新的處理方式。
某個下午,Opsgenie 大響,原因是:
SLO Burn Rate 衝破閾值
這代表服務錯誤率或延遲等 SLO 指標正在快速惡化,需要立即調查。
對 Claude 下的指令
Barry 開啟 Claude,輸入:
$ claude
xxx domain 5xx error,開啟調查
特別的是,他沒有明確告訴 AI:
- 要去哪裡查
- 要用什麼工具
- correlation ID 是什麼
- 要先查哪一層
- 要怎麼產出報告
這代表 AI Agent 的價值不只是「回答問題」,而是能根據既有 Skill 與環境知識,自行展開調查流程。
AI 做的第一件事:讀 Skill
AI 做的第一件事不是直接猜答案,而是讀取 Skill。
沒有 Skill,AI 可能會走得比人類還慢。
Skill 的作用,是把組織內既有的 SRE 經驗、工具使用方式、調查流程與系統知識封裝起來,讓 AI 知道該怎麼開始。
如果沒有 Skill,AI 即使模型能力很強,也可能因為不了解內部系統而亂查、慢查或誤判。
AI 做了人類做不到的事:並行調查
接著 AI 將任務分派給多個 sub-agent。
整體流程可理解為:
Prompt
↓
Main Agent
├─ Sub Agent A → OpenSearch Log
├─ Sub Agent B → Confluence
├─ Sub Agent C → Site24x7
├─ Sub Agent D → Icinga2
└─ Sub Agent E → Prometheus
這些 agent 是並行執行,而不是序列執行。
對人類來說,通常是:
先看 Dashboard → 再查 Log → 再查文件 → 再看監控 → 再問 RD
但 AI Agent 可以同時查多個來源:
- OpenSearch log
- Confluence 文件
- Site24x7 監控
- Icinga2 告警
- Prometheus metrics
同一件事,兩種速度
| 模式 | 方式 | 時間 |
|---|---|---|
| 人類 | 序列,一個工具接一個查 | 約 20 分鐘 |
| AI | 並行,4 個 agent 同時跑 | 約 5 分鐘 |
這是 AI Agent 在 incident response 中最明顯的優勢之一:它可以平行化人類原本只能序列處理的調查工作。
Sub-agent 帶回來的發現
Sub-agent 帶回了一個重要線索:
這是第 4 次 OOM Kill 了。
也就是說,這不是第一次發生,而是同類型問題已經重複出現多次。
AI 不只是發現當下事件,也能把歷史資料與當前事件連在一起。
AI 直接把歷史發現寫進報告標題
AI 產出的報告標題是:
Pod OOMKill 第 4 次重複
這個標題很重要,因為它直接揭露了事件性質:
- 不是單次偶發
- 是重複性問題
- 可能代表根因尚未被修復
- 需要更深入處理,而不是只重啟服務或關閉告警
Before / After
同樣的故障,導入 AI Agent 前後差異明顯。
| 狀態 | 時間 | 結果 |
|---|---|---|
| Before | 2+ 小時 | 大腦燒完 |
| After | 15 分鐘 | 報告發好、ticket 開好 |
AI Agent 的價值不是讓 SRE 完全不用處理 incident,而是大幅縮短:
- 初步定位時間
- 跨工具查詢時間
- 歷史比對時間
- 報告撰寫時間
- ticket 建立時間
4. 優化與 Skill:當中的一些心得
Skill 的核心價值
Barry 對 Skill 的定義是:
Skill = 把多年 SRE 經驗封裝成一句指令。
Skill 不是單純的 prompt template,而是將組織內部的維運知識、工具操作邏輯與調查流程產品化。
換句話說,Skill 本質上是:
Skill = Human Knowledge / SRE Experience + AI Automation
它把人類過去累積的 SRE 經驗,轉換成 AI 可以執行、可以重複使用、可以並行調查的操作流程。因此 Skill 不是寫完就結束,而是需要隨著每一次 incident、每一次誤判、每一次新服務上線持續更新。
它讓 AI 知道:
- 發生某類 alert 時,要先查什麼。
- 某個服務對應哪些監控工具。
- log 在哪裡。
- 相關 dashboard 在哪裡。
- 哪些訊號可以用來判斷影響範圍。
- 哪些歷史 incident 可能相關。
- 最後報告應該怎麼整理。
Skill 的調查流程
簡報中整理的 Skill 流程如下:
| 步驟 | 工具 / 方法 | 用途 |
|---|---|---|
| 1 | 定位理解問題 | 透過關鍵字找到服務路由,收集識別資訊 |
| 2 | SubAgent 出動 | 查 Confluence、Monitor、Metrics |
| 3 | OpenSearch 調查 | 確認欄位、查詢錯誤、識別呼叫者、評估影響 |
| 4 | 視需要使用工具 | AWS CLI、kubectl、DB |
| 5 | 彙整報告 | 交叉比對資料,判斷根因路徑 |
這個流程的重點不是讓 AI 自動亂查,而是提供一條有結構的調查路徑。
關於模型:不是最貴的 model 就最好
每次跑「完整」調查其實有成本與時間壓力。
實際情境可能是:
- 凌晨出事
- AI thinking 五分鐘
- 大家都很急
- Leader 一直問
- RD 全被拉進群組
- 最後發現是 false alert
- 場面尷尬
這代表完整 deep investigation 不一定適合每一次 alert。
如果每次告警都直接用最強模型做完整分析,可能會造成:
- 回應太慢
- 成本偏高
- 團隊等待焦慮
- false alert 也消耗大量資源
因此,不是最貴、最強的模型就一定最好,而是要根據情境選擇合適的調查深度。
解法:兩層架構
Barry 的做法是將調查分成兩層:
| 類型 | Fast Triage | Deep Investigation |
|---|---|---|
| 時機 | Alert 剛來 | 確認是真實問題 |
| 模型 | 快模型 | 強模型 |
| 目標 | 2 到 3 分鐘初判影響比例 | 跨工具追根因 |
| 工具 | 只查最關鍵 log | OpenSearch、Prometheus 等多工具 |
這種架構的好處是:
- 快速判斷是否真有影響。
- 避免 false alert 直接進入昂貴調查。
- 真正有問題時,再投入完整分析。
- 降低成本與等待時間。
- 讓 incident response 更符合現場節奏。
AI 是日常通用加速器
AI Agent 不只在 incident 發生時有用,也可以處理日常維運問題。
例如:
「OpenSearch 怎麼沒 log?」
→ 丟 AI 查
「Kafka 是不是漏資料?」
→ 丟 AI 追
「定期巡檢要看這 10 個指標」
→ 丟 AI 跑
AI 在日常工作中的價值包括:
- 快速查詢 log
- 比對監控資料
- 執行巡檢
- 協助整理報告
- 輔助排查資料流
- 協助確認指標異常
因此,AI 不應只被視為 incident tool,而可以成為 SRE 的日常通用加速器。
5. 導入 AI:怎麼開始,以及踩過的坑
沒有驚天動地的導入計畫
Barry 的導入方式並不是一開始就有大型專案或完整規劃。
他的做法是:
- 每次遇到 Alert,同時試試 AI。
- 看 AI 能做到哪裡。
- 看 AI 哪裡做不到。
- 持續補知識與修流程。
他的導入軌跡大致是:
先從寫報告開始
→ 再到搜尋 Log
→ 最後才讓 AI 調查 Root Cause
這是一種漸進式導入,而不是一開始就把關鍵工作全部交給 AI。
坑 #1:AI 不認識你的系統
AI 再強,如果不知道你的系統長什麼樣子,也只能猜。
它可能不知道:
- Log 在哪個 index?
- 某個 service 是什麼服務?
- 5xx 要先查哪一層?
- ALB?
- Pod?
- DB?
- Alert 來自哪個監控工具?
- 哪些 dashboard 對應哪個服務?
- 哪些 log 欄位可以拿來查詢?
- 哪些團隊負責哪個系統?
沒有這些環境知識,AI 的輸出就容易變成不可靠的猜測。
坑 #2:AI 再聰明,沒 Infra 也沒用
AI 能否幫得上忙,高度依賴可觀察性基礎建設是否完整。
如果:
- log 沒有結構化
- 沒有 correlation ID
- 跨服務沒有 trace
- 監控資料分散且無法串接
- dashboard 與服務對應關係不清楚
- alert 沒有足夠 context
那 AI 很難建立完整因果鏈。
例如:
- log 沒結構化,只能靠文字猜。
- 沒 correlation ID,就無法把同一次 request 跨服務串起來。
- 跨服務沒 trace,因果鏈會斷掉。
所以:
先把 infra 做好,AI 才幫得上忙。
這是前提,不是奇蹟。
核心公式
簡報給出一個核心公式:
AI 上限 = 環境知識 × Infra 可觀察性
這句話總結了 AI Agent 在 SRE 場景中的限制。
AI 的能力不是只由模型決定,而是同時受限於:
- 它對內部系統的認識程度。
- 它能取得的觀測資料品質。
- 可觀察性基礎設施是否完整。
- 工具是否能被 AI 正確呼叫。
- 組織知識是否被文件化與結構化。
6. Adoption:不是一開始就敢把關鍵工作交給 AI
Barry 強調,他不是一開始就敢這樣把 incident investigation 交給 AI。
信任是逐步建立的。
Stage 1:最早只敢讓 AI 寫報告
一開始的做法是:
- 調查自己做。
- 結論自己下。
- AI 只負責整理 notes。
- 效率約從 1 小時縮短到 20 分鐘。
這個階段,AI 扮演的是文書與整理助手,不碰關鍵判斷。
仍然不敢交給 AI 做關鍵工作。
Stage 2:人類調查與 AI 調查同時跑
第二階段開始讓 AI 一起調查,但人類也同步調查。
做法包括:
- 人類調查與 AI 調查同時進行。
- 兩邊結論拉 RD 一起 review。
- 發現 AI 亂講次數多。
- 主要原因是知識庫不夠。
- 每天補知識。
- 每個 issue 都修文件。
這個階段的重點是:
- 持續測試。
- 持續迭代。
- 不急著完全相信。
- 用實際 incident 累積修正資料。
Stage 3:產品上線或異動後,AI 先找到關鍵點
第三階段發生在某個晚上,產品或服務上線異動後出事。這類 onboarding / rollout 後的 troubleshooting,通常需要快速串起部署變更、監控異常、log 線索與服務呼叫關係。
當時:
- RD 還在找問題。
- AI Agent 先找到關鍵點。
- AI 直接畫出 Incident Flow Chart。
- 問題脈絡一眼可見。
- RD 確認 AI 的分析吻合。
這是信任建立的重要轉折點。
AI 不只是整理資訊,而是開始在真實 incident 中提供有效洞察。
Stage 4:團隊開始信任
最後,團隊逐漸開始信任 AI Agent。
但這種信任不是一夜建立的,而是:
- 一個一個 incident 測出來。
- 一次一次修文件修出來。
- 一次一次驗證結論累積起來。
- 由人類 review 逐步放大權限。
AI Agent 不是裝了就能用。
它是你一天一天餵出來的夥伴。
這句話是整場分享很重要的觀念:AI Agent 不是即插即用的魔法工具,而是需要用組織知識、真實案例、文件與回饋持續訓練出來的工作夥伴。
7. 實務與心得:常被問的問題
每次事件調查成本
每次事件調查的 AI 成本約為:
$5 - $10
這個成本要放在 incident response 的整體成本中看。
如果 AI 能把一次 incident 從 2 小時縮短到 15 分鐘,節省的不只是金錢,也包括:
- SRE 睡眠與體力
- RD 被拉進群組的時間
- Leader 等待狀態
- SLA / SLO 惡化時間
- 報告與 ticket 整理時間
- 團隊整體認知負擔
資料不離開信任邊界
對企業導入 AI Agent 來說,資料安全是基本前提。
Barry 的做法是:
資料不離開信任邊界。
具體包括:
- 使用公司內部端點。
- 不走外部 API。
- PII 不出門。
- 敏感資料不送出信任範圍。
這對資安業或任何處理敏感資料的組織都很重要。
能有 Skill 就用 Skill
對 AI Agent 來說,Skill 是讓它理解組織工作方式的重要資產。
實務建議是:
能有 Skill 就用 Skill,然後每天補一點知識。
Skill 不是一次寫完就結束,而是每天透過真實事件、錯誤案例與文件修正持續補強。
AI 讓效率增加,但不代表你比較輕鬆
AI 可以讓 SRE 更有效率,但不代表工作就變輕鬆。
因為:
- Alert 還是會叫。
- Incident 還是會發生。
- 人類還是要判斷與負責。
- AI 的輸出仍需要驗證。
- 知識庫與 Skill 需要維護。
- Infra 可觀察性還是要持續補強。
但至少,AI 可以讓你更快完成初步調查、報告與 ticket,降低凌晨被叫醒後的負擔。
Alert 還是會叫,但至少你可以馬上睡回籠覺。
總結
這場分享展示了 SRE 如何在 AI Agent 時代重新設計 on-call 工作流程。
核心不是讓 AI 取代 SRE,而是讓 AI 成為 on-call 夥伴,協助完成:
- 初步 triage
- 跨工具查詢
- log 分析
- metrics 比對
- 文件查詢
- 歷史 incident 對照
- 影響範圍判斷
- 根因路徑整理
- 報告撰寫
- ticket 建立
但 AI Agent 要真正有用,前提是:
- 系統知識要被文件化。
- Skill 要持續累積。
- log 要結構化。
- 要有 correlation ID。
- 跨服務 trace 要補齊。
- 監控、log、文件、metrics 要能被 AI 存取。
- 團隊要透過真實 incident 逐步建立信任。
最重要的公式是:
AI 上限 = 環境知識 × Infra 可觀察性
這代表 AI Agent 的能力上限,不只取決於模型本身,更取決於組織是否具備足夠清楚、可存取、可串接的可觀察性基礎設施與內部知識。
最後,AI Agent 不是裝了就能用的工具,而是需要長期餵養與迭代的夥伴。
當它被正確導入後,可以把 SRE 從每次 2 小時以上的深夜 incident 流程中解放一部分出來,讓人更快理解問題、更快完成回報,也更快回去睡覺。