$ ./meeting --topic "ai-agent-in-workflow"
AI Agent
融入工作流
當 ChatGPT / Gemini 不再夠用
分享人 // Rocco
場合 // 內部使用經驗分享
日期 // 2026
今天要聊什麼
01
從 Web GUI 說起
大家都熟悉的 ChatGPT、Gemini,那 AI Agent 是什麼?
02
御「兩」家 AI Agent
Claude Code、Codex CLI,以及第三方生態
03
能解決什麼?瑞士刀真的存在嗎?
實際場景、潛在風險
04
本地端開源模型
硬體選擇、模型選擇、為什麼要本地化
05
我重鑄了哪些輪子
實戰專案 + 監控整合案例 + Agent 協作流程
從 Web GUI 說起
大家普遍的使用習慣,是打開瀏覽器,到 ChatGPT 或 Gemini 的網頁聊天介面,貼上問題、複製回答。
這種方式很直覺,但有幾個 天花板:
- 無法直接讀取或修改你電腦上的檔案
- 無法執行指令、跑測試、看真實的錯誤訊息
- 每次都要手動複製貼上,上下文難以累積
- 無法串接你日常工作的工具(Slack、Git、本地服務)
→ 真正的生產力,是讓 AI 直接「動手」,而不只是「動口」。
御「兩」家 AI Agent
會說「兩」家,是因為原本期待的三家裡,Gemini CLI 目前 看不到車尾燈。
Claude Code
- Anthropic 出品,CLI / IDE 整合
- 長上下文理解力強,適合大型 codebase
- 支援 MCP、Skill、Subagent
- 檔案系統、Bash、Git 操作自然
Codex CLI
- OpenAI 出品,終端機原生 Agent
- 使用 GPT 系列模型,回應速度快
- 沙箱化執行,安全分級可調
- 適合腳本化、批次任務
// Gemini CLI 功能定位偏 chat 而非 agentic 行為,工具呼叫、檔案修改、長任務穩定性都還有距離。
以 2026 年中個人使用經驗為準,各工具功能持續迭代中
第三方 AI Agent 生態
不只大廠官方工具,社群與新創也百花齊放:
商業 / 雲端
Factory.ai Droid
強調團隊協作、CI/CD 整合,企業導向。
IDE 整合
Junie (JetBrains)
JetBrains 系列 IDE 原生整合,適合既有 JetBrains 使用者。
開源 / OpenRouter
OpenCode (SST)
開源、支援 OpenRouter,模型選擇彈性最大。
我最近在用
Pi (pi-mono / pi-coding-agent)
AI agent toolkit,包含 CLI、unified LLM API、TUI/Web UI,支援多家模型。
→ 重點不是「哪家最好」,是「哪家最適合你的工作」。
第三方 Agent 生態變動快,定位與授權條款請以官方最新資訊為準
AI Agent 能解決什麼?
🔧 重複性工作自動化
批次重命名、檔案整理、報表生成、資料清洗
📝 程式撰寫與重構
新功能開發、bug 修復、跨語言移植、單元測試補完
🔍 程式碼理解
讀懂陌生 codebase、產生架構圖、解釋複雜邏輯
🌐 工具串接整合
透過 MCP 串接 Slack、資料庫、API、自家服務
🧪 環境移植與部署
Windows → macOS、Docker 化、跨平台調整
📚 知識萃取
影片字幕、文件摘要、RAG 問答、會議記錄整理
// 萬用瑞士刀真的存在嗎?
短答:不存在。
長答:你才是那把刀。
Agent 工具會持續更迭,今天最強的明天可能落後。
真正穩定的是 你怎麼描述問題、怎麼拆解任務、怎麼驗證結果。
工具是手,思路是腦。
AI Agent 的潛在問題
幻覺與錯誤行動
不只是說錯話,是「動手做錯事」。執行了不該執行的指令、刪除了不該刪除的檔案。
成本失控
大型 codebase 一次任務可能燒掉數十美金,沒有上限提醒會很痛。
資料外洩風險
公司機密、客戶資料、API 金鑰,送到雲端 LLM 之前必須確認。
過度依賴
不再思考、不再閱讀程式碼。Agent 出錯時無法判斷對錯。
→ 緩解策略:版控、沙箱、code review、成本上限、不要把生產環境直接交給 Agent。
本地端開源模型,為什麼?
動機
- 資料不出本機,隱私可控
- 無 API 成本,長任務跑到飽
- 離線可用,斷網也能工作
- 可實驗、可調整、可微調
取捨
- 模型能力 vs 雲端旗艦仍有落差
- 硬體門檻(VRAM / 統一記憶體)
- 長上下文記憶體爆炸
- 需要時間學習部署與調校
$ echo "雲端模型負責創造,本地模型負責守密。"
硬體與模型選擇
硬體
Apple Silicon
- M4 Max / M4 Pro,36GB+ 統一記憶體
- MLX 框架原生支援,效能優異
- 單機可跑 30B 以下量化模型
硬體
NVIDIA GPU
- RTX 4090 / 5090,24GB+ VRAM
- vLLM、llama.cpp 生態成熟
- 多 GPU 可組更大模型
執行環境
Ollama / LM Studio / MLX
- Ollama:開箱即用,跨平台
- LM Studio:圖形介面友善
- MLX:Apple Silicon 最佳化
模型推薦
2026 入門選擇
- Qwen 系列(中文強)
- Gemma 系列(輕量快速)
- Llama 系列(生態完整)
硬體門檻取決於量化方式與上下文長度;模型版本月月更新,建議分享當下再確認最新版本
我重鑄了哪些輪子(一)
幾乎全部都是 AI Agent 協作完成 — Hermes Agent / Claude Code / Codex 為主力。
hermes-slack-bot
Python
建立在 Hermes Agent skill 上的 Slack 機器人
hermes-mem-system
Markdown
Hermes Agent 的記憶系統,與 slack-bot 搭配使用
mlx-subtitles
Python
M4 Max + Whisper 辨識影片音軌,Claude Code / Codex skill 翻譯成繁中 SRT
mlx-lm
Python
Apple Silicon MLX 語言模型推論實驗
mlx-audio
Shell
MLX 音訊處理工具腳本
youtube-script
Python
Terminal-based YouTube pipeline
我重鑄了哪些輪子(二)
travel-assistant
HTML
AI 旅遊助理,行程規劃工具
newsnow-tw
TypeScript
台灣即時新聞聚合
elearn-auto
Python
公務員專用:自動補完影片時數、填寫問卷、自動通過測驗(半成品)
tickets_hunter
Python
既有專案的環境移植:Windows → macOS 可運行
elementary-star-challenge
JavaScript
小學星攻略:國小三年級英文聽力與發音訓練遊戲
jpfukuoka2607 / jposaka2607
HTML
整合案例 — 客製化監控儀表板
● PRODUCTION
公司內部監控的實際應用案例
把分散的監控來源,整合成一張屬於我們自己的儀表板。
data source 01
LibreNMS
有 API、有資料庫,乾淨好取。
SNMP 收集的網路設備指標,直接拉進 Grafana。
data source 02
Imperva WAF Console
沒開放 API、只有 Web Console。
Headless 瀏覽器登入抓資料,繞過限制。
presentation
Grafana
單一介面、客製面板、告警整合。
誰要看什麼,就做給誰看。
LibreNMS API ──┐
Imperva WAF ──┤──→ headless scraper + parser ──→ time-series DB ──→ Grafana
(headless browser) ──┘
→ 三個亮點:Agent 串內部監控、突破無 API 限制、把分散源整合成單一視角。
這些是怎麼做出來的
沒有秘密,就是一個 人類 + Agent 的循環:
[me] 描述目標、提供範例、給限制條件
[agent] 產生計畫、寫 code、跑測試
[me] 看結果、給 feedback、修正方向
[agent] 迭代、修 bug、補測試
[me] 驗收 → commit → 下一個任務
- 用 AGENTS.md / CLAUDE.md 把專案規則寫清楚,每次對話省去重新交代
- 移植類專案(如 tickets_hunter):先讓 Agent 讀懂原始碼,再分階段修
- 整檔重寫,有時比精準字串替換更穩定
- 長任務切小、版控隨時、不順就回上一步
$ ./conclusion --final
今天學的,
下個月可能被顛覆。
AI 發展的速度,已經快到沒有人能說自己「全部跟上」。
所以重點不是「學完」,是 保持好奇、保持手感、保持懷疑。
動手做,動手做,動手做。
Thanks // Q & A welcomed
— Rocco