$ ./meeting --topic "ai-agent-in-workflow"

# 從 Web GUI 到 Agent 化的實戰分享

AI Agent
融入工作流

當 ChatGPT / Gemini 不再夠用

分享人 // Rocco
場合 // 內部使用經驗分享
日期 // 2026

02 / 15 // agenda

今天要聊什麼

01

從 Web GUI 說起

大家都熟悉的 ChatGPT、Gemini，那 AI Agent 是什麼？

02

御「兩」家 AI Agent

Claude Code、Codex CLI，以及第三方生態

03

能解決什麼？瑞士刀真的存在嗎？

實際場景、潛在風險

04

本地端開源模型

硬體選擇、模型選擇、為什麼要本地化

05

我重鑄了哪些輪子

實戰專案 + 監控整合案例 + Agent 協作流程

06

結語

AI 的變化速度，比你想像的快

03 / 15 // part 01 — starting point

從 Web GUI 說起

大家普遍的使用習慣，是打開瀏覽器，到 ChatGPT 或 Gemini 的網頁聊天介面，貼上問題、複製回答。

這種方式很直覺，但有幾個天花板：

無法直接讀取或修改你電腦上的檔案
無法執行指令、跑測試、看真實的錯誤訊息
每次都要手動複製貼上，上下文難以累積
無法串接你日常工作的工具（Slack、Git、本地服務）

→ 真正的生產力，是讓 AI 直接「動手」，而不只是「動口」。

04 / 15 // part 02 — the big two

御「兩」家 AI Agent

會說「兩」家，是因為原本期待的三家裡，Gemini CLI 目前看不到車尾燈。

Claude Code

Anthropic 出品，CLI / IDE 整合
長上下文理解力強，適合大型 codebase
支援 MCP、Skill、Subagent
檔案系統、Bash、Git 操作自然

Codex CLI

OpenAI 出品，終端機原生 Agent
使用 GPT 系列模型，回應速度快
沙箱化執行，安全分級可調
適合腳本化、批次任務

// Gemini CLI 功能定位偏 chat 而非 agentic 行為，工具呼叫、檔案修改、長任務穩定性都還有距離。

以 2026 年中個人使用經驗為準，各工具功能持續迭代中

05 / 15 // part 02 — third party

第三方 AI Agent 生態

不只大廠官方工具，社群與新創也百花齊放：

商業 / 雲端

Factory.ai Droid

強調團隊協作、CI/CD 整合，企業導向。

IDE 整合

Junie (JetBrains)

JetBrains 系列 IDE 原生整合，適合既有 JetBrains 使用者。

開源 / OpenRouter

OpenCode (SST)

開源、支援 OpenRouter，模型選擇彈性最大。

我最近在用

Pi (pi-mono / pi-coding-agent)

AI agent toolkit，包含 CLI、unified LLM API、TUI/Web UI，支援多家模型。

→ 重點不是「哪家最好」，是「哪家最適合你的工作」。

第三方 Agent 生態變動快，定位與授權條款請以官方最新資訊為準

06 / 15 // part 03 — use cases

AI Agent 能解決什麼？

🔧 重複性工作自動化

批次重命名、檔案整理、報表生成、資料清洗

📝 程式撰寫與重構

新功能開發、bug 修復、跨語言移植、單元測試補完

🔍 程式碼理解

讀懂陌生 codebase、產生架構圖、解釋複雜邏輯

🌐 工具串接整合

透過 MCP 串接 Slack、資料庫、API、自家服務

🧪 環境移植與部署

Windows → macOS、Docker 化、跨平台調整

📚 知識萃取

影片字幕、文件摘要、RAG 問答、會議記錄整理

07 / 15 // part 03 — the swiss army knife myth

// 萬用瑞士刀真的存在嗎？

短答：不存在。
長答：你才是那把刀。

Agent 工具會持續更迭，今天最強的明天可能落後。
真正穩定的是你怎麼描述問題、怎麼拆解任務、怎麼驗證結果。
工具是手，思路是腦。

08 / 15 // part 03 — the dark side

AI Agent 的潛在問題

幻覺與錯誤行動

不只是說錯話，是「動手做錯事」。執行了不該執行的指令、刪除了不該刪除的檔案。

成本失控

大型 codebase 一次任務可能燒掉數十美金，沒有上限提醒會很痛。

資料外洩風險

公司機密、客戶資料、API 金鑰，送到雲端 LLM 之前必須確認。

過度依賴

不再思考、不再閱讀程式碼。Agent 出錯時無法判斷對錯。

→ 緩解策略：版控、沙箱、code review、成本上限、不要把生產環境直接交給 Agent。

09 / 15 // part 04 — going local

本地端開源模型，為什麼？

動機

資料不出本機，隱私可控
無 API 成本，長任務跑到飽
離線可用，斷網也能工作
可實驗、可調整、可微調

取捨

模型能力 vs 雲端旗艦仍有落差
硬體門檻（VRAM / 統一記憶體）
長上下文記憶體爆炸
需要時間學習部署與調校

# 一句話總結
$ echo "雲端模型負責創造，本地模型負責守密。"

10 / 15 // part 04 — hardware & models

硬體與模型選擇

硬體

Apple Silicon

M4 Max / M4 Pro，36GB+ 統一記憶體
MLX 框架原生支援，效能優異
單機可跑 30B 以下量化模型

硬體

NVIDIA GPU

RTX 4090 / 5090，24GB+ VRAM
vLLM、llama.cpp 生態成熟
多 GPU 可組更大模型

執行環境

Ollama / LM Studio / MLX

Ollama：開箱即用，跨平台
LM Studio：圖形介面友善
MLX：Apple Silicon 最佳化

模型推薦

2026 入門選擇

Qwen 系列（中文強）
Gemma 系列（輕量快速）
Llama 系列（生態完整）

硬體門檻取決於量化方式與上下文長度；模型版本月月更新，建議分享當下再確認最新版本

11 / 15 // part 05 — projects, set 1

我重鑄了哪些輪子（一）

幾乎全部都是 AI Agent 協作完成 — Hermes Agent / Claude Code / Codex 為主力。

hermes-slack-bot

Python

建立在 Hermes Agent skill 上的 Slack 機器人

hermes-mem-system

Markdown

Hermes Agent 的記憶系統，與 slack-bot 搭配使用

mlx-subtitles

Python

M4 Max + Whisper 辨識影片音軌，Claude Code / Codex skill 翻譯成繁中 SRT

mlx-lm

Python

Apple Silicon MLX 語言模型推論實驗

mlx-audio

Shell

MLX 音訊處理工具腳本

youtube-script

Python

Terminal-based YouTube pipeline

12 / 15 // part 05 — projects, set 2

我重鑄了哪些輪子（二）

travel-assistant

HTML

AI 旅遊助理，行程規劃工具

newsnow-tw

TypeScript

台灣即時新聞聚合

elearn-auto

Python

公務員專用：自動補完影片時數、填寫問卷、自動通過測驗（半成品）

tickets_hunter

Python

既有專案的環境移植：Windows → macOS 可運行

elementary-star-challenge

JavaScript

小學星攻略：國小三年級英文聽力與發音訓練遊戲

jpfukuoka2607 / jposaka2607

HTML

日本福岡、大阪旅遊頁面
→ travel-fukuoka.pages.dev
→ travel-osaka.pages.dev

13 / 15 // part 05 — case study

整合案例 — 客製化監控儀表板

● PRODUCTION 公司內部監控的實際應用案例

把分散的監控來源，整合成一張屬於我們自己的儀表板。

data source 01

LibreNMS

有 API、有資料庫，乾淨好取。
SNMP 收集的網路設備指標，直接拉進 Grafana。

data source 02

Imperva WAF Console

沒開放 API、只有 Web Console。
Headless 瀏覽器登入抓資料，繞過限制。

presentation

Grafana

單一介面、客製面板、告警整合。
誰要看什麼，就做給誰看。

# 資料流
LibreNMS API ──┐
Imperva WAF ──┤──→ headless scraper + parser ──→ time-series DB ──→ Grafana
(headless browser) ──┘

→ 三個亮點：Agent 串內部監控、突破無 API 限制、把分散源整合成單一視角。

14 / 15 // part 05 — how

這些是怎麼做出來的

沒有秘密，就是一個人類 + Agent 的循環：

# 一個典型的迴圈
[me] 描述目標、提供範例、給限制條件
[agent] 產生計畫、寫 code、跑測試
[me] 看結果、給 feedback、修正方向
[agent] 迭代、修 bug、補測試
[me] 驗收 → commit → 下一個任務

用 AGENTS.md / CLAUDE.md 把專案規則寫清楚，每次對話省去重新交代
移植類專案（如 tickets_hunter）：先讓 Agent 讀懂原始碼，再分階段修
整檔重寫，有時比精準字串替換更穩定
長任務切小、版控隨時、不順就回上一步

$ ./conclusion --final

今天學的，
下個月可能被顛覆。

AI 發展的速度，已經快到沒有人能說自己「全部跟上」。
所以重點不是「學完」，是保持好奇、保持手感、保持懷疑。
動手做，動手做，動手做。

Thanks // Q & A welcomed
— Rocco

AI Agent融入工作流

今天要聊什麼

從 Web GUI 說起

御「兩」家 AI Agent

能解決什麼？瑞士刀真的存在嗎？

本地端開源模型

我重鑄了哪些輪子

結語

從 Web GUI 說起

御「兩」家 AI Agent

Claude Code

Codex CLI

第三方 AI Agent 生態

Factory.ai Droid

Junie (JetBrains)

OpenCode (SST)

Pi (pi-mono / pi-coding-agent)

AI Agent 能解決什麼？

🔧 重複性工作自動化

📝 程式撰寫與重構

🔍 程式碼理解

🌐 工具串接整合

🧪 環境移植與部署

📚 知識萃取

AI Agent 的潛在問題

幻覺與錯誤行動

成本失控

資料外洩風險

過度依賴

本地端開源模型，為什麼？

動機

取捨

硬體與模型選擇

Apple Silicon

NVIDIA GPU

Ollama / LM Studio / MLX

2026 入門選擇

我重鑄了哪些輪子（一）

我重鑄了哪些輪子（二）

整合案例 — 客製化監控儀表板

LibreNMS

Imperva WAF Console

Grafana

這些是怎麼做出來的

AI Agent
融入工作流