由寫 prompt 到設計工作手冊：Agent 工程方法論進化論

「寫 prompt」呢個詞，本身就係一個陷阱。

佢暗示緊 AI 互動嘅本質係「文字創作」——你愈有文采、愈識得用比喻、愈曉得喺 system prompt 裡面落咒語式嘅指令，個 AI 就愈聽你話。呢個想像喺 2023 年仲勉強 work，但到咗 2026 年，當我哋見到嘅生產力差距，唔再係寫得好唔好 prompt 之間嘅分別，而係有冇系統性 Agent 方法論之間嘅鴻溝，整個遊戲規則已經變咗。

我喺過去兩年親身經歷咗三次思維升級。每一次都痛苦，每一次都係將自己以前嘅作品推倒重來。但最有趣嘅係：每一次升級嘅核心問題都一樣——點樣令 AI 唔係「聰明一次」，而係「 consistently 可靠」？

從 Prompt 工匠到 Prompt 科學家

第一個階段，大家都經歷過：不斷 tweak system prompt，加 few-shot examples，試 chain-of-thought，試角色扮演。呢階段嘅產出極不穩定——同一條 prompt 今日得，聽日唔得；俾 A 模型得，俾 B 模型亂嚟。

關鍵轉折點係當我開始用 git 管理 prompt 版本。聽落好 trivial，但呢個動作代表本質認知改變：你唔再將 prompt 當作「一次性嘅 magic spell」，而係當作程式碼。程式碼要 version control、要 diff、要 rollback、要有 test suite。

我開始為每個 prompt 寫「測試用例」：已知嘅 edge case、預期輸出格式、唔可以犯嘅錯誤類型。每次改 prompt，先跑 test suite，pass 咗先 deploy。呢個流程响傳統軟件工程係 ABC，但响 prompt engineering 領域，2024 年中之前幾乎冇人做。

結果呢？穩定性大幅提升。但好快我發現另一個問題：即使 prompt 完美，context 都會背叛你。

Context Engineering：XMem 改變咗乜嘢？

2025 年尾到 2026 年嘅最大突破，唔係模型本身（雖然 Claude 4 同 GPT-5 都確實在進步），而係 Context Engineering 呢個 discipline 嘅成形。

傳統 prompt engineering 嘅最大盲點係：佢假設「輸入等於意圖」。你寫咗 system prompt，然後每次俾 user message，模型就應該理解你想點。但現實係，一個複雜任務嘅 context 係動態嘅——user 喺對話中途改變方向、新資訊令舊 plans 作廢、過去 50 條 message 入面有 3 條關鍵 constraints 被沖淡。

XMem 嘅出現解決咗呢個核心矛盾。佢本質上係一個結構化嘅工作記憶層，唔係將所有嘢塞入 context window，而係將資訊分為：

長期記憶：domain knowledge、規則、constraints（類似 system prompt 嘅進化版）
短期記憶：當前任務狀態、中間產出、user 最新指示
工作記憶：active execution context——模型而家做緊咩、下一個 step 係咩、有咩 pending decisions

呢個 triple-memory architecture，係 Agent 方法論嘅關鍵基礎。佢令到 model 唔再係「每次從頭讀晒成個 conversation」，而係好似人類工程師咁：長期記住公司規矩，短期記住呢個 sprint 做緊咩，工作記憶 focus 喺而家呢個 task。

實際效果極其驚人。我其中一個 production agent，導入 XMem 之後，task completion rate 由 73% 升到 94%，而且每個任務嘅 token consumption 反而降低咗 40%。點解？因為模型唔再需要喺每個 request 入面重讀大量 redundant context。

工作手冊：Agent 方法論嘅終極形態

Context Engineering 解決咗「模型記唔記得」嘅問題，但未解決「模型知唔知點做」嘅問題。呢個就係我哋需要 Agent Methodology 嘅原因。

傳統做法係喺 system prompt 入面寫 step-by-step instruction。但複雜 task 嘅 step 唔係線性嘅——有 branch、有 conditional、有 exception handling、有 human-in-the-loop 嘅 decision point。用文字描述呢啲 logic flow，唔單止冗長，而且模型容易迷失。

解決方案係工作手冊（Working Handbook）——一個結構化嘅 agent execution framework，包含：

Decision Tree：唔係 prompt 入面寫「如果 A 就做 B」，而係用 structured format（JSON/YAML）定義 decision nodes，每個 node 有 condition、action、fallback
Tool Registry：agent 可以 call 咩 tool、每個 tool 嘅 input/output schema、rate limit、error handling strategy
State Machine：task 嘅 lifecycle states，每個 state 有 allowed transitions、timeout behavior、rollback plan
Human Handoff Protocol：咩情況一定要問人、點樣 summarise context俾人、點樣接收 feedback 之後繼續

呢個 framework 嘅威力在於：佢將 agent 嘅行為從「黑盒 text generation」變成「白盒 state execution」。你可以 test 每個 decision node、可以 mock tool response、可以 replay 成個 execution trace 嚟 debug。

我而家嘅 workflow 係：先用 handbook 定義成個 agent 嘅行為邏輯，然後先開始寫 implementation。Handbook 本身會經過 code review，同 functional spec 一樣對待。Prompt 反而變成最後先寫嘅嘢——而且寫嘅時候，因為已經知道晒所有 decision points 同 state transitions，prompt 嘅目的好清晰：唔係「叫 AI 做晒成件事」，而係「喺已知嘅 framework 入面執行當前 step」。

結語：工程化係唯一出路

俾個 concrete advice。

如果你仲係用緊單一 system prompt 去 handle 複雜 task，停一停。你唔係喺度寫 prompt——你係喺度 build 一個 production system。對待佢嘅方式，應該同你寫 backend service 一樣：

用 version control 管理 prompt 同 handbook，每次改動要有 diff 同 changelog
為每個 agent 寫 test case，唔係 test AI 嘅能力，而係 test 你自己嘅 definition 有冇漏洞
引入 structured context management——無論你用 XMem、mem0、定自建 solution，context 唔可以再係一條平嘅 text stream
定義 state machine——你嘅 agent 必須知道自己喺邊個 state、可以去邊個 state、唔可以去邊個 state

2026 年嘅 AI 開發者，最大嘅競爭優勢唔係 prompt 寫得靚，而係有冇能力 design 一個系統——一個令 AI consistently 做到嘢、你可以 consistently debug、你可以 consistently improve 嘅系統。

由寫 prompt 到設計工作手冊，係一條從工匠到工程師嘅必經之路。呢條路唔易行，但係唯一行得通嘅路。