Agent 安全 101：Multi-Agent Injection 攻擊係咩？點解傳統防禦失效？

你有無諗過，你個 multi-agent 系統用越強嘅 LLM 做 Worker，反而越易被人騎劫？

2026 年 5 月，一篇名為 The Capability Paradox: How Smarter Auditors Make Multi-Agent Systems Less Secure 嘅論文公佈咗一個令人不安嘅發現：喺 42,000 次 adversarial trial 入面，當 Worker agent 嘅能力提升，系統級別嘅 Attack Success Rate（ASR）由 18.4% 飆升到 63.9%，最高達到 94.4%。唔係 typo——用 GPT-4 級模型做 Worker，比用 3.5 級嘅攻擊成功率高出 3-5 倍。

呢個現象叫 Capability Paradox：模型越聰明，越容易「說服」Manager agent 執行惡意操作。原因唔係 prompt injection 嗰種 crude 嘅「Ignore previous instructions」，而係更陰濕嘅 Semantic Hijacking——攻擊者將惡意請求包裝成 domain-specific 嘅敘述，Worker 信以為真，再用自信嘅語氣向 Manager 報告，Manager 就咁批咗。

傳統防禦點解唔 work？

如果你仲以為「加 system prompt 叫佢小心啲」、「filter 關鍵字」、「output sanitization」就得，咁你要睇清楚幾個殘酷事實。

第一，Indirect Prompt Injection 唔經 user input。

ClawGuard 嘅研究團隊指出，攻擊者將惡意指令嵌入 tool-returned content——例如一個 CSV file、一封 email body、一個 API response。Agent 讀取呢啲內容時自動將佢當成 trusted observation 放入 conversation history。你 filter 到 user prompt 但 filter 唔到 tool output，呢個 gap 就係攻擊面。

最新嘅 SkillAttack 框架更加證明咗：即使 skill 本身完全無惡意 code，攻擊者可以齋靠 adversarial prompting 去 exploit 技能嘅 latent vulnerability，唔使改任何一行 code。Static auditing 喺呢啲攻擊面前等於無掩護。

第二，Alignment 救唔到你。

When Alignment Isn’t Enough 呢篇論文展示咗一個叫 Relay Tampering Attack（RTA）嘅手法：喺 Bring-Your-Own-Key（BYOK）架構入面，attacker 作為 relay 可以喺 LLM 生成 response 之後、agent 執行之前修改內容。即使 LLM 嘅 alignment 完美，response 行到 agent 手上已經被人改過。喺 AgentDojo 同 ASB benchmark 上，RTA 達到 99.1% ASR。受害者包括 OpenClaw 同 Claude Code。

第三，Memory Poisoning 係計時炸彈。

Trojan Hippo 示範咗點樣透過一次唔起眼嘅 tool call（例如收封 email）將 dormant payload 植入 agent 嘅 long-term memory。Payload 會一直潛伏，直到用戶觸及敏感話題（財務、健康、身份）先激活，然後 exfiltrate 個人資料。即使用戶之後做 100 次 benign session，payload 依然有效。Frontier model（OpenAI、Google）上 ASR 達 85-100%。

第四，Subagent 繼承放大攻擊。

When Child Inherits 呢篇論文建模咗 multi-agent 網絡入面嘅 subagent spawn 機制。當 parent agent 被入侵，inherited memory 會將 malicious instructions 傳俾所有子 agent。目前主流 framework 喺 insecure memory inheritance、weak resource control 呢啲位全部有漏洞。

點解傳統防禦踢鐵板？一句講晒：你防嘅係 single-turn text input，但攻擊係 multi-turn、multi-channel、multi-agent 嘅。

Prompt sanitization 只 check 第一層 user input，睇唔到 tool return；Output filter 只睇最終生成，睇唔到中間嘅 tool call；System prompt 加固對 script kiddie 可能有用，但面對 semantic hijacking 同 relay tampering 等於無。

咁即係點？

Multi-agent security 需要 Paradigm Shift，由「防 input」轉為「防 execution boundary」。最近有啲 promising 方向：

ClawGuard 嘅做法係喺每個 tool-call boundary 強制執行 user-confirmed rule set，將 alignment-dependent defense 變成 deterministic 嘅 audit mechanism。
Heterogeneous Ensemble Verification：用 domain competence 唔對稱嘅 Worker pair，令 attacker 難以同時欺騙雙方，ASR 可以由 52.8% 降到 2.0%。
Execution-centric security evaluation：唔好再淨係睇 final response，要監控中間 execution trace 嘅 tool call 係咪有異常。

俾香港 dev 嘅行動建議：

唔好天真到以為加句「Be safe」就夠——你班 Worker 越聰明越危險，要諗 heterogeneous verification 策略。
Tool call boundary 係你最後一道防線——未確認嘅 tool output 唔應該直接 feed 返入 conversation history。
Memory 係新攻擊面——agent 嘅 long-term memory 要有 explicit security invariant，唔可以俾 subagent 亂繼承。
BYOK 架構下，唔好假設 relay 可信——考慮 response integrity verification 或 time-based detection。

Agent 係未來，但未加固嘅 multi-agent system 唔係產品——係你下一單 security incident 嘅 headline。