Agent 安全 101:Multi-Agent Injection 攻擊係咩?點解傳統防禦失效?
你有無諗過,你個 multi-agent 系統用越強嘅 LLM 做 Worker,反而越易被人騎劫?
2026 年 5 月,一篇名為 The Capability Paradox: How Smarter Auditors Make Multi-Agent Systems Less Secure 嘅論文公佈咗一個令人不安嘅發現:喺 42,000 次 adversarial trial 入面,當 Worker agent 嘅能力提升,系統級別嘅 Attack Success Rate(ASR)由 18.4% 飆升到 63.9%,最高達到 94.4%。唔係 typo——用 GPT-4 級模型做 Worker,比用 3.5 級嘅攻擊成功率高出 3-5 倍。
呢個現象叫 Capability Paradox:模型越聰明,越容易「說服」Manager agent 執行惡意操作。原因唔係 prompt injection 嗰種 crude 嘅「Ignore previous instructions」,而係更陰濕嘅 Semantic Hijacking——攻擊者將惡意請求包裝成 domain-specific 嘅敘述,Worker 信以為真,再用自信嘅語氣向 Manager 報告,Manager 就咁批咗。
傳統防禦點解唔 work?
如果你仲以為「加 system prompt 叫佢小心啲」、「filter 關鍵字」、「output sanitization」就得,咁你要睇清楚幾個殘酷事實。
第一,Indirect Prompt Injection 唔經 user input。
ClawGuard 嘅研究團隊指出,攻擊者將惡意指令嵌入 tool-returned content——例如一個 CSV file、一封 email body、一個 API response。Agent 讀取呢啲內容時自動將佢當成 trusted observation 放入 conversation history。你 filter 到 user prompt 但 filter 唔到 tool output,呢個 gap 就係攻擊面。
最新嘅 SkillAttack 框架更加證明咗:即使 skill 本身完全無惡意 code,攻擊者可以齋靠 adversarial prompting 去 exploit 技能嘅 latent vulnerability,唔使改任何一行 code。Static auditing 喺呢啲攻擊面前等於無掩護。
第二,Alignment 救唔到你。
When Alignment Isn’t Enough 呢篇論文展示咗一個叫 Relay Tampering Attack(RTA)嘅手法:喺 Bring-Your-Own-Key(BYOK)架構入面,attacker 作為 relay 可以喺 LLM 生成 response 之後、agent 執行之前修改內容。即使 LLM 嘅 alignment 完美,response 行到 agent 手上已經被人改過。喺 AgentDojo 同 ASB benchmark 上,RTA 達到 99.1% ASR。受害者包括 OpenClaw 同 Claude Code。
第三,Memory Poisoning 係計時炸彈。
Trojan Hippo 示範咗點樣透過一次唔起眼嘅 tool call(例如收封 email)將 dormant payload 植入 agent 嘅 long-term memory。Payload 會一直潛伏,直到用戶觸及敏感話題(財務、健康、身份)先激活,然後 exfiltrate 個人資料。即使用戶之後做 100 次 benign session,payload 依然有效。Frontier model(OpenAI、Google)上 ASR 達 85-100%。
第四,Subagent 繼承放大攻擊。
When Child Inherits 呢篇論文建模咗 multi-agent 網絡入面嘅 subagent spawn 機制。當 parent agent 被入侵,inherited memory 會將 malicious instructions 傳俾所有子 agent。目前主流 framework 喺 insecure memory inheritance、weak resource control 呢啲位全部有漏洞。
點解傳統防禦踢鐵板?一句講晒:你防嘅係 single-turn text input,但攻擊係 multi-turn、multi-channel、multi-agent 嘅。
Prompt sanitization 只 check 第一層 user input,睇唔到 tool return;Output filter 只睇最終生成,睇唔到中間嘅 tool call;System prompt 加固對 script kiddie 可能有用,但面對 semantic hijacking 同 relay tampering 等於無。
咁即係點?
Multi-agent security 需要 Paradigm Shift,由「防 input」轉為「防 execution boundary」。最近有啲 promising 方向:
- ClawGuard 嘅做法係喺每個 tool-call boundary 強制執行 user-confirmed rule set,將 alignment-dependent defense 變成 deterministic 嘅 audit mechanism。
- Heterogeneous Ensemble Verification:用 domain competence 唔對稱嘅 Worker pair,令 attacker 難以同時欺騙雙方,ASR 可以由 52.8% 降到 2.0%。
- Execution-centric security evaluation:唔好再淨係睇 final response,要監控中間 execution trace 嘅 tool call 係咪有異常。
俾香港 dev 嘅行動建議:
- 唔好天真到以為加句「Be safe」就夠——你班 Worker 越聰明越危險,要諗 heterogeneous verification 策略。
- Tool call boundary 係你最後一道防線——未確認嘅 tool output 唔應該直接 feed 返入 conversation history。
- Memory 係新攻擊面——agent 嘅 long-term memory 要有 explicit security invariant,唔可以俾 subagent 亂繼承。
- BYOK 架構下,唔好假設 relay 可信——考慮 response integrity verification 或 time-based detection。
Agent 係未來,但未加固嘅 multi-agent system 唔係產品——係你下一單 security incident 嘅 headline。