Agent 記憶大戰：XMem vs Mem0 vs Context Engineering 全面橫評

昨晚我寫咗個 Telegram bot，同一個 user 傾咗 47 輪之後，LLM 開始亂講嘢——佢忘記咗 user 係素食者，推薦咗牛扒。呢個唔係 model 問題，係記憶問題。每個 agent 最後都會撞上同一道牆：點樣令 AI 記得住嘢，而又唔會迫爆 context window？

市面上嘅答案有三條路：XMem 嘅多 Agent 主動記憶架構、Mem0 嘅全新單程記憶演算法、以及乜都唔裝直接靠 prompt + RAG 嘅 Context Engineering。一條 thread 講清佢哋點揀。

XMem：用 Agent 管 Agent 嘅記憶

XMem 嘅核心思路好直接——與其整一個被動 storage，不如整一隊 Agent 專門幫手諗嘢。佢哋個 pipeline 係咁行：

User Input → Classifier Agent → 5個 Domain Agents → Judge Agent → Weaver (Rust) → Pinecone + Neo4j + MongoDB

每個 input 入來，Classifier 先判斷係 profile、temporal event、code annotation 定其他 domain，然後 parallel 派俾專門嘅 Domain Agents 提取結構化數據。最後 Judge Agent 決定係 ADD、UPDATE 定 DELETE，再由 Weaver（純 Rust 引擎，無 LLM，快）寫入儲存。

呢個設計有個好大嘅 advantage：記憶唔係 raw text dump，而係經過推理同歸類嘅結構化事實。佢嘅 benchmark 數字都靚仔——LoCoMo 91.5%、LongMemEval-S Multi-Session 93.6，全部領先。

不過代价係 latency：每個記憶寫入要 call 3-4 次 LLM（Classifer + Domain Agent + Judge），production 場景下未必頂得住。

XMem 嘅快狠準：多 Domain 分類、Agentic Retrieval（retrieval LLM 自己揀用咩 tool 去搜）、Multi-LLM fallback chain（Gemini → Claude → OpenAI → Bedrock → Ollama），仲有個 Chrome Extension 可以直接 inject 記憶入 ChatGPT/Claude/Perplexity。

適合咩人？你整緊 multi-agent system、需要 temporal reasoning（「上次 meeting 講咗咩？」「呢個 bug 係邊個 commit 引入？」），或者你堆 agent 會跨 session 积累大量 context。

Mem0：單程 ADD-only，快狠準

Mem0 今年四月出咗個新演算法，直接放棄咗傳統嘅 UPDATE/DELETE 操作。所有記憶只做 ADD，累積，唔覆蓋。配合 entity linking 同 multi-signal retrieval（semantic + BM25 keyword + entity matching），佢哋嘅 benchmark 數字反而仲靚過之前——LoCoMo 91.6、LongMemEval 94.8。

呢個 approach 嘅好處顯而易見：唔使 Judge，唔使 diff，唔使 conflict resolution。一條 pipeline 就係 extract → embed → store，簡單到可以擺喺 middleware 層而唔影響 user latency。

Mem0 嘅另一個殺著係 ecosystem。佢哋有 SDK（Python + TypeScript）、CLI、Chrome Extension、Vercel AI SDK integration，仲有 LangGraph 同 CrewAI 嘅 plugins。開箱即用嘅程度係三者之最。

佢仲有個好聰明嘅 design choice：Agent 都可以自助註冊。四個 commands 搞掂，唔使 email、唔使 dashboard、唔使 OTP——呢啲細節對 developer experience 嘅影響遠比想像中大。

Mem0 嘅明牌：Y Combinator S24、56.7k GitHub stars、SOC 2 + HIPAA compliance。唔係 open source project 亂打，係認認真真嘅 infrastructure company。

適合咩人？你要快速整合、唔想自己搞 infra、需要 enterprise compliance、或者你堆 agent 係 stateless 但需要跨 session 記住 user preference。

Context Engineering：乜都唔裝嘅硬頸方案

講到尾，仲有好多人用緊最原始嘅方法——將 conversation history 塞入 system prompt、用 RAG 拎相關 documents、或者人手寫 summarization pipeline。

呢個唔係一個產品，而係一種紀律：控制 token budget、設計 retrieval strategy、做 prompt compression、implement windowing。好處係完全控制、零 dependency、極低 latency。

但代價好大：

Token cost 會隨時間線性上升。每個 turn 你都要塞晒成段 history 入 context，唔似得專用記憶層咁只拎 relevant memories。
唔會自己 evolve。Mem0 同 XMem 嘅 memory 會隨 interaction 自動更新，Context Engineering 要靠 developer 手動寫 logic 去 merge 新舊資訊。
跨 session 支援靠你自己。無 built-in persistence layer，你要自己搞 database、自己寫 retrieval、自己處理 conflicts。

Context Engineering 唔係錯，係唔 scalable。當你得 1-2 個 agents、個位數 users，呢招最快最 cheap。但當你上到 production，user 數過百、session 過千，你就會發現成個周末都用咗嚟 debug 緊 context 點解會爆。

揀法：三個維度嘅決策框架

維度一：記憶嘅複雜度

User preference only（「我鍾意 dark mode」）→ Mem0 / Context Engineering
Multi-hop temporal reasoning（「上次個 deployment 係因為咩 rollback？」）→ XMem
Code-level memory（「呢個 function 之前有咩 bug？」）→ XMem（有 Code Agent）

維度二：Latency vs Accuracy tradeoff

你要 sub-100ms memory write → Context Engineering（無 overhead）或 Mem0（single-pass）
你願意為 accuracy 俾多 1-2 秒 → XMem（multiple LLM calls，但 accuracy 最高）

維度三：團隊規模

Solo dev / 細 team → Mem0（最快上手，最細 code change）
5+ engineers 嘅 platform team → XMem（可定制 agent pipeline，自定義 domain）
你哋唔想用任何第三方 infra → Context Engineering（但你要寫好多 code）

一句講晒

2026 年中，Agent 記憶層嘅 market 已經唔係「裝唔裝」嘅問題，而係「揀邊個 pattern」嘅問題。Mem0 贏 developer experience 同速度，XMem 贏 accuracy 同結構化能力，Context Engineering 就係你唔想俾錢又唔 mind 寫多啲 code 嘅選擇。

如果你今日 start 一個新 project：行 Mem0。如果你覺得 Gemini/Claude 嘅 agent 成日唔記得嘢：試 XMem。如果你得幾個 users 而且全部係你自己：continue with Context Engineering，但 set 定 budget 幾時 upgrade。

Agent 記憶層將會係 AI infra 嘅下一個必備層，唔會遲過 2027 年，每個 production agent 都要有一個。而家就開始揀。