三只貓
Rich Mindset Zone
richmindsetzone.com
← All posts

Agent 記憶大戰:XMem vs Mem0 vs Context Engineering 全面橫評

Agent 記憶大戰:XMem vs Mem0 vs Context Engineering 全面橫評

昨晚我寫咗個 Telegram bot,同一個 user 傾咗 47 輪之後,LLM 開始亂講嘢——佢忘記咗 user 係素食者,推薦咗牛扒。呢個唔係 model 問題,係記憶問題。每個 agent 最後都會撞上同一道牆:點樣令 AI 記得住嘢,而又唔會迫爆 context window?

市面上嘅答案有三條路:XMem 嘅多 Agent 主動記憶架構、Mem0 嘅全新單程記憶演算法、以及乜都唔裝直接靠 prompt + RAG 嘅 Context Engineering。一條 thread 講清佢哋點揀。

XMem:用 Agent 管 Agent 嘅記憶

XMem 嘅核心思路好直接——與其整一個被動 storage,不如整一隊 Agent 專門幫手諗嘢。佢哋個 pipeline 係咁行:

User Input → Classifier Agent → 5個 Domain Agents → Judge Agent → Weaver (Rust) → Pinecone + Neo4j + MongoDB

每個 input 入來,Classifier 先判斷係 profile、temporal event、code annotation 定其他 domain,然後 parallel 派俾專門嘅 Domain Agents 提取結構化數據。最後 Judge Agent 決定係 ADD、UPDATE 定 DELETE,再由 Weaver(純 Rust 引擎,無 LLM,快)寫入儲存。

呢個設計有個好大嘅 advantage:記憶唔係 raw text dump,而係經過推理同歸類嘅結構化事實。佢嘅 benchmark 數字都靚仔——LoCoMo 91.5%、LongMemEval-S Multi-Session 93.6,全部領先。

不過代价係 latency:每個記憶寫入要 call 3-4 次 LLM(Classifer + Domain Agent + Judge),production 場景下未必頂得住。

XMem 嘅快狠準:多 Domain 分類、Agentic Retrieval(retrieval LLM 自己揀用咩 tool 去搜)、Multi-LLM fallback chain(Gemini → Claude → OpenAI → Bedrock → Ollama),仲有個 Chrome Extension 可以直接 inject 記憶入 ChatGPT/Claude/Perplexity。

適合咩人?你整緊 multi-agent system、需要 temporal reasoning(「上次 meeting 講咗咩?」「呢個 bug 係邊個 commit 引入?」),或者你堆 agent 會跨 session 积累大量 context。

Mem0:單程 ADD-only,快狠準

Mem0 今年四月出咗個新演算法,直接放棄咗傳統嘅 UPDATE/DELETE 操作。所有記憶只做 ADD,累積,唔覆蓋。配合 entity linking 同 multi-signal retrieval(semantic + BM25 keyword + entity matching),佢哋嘅 benchmark 數字反而仲靚過之前——LoCoMo 91.6、LongMemEval 94.8。

呢個 approach 嘅好處顯而易見:唔使 Judge,唔使 diff,唔使 conflict resolution。一條 pipeline 就係 extract → embed → store,簡單到可以擺喺 middleware 層而唔影響 user latency。

Mem0 嘅另一個殺著係 ecosystem。佢哋有 SDK(Python + TypeScript)、CLI、Chrome Extension、Vercel AI SDK integration,仲有 LangGraph 同 CrewAI 嘅 plugins。開箱即用嘅程度係三者之最。

佢仲有個好聰明嘅 design choice:Agent 都可以自助註冊。四個 commands 搞掂,唔使 email、唔使 dashboard、唔使 OTP——呢啲細節對 developer experience 嘅影響遠比想像中大。

Mem0 嘅明牌:Y Combinator S24、56.7k GitHub stars、SOC 2 + HIPAA compliance。唔係 open source project 亂打,係認認真真嘅 infrastructure company。

適合咩人?你要快速整合、唔想自己搞 infra、需要 enterprise compliance、或者你堆 agent 係 stateless 但需要跨 session 記住 user preference。

Context Engineering:乜都唔裝嘅硬頸方案

講到尾,仲有好多人用緊最原始嘅方法——將 conversation history 塞入 system prompt、用 RAG 拎相關 documents、或者人手寫 summarization pipeline。

呢個唔係一個產品,而係一種紀律:控制 token budget、設計 retrieval strategy、做 prompt compression、implement windowing。好處係完全控制、零 dependency、極低 latency

但代價好大:

  1. Token cost 會隨時間線性上升。每個 turn 你都要塞晒成段 history 入 context,唔似得專用記憶層咁只拎 relevant memories。
  2. 唔會自己 evolve。Mem0 同 XMem 嘅 memory 會隨 interaction 自動更新,Context Engineering 要靠 developer 手動寫 logic 去 merge 新舊資訊。
  3. 跨 session 支援靠你自己。無 built-in persistence layer,你要自己搞 database、自己寫 retrieval、自己處理 conflicts。

Context Engineering 唔係錯,係唔 scalable。當你得 1-2 個 agents、個位數 users,呢招最快最 cheap。但當你上到 production,user 數過百、session 過千,你就會發現成個周末都用咗嚟 debug 緊 context 點解會爆。

揀法:三個維度嘅決策框架

維度一:記憶嘅複雜度

  • User preference only(「我鍾意 dark mode」)→ Mem0 / Context Engineering
  • Multi-hop temporal reasoning(「上次個 deployment 係因為咩 rollback?」)→ XMem
  • Code-level memory(「呢個 function 之前有咩 bug?」)→ XMem(有 Code Agent)

維度二:Latency vs Accuracy tradeoff

  • 你要 sub-100ms memory write → Context Engineering(無 overhead)或 Mem0(single-pass)
  • 你願意為 accuracy 俾多 1-2 秒 → XMem(multiple LLM calls,但 accuracy 最高)

維度三:團隊規模

  • Solo dev / 細 team → Mem0(最快上手,最細 code change)
  • 5+ engineers 嘅 platform team → XMem(可定制 agent pipeline,自定義 domain)
  • 你哋唔想用任何第三方 infra → Context Engineering(但你要寫好多 code)

一句講晒

2026 年中,Agent 記憶層嘅 market 已經唔係「裝唔裝」嘅問題,而係「揀邊個 pattern」嘅問題。Mem0 贏 developer experience 同速度,XMem 贏 accuracy 同結構化能力,Context Engineering 就係你唔想俾錢又唔 mind 寫多啲 code 嘅選擇。

如果你今日 start 一個新 project:行 Mem0。如果你覺得 Gemini/Claude 嘅 agent 成日唔記得嘢:試 XMem。如果你得幾個 users 而且全部係你自己:continue with Context Engineering,但 set 定 budget 幾時 upgrade。

Agent 記憶層將會係 AI infra 嘅下一個必備層,唔會遲過 2027 年,每個 production agent 都要有一個。而家就開始揀。