香港 AI 團隊的 infra 省錢攻略
香港做 AI 有個尷尬:你買得起 H100 集群就唔使睇呢篇文,但如果你同大部分團隊一樣得幾張 RTX 3090 或 4090 在手,每個月 cloud GPU 條數五萬十萬咁走,你就係呢篇文嘅目標讀者。好消息係,2026 年 infra 層有兩件事改變咗遊戲規則:Mesh-LLM 將分散式推理平民化到「一部 laptop 加一部 desktop 都夾到 cluster」,同埋 LMCache 將 KV cache 放落 CPU/disk 甚至 S3,長對話場景 TTFT 砍剩十分一。換句話說,大佬用 H100 行 671B 模型唔代表你一定要跟。
平民 GPU 集群:Mesh-LLM 點樣改變資源遊戲
先講現實:香港大部分 AI startup 連一張 A100 都買唔起。租 cloud GPU?一個月一張 A100 要成萬蚊美金,租四張等同請多兩個 senior engineer。但你枱底可能有幾張打機卡 — RTX 3090 有 24GB VRAM,4090 有 24GB,二手價五千蚊有找。問題係:deepseek-v3 或 Qwen3-72B 呢類模型,一張卡根本 load 唔入。
Mesh-LLM 嘅核心 insight 好直接:「點解一定要一張卡行到成個 model?」佢用 Rust 寫咗個層叫 Skippy stage splits — 將模型嘅 layer 拆開,唔同卡負責唔同 stage。卡 A 行 layer 1-20,卡 B 行 layer 21-40,網絡傳中間 activation。行唔通?佢哋仲有一個 public mesh network,你 join 入去搵到隔籬有人有 GPU 空閒,可以 route request 過去。
對香港團隊嚟講呢個有乜意思?你同 partner 每人一張 4090,行 fast interconnect(最平用 InfiniBand 或者直接用 NVLink 改機),夾埋就可以 serve Qwen3-72B-Q4_K_M。唔使租 cloud,唔使俾 A100 溢價。Mesh-LLM 仲公開咗 72 個 P0/P1 模型家族嘅 certified matrix,包括 Qwen、Llama、DeepSeek、GLM,你唔使逐個試。裝機都係一個 curl command 搞掂。成件事係將以前要十萬蚊先做到嘅嘢,拉低到一兩萬就得。
LMCache:長 context 場景嘅隱藏成本殺手
講完分散式推理,講另一個更易 overlooked 嘅位:KV cache 管理。如果你有 deploy 任何 RAG 系統、multi-turn chatbot 或者 code assistant,你最撚頭痛嘅唔係 compute,而係每個 request 嘅 context 愈來愈長,GPU memory OOM 到你想死。
LMCache 由 University of Chicago 同 TensorMesh 團隊開發,概念唔複雜但執行好聰明:KV cache 係 LLM inference 最食 VRAM 嘅 part,但大部分時間佢哋重複計算。同一個 system prompt、同一份 document,每次新 request 都重新計一次 prefill。LMCache 將呢啲 KV cache 放落多層 storage — GPU 留 hot cache,CPU RAM 放 warm data,冷數據直接推去 SSD 甚至 S3。
官方 benchmark 顯示,第二 round 嘅 TTFT 降低 3-10 倍。乜意思?你用 vLLM 配 LMCache,第一個 prompt 正常速度,第二個開始因為重用 cache,幾乎 instant 出 token。對 RAG 場景尤其重要:user 問完「呢份合約邊條款有問題」,再追問「第三頁嗰條 indemnity clause」,唔使重新計成份 contract 嘅 KV cache,TTFT 由 8 秒變 1 秒內。
仲有一個香港團隊好锺意嘅功能:跨 instance KV cache sharing。你 horizontal scale 咗兩個 vLLM instance,LMCache backend 令到 instance A 計過嘅 cache 可以俾 instance B 用。唔使每部機獨立計,直接慳 30-50% compute。實際上係用你閒置嘅 CPU 記憶體同 SSD 空間換 GPU 時間 — 喺香港呢個 GPU 貴到離譜嘅市場,呢個 trade-off 好合理。
挪威的啟示:硬件選擇嘅政治經濟學
講 infra 慳錢唔可以唔提硬件選擇。挪威政府最近用 Huawei 晶片起 AI cluster 嘅事件好值得香港團隊深思 — 唔係政治立場,而係供應鏈策略。當美國出口管制令 H100 同 B200 對中國(包括香港)愈來愈難攞,替代方案唔淨係「俾多啲錢」,而係有意識咁選擇可用嘅硬件組合。
香港團隊嘅現實係:你好難正路買到最新 NVIDIA 旗艦卡。即使買到,個溢價高到離譜。但你仲有其他選擇:AMD ROCm 生態呢兩年成熟咗好多,Mesh-LLM 本身 support ROCm、Vulkan、甚至 CPU-only backend。即係你用 Radeon 卡、或者用二手 A100(唔係 H100),配上 Mesh-LLM 同 LMCache,行出嚟嘅效能可能只係 H100 集群嘅 60%,但成本係 10%。
另一個 trend 係 Flash-MoE 成為了 mesh-llm 嘅 plugin backend,呢個係將 MoE 模型嘅 experts 放落 SSD 做 streaming,適合 DeepSeek-V3 呢類 MoE 大模型。即係你用普通 NVMe SSD 做 storage,唔用 HBM,照樣可以 serve MoE 模型。成本再砍一刀。
行動清單
如果你係香港 AI team 嘅 tech lead 或者 solo dev,以下係呢篇文嘅具體 takeaway:
第一,即刻試 Mesh-LLM public mesh。 你淨係 curl -fsSL https://raw.githubusercontent.com/Mesh-LLM/mesh-llm/main/install.sh | bash 然後 mesh-llm serve --auto,已經可以 join 公共 mesh,搵到有人 share 出嚟嘅 GPU,試下行 Qwen3-8B 或者其他 model。體驗下「唔係自己卡行」嘅 latency 同 reliability,再決定 private mesh 點搞。
第二,為你嘅 inference stack 加上 LMCache。 如果你用緊 vLLM,直接 pip install lmcache 然後改 config,將 CPU 同 SSD 嘅 cache space 分配好。特別係 RAG 場景,LMCache 嘅 prefix caching 幾乎係白送嘅 performance boost。你可以參考 Google Cloud 最近出嘅 blog post,講佢哋點用 LMCache on GKE 做到 4x performance improvement。
第三,檢視你嘅 GPU 採購策略。 如果下個月要加 capacity,真係要租 A100/H100?定係買多兩張 4090 + Mesh-LLM 解決?英記行一轉,二手 4090 有單有保養大約五千幾蚊,夾四張都係兩萬幾。同樣 budget 喺 AWS/GCP 只夠租一張 A100 兩個月。長遠睇,ownership 一定抵過 rental。
第四,擁抱記憶體分層。 唔好再當 VRAM 係唯一計數。GPU 貴、CPU RAM 平、SSD 好平、S3 極平。LMCache 呢類 tool 就係幫你做呢個 arbitrage。香港 startup 冇美國 startup 嗰種「掟錢解決問題」嘅 luxury,所以我哋要更聰明咁用每一蚊 budget。