香港 AI 團隊的 infra 省錢攻略

香港做 AI 有個尷尬：你買得起 H100 集群就唔使睇呢篇文，但如果你同大部分團隊一樣得幾張 RTX 3090 或 4090 在手，每個月 cloud GPU 條數五萬十萬咁走，你就係呢篇文嘅目標讀者。好消息係，2026 年 infra 層有兩件事改變咗遊戲規則：Mesh-LLM 將分散式推理平民化到「一部 laptop 加一部 desktop 都夾到 cluster」，同埋 LMCache 將 KV cache 放落 CPU/disk 甚至 S3，長對話場景 TTFT 砍剩十分一。換句話說，大佬用 H100 行 671B 模型唔代表你一定要跟。

平民 GPU 集群：Mesh-LLM 點樣改變資源遊戲

先講現實：香港大部分 AI startup 連一張 A100 都買唔起。租 cloud GPU？一個月一張 A100 要成萬蚊美金，租四張等同請多兩個 senior engineer。但你枱底可能有幾張打機卡 — RTX 3090 有 24GB VRAM，4090 有 24GB，二手價五千蚊有找。問題係：deepseek-v3 或 Qwen3-72B 呢類模型，一張卡根本 load 唔入。

Mesh-LLM 嘅核心 insight 好直接：「點解一定要一張卡行到成個 model？」佢用 Rust 寫咗個層叫 Skippy stage splits — 將模型嘅 layer 拆開，唔同卡負責唔同 stage。卡 A 行 layer 1-20，卡 B 行 layer 21-40，網絡傳中間 activation。行唔通？佢哋仲有一個 public mesh network，你 join 入去搵到隔籬有人有 GPU 空閒，可以 route request 過去。

對香港團隊嚟講呢個有乜意思？你同 partner 每人一張 4090，行 fast interconnect（最平用 InfiniBand 或者直接用 NVLink 改機），夾埋就可以 serve Qwen3-72B-Q4_K_M。唔使租 cloud，唔使俾 A100 溢價。Mesh-LLM 仲公開咗 72 個 P0/P1 模型家族嘅 certified matrix，包括 Qwen、Llama、DeepSeek、GLM，你唔使逐個試。裝機都係一個 curl command 搞掂。成件事係將以前要十萬蚊先做到嘅嘢，拉低到一兩萬就得。

LMCache：長 context 場景嘅隱藏成本殺手

講完分散式推理，講另一個更易 overlooked 嘅位：KV cache 管理。如果你有 deploy 任何 RAG 系統、multi-turn chatbot 或者 code assistant，你最撚頭痛嘅唔係 compute，而係每個 request 嘅 context 愈來愈長，GPU memory OOM 到你想死。

LMCache 由 University of Chicago 同 TensorMesh 團隊開發，概念唔複雜但執行好聰明：KV cache 係 LLM inference 最食 VRAM 嘅 part，但大部分時間佢哋重複計算。同一個 system prompt、同一份 document，每次新 request 都重新計一次 prefill。LMCache 將呢啲 KV cache 放落多層 storage — GPU 留 hot cache，CPU RAM 放 warm data，冷數據直接推去 SSD 甚至 S3。

官方 benchmark 顯示，第二 round 嘅 TTFT 降低 3-10 倍。乜意思？你用 vLLM 配 LMCache，第一個 prompt 正常速度，第二個開始因為重用 cache，幾乎 instant 出 token。對 RAG 場景尤其重要：user 問完「呢份合約邊條款有問題」，再追問「第三頁嗰條 indemnity clause」，唔使重新計成份 contract 嘅 KV cache，TTFT 由 8 秒變 1 秒內。

仲有一個香港團隊好锺意嘅功能：跨 instance KV cache sharing。你 horizontal scale 咗兩個 vLLM instance，LMCache backend 令到 instance A 計過嘅 cache 可以俾 instance B 用。唔使每部機獨立計，直接慳 30-50% compute。實際上係用你閒置嘅 CPU 記憶體同 SSD 空間換 GPU 時間 — 喺香港呢個 GPU 貴到離譜嘅市場，呢個 trade-off 好合理。

挪威的啟示：硬件選擇嘅政治經濟學

講 infra 慳錢唔可以唔提硬件選擇。挪威政府最近用 Huawei 晶片起 AI cluster 嘅事件好值得香港團隊深思 — 唔係政治立場，而係供應鏈策略。當美國出口管制令 H100 同 B200 對中國（包括香港）愈來愈難攞，替代方案唔淨係「俾多啲錢」，而係有意識咁選擇可用嘅硬件組合。

香港團隊嘅現實係：你好難正路買到最新 NVIDIA 旗艦卡。即使買到，個溢價高到離譜。但你仲有其他選擇：AMD ROCm 生態呢兩年成熟咗好多，Mesh-LLM 本身 support ROCm、Vulkan、甚至 CPU-only backend。即係你用 Radeon 卡、或者用二手 A100（唔係 H100），配上 Mesh-LLM 同 LMCache，行出嚟嘅效能可能只係 H100 集群嘅 60%，但成本係 10%。

另一個 trend 係 Flash-MoE 成為了 mesh-llm 嘅 plugin backend，呢個係將 MoE 模型嘅 experts 放落 SSD 做 streaming，適合 DeepSeek-V3 呢類 MoE 大模型。即係你用普通 NVMe SSD 做 storage，唔用 HBM，照樣可以 serve MoE 模型。成本再砍一刀。

行動清單

如果你係香港 AI team 嘅 tech lead 或者 solo dev，以下係呢篇文嘅具體 takeaway：

第一，即刻試 Mesh-LLM public mesh。 你淨係 curl -fsSL https://raw.githubusercontent.com/Mesh-LLM/mesh-llm/main/install.sh | bash 然後 mesh-llm serve --auto，已經可以 join 公共 mesh，搵到有人 share 出嚟嘅 GPU，試下行 Qwen3-8B 或者其他 model。體驗下「唔係自己卡行」嘅 latency 同 reliability，再決定 private mesh 點搞。

第二，為你嘅 inference stack 加上 LMCache。 如果你用緊 vLLM，直接 pip install lmcache 然後改 config，將 CPU 同 SSD 嘅 cache space 分配好。特別係 RAG 場景，LMCache 嘅 prefix caching 幾乎係白送嘅 performance boost。你可以參考 Google Cloud 最近出嘅 blog post，講佢哋點用 LMCache on GKE 做到 4x performance improvement。

第三，檢視你嘅 GPU 採購策略。 如果下個月要加 capacity，真係要租 A100/H100？定係買多兩張 4090 + Mesh-LLM 解決？英記行一轉，二手 4090 有單有保養大約五千幾蚊，夾四張都係兩萬幾。同樣 budget 喺 AWS/GCP 只夠租一張 A100 兩個月。長遠睇，ownership 一定抵過 rental。

第四，擁抱記憶體分層。 唔好再當 VRAM 係唯一計數。GPU 貴、CPU RAM 平、SSD 好平、S3 極平。LMCache 呢類 tool 就係幫你做呢個 arbitrage。香港 startup 冇美國 startup 嗰種「掟錢解決問題」嘅 luxury，所以我哋要更聰明咁用每一蚊 budget。