香港 AI 團隊的 infra 省錢攻略

香港搞 AI，最大嘅 bottleneck 唔係 talent，係 infra 成本。企圖買 H100 集群要等半年以上，仲要俾溢價；租雲端 GPU，A100 80G 每小時收你 US$3-5，一個月閒閒地三四萬港幣。對於得幾個人的香港 startup，呢個數字直接判死刑。但過去半年 infra 層有兩個開源項目值得留意：Mesh-LLM 同 LMCache。佢哋嘅核心邏輯好直接——唔需要用超貴嘅 GPU 砌大集群，而係用軟件層嘅技巧，將你手頭嗰幾張平民卡（RTX 3090、4090、甚至舊嘅 Tesla T4）嘅效能壓到極限。

Mesh-LLM：將舊 GPU 變成推理集群

Mesh-LLM 係一個 Rust 寫嘅分散式推理引擎，核心理念係將多部機嘅 GPU 同 memory pool 埋一齊，對外暴露一條 OpenAI-compatible API。你 office 有兩部 PC，各插一張 RTX 3090（$7,000 人仔有交易），裝上 mesh-llm，佢哋會自動組成一個 mesh。當你需要跑一條 query，mesh 會判斷張 model 擺喺邊部機跑、定係拆開 layer 分散落唔同機度行——呢個就係 Skippy stage splits：將一個大 model 斬件，每部機負責幾層，stage-0 做完傳俾 stage-1，結果串返埋一齊。72B 嘅 Qwen 模型，本來一張 24GB VRAM 嘅卡根本 load 唔到，但切開四份分落四張 3090，照行可也。

對香港團隊而言最實用嘅係 private mesh。你唔需要公開節點，只需要一個 invite token，團隊可以自己起 private mesh，所有 traffic 行內部網絡。本地 latency 低、冇雲端 egress 費用，而且 Mesh-LLM 用 Nostr 做 discovery protocol，唔經中央 server，無第三方程式可以 intercept。仲有一個好嘢：佢嘅 Mixture-of-Agents gateway 可以將同一條 prompt 同時送去 mesh 入面唔同 model，然後自動仲裁最佳答案。即係你可以用一個細 model 做 simple query，大 model 做複雜 reasoning，mesh 自動幫你 assignment。

LMCache：長對話嘅隱藏成本炸彈

第二個殺手級工具係 LMCache。如果你有 deploy 過 RAG 系統或者 multi-turn chatbot，你會發現越傾越慢、越傾越貴。原因係 LLM inference 最大嘅 bottleck 唔係 compute，係 KV cache——每次 generation 都要讀寫之前所有 token 嘅 key-value 向量。條對話有 10,000 tokens，KV cache 佔十幾 GB VRAM；每次 prefill 階段要重新計算晒成條 context，GPU 時間同 latency 直線上升。

LMCache 嘅做法係將 KV cache 分層儲存：GPU > CPU RAM > SSD > 甚至 S3，然後用 zero-copy、NIXL、GDS 等技術加速跨層讀寫。當一條 query 帶住之前嘅 context 嚟，LMCache 會 check 呢段 KV cache 係咪已經存在（唔單止 prefix match，係任意位置嘅 reuse），命中嘅話直接從 CPU memory 甚至 disk 拉返嚟，跳過 prefill。根據佢哋嘅 benchmark，配合 vLLM 使用，TTFT（time-to-first-token）可以降低 3-10 倍，GPU cycle 節省 3-10 倍。

對於中小型團隊，呢個 improvement 嘅實際意義係：你本來要 8 張卡先撐得住嘅 concurrent user load，而家可能 2-3 張就得；或者同一張卡可以做多幾倍嘅 request。以一張 RTX 4090 約 $20,000 港紙計，一年電費約 $3,000；比起租雲端同等效能（約每月 $8,000 起），半年就回本。

實戰組合拳：mesh + cache + 策略選卡

實際部署可以咁樣組合：用 4 張 RTX 3090 做 Mesh-LLM 推理節點（成本約 $28,000），每張 24GB VRAM，四張合共 96GB，夠 run 大部分 open model。Mesh-LLM 背後接 vLLM 做 inference engine，vLLM 再 plug LMCache 做 KV cache offloading。你嘅 app 或 agent 只需要 call localhost:9337/v1，背後就係一個自動調度、自帶 KV cache 加速嘅私有 AI 集群。

選卡方面，同價位下多卡好過單張勁卡：一張 A100 80G 要十幾萬港幣（仲要排隊買），同等價錢可以買到 4-6 張二手 3090（24G x 6 = 144GB VRAM）。Mesh-LLM 嘅 stage split 令你可以 run 本來裝唔落單卡嘅 model，而 LMCache 減少重複計算，令同一批卡 serve 更多 users。香港電力貴，但 RTX 3090 TDP 350W，六張全載都係 2.1kW，比起租雲端，每月電費 + 冷氣成本大概 $3,000-$4,000，仍然低過 cloud GPU 一個數量級。

做定唔做，自己揀

香港做 AI 嘅好處係 hardware supply chain 相對暢通，二手市場活躍，淘寶、carousell 都可以低價執到 3090。劣勢係空間細、熱量大，要考慮散熱同電掣限制。但如果你係獨立開發者或者 3-5 人團隊，呢個組合絕對值得試。建議行動點：今個月試起一個 Mesh-LLM private mesh（起碼兩部機，行 docker compose），加 LMCache 行幾日 benchmark，對比 cloud API latency 同 throughput。數據會講真話——好多時候本地 infra 嘅成本係 cloud 嘅 10-20%，latency 更低。AI 唔係有錢佬嘅專利，香港細團隊一樣可以玩得起。